jjzjj

classification

全部标签

python - 使用 scikit learn 训练逻辑回归以进行多类分类

根据scikitmulticlassclassification逻辑回归可以通过设置用于多类分类multi_class=multinomial在构造函数中。但是这样做会出错:代码:text_clf=Pipeline([('vect',TfidfVectorizer()),('clf',LogisticRegression(multi_class='multinomial')),])text_clf=text_clf.fit(X_train,Y_train)错误:ValueError:求解器liblinear不支持多项式后端。你能告诉我这里出了什么问题吗?注意:将multi_class保

python - 事件关联和过滤——如何,从哪里开始?

得到了一个异步事件流,其中每个事件都有类似这样的信息-代理机构(我的解决方案可能服务的众多代理机构之一)代理人(代理机构中的众多代理人之一)服务实体(由1个或多个机构服务的个人/组织)日期+时间类数据(来自固定但大量标签的标签)我需要做的是——根据服务实体、日期+时间和类数据关联一个事件,并创建一个合并的新事件。示例:事件#0021:{Agency='XYZ',Agent='ABC',Served-Entity='MMN',Date+Time='12-03-2011/11:03:37',Class-Date='错过投递,无重复,无法追踪,孤儿'事件#0193:{Agency='KLM'

python - 访问 classification_report 中的数字 - sklearn

这是sklearn中classification_report的一个简单例子fromsklearn.metricsimportclassification_reporty_true=[0,1,2,2,2]y_pred=[0,0,2,2,1]target_names=['class0','class1','class2']print(classification_report(y_true,y_pred,target_names=target_names))#precisionrecallf1-scoresupport##class00.501.000.671#class10.000.0

python - Tensorflow 中多类分类的类智能精度和召回率?

在使用tensorflow进行多类分类时,有没有办法获得每类精度或召回率。例如,如果我有每个批处理的y_true和y_pred,如果我有2个以上的类,是否有一种功能性方法可以获得每个类的精度或召回率。 最佳答案 这是一个适用于我的n=6类问题的解决方案。如果你有更多的类,这个解决方案可能会很慢,你应该使用某种映射而不是循环。假设您在张量labels行中有一个热编码类标签,在张量labels中有对数(或后验)。然后,如果n是类的数量,试试这个:y_true=tf.argmax(labels,1)y_pred=tf.argmax(log

python - 具有许多输出的文本[多级]分类

问题陈述:将文本文档归类到其所属的类别,并将该类别最多分为两级。样本训练集:DescriptionCategoryLevel1Level2ThegunshootingthathappenedinVegaskilledtwoCrime|HighCrimeHighDonaldTrumpelectedasPresidentofAmericaPolitics|HighPoliticsHighRianwoninfootballqualifierSports|LowSportsLowBrazilwoninfootballfinalSports|HighSportsHigh初始尝试:我尝试创建一个分

python - 哪些Python贝叶斯文本分类模块类似于dbacl?

Google快速搜索显示有大量贝叶斯分类器作为Python模块实现。如果我想要类似于dbacl的包装高级功能,哪些模块适合我?训练%dbacl-lonesample1.txt%dbacl-ltwosample2.txt分类%dbacl-cone-ctwosample3.txt-vone 最佳答案 我想你会找到nltk有帮助。具体来说,classifymodule. 关于python-哪些Python贝叶斯文本分类模块类似于dbacl?,我们在StackOverflow上找到一个类似的问题

python - 在 scikit-learn 中获得多标签预测的准确性

在multilabelclassification中设置,sklearn.metrics.accuracy_score仅计算子集准确性(3):即为样本预测的标签集必须与y_true中相应的标签集完全匹配。这种计算准确度的方法有时被命名为精确匹配率(1):在scikit-learn中有没有其他典型的方法来计算准确度,即(如(1)和(2)中所定义,更明确地称为Hamming分数(4)(因为它与Hamming损失密切相关),或基于标签准确度)?(1)Sorower,MohammadS."Aliteraturesurveyonalgorithmsformulti-labellearning."

python - 由于尺寸不同,无法在 scikit-learn 中使用 FeatureUnion

我正在尝试使用FeatureUnion从数据结构中提取不同的特征,但由于维度不同而失败:ValueError:blocks[0,:]hasincompatiblerowdimensions实现我的FeatureUnion是按以下方式构建的:features=FeatureUnion([('f1',Pipeline([('get',GetItemTransformer('f1')),('transform',vectorizer_f1)])),('f2',Pipeline([('get',GetItemTransformer('f2')),('transform',vectorizer_

python - 在 scikit learn 中组合随机森林模型

我有两个RandomForestClassifier模型,我想将它们组合成一个元模型。他们都使用相似但不同的数据进行训练。我该怎么做?rf1#thisismyfirstfittedRandomForestClassifierobject,with250treesrf2#thisismysecondfittedRandomForestClassifierobject,alsowith250trees我想创建big_rf并将所有树组合成一个500棵树模型 最佳答案 我相信这可以通过修改RandomForestClassifier对象的e

python - scikit 学习中的样本权重和类权重选项有什么区别?

我有类(class)不平衡问题,想使用成本敏感学习来解决这个问题。欠采样和过采样赋予类权重以使用修改后的损失函数问题Scikitlearn有2个选项,称为类权重和样本权重。样本权重实际上是在执行选项2)和类别权重选项1)。选项2)是处理类不平衡的推荐方法。 最佳答案 这是相似的概念,但使用sample_weights可以强制估计器更加关注某些样本,使用class_weights可以强制估计器关注某些特定类进行学习。sample_weight=0或class_weight=0基本上意味着估计器根本不需要在学习过程中考虑这些样本/类。因