SKlearn

python - ImportError:无法从 sklearn.utils.validation 导入名称 check_array

当我从模块sklearn.utils.validation导入函数check_array时，出现导入错误(ImportError:cannotimportnamecheck_array).选项卡完成得到了check_arrays，但我想知道validation.py(sourcecodeonGithub)中只存在一个名为check_array的函数。此外，在scikit-learn/sklearn/cluster/spectral.py中实现的谱聚类算法还使用了from..utils.validationimportcheck_array，而不是check_arrays。我对此很困惑，

python - 在 sklearn 中使用 silhouette 分数进行高效的 k-means 评估

我正在对约100万个项目(每个表示为一个约100个特征向量)运行k-means聚类。我已经为各种k运行了聚类，现在想用sklearn中实现的轮廓分数来评估不同的结果。尝试在没有采样的情况下运行它似乎不可行并且需要很长时间，所以我假设我需要使用采样，即:metrics.silhouette_score(feature_matrix,cluster_labels,metric='euclidean',sample_size=???)不过，我不太清楚什么是合适的抽样方法。给定矩阵的大小，是否有关于使用多大样本的经验法则？是取我的分析机可以处理的最大样本更好，还是取更多较小样本的平均值更好？我

silhouette k-means section 的 strong python scikit-learn cluster-analysis

python sklearn : what is the difference between accuracy_score and learning_curve score?

我正在使用Pythonsklearn(0.17版)在数据集上选择理想模型。为此，我遵循了以下步骤:使用cross_validation.train_test_split和test_size=0.2拆分数据集。使用GridSearchCV在训练集上选择理想的k最近邻分类器。将GridSearchCV返回的分类器传递给plot_learning_curve。plot_learning_curve给出了如下所示的图。在获得的测试集上运行GridSearchCV返回的分类器。从图中，我们可以看到最大值的分数。训练大小约为0.43。这个分数是sklearn.learning_curve.lear

score accuracy_score code learning test python scikit-learn

python - 如何在 sklearn 管道中获取通过特征消除选择的特征名称？

我在我的sklearn管道中使用递归特征消除，管道看起来像这样:fromsklearn.pipelineimportFeatureUnion,Pipelinefromsklearnimportfeature_selectionfromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.svmimportLinearSVCX=['Iamasentence','anexample']Y=[1,2]X_dev=['anothersentence']#classifierLinearSVC1=LinearSVC(tol

何在 sklearn 39 feature pipeline python machine-learning scikit-learn

python - KMeans是否在sklearn中自动归一化特征

我想知道KMeans是否会在进行聚类之前自动对特征进行归一化。似乎没有提供输入以请求规范化的选项。最佳答案一个区分数据预处理(归一化、分箱、加权等)和机器学习算法应用。使用sklearn.preprocessing用于数据预处理。此外，数据可以通过不同的预处理器进行链式预处理。至于K均值，仅对均值进行归一化通常是不够的。由于K-means对数据中的方差敏感，并且具有较大方差的特征更强调结果，因此人们对不同特征的数据均衡方差进行归一化。所以对于K-means，我建议使用StandardScaler用于数据预处理。不要忘记k-mea

sklearn python section preprocessing scikit-learn

python - 将 SKLearn 癌症数据集加载到 Pandas DataFrame 中

我正在尝试根据键(target_names、target和DESCR)加载sklearn.dataset，但缺少一列。我尝试了各种方法来包含最后一列，但有错误。importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_breast_cancercancer=load_breast_cancer()printcancer.keys()thekeysare['target_names','data','target','DESCR','feature_names']data=pd.DataFrame(cancer.data,

癌症 DataFrame cancer section 39 python numpy scikit-learn

python - 如何在python sklearn中正确使用featureUnion数字和文本特征

我第一次尝试在sklearn管道中使用featureunion来组合数字(2列)和文本特征(1列)以进行多类分类。fromsklearn.preprocessingimportFunctionTransformerfromsklearn.pipelineimportPipelinefromsklearn.multiclassimportOneVsRestClassifierfromsklearn.linear_modelimportLogisticRegressionfromsklearn.pipelineimportFeatureUnionget_text_data=Function

本特 python 39 code Pipeline scikit-learn

python - 访问 classification_report 中的数字 - sklearn

这是sklearn中classification_report的一个简单例子fromsklearn.metricsimportclassification_reporty_true=[0,1,2,2,2]y_pred=[0,0,2,2,1]target_names=['class0','class1','class2']print(classification_report(y_true,y_pred,target_names=target_names))#precisionrecallf1-scoresupport##class00.501.000.671#class10.000.0

classification_report classification code section python scikit-learn

python - sklearn 矩阵分解示例

我正在使用当前在http://www.quuxlabs.com/blog上提供的代码效果不错。而且我可以清楚地看到矩阵发生了哪些变化。我还尝试在sklearn.decomposition.NMF上使用sklearn库但是我用相同的输入得到的结果还不够好。也许我遗漏了什么。这是我的示例代码-fromsklearn.decompositionimportNMF,ProjectedGradientNMFR=[[5,3,0,1],[4,0,0,1],[1,1,0,5],[1,0,0,4],[0,1,5,4],]R=numpy.array(R)nmf=NMF(beta=0.001,eta=0.0

sklearn python section decomposition scikit-learn matrix-factorization

python - 学习 : Is there any way to debug Pipelines?

我已经为分类任务创建了一些管道，我想检查每个阶段存在/存储的信息(例如text_stats、ngram_tfidf)。我怎么能这样做。pipeline=Pipeline([('features',FeatureUnion([('text_stats',Pipeline([('length',TextStats()),('vect',DictVectorizer())])),('ngram_tfidf',Pipeline([('count_vect',CountVectorizer(tokenizer=tokenize_bigram_stem,stop_words=stopwords))

Pipelines python 39 section sklearn python-2.7 scikit-learn

7 8 91011 12 13