jjzjj

Desire2Learn

全部标签

Scikit-Learn:基本PCA混乱

我正在尝试使用Scikit-Learn在数据集上执行PCA。我目前有2,208行和53,741列(功能)。因此,我想使用PCA降低该数据集的维度。我正在跟进Hands-OnMachineLearningwithSciKit-LearnandTensorFlow:fromsklearn.decompositionimportPCApca=PCA(n_components=0.95)X_reduced=pca.fit_transform(X)据我了解,这应该减少列数,以便它们总共解释我数据集中的95%的差异。现在我想看看留下了多少个功能(列)X_reduced:X_reduced.shape(22

【scikit-learn基础】--『监督学习』之 支持向量机分类

支持向量机也是一种既可以处理分类问题,也可以处理回归问题的算法。关于支持向量机在回归问题上的应用,请参考:TODO支持向量机分类广泛应用于图像识别、文本分类、生物信息学(例如基因分类)、手写数字识别等领域。1.算法概述支持向量机的主要思想是找到一个超平面,将不同类别的样本最大化地分隔开。超平面的位置由支持向量决定,它们是离分隔边界最近的数据点。对于二分类问题,SVM寻找一个超平面,使得正例和支持向量到超平面的距离之和等于反例和支持向量到超平面的距离之和。如果这个等式不成立,SVM将寻找一个更远离等式中不利样本的超平面。下面的示例,演示了支持向量机分类算法在图像识别上的应用。2.创建样本数据这次

【scikit-learn基础】--『监督学习』之 决策树分类

决策树分类算法是一种监督学习算法,它的基本原理是将数据集通过一系列的问题进行拆分,这些问题被视为决策树的叶子节点和内部节点。决策树的每个分支代表一个可能的决策结果,而每个叶子节点代表一个最终的分类结果。决策树分类算法的历史可以追溯到1980年代初,当时研究者开始探索用机器学习来解决分类问题。在1981年,J.RossQuinlan开发了ID3算法,该算法使用信息增益来选择决策树的最佳划分属性。后来,在1986年,J.RossQuinlan提出了C4.5算法,该算法引入了剪枝技术,以防止过拟合,该算法还引入了处理连续属性、缺失数据和多值属性等新特性。在1998年,JeromeFriedman等人

【scikit-learn基础】--『监督学习』之 决策树分类

决策树分类算法是一种监督学习算法,它的基本原理是将数据集通过一系列的问题进行拆分,这些问题被视为决策树的叶子节点和内部节点。决策树的每个分支代表一个可能的决策结果,而每个叶子节点代表一个最终的分类结果。决策树分类算法的历史可以追溯到1980年代初,当时研究者开始探索用机器学习来解决分类问题。在1981年,J.RossQuinlan开发了ID3算法,该算法使用信息增益来选择决策树的最佳划分属性。后来,在1986年,J.RossQuinlan提出了C4.5算法,该算法引入了剪枝技术,以防止过拟合,该算法还引入了处理连续属性、缺失数据和多值属性等新特性。在1998年,JeromeFriedman等人

【scikit-learn基础】--『监督学习』之 贝叶斯分类

贝叶斯分类是一种统计学分类方法,基于贝叶斯定理,对给定的数据集进行分类。它的历史可以追溯到18世纪,当时英国统计学家托马斯·贝叶斯发展了贝叶斯定理,这个定理为统计决策提供了理论基础。不过,贝叶斯分类在实际应用中的广泛使用是在20世纪80年代,当时计算机技术的进步使得大规模数据处理成为可能。1.算法概述贝叶斯分类基于贝叶斯公式,通过已知样本信息来计算未知样本属于各个类别的概率,然后选择概率最大的类别作为未知样本的分类结果。贝叶斯公式的简化公式:\(P(A|B)=\frac{P(B|A)P(A)}{P(B)}\)其中:\(P(A)\):事件A发生的概率\(P(B)\):事件A发生的概率\(P(A|

【scikit-learn基础】--『监督学习』之 贝叶斯分类

贝叶斯分类是一种统计学分类方法,基于贝叶斯定理,对给定的数据集进行分类。它的历史可以追溯到18世纪,当时英国统计学家托马斯·贝叶斯发展了贝叶斯定理,这个定理为统计决策提供了理论基础。不过,贝叶斯分类在实际应用中的广泛使用是在20世纪80年代,当时计算机技术的进步使得大规模数据处理成为可能。1.算法概述贝叶斯分类基于贝叶斯公式,通过已知样本信息来计算未知样本属于各个类别的概率,然后选择概率最大的类别作为未知样本的分类结果。贝叶斯公式的简化公式:\(P(A|B)=\frac{P(B|A)P(A)}{P(B)}\)其中:\(P(A)\):事件A发生的概率\(P(B)\):事件A发生的概率\(P(A|

【scikit-learn基础】--『监督学习』之 逻辑回归分类

逻辑回归这个算法的名称有一定的误导性。虽然它的名称中有“回归”,当它在机器学习中不是回归算法,而是分类算法。因为采用了与回归类似的思想来解决分类问题,所以它的名称才会是逻辑回归。逻辑回归的思想可以追溯到19世纪,由英国统计学家FrancisGalton在研究豌豆遗传问题时首次提出。然而,真正将逻辑回归应用于机器学习的是加拿大统计学家HughEverett,他在1970年代提出了广义线性模型(GLM),其中包括逻辑回归。逻辑回归广泛应用于各种分类问题,如垃圾邮件识别、疾病预测、市场细分等。1.算法概述逻辑回归通过构建一个逻辑模型来预测分类结果。它首先对特征进行线性回归,\(y=w_0x_0+w_

【scikit-learn基础】--『监督学习』之 逻辑回归分类

逻辑回归这个算法的名称有一定的误导性。虽然它的名称中有“回归”,当它在机器学习中不是回归算法,而是分类算法。因为采用了与回归类似的思想来解决分类问题,所以它的名称才会是逻辑回归。逻辑回归的思想可以追溯到19世纪,由英国统计学家FrancisGalton在研究豌豆遗传问题时首次提出。然而,真正将逻辑回归应用于机器学习的是加拿大统计学家HughEverett,他在1970年代提出了广义线性模型(GLM),其中包括逻辑回归。逻辑回归广泛应用于各种分类问题,如垃圾邮件识别、疾病预测、市场细分等。1.算法概述逻辑回归通过构建一个逻辑模型来预测分类结果。它首先对特征进行线性回归,\(y=w_0x_0+w_

【scikit-learn基础】--『监督学习』之 K-近邻分类

KNN(K-近邻),全称K-NearestNeighbors,是一种常用的分类算法。KNN算法的历史可以追溯到1957年,当时Cover和Hart提出了“最近邻分类”的概念。但是,这个算法真正得到广泛认知和应用是在1992年,由Altman发表的一篇名为“K-NearestNeighbors”的文章。近年来,随着大数据和机器学习的快速发展,KNN算法因其简单且表现优秀,被广泛应用于各种数据分类问题中。1.算法概述KNN算法的基本原理是:在特征空间中,如果一个样本的最接近的k个邻居中大多数属于某一个类别,则该样本也属于这个类别。换句话说,KNN算法假设类别是由其邻居决定的。那么,KNN算法判断数

【scikit-learn基础】--『监督学习』之 K-近邻分类

KNN(K-近邻),全称K-NearestNeighbors,是一种常用的分类算法。KNN算法的历史可以追溯到1957年,当时Cover和Hart提出了“最近邻分类”的概念。但是,这个算法真正得到广泛认知和应用是在1992年,由Altman发表的一篇名为“K-NearestNeighbors”的文章。近年来,随着大数据和机器学习的快速发展,KNN算法因其简单且表现优秀,被广泛应用于各种数据分类问题中。1.算法概述KNN算法的基本原理是:在特征空间中,如果一个样本的最接近的k个邻居中大多数属于某一个类别,则该样本也属于这个类别。换句话说,KNN算法假设类别是由其邻居决定的。那么,KNN算法判断数