数据分析案例-基于PCA主成分分析法对葡萄酒数据进行分析

艾派森 2023-04-20 原文

🤵‍♂️ 个人主页：@艾派森的个人主页

✍🏻作者简介：Python学习者
🐋 希望大家多多支持，我们一起进步！😄
如果文章对你有帮助的话，
欢迎评论 💬点赞👍🏻 收藏 📂加关注+

1.项目背景

摘要

葡萄酒作为世界上最早的饮料酒之一，其品质和文化早已被人们所认可。据统计2021年，全球葡萄酒产量260亿升，较2020年下降了近1%，至此已连续3年略低于10年平均水平。由于我国本土葡萄酒长期以来受到进口葡萄酒的冲击及2020年疫情期间节日聚会、家庭餐会均被取消，餐饮业完全停滞，导致葡萄酒的需求短期内大幅下降。2020年我国葡萄酒行业市场规模下滑至498.2亿元，2021年小幅度上涨至510.8亿元。预计2022年我国葡萄酒行业市场规模将进一步上升至587.2亿元。本次实验使用葡萄酒数据集进行主成分分析，最后构建葡萄酒分类模型，用来对葡萄酒的分类。

1.项目背景

作为世界上最早的饮料酒之一，葡萄酒的发展与西方文明紧密相关。根据酿造历史和生产工艺，葡萄酒生产国被划分为传统酿造工艺为代表的“旧世界”，包括法国、意大利、西班牙、德国等，以及以现代酿造技术为代表的“新世界”，包括美国、澳大利亚、新西兰、智利、阿根廷和南非等。据统计2021年，全球葡萄酒产量260亿升，较2020年下降了近1%，至此已连续3年略低于10年平均水平。受霜冻影响，欧盟的葡萄酒产量153.7亿升，较2020年下降8%。这主要是由于2021年4月份霜冻导致法国葡萄酒产量大幅下降。意大利(50.2亿升，增2%)、法国(37.6亿升，降19%)、西班牙(35.3亿升，降14%)三个国家占全球葡萄酒产量的47%。

由于我国本土葡萄酒长期以来受到进口葡萄酒的冲击及2020年疫情期间节日聚会、家庭餐会均被取消，餐饮业完全停滞，导致葡萄酒的需求短期内大幅下降。2020年我国葡萄酒行业市场规模下滑至498.2亿元，2021年小幅度上涨至510.8亿元。预计2022年我国葡萄酒行业市场规模将进一步上升至587.2亿元。

葡萄酒行业产业链上游参与主体为原材料及相关设备，主要包括葡萄、淀粉、酵母、食品添加剂、包装材料和酿造设备等;中游为葡萄酒行业，主要有白葡萄酒、红葡萄酒和桃红葡萄酒三大类;下游为各类消费渠道，最后到达终端消费者。近年来，随着葡萄酒产业链延伸，出现了各类“葡萄酒+”产业的新型模式，如“葡萄酒+旅游”、“葡萄酒+科技”等。

随着我国全面步入小康社会，人们的生活水平不断提高，消费市场持续升级，为具有一定品牌溢价能力的中高端葡萄酒带来较大发展空间。经过近几年的努力，中国葡萄酒的品质与风味已经赢得广大消费者认可，这也为中国葡萄酒搏击中高端葡萄酒市场奠定了基础。综合看来，中高端葡萄酒将是2022年乃至中国葡萄酒产业更长时间的发展热点。

近年来，随着民族、文化自信等因素助力国产品牌崛起，中国葡萄酒品质与世界接轨，屡次斩获国际性大奖，越来越多的消费者和经销商关注并选择国产葡萄酒。国产葡萄酒收割存量市场持续加速，“国产”替代“进口”的趋势明显。同时，伴随着进口葡萄酒的持续下滑，国产葡萄酒的替代效应越发明显。预计2022年，我国葡萄酒行业国产替代的速度将进一步加快。

2.项目简介

2.1分析目标

通过研究葡萄酒数据集做出以下分析：

①使用主成分分析对数据进行降维分析

②构建葡萄酒分类模型

2.2数据集介绍

wine样本数据集中是double类型的178 * 14矩阵包括了三种酒中13种不同成分的数量。文件中，每行代表一种酒的样本，共有178个样本，一共有14列，其中，第一个属性是类标识符，分别是1/2/3来表示，代表葡萄酒的三个分类。后面的13列为每个样本的对应属性的样本值。剩余的13个属性是，酒精、苹果酸、灰、灰分的碱度、镁、总酚、黄酮类化合物、非黄烷类酚类、原花色素、颜色强度、色调、稀释葡萄酒的OD280/OD315、脯氨酸。其中第1类有59个样本，第2类有71个样本，第3类有48个样本。具体属性描述如下：

属性	属性描述
target	类别
Alcohol	酒精
Malic acid	苹果酸
Ash	灰
Alkalinity of ash	灰分的碱度
Magnesium	镁
Total phenoids	总酚
Flavonoids	黄酮类化合物
Noflavanoid phenols	非黄烷类酚类
Proanthocyanins	原花色素
Color intensity	颜色强度
Hue	色调
0D280/0315ofdiluted wines	稀释葡萄酒的0D280/0315
proline	脯氨酸

2.3技术工具

Python版本：3.9

编译工具：jupyter notebook

3.算法理论

主成分分析简介

主成分分析是数据降维算法的一种，降维是将高维度的数据（指标太多）保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。

主成分分析是利用降维的思想，在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分，其中每个主成分都是原始变量的线性组合，且各个主成分之间互不相关，这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息，从而更容易抓住主要矛盾，揭示事物内部变量之间的规律性，同时使问题得到简化，提高分析效率。

主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。

主成分分析的思想

假设有 n nn 个样本，p pp 个指标，则可构成大小为 n × p n\times pn×p 的样本矩阵 x xx：

主成分分析的计算步骤

假设有 n 个样本，p 个指标，则可构成大小为 n × p的样本矩阵 x ：

1. 首先对其进行标准化处理：

2. 计算标准化样本查的协方差矩阵：

1、2步骤可以合成一步：

4. 计算主成分共享率以及累计贡献率：

5. 写出主成分：

6. 根据系数分析主成分代表的意义：

对于某个主成分而言，指标前面的系数越大，代表该指标对于该主成分的影响越大。

部分说明

一组数据是否可以用主成分分析，必须做适合性检验。可以用球形检验和KMO统计量检验。

1）球形检验（Bartlett)

球形检验的假设：

H0：相关系数矩阵为单位阵（即变量不相关）

H1：相关系数矩阵不是单位阵（即变量间有相关关系）

2）KMO（Kaiser-Meyer-Olkin)统计量

KMO统计量比较样本相关系数与样本偏相关系数，它用于检验样本是否适于作主成分分析。

KMO的值在0,1之间，该值越大，则样本数据越适合作主成分分析和因子分析。一般要求该值大于0.5，方可作主成分分析或者相关分析。

Kaiser在1974年给出了经验原则：

0.9以上适合性很好

0.8~0.9 适合性良好

0.7~0.8 适合性中等

0.6~0.7 适合性一般

0.5~0.6 适合性不好

0.5以下不能接受的

4.实验过程

4.1数据探索

加载葡萄酒数据集

使用shape属性查看数据共有多少行多少列

原数据有178行，13列

使用info()查看基本信息

从结果中可以看出数据集没有缺失值且都为浮点数类型。

4.2 PCA主成分分析

1.巴特利球形检验

检验总体变量的相关矩阵是否是单位阵（相关系数矩阵对角线的所有元素均为1,所有非对角线上的元素均为零）；即检验各个变量是否各自独立。

从结果中看出P值远小于0.05,拒绝原假设，说明变量之间有相关关系，可以做主成分分析。

2.求相关矩阵

①标准化

②求相关系数矩阵

③求特征值和特征向量

3.对特征值进行排序并输出

4.绘制散点图和折线图

从图中得出主成分分析的K值应为4比较好。

5.求特征值的贡献度

6.求特征值的累计贡献度

7.选出主成分

8.选出主成分对应的特征向量矩阵

9.求主成分得分

10.绘制热力图

4.3 构建模型

在构建模型之前，先进行特征选择，选出建模需要的数据（这里先使用经过主成分分析后的数据），再拆分数据集为训练集和测试集。

构建随机森林模型

可以看出经过主成分分析后的模型准确率为0.972。

接着我们使用原始数据，也就是没有经过主成分分析处理的数据来构建模型看看效果。

从结果看出没有经过主成分分析处理的数据最后构建的模型准确率为0.944，明显看出经过主成分分析处理的模型准确率提高了不少。

5.总结

本次实验对葡萄酒数据进行了主成分分析，将13维的数据降到了4维，最后通过构建逻辑回归分类模型得出的模型准确率为0.97，相比于没有经过主成分分析处理的数据构建的模型而言，经过处理后的数据构建的模型准确率提高了3%，说明本次主成分分析是有效果的，最后构建的模型效果也很不错。

通过这次Python项目实战，我学到了许多新的知识，这是一个让我把书本上的理论知识运用于实践中的好机会。原先，学的时候感叹学的资料太难懂，此刻想来，有些其实并不难，关键在于理解。

在这次实战中还锻炼了我其他方面的潜力，提高了我的综合素质。首先，它锻炼了我做项目的潜力，提高了独立思考问题、自我动手操作的潜力，在工作的过程中，复习了以前学习过的知识，并掌握了一些应用知识的技巧等

在此次实战中，我还学会了下面几点工作学习心态：

1）继续学习，不断提升理论涵养。在信息时代，学习是不断地汲取新信息，获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后，我会用心响应单位号召，结合工作实际，不断学习理论、业务知识和社会知识，用先进的理论武装头脑，用精良的业务知识提升潜力，以广博的社会知识拓展视野。

2）努力实践，自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值，也只有将理论付诸于实践才能使理论得以检验。同样，一个人的价值也是透过实践活动来实现的，也只有透过实践才能锻炼人的品质，彰显人的意志。

3）提高工作用心性和主动性。实习，是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土，也分明感受到了沉甸甸的职责。在今后的工作和生活中，我将继续学习，深入实践，不断提升自我，努力创造业绩，继续创造更多的价值。

这次Python实战不仅仅使我学到了知识，丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中，为实现理想而努力。

源代码

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_wine
import warnings
warnings.filterwarnings('ignore')
plt.rcParams['font.sans-serif'] = ['SimHei'] #解决中文显示|
plt.rcParams['axes.unicode_minus'] = False   #解决符号无法显示
# 导入数据集
wine = load_wine()
# 将原数据集转为DataFrame类型
data = pd.DataFrame(wine['data'],columns=wine['feature_names'])
data.head()
data.shape
data.info()
# Bartlett's球状检验
from factor_analyzer.factor_analyzer import calculate_bartlett_sphericity
 
chi_square_value, p_value = calculate_bartlett_sphericity(data)
print(chi_square_value, p_value)
# KMO检验
# 检查变量间的相关性和偏相关性，取值在0-1之间；KOM统计量越接近1，变量间的相关性越强，偏相关性越弱，因子分析的效果越好。
# 通常取值从0.6开始进行因子分析
from factor_analyzer.factor_analyzer import calculate_kmo
 
kmo_all, kmo_model = calculate_kmo(data)
print(kmo_all)
from sklearn.preprocessing import scale
data_scale = scale(data)  # 数据标准化
data_scale
covX = np.around(np.corrcoef(data.T),decimals=3) # 求相关系数矩阵
covX
featValue, featVec=  np.linalg.eig(covX.T)  #求解系数相关矩阵的特征值和特征向量
featValue, featVec
featValue = sorted(featValue,reverse=True) # 对特征值进行排序并输出
featValue
# 同样的数据绘制散点图和折线图
plt.scatter(range(1, data.shape[1] + 1), featValue)
plt.plot(range(1, data.shape[1] + 1), featValue)
# 显示图的标题和xy轴的名字
plt.title("Scree Plot")  
plt.xlabel("Factors")
plt.ylabel("Eigenvalue")
plt.hlines(y=1,xmin=0,xmax=13)   # 横线绘制
plt.grid()  # 显示网格
plt.show()  # 显示图形
gx = featValue/np.sum(featValue)
gx
lg = np.cumsum(gx)
lg
#选出主成分
k=[i for i in range(len(lg)) if lg[i]<0.80]
k = list(k)
print(k)
selectVec = np.matrix(featVec.T[k]).T
selectVe=selectVec*(-1)
selectVec
finalData = np.dot(data_scale,selectVec)
finalData
# 绘图
plt.figure(figsize = (14,14))
ax = sns.heatmap(selectVec, annot=True, cmap="BuPu")
# 设置y轴字体大小
ax.yaxis.set_tick_params(labelsize=15)
plt.title("主成分分析", fontsize="xx-large")
# 设置y轴标签
plt.ylabel("Sepal Width", fontsize="xx-large")
# 显示图片
plt.show()
X = finalData
y = wine['target']
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42) # 划分数据集
# 逻辑回归模型
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix,accuracy_score,classification_report
lg = LogisticRegression()
lg.fit(x_train,y_train)
y_pred = lg.predict(x_test)
print('模型准确率',accuracy_score(y_test,y_pred))
print('混淆矩阵',confusion_matrix(y_test,y_pred))
print('分类报告',classification_report(y_test,y_pred))
X = data
y = wine['target']
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=666)
# 逻辑回归模型
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix,accuracy_score,classification_report
lg = LogisticRegression()
lg.fit(x_train,y_train)
y_pred = lg.predict(x_test)
print('模型准确率',accuracy_score(y_test,y_pred))
print('混淆矩阵',confusion_matrix(y_test,y_pred))
print('分类报告',classification_report(y_test,y_pred))

分析 PCA margin-left style text-align 数据分析 pandas 数据挖掘 python 人工智能

有关数据分析案例-基于PCA主成分分析法对葡萄酒数据进行分析的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2
导读：随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，他们希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的平台，统一数据的接入和查询方案，解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型，最终引入ApacheDoris作为最终的OLAP分析引擎，Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图，在叮咚买菜数十个业务场景中广泛应用。作者｜叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月，是一家专注美好食物的创业公司。叮咚买菜专注吃的事业，为满足更多人“想吃什么”而努力，通过美好食材的供应、美好滋味的开发以及美食品牌的孵
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co
基于C#实现简易绘图工具【100010177】 - 2
C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.
ruby-on-rails - 创建 ruby 数据库时惰性符号绑定(bind)失败 - 2
我正在尝试在Rails上安装ruby，到目前为止一切都已安装，但是当我尝试使用rakedb:create创建数据库时，我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf
STM32读取串口传感器数据（颗粒物传感器，主动上传） - 2
文章目录1.开发板选择*用到的资源2.串口通信（个人理解）3.代码分析（注释比较详细）1.主函数2.串口1配置3.串口2配置以及中断函数4.注意问题5.源码链接1.开发板选择我用的是STM32F103RCT6的板子，不过代码大概在F103系列的板子上都可以运行，我试过在野火103的霸道板上也可以，主要看一下串口对应的引脚一不一样就行了，不一样的就更改一下。*用到的资源keil5软件这里用到了两个串口资源，采集数据一个，串口通信一个，板子对应引脚如下：串口1，TX：PA9，RX：PA10串口2，TX：PA2，RX：PA32.串口通信（个人理解）我就从串口采集传感器数据这个过程说一下我自己的理解，

数据分析案例-基于PCA主成分分析法对葡萄酒数据进行分析

1.项目背景

2.项目简介

2.1分析目标

2.2数据集介绍

2.3技术工具

3.算法理论

4.实验过程

4.1数据探索

4.2 PCA主成分分析

4.3 构建模型

5.总结

源代码

有关数据分析案例-基于PCA主成分分析法对葡萄酒数据进行分析的更多相关文章

随机推荐