Python数据分析案例03——天气K均值聚类分析

阡之尘埃 2024-01-27 原文

聚类常用的算法肯定是K均值聚类了，本次案例采用陕西的十个地区的天气数据，构建特征，进行聚类分析。

首先数据都装在‘天气数据’这个文件夹里面，如图：

打开其中一个excel，长这个样子

下面开始数据处理

数据预处理

导入包

import os
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd
import datetime as dt
import re
#from sklearn.preprocessing import MinMaxScaler
%matplotlib inline

pd.options.display.float_format = '{:,.4f}'.format
np.set_printoptions(precision=4)
plt.rcParams ['font.sans-serif'] ='SimHei'               #显示中文
plt.rcParams ['axes.unicode_minus']=False               #显示负号

获取文件和地区名称

file_name=os.listdir(f'./天气数据')
print(file_name)
region_name=[i[:2] for i in file_name]
region_name

定义一些函数，用来处理数据

def date_transform(x) :
    a= x.split(' ')[0]
    a = pd.to_datetime(a, format='%Y-%m-%d')
    return a
def C_check(C):
    a=C.split('℃')
    return int(a[0])
def tianqi_check1(txt):
    if '转' in txt:
        a=re.findall('\w{1,5}转',txt)
        a=a[0].split('转')
        a=a[0]
    elif '~' in txt:
        a=re.findall('\w{1,5}~',txt)
        a=a[0].split('~')
        a=a[0]
    else:
        a=txt
    return a
def tianqi_check2(txt):
    if '到' in txt:
        a=re.findall('到\w{1,5}',txt)
        a=a[0].split('到')
        a=a[1]
    else:
        a=txt
    return a
df_最高气温=pd.DataFrame()
df_最低气温=pd.DataFrame()
df_天气=pd.DataFrame()
dic_天气={'晴':0,'晴到多云':0.5,'晴间多云':0.5,'局部多云':0.5,'多云':1,'少云':1.5,'阴':2,'阴天':2,'雾':2.5,'霾':2.5,'小雨':3,'雨':3,'阴到小雨':2.5,
            '小到中雨':3.5,'小雨到中雨':3.5,'阵雨':3.5,'中雨':4,'小雨到大雨':4,'雷阵雨':4,'雷雨':4,'中到大雨':4.5,'大雨':5,'大到暴雨':5.5,
            '暴雨':6,'暴风雨':6.5,'小雪':7,'雨夹雪 ':7,'雪':7,'中雪':8,'大雪':9,'浮尘':2.5,'扬沙':2.5,'风':2.5}

开始读取和处理

for i,f in enumerate(file_name):
    #print(i)
    file_path = f'./天气数据/{f}'
    data=pd.read_excel(file_path,usecols=['日期','最高气温','最低气温','天气'])
    data['日期']=data['日期'].apply(date_transform)
    data['最高气温']=data['最高气温'].apply(C_check)
    data['最低气温']=data['最低气温'].apply(C_check)
    data['天气']=data['天气'].astype(str).apply(tianqi_check1)
    data['天气']=data['天气'].astype(str).apply(tianqi_check2)
    data.loc[:,'天气']=data['天气'].map(dic_天气)
    data['天气'].fillna(data['天气'].mean)
    data=data.set_index('日期').resample('M').mean()
    #print(len(data))
    df_最高气温[region_name[i]]=data['最高气温']
    df_最低气温[region_name[i]]=data['最低气温']
    df_天气[region_name[i]]=data['天气']

最后是形成了三个数据框，最高温和最低温，还有天气情况（比如下雨还是晴天等等），天气情况我用map进行了映射，都变成了数值型变量。

描述性统计

df_最高气温.plot(title='各地区每月最高温变化图',figsize=(14,5),xlabel='日期',ylabel='最高温')

df_最低气温.plot(title='各地区每月最低温变化图',figsize=(14,5),xlabel='日期',ylabel='最低温')

df_天气.plot(title='各地区每月天气变化图',figsize=(14,5),xlabel='日期',ylabel='天气')

都具有很明显的周期性，天气因为是自己映射的数值型数据，所以有点杂乱。

然后画出最高温的箱线图：

column = df_最高气温.columns.tolist() # 列表头
fig = plt.figure(figsize=(20, 8), dpi=128)  # 指定绘图对象宽度和高度
for i in range(len(column)):
    plt.subplot(2,5, i + 1)  # 2行5列子图
    sns.boxplot(data=df_最高气温[column[i]], orient="v",width=0.5)  # 箱式图
    plt.ylabel(column[i], fontsize=16)
    plt.title(f'{region_name[i]}每月最高温箱线图',fontsize=16)
plt.tight_layout()
plt.show()

最低温和天气也是一样画，数据框名称改一下就行。

下面画出最低温的核密度图（同理最高温和天气也是一样的）

fig = plt.figure(figsize=(20, 8), dpi=128)  # 指定绘图对象宽度和高度
for i in range(len(column)):
    plt.subplot(2,5, i + 1)  # 2行5列子图
    ax = sns.kdeplot(data=df_最低气温[column[i]],color='blue',shade= True)
    plt.ylabel(column[i], fontsize=16)
    plt.title(f'{region_name[i]}每月最低温核密度图',fontsize=16)
plt.tight_layout()
plt.show()

画出天气的相关性热力图

fig = plt.figure(figsize=(8, 8), dpi=128) 
corr= sns.heatmap(df_天气[column].corr(),annot=True,square=True)

最高温和最低温也是一样，改一下数据框名称就行。可以看到哪些地区的天气相关性高

K均值聚类

因为本次构建了三个特征，可以进行三次K均值聚类，我们可以比较一下聚类的结果，首先使用最高温进行聚类：

最高温的聚类

from sklearn.cluster import KMeans 
kmeans_model = KMeans(n_clusters=3, random_state=123, n_init=20)
kmeans_model.fit(df_最高气温.T)
kmeans_model.inertia_   #组内平方和

# kmeans_cc=kmeans_model.cluster_centers_   # 聚类中心
# kmeans_cc

kmeans_labels = kmeans_model.labels_   # 样本的类别标签
kmeans_labels 

pd.Series(kmeans_labels).value_counts()   # 统计不同类别样本的数目

映射一下类别的数值

dic_rusult={}
for i in range(10):
    dic_rusult[df_最高气温.T.index[i]]=kmeans_labels[i]
dic_rusult

统计一下，打印结果

第一类地区=[]
第二类地区=[]
第三类地区=[]
for k,v in dic_rusult.items():
    if v==0:
        第一类地区.append(k)
    elif v==1:
        第二类地区.append(k)
    elif v==2:
        第三类地区.append(k)
print(f'从最高气温来看的聚类的结果，将地区分为三个地区,\n第一个地区为：{第一类地区}，\n第二个地区为：{第二类地区}，\n第三个地区为：{第三类地区}')

可以去地图上看看，聚类的结果还是很有道理的，聚类出来的地区都是挨得很近的地方。

最低温度K均值聚类

kmeans_model = KMeans(n_clusters=3, random_state=123, n_init=20)
kmeans_model.fit(df_最低气温.T)

kmeans_labels = kmeans_model.labels_   # 样本的类别标签
kmeans_labels 

pd.Series(kmeans_labels).value_counts()   # 统计不同类别样本的数目

dic_rusult2={}
for i in range(10):
    dic_rusult2[df_最低气温.T.index[i]]=kmeans_labels[i]
dic_rusult2

第一类地区=[]
第二类地区=[]
第三类地区=[]
for k,v in dic_rusult2.items():
    if v==2:
        第一类地区.append(k)
    elif v==1:
        第二类地区.append(k)
    elif v==0:
        第三类地区.append(k)
print(f'从最低气温来看的聚类的结果，将地区分为三个地区,\n第一个地区为：{第一类地区}，\n第二个地区为：{第二类地区}，\n第三个地区为：{第三类地区}')

和最高温的聚类结果差不多

第一个地区对应的关中

第二个地区对应的陕北

第三个地区对应的陕南

天气K均值聚类

kmeans_model = KMeans(n_clusters=3, random_state=123, n_init=20)
kmeans_model.fit(df_天气.T)
kmeans_labels = kmeans_model.labels_   # 样本的类别标签
pd.Series(kmeans_labels).value_counts()   # 统计不同类别样本的数目 
dic_rusult3={}
for i in range(10):
    dic_rusult3[df_天气.T.index[i]]=kmeans_labels[i]
dic_rusult3
第一类地区=[]
第二类地区=[]
第三类地区=[]
for k,v in dic_rusult3.items():
    if v==1:
        第一类地区.append(k)
    elif v==2:
        第二类地区.append(k)
    elif v==0:
        第三类地区.append(k)
print(f'从天气来看的聚类的结果，将地区分为三个地区,\n第一个地区为：{第一类地区}，\n第二个地区为：{第二类地区}，\n第三个地区为：{第三类地区}')

天气的效果和气温差不多。

第一个地区对应的关中

第二个地区对应的陕北

第三个地区对应的陕南

说明地理位置近的地区的天气更加相似(算法说的)

mdash 天气 39 61 python 数据分析数据挖掘 pandas numpy

有关Python数据分析案例03——天气K均值聚类分析的更多相关文章

python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
Python 相当于 Perl/Ruby ||= - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意，但是谷歌搜索||=并不是很有帮助；)Python中是否有与Ruby和Perl中的||=语句等效的语句？例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外，类似这样的东西的通用术语是什么？条件分配是我的第一个猜测，但Wikipediapage跟我想的不太一样。
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co

Python数据分析案例03——天气K均值聚类分析

数据预处理

描述性统计

K均值聚类

有关Python数据分析案例03——天气K均值聚类分析的更多相关文章

随机推荐