? 作者:韩信子@ShowMeAI
? 数据分析◉技能提升系列:https://www.showmeai.tech/tutorials/33
? 数据分析实战系列:https://www.showmeai.tech/tutorials/40
? 本文地址:https://www.showmeai.tech/article-detail/294
? 声明:版权所有,转载请联系平台与作者并注明出处
? 收藏ShowMeAI查看更多精彩内容
Excel是大家最常用的数据分析工具之一,借助它可以便捷地完成数据清理、统计计算、数据分析(数据透视图)和图表呈现等。
但是!大家有没有用 Excel 处理过大一些的数据(比如几十上百万行的数据表),Excel 就会变得非常慢,甚至直接崩溃。
辛辛苦苦做一半的工作很有可能要重做!那就不只是 Excel 崩溃了,我们也得一边崩溃一边加班赶 deadline。
在本篇文中,ShowMeAI 将给大家介绍到 Python 中非常好用的交互式表格工具,它们的功能性和使用便捷度和 Excel 相当,同时有很好的内存优化,非常适合处理大文件表格。
Mito 是 Python 中的电子表格,它同时拥有 Excel 电子表格的简单易用性和 Python 的强大功能。我们可以像使用 Excel 一样使用 Mito,并且在我们执行每个操作之后,Mito 将自动生成与每个操作对应的 Python 代码。
使用 Mito 工具库,我们首先需要安装 Python 和 Jupyter Notebook 或 Jupyter Lab, 然后我们通过终端或命令行运行以下命令来安装 Mito。
python -m pip install mitoinstaller
python -m mitoinstaller install
下面我们来演示一下,如何在 Mito 中完成我们在 Excel 中的操作,如读取文件、创建列、数据透视表、可视化等。
Excel 默认对文件行数有限制。在内存足够时,Excel 可以打开数百万行的文件,但是只显示前 1048576 行。感兴趣的话可以测试下这个数据~同样在内存充足的情况下,Mito 打开文件的大小没有限制。来看具体操作!
在读取 CSV 文件之前,先导入工具库,创建一个 Mito 电子表格对象,代码如下:
import mitosheet
mitosheet.sheet()
接下来的读取操作就可以用鼠标完成了, 下图的演示中,使用到的数据集是学校成绩数据集,大家可以在ShowMeAI的百度网盘地址下载 。 下载文件后,单击『+』或『导入』按钮进行阅读,如下图所示:
? 实战数据集下载(百度网盘):公众号『ShowMeAI研究中心』回复『实战』,或者点击 这里 获取本文 [7] 使用 Mito 和 Bamboolib 进行超大量数据的处理(Python) 『Spreadsheets 数据集』
⭐ ShowMeAI官方GitHub:https://github.com/ShowMeAI-Hub
除了导入之外,还会自动生成下面的代码。(这本是需要熟悉 Pandas 工具库的同学通过编码完成的。但现在我们简单操作之后,就可以自动生成了!)
import pandas as pd
StudentsPerformance_csv = pd.read_csv(r'StudentsPerformance.csv')
在 Excel 中,我们会创建一个『宏』来记录一组可以随时执行的操作。对应到 Mito中,我们可以做同样的事情,借助于 Python 生态与各种开源库,我们可以完成更多自动化的操作,比如处理完表格之后通过电子邮件发送报告,使用微信发送文件,导入数据到数据库中等。
下面我们用 Mito 执行一些操作,就好像我们在使用 Excel 一样。
如果要创建新列,只需单击『添加列』按钮。默认情况下,『Add Col』按钮将创建一个名为『new-column』的列,我们将通过双击列名将其重命名为『average』。
这一步结束后,Mito 又生成了与我们在电子表格上执行的操作相对应的 Python 代码!
# Added column new-column-uca5 to StudentsPerformance_csv
StudentsPerformance_csv.insert(8, 'new-column-uca5', 0)
# Renamed new-column-uca5 to average in StudentsPerformance_csv
StudentsPerformance_csv.rename(columns={'new-column-uca5': 'average'}, inplace=True)
我们经常要对数据做统计分析,如果要对一行做统计计算,我们只需将公式写在一个单元格中。
假设我们要计算数学、阅读和写作的平均分数。 我们只需要在『average』列的任何单元格中填入公式 (math score+reading score+writing score)/3,如下图所示:
同样 Mito 生成了pandas的统计代码:
# Set new-column-uca5 in StudentsPerformance_csv to =(math score+reading score+writing score)/3
StudentsPerformance_csv['average'] = (StudentsPerformance_csv['math score']+StudentsPerformance_csv['reading score']+StudentsPerformance_csv['writing score'])/3
在Mito中创建数据透视表同样非常简单,单击『数据透视』按钮, 然后选择行、列和值。
下图演示了我们创建一个数据透视表,在『种族/民族』列中显示 A、B、C、D 和 E 组的数学和阅读分数的平均值。
同样在Mito操作过后,我们生成了如下的 Python 代码。
# Imported StudentsPerformance.csv
import pandas as pd
StudentsPerformance_csv = pd.read_csv(r'StudentsPerformance.csv')
# Pivoted StudentsPerformance_csv into df2
unused_columns = StudentsPerformance_csv.columns.difference(set(['race/ethnicity']).union(set([])).union(set({'math score', 'reading score'})))
tmp_df = StudentsPerformance_csv.drop(unused_columns, axis=1)
pivot_table = tmp_df.pivot_table(
index=['race/ethnicity'],
values=['math score', 'reading score'],
aggfunc={'math score': ['mean'], 'reading score': ['mean']}
)
pivot_table.columns = [flatten_column_header(col) for col in pivot_table.columns.values]
df2 = pivot_table.reset_index()
使用 Mito 可以轻松创建饼图和条形图等基本图例用于可视化, 我们只需要点击『图表』并选择图表类型。
让我们为之前创建的数据透视表创建一个条形图,在 X 轴上显示『种族/民族』,在 Y 轴上显示『数学分数平均值』。
很炫酷有没有!而且 a、b、c 和 d 中生成的代码行相当于 Excel 宏, 每次我们运行代码时,我们都会执行所有记录下来的操作。
当我们在Excel工作簿中进行内存密集型计算时,它非常容易卡顿感和崩溃,但这些计算在 Python 中是非常简单可以完成的,我们可以结合另一个名为bamboolib 的 Python 库完成一系列数据操作。

大家可以通过命令 pip install --upgrade bamboolib --user安装 bamboolib。
安装完成之后,我们运行以下命令来读取 CSV 或 Excel 文件。
import bamboolib as bam
bam
在这里,我们使用包含超过 100 万行的 CSV 大文件sales-data-1M来讲解操作和计算实现,大家可以在ShowMeAI的百度网盘地址下载。
? 实战数据集下载(百度网盘):公众号『ShowMeAI研究中心』回复『实战』,或者点击 这里 获取本文 [7] 使用 Mito 和 Bamboolib 进行超大量数据的处理(Python) 『Spreadsheets 数据集』
⭐ ShowMeAI官方GitHub:https://github.com/ShowMeAI-Hub
和 Mito 工具库一样,Bamboolib 也为我们生成代码如下
后续内容中我们只演示步骤,但会隐藏生成的代码,大家可以实际操作来查看生成的代码
import pandas as pd
df = pd.read_csv('./data/sales-data.csv', sep=',', decimal='.', nrows=100000)
df
如果我们要创建一个新列,我们可以在搜索栏上搜索『列命名』操作,然后键入列公式。下图演示我们使用公式创建一个『价格』列 (revenue/quantity).
下面我们在搜索栏中输入『数据透视表』。 然后我们在数据行中按产品对数据进行分组,并使用『sum』作为聚合函数,整个操作如下图所示:
接下来,我们创建一个饼图。 我们点击『Create Plot』按钮,选择图形类型,然后选择我们想要显示的值。
下面我们从『日期』列中提取属性,我们希望提取出月份,要完成这个操作,我们会将『日期』列的数据类型更改为 date(现在类型为 str),然后再提取属性。操作动图演示如下:
当使用RyanBates的Railscasts第362集关于导出到Excel(https://github.com/railscasts/362-exporting-csv-and-excel)的示例应用程序时,我注意到Excel2010(在Windows上)在打开.xls文件时给我一条警告消息我使用“下载为Excel”链接下载的文件。警告内容如下:“您尝试打开的文件...的格式与文件扩展名指定的格式不同。打开文件前请确认文件未损坏且来源可靠。是否要打开现在存档吗?”当我单击"is"时,我可以很好地打开文件。在使用Excel2011(在Mac上)时,我什至没有收到警告消息。但我希望能够
我正在尝试将数据从我的模型导出到Excel电子表格。我见过3种方式使用我不明白如何使用的电子表格gem,我看到的示例是写入本地文件,但我正在寻找每次用户点击链接时都会生成一个文件。创建一个名为export的方法,并在那里运行查询,然后在我看来创建一个export.xls文件,然后该文件创建我想将表格导出到excel文件,但是这种做法不允许我创建多张纸。学习了本教程,http://oldwiki.rubyonrails.org/rails/pages/HowToExportToExcel,但是这里没有显示如何将链接放在View中,在我看来我在路由中遗漏了一些东西,我可以提供github以
我需要在一台没有安装Excel的Linux服务器上读写(->转换)Excel文件。对于Python,存在http://www.python-excel.org/.Ruby有类似的东西吗?可能不需要处理最新的Office格式。只需旧的xls文件就足够了。 最佳答案 我同意Gonzih的观点,并且我经常使用roo。它允许我使用模板文件进行读取、写入和写入。该项目在他们的site上有很好的记录。.我总是使用类似的东西:input=Excel.new(path)output=Array.newinput.default_sheet=inpu
我在我的rubyonrails应用程序中使用数据表。我按照这里的同一个..https://github.com/rweng/jquery-datatables-rails我的数据表排序和搜索工作正常。但是我在表格标题中看不到我的表格工具选项(例如-复制、csv、excel、pdf、保存)。我想像这样显示我的表....请帮忙。 最佳答案 我通过添加ZeroClipboard.js得到了这个 关于ruby-如何在rubyonrails中显示Datatabletabletools(co
我正在使用Rails5(Ruby2.4)。我想阅读.xls文档,我想将数据转换为CSV格式,就像它出现在Excel文件中一样。有人推荐我使用Roo,所以我有book=Roo::Spreadsheet.open(file_location)sheet=book.sheet(0)text=sheet.to_csvarr_of_arrs=CSV.parse(text)但是,返回的内容与我在电子表格中看到的内容不同。例如,电子表格中的一个单元格有16:45.81当我从上面获取CSV数据时,返回的是"0.011641319444444444"如何解析Excel文档并准确获取我所看到的内容?我不在
我使用了spreadsheetgem去做这个。它可以工作,但有时可能会很慢。我什至尝试了Roogem,但这并没有提高性能。有没有更好的方法来完成这项工作?奇怪的是,在同一个excel中,有些工作表运行速度更快,有些工作表运行速度非常慢,甚至需要长达1小时。我们能否使用openoffice在单个excel中打开每个工作表(选项卡)并将它们更快地转换为csv?如果是,我将如何使用ruby来实现?或者有更好的解决方案吗?只是添加一个我尝试使用Roogem的小例子xls=Roo::Excel.new(source_excel_file)xls.each_with_pagenamedo|na
Ruby中是否有任何插件可以将CSV文件转换为Excel。我几乎没用谷歌搜索,但我发现的只是将Excel文件转换为CSV。我知道一些我可以稍微调整并用于将Excel转换为CSV的gem,但我需要知道以前是否有人这样做过。 最佳答案 根据thispost,spreadsheetgem是一种可能性。看起来这是一个非常受欢迎的gem。看看这个。例子:book=Spreadsheet::Workbook.newsheet1=book.create_worksheetheader_format=Spreadsheet::Format.new(
我正在生成CSV文件,这些文件生成后需要在Excel中打开和查看。Excel似乎需要与UTF-8不同的编码。这是我的配置和生成代码:csv_config={col_sep:";",row_sep:"\n",encoding:Encoding::UTF_8}csv_string=CSV.generate(csv_config)do|csv|csv在Excel中打开时,特殊字符显示不正确:TextaTextbTextæTextøTextÃ¥知道如何确保正确编码吗? 最佳答案 如果Excel具有BOM,则它可以理解UTF-8CSV。可
尝试在ruby脚本中使用roogem解析XLSX文件。在Excel中,日期以DDDDD.ttttt格式存储为float或整数,从1900-01-00(00no01)开始计算。因此,为了转换诸如40396之类的日期-您将使用1900-01-00+40396,您应该得到2010-10-15,但我得到的是2010-08-08。我正在使用active_support/time进行这样的计算:Time.new("1900-01-01")+40396.days我的计算有误还是主动支持有问题?我在Windows7+最新的active_supportgem(3.2.1)上运行ruby1.9.3
我知道如何将Rails中的表格导出到格式化的Excel文件:http://railscasts.com/episodes/362-exporting-csv-and-excel但是如何从控制台执行此操作。 最佳答案 使用连接到您的Heroku数据库herokupg:psql然后运行sql命令来获取csv文件,例如\copy(SELECT*FROMusers)TOdump.csvCSVDELIMITER','使用\q退出。执行命令后dump.csv将在您的本地环境中创建 关于ruby-