mysql - Spark : Reading big MySQL table into DataFrame fails

coder 2023-10-13 原文

我想提前告诉您，以下几个相关问题不能解决我的问题:

Converting mysql table to dataset is very slow...

Spark MySQL Error while Reading from Database

This one接近但堆栈跟踪是不同的，无论如何它都没有解决。所以请放心，我在几天(失败的)解决方案搜索后发布了这个问题。

我正在尝试编写一个从 MySQL 移动数据(每天一次)的作业表到 Hive表存储为 Parquet/ORC Amazon S3 上的文件.有些 table 相当大: ~ 300M 记录 与 200 GB+ 大小 (据 phpMyAdmin 报道)。

目前我们正在使用 sqoop为此，但我们想移至 Spark出于以下原因:

通过 DataFrame API 来利用它的功能(将来，我们将在移动数据的同时执行转换)

我们已经有了一个用 Scala 编写的相当大的框架。为 Spark组织中其他地方使用的工作

我已经能够在小型 MySQL 上实现这一目标表没有任何问题。但是Spark如果我尝试获取超过 的数据，作业(从 MySQL 读取数据到 DataFrame 中)将失败~1.5-2M 记录 一次。我已经在下面展示了堆栈跟踪的相关部分，您可以找到完整的堆栈跟踪 here .

...
javax.servlet.ServletException: java.util.NoSuchElementException: None.get
    at org.glassfish.jersey.servlet.WebComponent.serviceImpl(WebComponent.java:489)
    at org.glassfish.jersey.servlet.WebComponent.service(WebComponent.java:427)
...
Caused by: java.util.NoSuchElementException: None.get
    at scala.None$.get(Option.scala:347)
    at scala.None$.get(Option.scala:345)
...
org.apache.spark.status.api.v1.OneStageResource.taskSummary(OneStageResource.scala:62)
    at sun.reflect.GeneratedMethodAccessor188.invoke(Unknown Source)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
...
[Stage 27:>                                                       (0 + 30) / 32]18/03/01 01:29:09 WARN TaskSetManager: Lost task 3.0 in stage 27.0 (TID 92, ip-xxx-xx-xx-xxx.ap-southeast-1.compute.internal, executor 6): java.sql.SQLException: Incorrect key file for table '/rdsdbdata/tmp/#sql_14ae_5.MYI'; try to repair it
    at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:964)
    at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:3973)
...

** 此堆栈跟踪是在移动 失败时获得的148 GB 包含 的表186M 记录

从(完整)堆栈跟踪中可以明显看出，Spark阅读作业开始对 false warnings 生闷气的 None.get错误后跟 SQLException: Incorrect key for file.. (与 MySQL 的 tmp table becoming full 相关)

现在显然这不可能是 MySQL问题，因为在这种情况下 sqoop也应该失败。至于 Spark关心，我是parallelizing the read operation通过设置 numPartitions = 32 (我们使用 40 的并行性与 sqoop )。

根据我对 Spark 的有限了解和 BigData , 148 GB 不应该是 势不可挡以任何方式衡量 Spark。此外，自 MySQL , Spark ( EMR ) 和 S3都位于同一区域( AWS AP-SouthEast )，所以延迟不应该是瓶颈 .

我的问题是:

是 Spark一个合适的工具？

可以Spark的 Jdbc这个问题应该归咎于司机吗？

如果以上问题的答案是

是的:我怎样才能克服它？ (替代驱动程序，或其他一些解决方法)？

否:可能的原因是什么？

框架配置:

Hadoop分发:亚马逊 2.8.3

Spark 2.2.1

Hive 2.3.2

Scala 2.11.11

EMR配置:

EMR 5.12.0

1 Master : r3.xlarge [8 vCore，30.5 GiB 内存，80 SSD GB 存储 EBS 存储:32 GiB]

1 Task : r3.xlarge [8 vCore，30.5 GiB 内存，80 SSD GB 存储 EBS 存储:无]

1 Core : r3.xlarge [8 个 vCore，30.5 GiB 内存，80 SSD GB 存储
EBS 存储:32 GiB]

** 这些是开发集群的配置；生产集群的装备会更好

最佳答案

Spark JDBC API 似乎 fork 将所有数据从 MySQL 表加载到内存中。所以当你尝试加载一个大表时，你应该先使用 Spark API 克隆数据到 HDFS(应该使用 JSON 来保持架构结构)，如下所示:

spark.read.jdbc(jdbcUrl, tableName, prop)
       .write()
       .json("/fileName.json");

然后您可以正常使用 HDFS。

spark.read().json("/fileName.json")
       .createOrReplaceTempView(tableName);

关于mysql - Spark : Reading big MySQL table into DataFrame fails，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49149996/

有关mysql - Spark : Reading big MySQL table into DataFrame fails的更多相关文章

ruby-on-rails - 错误 : Error installing pg: ERROR: Failed to build gem native extension - 2
我克隆了一个rails仓库，我现在正尝试捆绑安装背景:OSXElCapitanruby2.2.3p173(2015-08-18修订版51636)[x86_64-darwin15]rails-v在您的Gemfile中列出的或native可用的任何gem源中找不到gem'pg(>=0)ruby'。运行bundleinstall以安装缺少的gem。bundleinstallFetchinggemmetadatafromhttps://rubygems.org/............Fetchingversionmetadatafromhttps://rubygems.org/...Fe
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co
ruby-on-rails - 无法安装 mysql2 0.3.14 gem - 2
我看到其他人也遇到过类似的问题，但没有一个解决方案对我有用。0.3.14gem与其他gem文件一起存在。我已经完全按照此处指示完成了所有操作:https://github.com/brianmario/mysql2.我仍然得到以下信息。我不知道为什么安装程序指示它找不到include目录，因为我已经检查过它存在。thread.h文件存在，但不在ruby目录中。相反，它在这里:C:\RailsInstaller\DevKit\lib\perl5\5.8\msys\CORE\我正在运行Windows7并尝试在Aptana3中构建我的Rails项目。我的Ruby是1.9.3。$gemin
ruby - 如何使用 ruby mysql2 执行事务 - 2
我已经开始使用mysql2gem。我试图弄清楚一些基本的事情——其中之一是如何明确地执行事务(对于批处理操作，比如多个INSERT/UPDATE查询)。在旧的ruby-mysql中，这是我的方法:client=Mysql.real_connect(...)inserts=["INSERTINTO...","UPDATE..WHEREid=..",#etc]client.autocommit(false)inserts.eachdo|ins|beginclient.query(ins)rescue#handleerrorsorabortentirelyendendclient.commi
ruby-on-rails - gem install rmagick -v 2.13.1 错误 Failed to build gem native extension on Mac OS 10.9.1 - 2
我已经通过提供MagickWand.h的路径尝试了一切，我安装了命令工具。谁能帮帮我？$geminstallrmagick-v2.13.1Buildingnativeextensions.Thiscouldtakeawhile...ERROR:Errorinstallingrmagick:ERROR:Failedtobuildgemnativeextension./Users/ghazanfarali/.rvm/rubies/ruby-1.8.7-p357/bin/rubyextconf.rbcheckingforRubyversion>=1.8.5...yescheckingfor/
ruby 单元测试 : run some code after each failed test - 2
在Test::Unit中的ruby单元测试断言失败后，在执行teardown之前，是否有一些简洁优雅的方法来立即执行我的代码？我正在做一些自动化的GUI测试，并希望在出现问题后立即截图。最佳答案如果您使用的是1.9，请不要使用Test::Unit::TestCase作为您的基类。对其进行子类化并覆盖#run_test以进行救援，截取屏幕截图并重新提出:classMyAbstractTestCase或者，我认为这实际上是最简洁的方法，您可以使用before_teardownHook:classMyTestCase这不适用于1.
ruby-on-rails - 致命 : Peer authentication failed for user "rails" - 2
我正在尝试运行rakedb:create在DigitalOcean服务器上使用postgresql。但是，它返回错误Peerauthenticationfailedforuser"rails"，引用config/database.yml登录凭据的存储位置奇怪的是，当我通过SSH登录服务器时，这些凭据以纯文本形式显示给我。我都试过了密码以纯文本形式显示给我，同样的事情发生了。环境在生产中，我必须手动强制执行，因为应用程序在启动时正在开发中并强制它在config/environments.rb中更改不工作。如果我不得不猜测，我可能会说环境中发生了一些有趣的事情，因为DigitalOcean
ruby-on-rails - 32651 :ERROR comparison of Float with Float failed ruby - 2
我是Rails的新手，我遇到了一个错误，但我似乎找不到问题所在。这是日志:[32651:ERROR]2012-10-0913:46:52::comparisonofFloatwithFloatfailed[32651:ERROR]2012-10-0913:46:52::/home/sunny/backend/lib/analytics/lifetime.rb:45:in`each'/home/sunny/backend/lib/analytics/lifetime.rb:45:in`max'/home/sunny/backend/lib/analytics/lifetime.rb:45
ruby-on-rails - 当我通过 rvm 使用 rails3 时，如何在 ubuntu 上安装 mysql2 gem？ - 2
我正在尝试绕过rails配置这个极其复杂的迷宫。到目前为止，我设法在ubuntu上设置了rvm(出于某种原因，ruby在ubuntu存储库中已经过时了)。我设法建立了一个Rails项目。我希望我的测试项目使用mysql而不是mysqlite。当我尝试“rakedb:migrate”时，出现错误:“!!!缺少mysql2gem。将其添加到您的Gemfile:gem'mysql2'”当我尝试“geminstallmysql”时，出现错误，告诉我需要为安装命令提供参数。但是，参数列表很大，我不知道该选择哪些。如何通过在ubuntu上运行的rvm和mysql获取rails3？谢谢。
ruby-on-rails - 安装 fcgi : Failed to build gem native extension 时出现 Rails 错误 - 2
我正在运行命令bundleinstall在我的Rails项目中，它给出了错误:...Usingactiverecord(3.0.11)Usingactiveresource(3.0.11)Usingbigdecimal(1.1.0)Installingfcgi(0.8.8)withnativeextensionsGem::Installer::ExtensionBuildError:ERROR:Failedtobuildgemnativeextension./home/jjboat/.rvm/rubies/ruby-1.9.3-p194/bin/rubyextconf.rbchecki

mysql - Spark : Reading big MySQL table into DataFrame fails

有关mysql - Spark : Reading big MySQL table into DataFrame fails的更多相关文章

随机推荐