python - 如何为 Amazon EMR 上的 Hadoop Streaming 作业加载额外的 JAR

coder 2024-01-07 原文

长话短说

我如何上传或指定额外的 JAR 到 Amazon Elastic MapReduce (Amazon EMR) 上的 Hadoop 流作业？

长版

我想分析一组Avro文件(> 2000 个文件)在 Amazon Elastic MapReduce (Amazon EMR) 上使用 Hadoop。这应该是一个简单的练习，通过它我应该对 MapReduce 和 Amazon EMR 有一定的信心(我对这两个都是新手)。

因为 python 是我最喜欢的语言，所以我决定使用 Hadoop Streaming .我在 python 中构建了一个简单的映射器和缩减器，并在本地 Hadoop(单节点安装)上对其进行了测试。我在本地 Hadoop 安装上发出的命令是这样的:

$HADOOP_PREFIX/bin/hadoop jar $HADOOP_PREFIX/share/hadoop/tools/lib/hadoop-streaming-2.4.0-amzn-1.jar \
                  -files avro-1.7.7.jar,avro-mapred-1.7.7.jar \
                  -libjars avro-1.7.7.jar,avro-mapred-1.7.7.jar \
                  -input "input" \
                  -mapper "python2.7 $PWD/mapper.py"  \
                  -reducer "python2.7 $PWD/reducer.py" \
                  -output "output/outdir" \
                  -inputformat org.apache.avro.mapred.AvroAsTextInputFormat

作业成功完成。

我在 Amazon S3 上有一个存储桶，其中一个文件夹包含所有输入文件，另一个文件夹包含映射器和缩减器脚本(分别为 mapper.py 和 reducer.py ).

使用界面我创建了一个小集群，然后我添加了一个 bootstrap action在每个节点上安装所有必需的 python 模块，然后我添加了一个 "Hadoop Streaming" step指定映射器和缩减器脚本在 S3 上的位置。

问题是我对如何上传或在选项中指定两个 JAR - avro-1.7.7.jar 和 一无所知avro-mapred-1.7.7.jar - 运行此作业需要吗？

我试过几种方法:

在可选参数中结合使用 -files 标志和 -libjars；
添加另一个在每个节点上下载 JAR 的引导操作(我已经尝试在节点上的不同位置下载它)；
我已尝试将 JAR 文件上传到我的存储桶并指定完整的 s3://... 路径作为 -libjars 的参数(注意:这些文件是被 Hadoop 主动忽略，并发出警告)在选项中；

如果我不传递这两个 JAR，作业就会失败(它无法识别 -inputformat 类)，但我已经尝试了所有的可能性(及其组合!)我能想到的无济于事。

最佳答案

最后，我弄明白了(当然，这是显而易见的):

这是我的做法:

添加一个在每个节点上下载 JAR 的引导操作，例如，您可以将 JAR 上传到您的存储桶中，将它们公开，然后执行:

wget https://yourbucket/path/somejar.jar -O $HOME/somejar.jar
wget https://yourbucket/path/avro-1.7.7.jar -O $HOME/avro-1.7.7.jar
wget https://yourbucket/path/avro-mapred-1.7.7.jar -O $HOME/avro-mapred-1.7.7.jar

当您在可选参数中指定 -libjars 时使用绝对路径，因此:

-libjars /home/hadoop/somejar.jar,$HOME/avro-1.7.7.jar,/home/hadoop/avro-mapred-1.7.7.jar

我已经浪费了很多时间，我很惭愧地说，希望这对其他人有帮助。

编辑(2015 年 2 月 10 日)

我已经仔细检查过，我想指出的是，当传递到可选参数字段时，环境变量似乎没有扩展。因此，使用明确的 $HOME 路径(即 /home/hadoop)

编辑(2015 年 2 月 11 日)

如果您想使用 AWS cli 在 Amazon EMR 上启动流作业，您可以使用以下命令。

aws emr create-cluster  --ami-version '3.3.2' \
                        --instance-groups InstanceGroupType=MASTER,InstanceCount=1,InstanceType='m1.medium' InstanceGroupType=CORE,InstanceCount=2,InstanceType='m3.xlarge' \
                        --name 'TestStreamingJob' \
                        --no-auto-terminate \
                        --log-uri 's3://path/to/your/bucket/logs/' \
                        --no-termination-protected \
                        --enable-debugging \
                        --bootstrap-actions Path='s3://path/to/your/bucket/script.sh',Name='ExampleBootstrapScript' Path='s3://path/to/your/bucket/another_script.sh',Name='AnotherExample' \
                        --steps file://./steps_test.json

并且您可以在 JSON 文件中指定步骤:

[
 {
  "Name": "Avro",
  "Args": ["-files","s3://path/to/your/mapper.py,s3://path/to/your/reducer.py","-libjars","/home/hadoop/avro-1.7.7.jar,/home/hadoop/avro-mapred-1.7.7.jar","-inputformat","org.apache.avro.mapred.AvroAsTextInputFormat","-mapper","mapper.py","-reducer","reducer.py","-input","s3://path/to/your/input_directory/","-output","s3://path/to/your/output_directory/"],
  "ActionOnFailure": "CONTINUE",
  "Type": "STREAMING"
 }
]

(请注意 official Amazon documentation 有点过时，事实上它使用旧的 Amazon EMR CLI 工具 deprecated 支持更新的 AWS CLI )

关于python - 如何为 Amazon EMR 上的 Hadoop Streaming 作业加载额外的 JAR，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28387499/

何为 Streaming code 34 avro python hadoop jar amazon-emr

有关python - 如何为 Amazon EMR 上的 Hadoop Streaming 作业加载额外的 JAR的更多相关文章

python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby - 如何为 emacs 安装 ruby-mode - 2
我刚刚为fedora安装了emacs。我想用emacs编写ruby。为ruby提供代码提示、代码完成类型功能所需的工具、扩展是什么？最佳答案 ruby-mode已经包含在Emacs23之后的版本中。不过，它也可以通过ELPA获得。您可能感兴趣的其他一些事情是集成RVM、feature-mode(Cucumber)、rspec-mode、ruby-electric、inf-ruby、rinari(用于Rails)等。这是我当前用于Ruby开发的Emacs配置:https://github.com/citizen428/emacs
ruby - 如何在续集中重新加载表模式？ - 2
鉴于我有以下迁移:Sequel.migrationdoupdoalter_table:usersdoadd_column:is_admin,:default=>falseend#SequelrunsaDESCRIBEtablestatement,whenthemodelisloaded.#Atthispoint,itdoesnotknowthatusershaveais_adminflag.#Soitfails.@user=User.find(:email=>"admin@fancy-startup.example")@user.is_admin=true@user.save!ende
ruby-on-rails - date_field_tag，如何设置默认日期？ [ rails 上的 ruby ] - 2
我想设置一个默认日期，例如实际日期，我该如何设置？还有如何在组合框中设置默认值顺便问一下，date_field_tag和date_field之间有什么区别？最佳答案试试这个:将默认日期作为第二个参数传递。youcorrectlysetthedefaultvalueofcomboboxasshowninyourquestion. 关于ruby-on-rails-date_field_tag，如何设置默认日期？[rails上的ruby]，我们在StackOverflow上找到一个类似的问
ruby-on-rails - openshift 上的 rails 控制台 - 2
我将我的Rails应用程序部署到OpenShift，它运行良好，但我无法在生产服务器上运行“Rails控制台”。它给了我这个错误。我该如何解决这个问题？我尝试更新rubygems，但它也给出了权限被拒绝的错误，我也无法做到。railsc错误:Warning:You'reusingRubygems1.8.24withSpring.UpgradetoatleastRubygems2.1.0andrun`gempristine--all`forbetterstartupperformance./opt/rh/ruby193/root/usr/share/rubygems/rubygems
ruby - RuntimeError(自动加载常量 Apps 多线程时检测到循环依赖 - 2
我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样？我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用，需要1秒才能返回，我有100,000多个页面要访问，所以我试图运行多个线程来解决这个问题。有更好的方法吗？classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("
ruby-on-rails - 相关表上的范围为 "WHERE ... LIKE" - 2
我正在尝试从Postgresql表(table1)中获取数据，该表由另一个相关表(property)的字段(table2)过滤。在纯SQL中，我会这样编写查询:SELECT*FROMtable1JOINtable2USING(table2_id)WHEREtable2.propertyLIKE'query%'这工作正常:scope:my_scope,->(query){includes(:table2).where("table2.property":query)}但我真正需要的是使用LIKE运算符进行过滤，而不是严格相等。然而，这是行不通的:scope:my_scope,->(que
ruby-on-rails - 使用 config.threadsafe 时从 lib/加载模块/类的正确方法是什么!选项？ - 2
我一直致力于让我们的Rails2.3.8应用程序在JRuby下正确运行。一切正常，直到我启用config.threadsafe!以实现JRuby提供的并发性。这导致lib/中的模块和类不再自动加载。使用config.threadsafe!启用:$rubyscript/runner-eproduction'pSim::Sim200Provisioner'/Users/amchale/.rvm/gems/jruby-1.5.1@web-services/gems/activesupport-2.3.8/lib/active_support/dependencies.rb:105:in`co
Python 相当于 Perl/Ruby ||= - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意，但是谷歌搜索||=并不是很有帮助；)Python中是否有与Ruby和Perl中的||=语句等效的语句？例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外，类似这样的东西的通用术语是什么？条件分配是我的第一个猜测，但Wikipediapage跟我想的不太一样。
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

python - 如何为 Amazon EMR 上的 Hadoop Streaming 作业加载额外的 JAR

有关python - 如何为 Amazon EMR 上的 Hadoop Streaming 作业加载额外的 JAR的更多相关文章

随机推荐