Fetcher : Exceeded MAX_FAILED_UNIQUE_FETCHES 随机播放中的 Hadoop 错误

coder 2024-01-06 原文

我是 hadoop 的新手。我在虚拟机上设置了一个支持 kerberos 安全性的 hadoop 集群(主站和 1 个从站)。我正在尝试从 hadoop 示例“pi”运行作业。作业终止并出现错误 Exceeded MAX_FAILED_UNIQUE_FETCHES。我尝试搜索此错误，但互联网上提供的解决方案似乎对我不起作用。也许我遗漏了一些明显的东西。我什至尝试从 etc/hadoop/slaves 文件中删除从站，以查看该作业是否只能在主站上运行，但也失败并出现相同的错误。下面是日志。我在 64 位 Ubuntu 14.04 虚拟机上运行它。任何帮助表示赞赏。

montauk@montauk-vmaster:/usr/local/hadoop$ sudo -u yarn bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.0.jar pi 2 10
Number of Maps  = 2
Samples per Map = 10
OpenJDK 64-Bit Server VM warning: You have loaded library /usr/local/hadoop/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now.
It's highly recommended that you fix the library with 'execstack -c <libfile>', or link it with '-z noexecstack'.
14/06/05 12:04:43 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Wrote input for Map #0
Wrote input for Map #1
Starting Job
14/06/05 12:04:49 INFO client.RMProxy: Connecting to ResourceManager at /192.168.0.29:8040
14/06/05 12:04:50 INFO hdfs.DFSClient: Created HDFS_DELEGATION_TOKEN token 17 for yarn on 192.168.0.29:54310
14/06/05 12:04:50 INFO security.TokenCache: Got dt for hdfs://192.168.0.29:54310; Kind: HDFS_DELEGATION_TOKEN, Service: 192.168.0.29:54310, Ident: (HDFS_DELEGATION_TOKEN token 17 for yarn)
14/06/05 12:04:50 INFO input.FileInputFormat: Total input paths to process : 2
14/06/05 12:04:51 INFO mapreduce.JobSubmitter: number of splits:2
14/06/05 12:04:51 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1401975262053_0007
14/06/05 12:04:51 INFO mapreduce.JobSubmitter: Kind: HDFS_DELEGATION_TOKEN, Service: 192.168.0.29:54310, Ident: (HDFS_DELEGATION_TOKEN token 17 for yarn)
14/06/05 12:04:53 INFO impl.YarnClientImpl: Submitted application application_1401975262053_0007
14/06/05 12:04:53 INFO mapreduce.Job: The url to track the job: http://montauk-vmaster:8088/proxy/application_1401975262053_0007/
14/06/05 12:04:53 INFO mapreduce.Job: Running job: job_1401975262053_0007
14/06/05 12:05:29 INFO mapreduce.Job: Job job_1401975262053_0007 running in uber mode : false
14/06/05 12:05:29 INFO mapreduce.Job:  map 0% reduce 0%
14/06/05 12:06:04 INFO mapreduce.Job:  map 50% reduce 0%
14/06/05 12:06:06 INFO mapreduce.Job:  map 100% reduce 0%
14/06/05 12:06:34 INFO mapreduce.Job:  map 100% reduce 100%
14/06/05 12:06:34 INFO mapreduce.Job: Task Id : attempt_1401975262053_0007_r_000000_0, Status : FAILED
Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#4
    at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:134)
    at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:376)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:167)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1548)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:162)
Caused by: java.io.IOException: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out.
    at org.apache.hadoop.mapreduce.task.reduce.ShuffleSchedulerImpl.checkReducerHealth(ShuffleSchedulerImpl.java:323)
    at org.apache.hadoop.mapreduce.task.reduce.ShuffleSchedulerImpl.copyFailed(ShuffleSchedulerImpl.java:245)
    at org.apache.hadoop.mapreduce.task.reduce.Fetcher.copyFromHost(Fetcher.java:347)
    at org.apache.hadoop.mapreduce.task.reduce.Fetcher.run(Fetcher.java:165)

最佳答案

当我使用 tarball 安装具有 kerberos 安全性的 cdh5.1.0 时，我遇到了与您相同的问题，谷歌找到的解决方案是内存不足，但我不认为这是我的情况，因为我的输入非常小 (52K)。

经过几天的挖掘，我在 this link 中找到了根本原因.

总结该链接中的解决方案可以是:

在 yarn-site.xml 中添加以下属性，即使它是 yarn-default.xml 中的默认属性

<property> <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property>
删除属性 yarn.nodemanager.local-dirs 并使用默认值/tmp。然后执行以下命令:

mkdir -p /tmp/hadoop-yarn/nm-local-dir chown yarn:yarn /tmp/hadoop-yarn/nm-local-dir

问题可以总结为:

设置yarn.nodemanager.local-dirs属性后，yarn-default.xml中的yarn.nodemanager.aux-services.mapreduce_shuffle.class属性没有工作。

我还没有找到根本原因。

关于Fetcher : Exceeded MAX_FAILED_UNIQUE_FETCHES 随机播放中的 Hadoop 错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24066128/

有关Fetcher : Exceeded MAX_FAILED_UNIQUE_FETCHES 随机播放中的 Hadoop 错误的更多相关文章

ruby-on-rails - 错误 : Error installing pg: ERROR: Failed to build gem native extension - 2
我克隆了一个rails仓库，我现在正尝试捆绑安装背景:OSXElCapitanruby2.2.3p173(2015-08-18修订版51636)[x86_64-darwin15]rails-v在您的Gemfile中列出的或native可用的任何gem源中找不到gem'pg(>=0)ruby'。运行bundleinstall以安装缺少的gem。bundleinstallFetchinggemmetadatafromhttps://rubygems.org/............Fetchingversionmetadatafromhttps://rubygems.org/...Fe
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby - 如何在 Ruby 中生成一个非常大的随机整数？ - 2
我想在ruby中生成一个64位整数。我知道在Java中你有很多渴望，但我不确定你会如何在Ruby中做到这一点。另外，64位数字中有多少个字符？这是我正在谈论的示例......123456789999。@num=Random.rand(9000)+Random.rand(9000)+Random.rand(9000)但我认为这是非常低效的，必须有一种更简单、更简洁的方法来做到这一点。谢谢! 最佳答案 rand可以将范围作为参数:pa=rand(2**32..2**64-1)#=>11093913376345012184putsa.
ruby-on-rails - gem install rmagick -v 2.13.1 错误 Failed to build gem native extension on Mac OS 10.9.1 - 2
我已经通过提供MagickWand.h的路径尝试了一切，我安装了命令工具。谁能帮帮我？$geminstallrmagick-v2.13.1Buildingnativeextensions.Thiscouldtakeawhile...ERROR:Errorinstallingrmagick:ERROR:Failedtobuildgemnativeextension./Users/ghazanfarali/.rvm/rubies/ruby-1.8.7-p357/bin/rubyextconf.rbcheckingforRubyversion>=1.8.5...yescheckingfor/
ruby 单元测试 : run some code after each failed test - 2
在Test::Unit中的ruby单元测试断言失败后，在执行teardown之前，是否有一些简洁优雅的方法来立即执行我的代码？我正在做一些自动化的GUI测试，并希望在出现问题后立即截图。最佳答案如果您使用的是1.9，请不要使用Test::Unit::TestCase作为您的基类。对其进行子类化并覆盖#run_test以进行救援，截取屏幕截图并重新提出:classMyAbstractTestCase或者，我认为这实际上是最简洁的方法，您可以使用before_teardownHook:classMyTestCase这不适用于1.
ruby-on-rails - 多次选择一个随机数，但绝不会两次选择相同的随机数 - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:HowdoIgeneratealistofnuniquerandomnumbersinRuby?我想做的事:Random.rand(0..10).timesdoputsRandom.rand(0..10)end但如果随机数已经显示过，则无法再次显示。如何最轻松地做到这一点？
ruby - 以随机顺序将数组拆分为多个数组 - Ruby - 2
我试图在每次运行时以随机顺序将一个名称数组拆分为多个数组。我知道如何拆分它们:name_array=["bob","john","rob","nate","nelly","michael"]array=name_array.each_slice(2).to_a=>[["bob","john"],["rob","nate"],["nelly","michael"]]但是，如果我希望它每次都以随机顺序吐出它们怎么办？最佳答案在做同样的事情之前，打乱数组。(Array#shuffle)name_array.shuffle.each_s
ruby-on-rails - 致命 : Peer authentication failed for user "rails" - 2
我正在尝试运行rakedb:create在DigitalOcean服务器上使用postgresql。但是，它返回错误Peerauthenticationfailedforuser"rails"，引用config/database.yml登录凭据的存储位置奇怪的是，当我通过SSH登录服务器时，这些凭据以纯文本形式显示给我。我都试过了密码以纯文本形式显示给我，同样的事情发生了。环境在生产中，我必须手动强制执行，因为应用程序在启动时正在开发中并强制它在config/environments.rb中更改不工作。如果我不得不猜测，我可能会说环境中发生了一些有趣的事情，因为DigitalOcean
ruby-on-rails - 32651 :ERROR comparison of Float with Float failed ruby - 2
我是Rails的新手，我遇到了一个错误，但我似乎找不到问题所在。这是日志:[32651:ERROR]2012-10-0913:46:52::comparisonofFloatwithFloatfailed[32651:ERROR]2012-10-0913:46:52::/home/sunny/backend/lib/analytics/lifetime.rb:45:in`each'/home/sunny/backend/lib/analytics/lifetime.rb:45:in`max'/home/sunny/backend/lib/analytics/lifetime.rb:45

Fetcher : Exceeded MAX_FAILED_UNIQUE_FETCHES 随机播放中的 Hadoop 错误

有关Fetcher : Exceeded MAX_FAILED_UNIQUE_FETCHES 随机播放中的 Hadoop 错误的更多相关文章

随机推荐