dictionary - 当 reduce 任务较少时，Hadoop reduce 变慢

coder 2024-01-06 原文

当我对 Hadoop 进行一些性能调整时，我遇到了一个非常奇怪的情况。我正在运行一个具有大量中间输出的作业(例如没有组合器的 InvertedIndex 或 WordCount)，网络和计算资源都是同质的。根据 mapreduce 的工作原理，当 reduce 任务的 WAVES 越多时，整体运行时间应该越慢，因为 map 和 shuffle 之间的重叠越少，但事实并非如此。事实证明，具有 5 个 WAVES 任务的作业比只有一个 WAVE 任务的作业快大约 10%。而且我检查了日志，事实证明当reduce任务较少时map任务的执行时间较长，而且当任务较少时reduce阶段的整体计算时间(不是shuffle或merge)较长。我试图通过将 reduce 慢启动因子设置为 1 来排除其他因素，以便 map 和 shuffle 之间没有重叠，我还将它限制为只有一个同时执行的 reduce 任务，因此没有重叠在reduce任务之间，我修改了scheduler，强制mapper和reducer在不同的机器上定位，这样就不会出现I/O拥塞。即使采用上述方法，同样的事情仍然会发生。 (我还设置了 map 内存缓冲区足够大，io.sort.factor 设置为 32 甚至更大，io.sort.mb 相应地大于 320)

我真的想不出任何其他导致这个问题的原因，所以任何建议将不胜感激!

为了防止混淆，我遇到的问题是:

<强>0。我正在比较在所有其他相同配置下同一作业运行 1 个 reduce 任务与 5 个 reduce 任务的性能。 reduce计算只有一个tasktracker。

<强>1。在这两种情况下，我都通过只有一个用于 redcue 任务的 tasktracker 和 mapred.tasktracker.reduce.tasks.maximum=1 强制执行所有 reduce 任务，因此在 reduce 阶段不会有任何并行性

<强>2。我已经设置了 mapred.reduce.slowstart.completed.maps=1 所以在所有 map 完成之前，没有任何 reducer 会开始拉取数据

<强>3。事实证明，有一个 reduce 任务比有 5 个连续的 reduce 任务要慢!

<强>4。即使我设置 set mapred.reduce.slowstart.completed.maps=0.05 以允许 map 和 shuffle 之间的重叠，(因此当只有一个 reduce 任务时，重叠应该更多并且它应该运行得更快，因为 5 reduce 任务正在顺序执行)5-reduce-task 仍然比 1-reduce 任务快，1-reduce 任务的映射阶段变得更慢!

最佳答案

这不是问题。您拥有的 reduce 任务越多，您的数据处理速度就越快。

map 阶段的输出被发送到 reducers 。如果您有两个 reducer ，则负载会在两个 reducer 之间分配。

在 wordcount 示例中，您将有两个单独的文件，它们之间有计数。因此，如果您有很多 reduce 任务，则必须手动添加总数，或者运行另一个 map reduce 作业来计算总数。

关于dictionary - 当 reduce 任务较少时，Hadoop reduce 变慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10392990/

reduce 少时 section strong dictionary hadoop configuration shuffle

有关dictionary - 当 reduce 任务较少时，Hadoop reduce 变慢的更多相关文章

ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby - 如何使用 RSpec::Core::RakeTask 创建 RSpec Rake 任务？ - 2
如何使用RSpec::Core::RakeTask初始化RSpecRake任务？require'rspec/core/rake_task'RSpec::Core::RakeTask.newdo|t|#whatdoIputinhere?endInitialize函数记录在http://rubydoc.info/github/rspec/rspec-core/RSpec/Core/RakeTask#initialize-instance_method没有很好的记录；它只是说:-(RakeTask)initialize(*args,&task_block)AnewinstanceofRake
ruby-on-rails - Rake 任务仅调用一次时执行两次 - 2
我写了一个非常简单的rake任务来尝试找到这个问题的根源。namespace:foodotaskbar::environmentdoputs'RUNNING'endend当在控制台中执行rakefoo:bar时，输出为:RUNNINGRUNNING当我执行任何rake任务时会发生这种情况。有没有人遇到过这样的事情？编辑上面的rake任务就是写在那个.rake文件中的所有内容。这是当前正在使用的Rakefile。requireFile.expand_path('../config/application',__FILE__)OurApp::Application.load_tasks这里
ruby - 帮助使用 Ruby 中的 "Whenever"gem 来执行 cron 任务 - 2
我以前没有使用过cron，所以我不能确定我这样做是对的。我想要自动化的任务似乎没有运行。我在终端中执行了这些步骤:sudogeminstall每当切换到应用程序目录无论何时。(这创建了文件schedule.rb)我将此代码添加到schedule.rb:every10.minutesdorunner"User.vote",environment=>"development"endevery:hourdorunner"Digest.rss",:environment=>"development"end我将此代码添加到deploy.rb:after"deploy:symlink","depl
ruby - 在 rake 任务中运行 capybara - 2
如何在Rake任务中运行Capybara功能？例如:访问('http://google.com')谢谢! 最佳答案在任务中尝试这样的事情:require'capybara'require'capybara/dsl'Capybara.current_driver=:seleniumBrowser=Class.new{includeCapybara::DSL}page=Browser.new.pagepage.visit("http://www.google.com")puts(page.html)
ruby - 在 Rakefile 中动态生成 Rake 测试任务(基于现有的测试文件) - 2
我正在根据Rakefile中的现有测试文件动态生成测试任务。假设您有各种以模式命名的单元测试文件test_.rb.所以我正在做的是创建一个以“测试”命名空间内的文件名命名的任务。使用下面的代码，我可以用raketest:调用所有测试require'rake/testtask'task:default=>'test:all'namespace:testdodesc"Runalltests"Rake::TestTask.new(:all)do|t|t.test_files=FileList['test_*.rb']endFileList['test_*.rb'].eachdo|task|n
ruby-on-rails - 使用 Rspec 测试 rake 任务不接受参数 - 2
根据thispostbyStephenHagemann，我正在尝试为我的一个rake任务编写Rspec测试.lib/tasks/retry.rake:namespace:retrydotask:message,[:message_id]=>[:environment]do|t,args|TextMessage.new.resend!(args[:message_id])endendspec/tasks/retry_spec.rb:require'rails_helper'require'rake'describe'retrynamespaceraketask'dodescribe're
ruby-on-rails - 在 gem 的 rake 任务中需要 gem - 2
我正在使用jeweler为Rails3创建一个gem。该gem包含一个rake任务，它所做的其中一件事是删除数据库，所以我正在使用“database_cleaner”。我在gem的Gemfile中指定gem依赖项gem'database_cleaner'在Rakefile中Jeweler::Tasks.newdo|gem|...gem.add_dependency'database_cleaner'end然后在lib中我创建了文件my_gem.rb和tasks.rake。如下，my_gem.rb:moduleMyGemclassRailtie和tasks.rake:task:my_ta
ruby-on-rails - 在调用 Rake 任务时设置多个环境变量 - 2
我可以像这样调用一个Rake任务并设置一个环境变量:$ONE=1raketemp:both但是如何设置两个环境变量呢？这行不通:$ONE=1TWO=2raketemp:both这行得通，但读起来很困惑:$ONE=1raketemp:bothTWO=2如何在调用rake之前传递多个环境？最佳答案同意@Ernest；它应该工作。这是一个示例...示例rake任务以回显变量:task:echo_envdoputs"VAR1:#{ENV['VAR1']}"puts"VAR2:#{ENV['VAR2']}"end执行任务:VAR1=fir
ruby - 如何让 Ruby 每 10 分钟运行一次任务？ - 2
我想每10分钟执行一次cron作业，但我的系统只执行1小时。所以我正在寻找一种方法来做到这一点。我看过Timer和sleep但我不确定如何执行此操作，甚至不知道如何实现此操作。最佳答案看看http://rufus.rubyforge.org/rufus-scheduler/rufus-scheduler是一个用于调度代码片段(作业)的Rubygem。它了解在特定时间、在特定时间、每x次或仅通过CRON语句运行作业。rufus-scheduler不能替代cron/at，因为它在Ruby内部运行。

dictionary - 当 reduce 任务较少时，Hadoop reduce 变慢

有关dictionary - 当 reduce 任务较少时，Hadoop reduce 变慢的更多相关文章

随机推荐