Hadoop 组合器 : Using same reducer code as combiner in a word count mapreduce program?

coder 2024-01-09 原文

这个问题特别来自认证机构的实践测试，对我来说没有意义。谁能帮忙？

问题:
映射器发出键和值对的字数问题，其中每个词作为键，文字 1 作为值发出。然后，reducer 为它接收到的每个文字“1”递增一个计数器。 qn 是“我们可以使用现有的 reducer 代码作为组合器吗”？

正确答案描述为。 "is"，我们可以，因为求和任务是可交换和结合的。

但我的理解是，答案应该是“否”，因为这两种情况会导致两个不同的答案。而且我相信只有在我们采用另一种方法将计数器增加它接收到的值而不是“为它接收到的每个文字 1 增加一个计数器”时，才能使用相同的 reducer 和 combiner 代码。

举个例子让我们先考虑一个没有组合器的假设情况例如假设 map1 o/p 是 (to,1), (to,1) 和 map2 o/p 是 (to,1) 然后 i/p to reducer 变为 (to, [1,1,1]) reducer o/p 然后变为 (to,3)

但是对于组合器，当 map1 o/p 被馈送到组合器时，组合器 o/p 变为 (to,2)。 reducer i/p 现在变为 (to, [2,1])。然后在 reducer 中，我们只增加计数器，并且只为每个文字 1 值增加，即我们丢弃文字 2，然后 o/p 变成 (to,1)

有了组合器，o/p 是 (to,1)，没有组合器，我们看到 o/p 是 (to,3)。

请帮助我，如果我在这方面有什么问题或者其他方面有问题？

提前感谢您的回答，比卡尔巴斯内特

最佳答案

您的理解是正确的，但是在经典的 MapReduce 字数统计应用中，reducer 可以用作组合器。查看 WordCount 中的第 37 行.它是:

sum += val.get();

而不是:

sum += 1;

关于Hadoop 组合器 : Using same reducer code as combiner in a word count mapreduce program?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21664252/

有关Hadoop 组合器 : Using same reducer code as combiner in a word count mapreduce program?的更多相关文章

hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby - 最多 n 的组合 - 2
给定一个数组a，什么是实现其组合直到第n的最佳方法？例如:a=%i[abc]n=2#Expected=>[[],[:a],[:b],[:c],[:a,b],[:b,:c],[:c,:a]] 最佳答案做如下:a=%w[abc]n=30.upto(n).flat_map{|i|a.combination(i).to_a}#=>[[],["a"],["b"],["c"],["a","b"],#["a","c"],["b","c"],["a","b","c"]] 关于ruby-最多n的组合，我
ruby - Rails 组合多个 activerecord 关系 - 2
我想合并多个事件记录关系例如，apple_companies=Company.where("namelike?","%apple%")banana_companies=Company.where("namelike?","%banana%")我想结合这两个关系。不是合并，合并是apple_companies.merge(banana_companies)=>Company.where("namelike?andnamelike?","%apple%","%banana%")我要Company.where("名字像？还是名字像？","%apple%","%banana%")之后，我会写代
ruby - 如何在 ruby 中组合/排列？ - 2
我有一个熟悉的问题，看起来像是数学世界的排列/组合。如何通过ruby实现以下目标？badges="1-2-3"badge_cascade=[]badges.split("-").eachdo|b|badge_cascade["1","2","3"]ButIwantittobeis:=>["1","2","3","1-2","2-3","3-1","2-1","3-2","1-3","1-2-3","2-3-1","3-1-2"] 最佳答案函数式方法:bs="1-2-3".split("-")strings=1.upto(bs.
ruby - 更快的 n 选择 k 来组合数组 ruby - 2
在尝试解决“网格上的路径”问题时，我编写了代码defpaths(n,k)p=(1..n+k).to_ap.combination(n).to_a.sizeend代码工作正常，例如ifn==8andk==2代码返回45，这是正确的路径数。但是，当使用较大的数字时，代码非常慢，我正在努力想出如何加快这个过程。最佳答案与其构建组合数组只是为了计算它，不如编写function定义组合的数量。我敢肯定还有包含此功能和许多其他组合函数的gem。请注意，我使用的是gemDistribution对于Math.factorial方法，但这是另一种
ruby-on-rails - Ruby 哈希组合 - 2
对于一个电子商务应用程序，我试图将选项的散列(每个选项都有一系列选择)转换为代表这些选择组合的散列数组。例如:#Input:{:color=>["blue","grey"],:size=>["s","m","l"]}#Output:[{:color=>"blue",:size=>"s"},{:color=>"blue",:size=>"m"},{:color=>"blue",:size=>"m"},{:color=>"grey",:size=>"s"},{:color=>"grey",:size=>"m"},{:color=>"grey",:size=>"m"}]Input内部可能有额
ruby - 为什么 Ruby 的 splat 在组合数组时比使用 + 组合数组慢？ - 2
我大胆猜测将一个数组拼成另一个数组比将两个数组加在一起更快，但经过快速基准测试后我发现我错了。我假设解释器只会将splat转换为数组文字，而不必每次都对其调用+方法。那么，为什么+比splat更快？我使用了这个基准代码:deftest(trials=1000)head=[1,2,3]tail=100.times.to_at=Time.now.to_ftrials.timesdo|i|a=[head,*tail]endputs"splatdonein#{Time.now.to_f-t}"t=Time.now.to_ftrials.timesdo|i|a=head+tailendputs"
ruby - Ruby 的排序方法如何与组合比较(宇宙飞船)运算符一起工作？ - 2
这里是初级程序员，只是想了解Ruby背后的过程sort使用飞船操作符时的方法.希望有人能帮忙。在以下内容中:array=[1,2,3]array.sort{|a,b|ab}...我明白sort一次比较一对数字，然后返回-1如果a属于b之前,0如果它们相等，或者1如果a应该遵循b.但是在降序排序的情况下，像这样:array.sort{|a,b|ba}...到底发生了什么？是否sort还是比较ab然后翻转结果？或者它是在解释return的-1,0和1具有相反的行为？换句话说，为什么要像这样将变量放在block中:array.sort{|b,a|ba}...结果与第一个示例中的排序模式相同？
ruby-on-rails - 如何针对组合字段的唯一性对这种复杂的验证进行建模 - 2
link有两个组件:componenta_id和componentb_id。为此，在Link模型文件中我有:belongs_to:componenta,class_name:"Component"belongs_to:componentb,class_name:"Component"validates:componenta_id,presence:truevalidates:componentb_id,presence:truevalidates:componenta_id,uniqueness:{scope::componentb_id}validates:componentb_id
大数据之Hadoop数据仓库Hive - 2
目录：一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类SQL查询功能，用于查询的SQL语句会被转化为MapReduce作业，然后提交到Hadoop上运行。特点：简单、容易上手(提供了类似sql的查询语言hql)，使得精通sql但是不了解Java编程的人也能很好地进行大数据分析；灵活性高，可以自定义用户函数(UDF)和

Hadoop 组合器 : Using same reducer code as combiner in a word count mapreduce program?

有关Hadoop 组合器 : Using same reducer code as combiner in a word count mapreduce program?的更多相关文章

随机推荐