hadoop - Pig - Order by - 不同的 reducer ？

coder 2024-01-07 原文

我是 pig 的新手。我正在尝试进行合并连接。满足以下要求:

Data must be sorted on join keys in ascending (ASC) order on both sides.

示例文件:

4, The Object of Beauty, 1991,2.8,6150 
1, The Nightmare Before Christmas, 1993,3.9,4568 
2, The Mummy, 1932,3.5,4388 
3, Orphans of the Storm, 1921,3.2,9062 
3, Orphans of the Storm, 1921,3.2,9062
4, The Object of Beauty, 1991,2.8,6150 
5, Night Tide, 1963,2.8,5126 
6, One Magic Christmas, 1985,3.8,5333 
7, Muriel's Wedding, 1994,3.5,6323 
8, Mother's Boys, 1994,3.4,5733 
9, Nosferatu: Original Version, 1929,3.5,5651 
10, Nick of Time, 1995,3.4,5333

我在 PIG 中执行了以下命令:

movies = LOAD 'Sample.csv' using PigStorage (',') as (id: int, name, year, rating, duration); 
movies_sorted movies = order by id ASC PARALLEL 3; 
movies_sorted store into 'output_movies';

当我执行时:

hadoop fs-cat ./output2/part-r-00000

我看到，在不同的分区中有具有相同键的记录。例如，我在两个不同的分区中有 ID 为 3 的记录。据我所知，具有相同键的记录应该总是在同一个分区中。 F

有什么问题吗？

最佳答案

在少数情况下，包括 ORDER BY 和倾斜的 JOIN，Pig 将打破 map-reduce 将给定键的所有记录发送到一个 reducer 的惯例。 (请注意，排序的概念已经超出了 map-reduce 范例。)但是，如果您按顺序遍历 reducer 的输出(如 part-r-NNNNN 中的数字所示)，您仍然可以保证)，记录将按照指定的顺序排列。

您可以在 this thread 中阅读更多内容.

关于hadoop - Pig - Order by - 不同的 reducer ？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25045659/

有关hadoop - Pig - Order by - 不同的 reducer ？的更多相关文章

hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
java - 为什么 ruby modulo 与 java/other lang 不同？ - 2
我基本上来自Java背景并且努力理解Ruby中的模运算。(5%3)(-5%3)(5%-3)(-5%-3)Java中的上述操作产生，2个-22个-2但在Ruby中，相同的表达式会产生21个-1-2.Ruby在逻辑上有多擅长这个？模块操作在Ruby中是如何实现的？如果将同一个操作定义为一个web服务，两个服务如何匹配逻辑。最佳答案在Java中，模运算的结果与被除数的符号相同。在Ruby中，它与除数的符号相同。remainder()在Ruby中与被除数的符号相同。您可能还想引用modulooperation.
ruby-on-rails - 在 RSpec 中，如何以任意顺序期望具有不同参数的多条消息？ - 2
RSpec似乎按顺序匹配方法接收的消息。我不确定如何使以下代码工作:allow(a).toreceive(:f)expect(a).toreceive(:f).with(2)a.f(1)a.f(2)a.f(3)我问的原因是a.f的一些调用是由我的代码的上层控制的，所以我不能对这些方法调用添加期望。最佳答案 RSpecspy是测试这种情况的一种方式。要监视一个方法，用allowstub，除了方法名称之外没有任何约束，调用该方法，然后expect确切的方法调用。例如:allow(a).toreceive(:f)a.f(2)a.f(1)
ruby-on-rails - 如何用不同的用户运行nginx主进程 - 2
A/ctohttp://wiki.nginx.org/CoreModule#usermaster进程曾经以root用户运行，是否可以以不同的用户运行nginxmaster进程？最佳答案只需以非root身份运行init脚本(即/etc/init.d/nginxstart)，就可以用不同的用户运行nginxmaster进程。如果这真的是你想要做的，你将需要确保日志和pid目录(通常是/var/log/nginx&/var/run/nginx.pid)对该用户是可写的，并且您所有的listen调用都是针对大于1024的端口(因为绑定(
ruby - 从 sinatra 中的 before do block 返回不同的值 - 2
有没有办法在sinatra的beforedoblock中停止执行并返回不同的值？beforedo#codeishere#Iwouldliketo'return"Message"'#Iwouldlike"/home"tonotgetcalled.end//restofthecodeget'/home'doend 最佳答案 beforedohalt401,{'Content-Type'=>'text/plain'},'Message!'end如果你愿意，你可以只指定状态，这里有状态、标题和正文的例子
ruby-on-rails - Sunspot:如何对具有不同值的多个字段进行全文查询？ - 2
我想用sunspot重现以下原始solr查询q=exact_term_text:fooORterm_textv:foo*ORalternate_text:bar*但我无法通过标准的太阳黑子界面理解这是否可能以及如何实现，因为看起来:fulltext方法似乎不接受多个文本/搜索字段参数我不知道将什么参数作为第一个参数传递给fulltext，就好像我通过了"foo"或"bar"结果不匹配如果我传递一个空参数，我得到一个q=*:*范围过滤器(例如with(:term).starting_with('foo*')(顾名思义)作为过滤器查询应用，因此不参与评分。似乎可以手动编写字符串(或者可能使
ruby - 拆分字符串并分配给不同的变量 - 2
我从ui中得到日期范围为-approved_between"=>"2013-03-17-2013-03-18"我需要拆分此approved_start_date="2013-03-17"和approved_end_date="2013-03-18"...我希望使用它在mysql中查询，因为mysql中的日期格式是created_at:2012-07-2810:35:01.我正在做的是:approved=approved_between.split("")approved_start_date=approved[0]approved_end_date=approved[2]很确定这不是处
ruby - 如果散列有 key ，则使用它。否则，使用不同的 key - 2
response是一个散列，可能看起来像以下两种情况之一:response={'demo'=>'nil','test_01'=>'DemoData'}或response={'test'=>'DemoData','demo'=>'nil'}我想做这样的事情:ifresponse.has_key?'test_01'new_response.update(:nps_score=>response['test_01']elsenew_response.update(:nps_score=>response['test']end是否有更“Ruby”的方法来解决这个问题？也许使用||的东西运算符(
ruby-on-rails - 如何在 Rails 中的不同数据库上执行直接 SQL 代码 - 2
我正在编写一个Rails应用程序，它将监视某些特定数据库的数据质量。为了做到这一点，我需要能够对这些数据库执行直接SQL查询——这当然与用于驱动Rails应用程序模型的数据库不同。简而言之，这意味着我无法使用通过ActiveRecord基础连接的技巧。我需要连接的数据库在设计时是未知的(即:我不能将它们的详细信息放在database.yaml中)。相反，我有一个模型“database_details”，用户将使用它来输入应用程序将在运行时执行查询的数据库的详细信息。因此与这些数据库的连接实际上是动态的，细节仅在运行时解析。最佳答案
ruby - 如何在 Ruby 中将数字分组到不同的桶中 - 2
我有一个文件，每一行都有数字:010110101311010113114311010431420我想要一个包含每个数字出现次数的散列，在这种情况下:{0101=>2,1010=>2,1311=>2,431=>2,420=>1}我该怎么做？最佳答案简单的一行代码，给定一个数组items:items.inject(Hash.new(0)){|hash,item|hash[item]+=1;hash}工作原理:Hash.new(0)创建一个新的Hash，其中访问未定义的键返回0。inject(foo)使用给定的block遍历数组。对于

hadoop - Pig - Order by - 不同的 reducer ？

有关hadoop - Pig - Order by - 不同的 reducer ？的更多相关文章

随机推荐