jjzjj

amazon-web-services - 未设置 Pig 模式元组。不会生成代码

我在googlen-grams数据集上对pig运行了以下命令:inp=LOAD'linktofile'AS(ngram:chararray,year:int,occurences:float,books:float);filter_input=FILTERinpBY(occurences>=400)AND(books>=8);groupinp=GROUPfilter_inputBYngram;sum_occ=FOREACHgroupinpGENERATEFLATTEN(group)asngram,SUM(filter_input.occurences)/SUM(filter_input

hadoop - 为了加快配置单元进程,如何使用 tez 调整映射器和缩减器数量

我尝试使用tez处理大数据(约150GB)的过程(句子的单词标签),但问题是它花了很多时间(1周或更多),然后我试图指定映射器的数量。虽然我设置了mapred.map.tasks=2000,但我无法阻止mapper被设置为150左右,所以我不能做我想做的事。我在oozie工作流文件中指定映射值并使用tez。如何指定映射器的数量?最后想加快进程,不用tez也可以。另外,我想用reducer统计标记的句子,也很花时间。而且,我还想知道如何调整内存大小以使用每个映射器和缩减器进程。 最佳答案 Inordertomanuallysetthe

java - 使用 hadoop 的 Apache Tez 配置

这是我所做的简而言之:第1步:我已经在笔记本电脑(单节点)上成功配置了hadoop2.6并运行了一个示例mapreduce作业。第2步:我克隆了tez存储库并成功构建了0.8.0版本并将jar文件复制到HDFS并导出了所需的变量。我还在mapred-site.xml中将变量mapreduce.framework.name的值更改为yarn-tez。但是当我想运行一个tezorderedwordcount作业时,我得到了这个错误:15/07/0418:45:03INFOipc.Client:Retryingconnecttoserver:hostname/hostIP:57339.Alr

hadoop - 记录对于内存缓冲区来说太大。通过 TEZ 使用 Hive 的 ORC 表时出错

我们正在尝试从HIVE(1.2.1)中的“ORC”表中读取数据,并将该数据放入带有“TextInputFormat”的表中。原始数据中的某些条目太大,在运行过程中出现以下错误:org.apache.hadoop.hive.ql.metadata.HiveException:org.apache.tez.runtime.library.common.sort.impl.ExternalSorter$MapBufferTooSmallException:Recordtoolargeforin-memorybuffer.Exceededbufferoverflowlimit,bufferOv

hadoop - 纱容器尺寸和 Tez 容器管理

我有一个集群,其中包含大约15TB的yarn资源。我正在尝试通过Hive提交查询。我在yarn上的默认容器大小是4GB。为该查询分配的映射器数量约为1000。我的yarn队列中总共分配了10%的资源。因此在单个时间点只会分配430个Container。每个映射器总共分配了1个容器。HDFS上的block大小为128MB。我如何优化查询。 最佳答案 您已经提到了内存设置,这听起来不错,因此您接下来优化查询的步骤(因为您没有提供)是AdditionallytunetheTezcontainers使您的HDFS输入文件的大小接近HDFSb

hadoop - 使用 Hive、Tez 和偏移量执行查询

我正在尝试在试图排除特定记录的配置单元中执行偏移量查询,但总是收到以下错误:查询:select*fromsampleorderbyidlimit1OFFSET1;错误:FAILED:ParseExceptionline1:41missingEOFat'OFFSET'near'1'我尝试按照SO帖子中的建议删除表并重新创建它,但仍然遇到相同的错误。此外,我已经在配置单元中设置了TEZ引擎以加快数据处理速度,但上述查询会启动mapreduce作业。为什么会这样?当我执行另一个查询时,它通过TEZ引擎给我直接结果。任何人都可以向我解释这种奇怪的行为以及解决我的问题吗?环境:1)Clouder

java - slave VM 从 slaves 列表中删除,并且仍然被 Yarn/Tez 访问

所以我从从属虚拟机列表中删除了vm4,当我运行以下命令时它不会访问它hdfsdfsadmin-report结果是:ubuntu@anmol-vm1-new:~$hdfsdfsadmin-report15/12/1406:56:12WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableConfiguredCapacity:1268169326592(1.15TB)PresentCapacity:1199270457

hadoop - Tez Pushdown Predicate 上的 Hive 在分区表上使用窗口函数的 View 中不起作用

在Tez上使用Hive针对此View运行此查询会导致全表扫描,即使在regionid和id上存在分区也是如此。ClouderaImpala中的这个查询需要0.6秒才能完成,而使用HortonworksDataPlatform和Tez上的Hive则需要800秒。我得出的结论是,在Tez上的Hive中使用窗口函数可以防止谓词被下推到内部选择,从而导致全表扫描。CREATEVIEWlatestpositionASWITHt1AS(SELECT*,ROW_NUMBER()OVER(PARTITIONBYregionid,id,deviceidorderbytsdesc)ASrownosFROM

hadoop - 有了Hive TEZ,Hive的LLAP有什么用?

在我们的项目中,我们将数据从Greenplum数据库加载到HDFS(HIVE)。最近,我了解到Hive2有一个新的包,“LLAP”。我一直对LLAP的概念感到困惑。LLAP的具体用途是什么?当我们已经有了Hive的TEZEngine时,LLAP有什么用呢?我们项目中的一位开发人员告诉我,我们正在使用HiveLLAP将数据加载到HDFSHive表中。使用LLAP是一种好习惯吗?如果不是,为什么不是?任何人都可以让我清楚地了解上述问题吗? 最佳答案 https://cwiki.apache.org/confluence/display/

hadoop - Hive 查询在 Tez 上无限运行

下面是我尝试在Hive上运行的查询,执行引擎为tez。SELECTA.CITY,A.NAME,B.PRICE,(ROW_NUMBER()OVER(PARTITIONBYA.NAMEORDERBYB.PRICE))ASRNUMFROMTABLE1ALEFTJOINTABLE2BONA.NAME=B.NAMEWHERE(A.COLUMN2>=B.COLUMN3ANDA.COLUMN2当我在Hive中对我的数据运行上述查询时,它会持续运行数小时没有任何结果,但在句法上上述查询是正确的。TABLEA和TABLEB都有数百万条记录。我尝试过更改数据格式、增加容器大小、更改reducer的数量以及