jjzjj

HCatalog

全部标签

hadoop - 在 HDP Hue Pig UI 中运行任何 Pig 作业时出错。错误 : "Please initialize HIVE_HOME"

当我尝试从HuePigUI启动PigScriptJob时,进程会启动一个作业,然后进度条在那里停留1-3分钟并最终变成红色,唯一的输出是:“PleaseinitializeHIVE_HOME”我尝试运行的Pig脚本来自PigvalidationintheHDPinstallationmanual.pig脚本:A=使用PigStorage(':')加载'passwd';B=foreachA生成\$0作为id;将B存入'/tmp/id.out';我正在尝试让Hortonworks数据平台的Hue版本(v2.3,根据他们的website)运行PigScriptUI。我正在手动执行此操作,使用

hadoop - Oozie 4.0.0 构建错误 - 无法解析 hcatalog 依赖项

Hadoop版本-1.2.1Maven版本-3.0.5配置单元版本-0.14.0pig版本-0.14.0当我开始使用以下命令构建oozie时./mkdistro.sh-DskipTests我得到以下错误[INFO]ApacheOozieShareLibSqoop......................SKIPPED[INFO]ApacheOozieShareLibStreaming..................SKIPPED[INFO]ApacheOozieShareLibDistcp.....................SKIPPED[INFO]ApacheOozieW

hadoop - 何时使用 Hcatalog 以及它的好处是什么

我是Hcatlog(HCAT)的新手,我们想知道我们在哪些用例/场景中使用HCAT,使用HCAT的好处,是否可以从HCatlog中获得任何性能改进。任何人都可以提供有关何时使用Hcatlog的信息 最佳答案 ApacheHCatalog是Hadoop的表和存储管理层,它使使用不同数据处理工具(ApachePig、ApacheMap/Reduce和ApacheHive)的用户能够更轻松地在网格上读取和写入数据。HCatalog在存储在HDFS集群上的数据上创建一个表抽象层。此表抽象层以熟悉的关系格式呈现数据,并使使用熟悉的查询语言概念

hadoop - 在 JobContext 中找不到工作信息

我在远程计算机上运行Java程序并尝试使用RecordReader对象读取拆分数据,但得到的是:Exceptioninthread"main"java.io.IOException:jobinformationnotfoundinJobContext.HCatInputFormat.setInput()notcalled?我已经调用了以下内容:_hcatInputFmt=HCatInputFormat.setInput(_myJob,db,tbl);然后创建RecordReader对象:_hcatInputFmt.createRecordReader(hSplit,taskContex

java - Hadoop 2.4 : java. lang.NoClassDefFoundError:org/apache/hcatalog/mapreduce/InputJobInfo

我已经从Hortonworks升级到最新的Hadoop:Hadoop2.4.0.2.1.2.1-471Subversiongit@github.com:hortonworks/hadoop.git-r9e5db004df1a751e93aa89b42956c5325f3a4482Compiledbyjenkinson2014-05-27T18:57ZCompiledwithprotoc2.5.0Fromsourcewithchecksum9e788148daa5dd7934eb468e57e037b5Thiscommandwasrunusing/usr/lib/hadoop/hadoo

hadoop - PIG UDF 中的表架构

在将数据加载到Hive表之前,我必须在平面文件中格式化数据。CF32|4711|00010101Z|+34.883|98562AS1D|N8594ãä|00|2该文件是管道分隔的,我需要在平面文件的不同列上应用不同的清理和格式化功能。我有Clean_Text、Format_Date、Format_TimeStamp、Format_Integer等多个函数。我的想法是将架构作为构造函数传递给我的UDF,并在pig中调用平面文件上的不同函数。A=LOAD'call_detail_records'USINGorg.apache.hcatalog.pig.HCatLoader();DESCRI

hadoop - hcatalog 与 mapreduce

我在执行MapReduce程序时遇到以下错误。我已将所有jar放在hadoop/lib目录中,并且还在-libjars中提到了这些jar。这是我正在执行的命令:$HADOOP_HOME/bin/hadoop--config$HADOOP_HOME/confjar/home/shash/distinct.jarHwordCount-libjars$LIB_JARSWordCountHWordCount2java.lang.RuntimeException:java.lang.ClassNotFoundException:org.apache.hcatalog.mapreduce.HCat

xml - 可以将 HCatalog 与 XML 一起使用吗? -- 在 Cloudera VM 上执行 ETL

我正在处理一个大数据类的项目,我已经在本地安装了ClouderaQuickstartVM以在我的数据集上运行一些基本任务并熟悉一些工具。我正在学习一个教程,其中涉及将数据集移动到HDFS,基于数据集文件创建一个HCatalog表,然后在该表上运行Hive和/或Pig命令。问题是我的数据是一个大的XML文件,HCatalog中的标准分隔符选项不适用。有没有办法将XML导入HCatalog?如果不是,在我的XML数据集上使用Hive或Pig的最佳方法是什么?编辑:我的文件来自公共(public)StackOverflow数据集。我正在使用posts.xml文件。它非常大(25GB),我无法

hadoop - Sqoop 导入到 HCatalog/Hive - 表不可见

使用Ambari2.2.2.0安装HDP-2.4.2.0-258我必须导入几个SQLServer模式,这些模式应该可以通过Hive、Pig、MR和任何第三方(将来)访问。我决定导入HCatalog。Sqoop提供了导入到Hive或HCatalog的方法,我想如果我导入到HCatalog,同一个表将可以从HiveCLI、MR和Pig访问(请评估我的假设)。问题:如果直接导入到Hive,该表是否可供Pig、MR使用?如果导入到HCatalog,通过Hive访问需要做什么?是否需要在Hive中预先创建表?如果是,在HCatalog中导入的优势是什么,(我可以直接在Hive中导入)/(在HDF

maven - org.datanucleus.exceptions.NucleusUserException : Error : Could not find API definition for name "JDO"

我试图通过hcatalog访问mapreduce中的配置单元表并面临以下异常:我用谷歌搜索并试图找到根本原因,但没有成功,所以我在这里发布我的查询。2016-12-0115:48:35,855INFO[main]metastore.HiveMetaStore(HiveMetaStore.java:newRawStore(564))-0:Openingrawstorewithimplementationclass:org.apache.hadoop.hive.metastore.ObjectStore2016-12-0115:48:35,857INFO[main]metastore.Ob