jjzjj

hadoop - 如何查看hadoop服务的端口号

如何查看hadoop服务的端口号eg:hive,oozie,sqoop,pig等的端口号。听说每个hadoop服务都有一个端口号。 最佳答案 通常端口用于在配置文件中配置它自己,在“/etc/hadoop/conf/”或“/usr/local/hadoop/conf/”位置“hadoop”下可用,具有受人尊敬的名称,如“pig/hive/sqoop”等。名为“hdfs-site.xml/core-site.xml/hive-site.xml/mapred-site.xml...等”的配置Hadoop及其生态系统使用的一些默认端口是:

macos - impala 安装 mac os 指南

官方impala安装包括用于在linux系统上安装impala的apt-get,有什么方法可以在mac上运行(或任何其他方法)impala包,运行yosemite和CDH5.1.1。 最佳答案 您可以按照工作将Impala转到buildandrunonOSX和installwithHomebrew在ClouderaJIRA上(虽然我确信这些问题会迁移到ApacheJIRA,因为Impala是recentlycontributed到Apache孵化器)。 关于macos-impala安装m

hadoop - 连接拒绝快速启动.cloudera :8020

关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭2年前。Improvethisquestion我正在使用Cloudera-quickstart5.5.0virtualbox尝试在终端上运行它。正如您在下面看到的,有一个异常(exception)。我在Internet上搜索了解决此问题的解决方案并找到了一些东西。1-)配置core-site.xml文件。https://datashine.wordpress.com/2014/09/06/java-net-connectexception-c

hadoop - Phoenix 中的主键如何转换为 hbase 中的行键

凤凰查询:CREATETABLESTORE.DETAILS(MarketUNSIGNED_INTNOTNULL,ProductUNSIGNED_INTNOTNULL,PeriodUNSIGNED_INTNOTNULL,UnitsdoubleCONSTRAINTpkPRIMARYKEY(Market_Key,Product_Key,Period_Key))在hbase中,我只有两列,我希望将主键组合转换为行键。能否请您告诉我主键在Phoenix中是如何组合并转换为行键的? 最佳答案 是的,主键被视为行键,当您有多个列作为主键时,pho

java - Docker 和 Cloudera 快速入门 : How to run own jar-file?

我安装了Docker容器并进行了后续步骤:dockerpullcloudera/quickstart:latestdockerimages#notethehashoftheimageandsubstituteitbelowdockerrun--privileged=true\--hostname=quickstart.cloudera\-t-i${HASH}\/usr/bin/docker-quickstart所以,现在我知道了:Cloudera正在运行。但是我看不到任何本地文件,那么如何加载我自己的文件,尤其是jar文件以使用Hadoop运行它? 最佳答案

hadoop - hadoop中的输入拆分和 block

我的文件大小为100MB,默认block大小为64MB。如果我不设置输入拆分大小,默认拆分大小将是block大小。现在拆分大小也是64MB。当我将这个100MB的文件加载到HDFS时,这个100MB的文件将分成2个block。即64MB和36MB。例如下面是一首100MB大小的歌词。如果我将这些数据加载到HDFS中,比如从第1行到第16行的一半正好是64MB作为一个拆分/block(直到"Itmadethe")和第16行的剩余一半(children欢笑和玩耍)到文件末尾作为第二block(36MB)。将有两个映射器作业。我的问题是第一个映射器如何考虑第16行(即block1的第16行)

hadoop - spark 独立模式下 50-60 gb 的数据

我正在尝试分析大约50-60GB的数据。我想过使用spark来做到这一点,但我无权访问集群中的多个节点。这种级别的处理可以使用spark独立模式完成吗?如果是,我想知道处理数据所需的估计时间。谢谢! 最佳答案 简短的回答:是的。Spark会将此文件分成许多较小的block。在您的情况下,一次只会执行几个block。这几个block应该适合内存(您需要使用配置来获得正确的结果)总而言之,您将能够做到,但如果您有更多的内存/核心,那么您可以并行处理更多事情,速度会更快。 关于hadoop-s

json - 带有 JSON 文件和 JSONParser 的 MapReduce 函数

我在编写mapreduce函数时遇到了一些问题。我想解决以下问题:我有一个带有1mioJSONObject的JSON文件,如下所示:{"_id":3951,"title":"TwoFamilyHouse(2000)","genres":["Drama"],"ratings":[{"userId":173,"rating":5},{"userId":195,"rating":5},{"userId":411,"rating":4},{"userId":593,"rating":2},{"userId":629,"rating":3},{"userId":830,"rating":3},{

java - Hadoop 可写 readFields EOFException

我正在为Hadoop二级排序实现我自己的Writable,但是在运行作业时,Hadoop一直在我的readFields方法中抛出EOFException,我不知道它有什么问题。错误堆栈跟踪:java.lang.Exception:java.lang.RuntimeException:java.io.EOFExceptionatorg.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:492)atorg.apache.hadoop.mapred.LocalJobRunner$Job.run(Local

hadoop - 如何使用 OpenShift 配置 Hadoop 生态系统集群?

我们正在寻找一种可行的方法来使用OpenShift(基于Docker)配置Hadoop生态系统集群。我们希望使用Hadoop生态系统的服务构建集群,即HDFS、YARN、Spark、Hive、HBase、ZooKeeper等。我的团队一直将HortonworksHDP用于本地硬件,但现在将切换到基于OpenShift的基础架构。HortonworksCloudbreak似乎不适合基于OpenShift的基础设施。我找到了this描述了将YARN集成到OpenShift中的文章,但似乎没有更多可用信息。在OpenShift上配置Hadoop生态系统集群的最简单方法是什么?手动添加所有服务