jjzjj

hadoop - DataNode在CDH5集群中自动重启

我们已经设置了一个有6个从节点的集群。我试图了解当其中一个DataNode死亡时复制是如何发生的。我登录到其中一个从站并使用kill-9命令杀死了DataNode。一段时间后,DataNode自动重启,HDFS恢复健康状态。我正在验证这一点,因为DataNode的PID已更改。我没有看到任何关于DataNode上述行为的文档。这是ApacheHadoop或ClouderaCDH功能吗?任何对文档的引用都将受到赞赏。 最佳答案 由于datanode的pid发生了变化,我认为不是datanode的行为。如果您使用ClouderaMana

hadoop - 带有 MR1 的 CDH5.2 中的 distcp2

当distcp从s3到本地集群时,我们需要限制映射器带宽。所以我从https://repository.cloudera.com下载了hadoop-distcp-2.5.0-cdh5.2.0-20141009.063640-188.jar这是链接:https://repository.cloudera.com/artifactory/public/org/apache/hadoop/hadoop-distcp/2.5.0-cdh5.2.0-SNAPSHOT/hadoop-distcp-2.5.0-cdh5.2.0-20141009.063640-188.jar然后按照distcp命令运

hadoop - 如何在不下载的情况下浏览hadoop-2.5.0-cdh5.2.0的文件系统?

我可以直接在hadoop-0.20.3-cdh3u6版本上浏览文件系统,无需下载到本地机器,(master_hostname:50070)但是,必须将文件下载到版本为hadoop-2.5.0-cdh5.2.0的本地机器,我想在不下载的情况下查看数据,如何配置hdfs-site.xml?thepropertydfs.webhdfs.enabledhasbeensettotrue谢谢! 最佳答案 如果你使用localhost:50070/dfshealth.html浏览HDFS文件系统,不能查看文本文件。使用localhost:5007

hadoop - CDH 5 中的 AvroRecord 类发生了什么变化?

我正尝试在我的pom.xml中使用CDH5(ClouderaHadoop发行版)存储库,如Clouderadocumentation中所述.但是Maven提示找不到AvroRecord。这是我的pom.xml中的存储库设置:clouderahttps://repository.cloudera.com/artifactory/cloudera-repos/下面是我如何在我的pom.xml中声明对Hadoop的依赖(排除部分与消除错误“javax.servlet.FilterRegistration的签名者信息与同一包中其他类的签名者信息不匹配”有关"):org.apache.hadoo

hadoop - 我们可以在 CDH 中使用一些内置的配置管理而不是使用 Chef/Puppet

我是Hadoop的新手,是从Linux转过来的。真的不知道这是否愚蠢,但我们是否有用于配置管理的CDH工具(内置的东西)或者我们是否需要像chef/puppet这样的第三方集成。对于监控,我们是否需要像nagios这样的工具或CDM就足够了。问候艾娜莱斯特 最佳答案 你可以试试ClouderaManager用于集群管理/监控/警报/变更管理/审计。ClouderaManager(CM)有两种变体:CMExpress:免费且最适合入门。提供部署和配置、管理、监控和诊断工具CMEnterprise:每个节点的年度订阅。提供CMExpre

hadoop - 为什么带有 YARN 的 Mapreduce 卡在 CDH 5.3 上?

使用YARN的Mapreduce无法领先于0%map和0%reduce。我在谷歌计算高内存实例(13GMRAM)上使用ClouderaCDH。机器上有8GB可用内存。你能帮我解决一下吗?sunny@hadoop-m:~$hadoopjar/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/jars/hadoop-mapreduce-examples-2.5.0-cdh5.3.0.jargrepinputoutput'dfs[a-z.]+'14/12/2400:13:53INFOclient.RMProxy:ConnectingtoResou

java - Pydoop 错误 : RuntimeError: java home not found, 尝试使用 CDH5.4 在远程服务器上设置 JAVA_HOME

目标:使用pydoop从我的笔记本电脑读取存储在HDFS中的远程文件。我用的是pycharm专业版。我正在使用ClouderaCDH5.4我的笔记本电脑上的pyCharm配置:在项目解释器(在设置下)中,我已将python编译器定向到远程服务器上,如ssh://remote-server-ip-address:port-number/home/ashish/anaconda/bin/python2.7现在有一个文件存储在HDFS位置/home/ashish/pencil/someFileName.txt然后我使用pipinstallpydoop在远程服务器上安装pydoop并安装它。然

hadoop - 如何防止 CDH 中的 Hue 在重启时清除作业历史记录?

我已经安装了CDH5.5.1和Hue、Hadoop、Spark、Hive、Oozie、Yarn和ZooKeeper。当我运行Spark作业或MapReduce作业时,Hue会在作业历史记录中显示一个问题。问题是,当我重新启动CDH服务(不是物理节点)时,它会删除重新启动之前的所有作业历史记录。在Hadoop上,我怀疑有几个文件包含有关任务的信息,并且可能是保存作业信息的文件。他们的hadoop路径是:/tmp/logs/user/logs//user/history/done/2016/我在ClouderaManager配置页面、Hue配置页面和一些配置文件中都找过,都没有找到。我不知

ruby - 我正在尝试将我的脚本从 Cloudera hbase 4(CDH4) 版本升级到 (CDH5)

defgetRegions(config,servername)connection=HConnectionManager::getConnection(config)parts=servername.split(',')putspartsrs=connection.getHRegionConnection(parts[0],parts[1].to_i)returnrs.getOnlineRegions()end我正在尝试使此代码与CDH5兼容。我查看了CDH5库,但无法找到确切的解决方案。我正在使用connection=ConnectionFactory::createConnect

hadoop - CDH HDFS节点退役永无止境

我们有一个12台服务器的hadoop集群(CDH),最近,我们想停用其中的三台,但是这个进程已经在那里运行了2天多了。但它永远不会结束,特别是在过去的24小时内,我看到三个数据节点上只有94G数据可用,但在过去的24小时内大小似乎没有变化。即使通过复制不足的block数也已经为零。hdfs中的所有数据的复制因子都是3。以下是hadoopfsck命令的结果:总大小:5789534135468B(打开文件总大小:94222879072B)目录总数:42458文件总数:5494378符号链接(symboliclink)总数:0(当前正在写入的文件:133)block总数(已验证):55065