BigData

hadoop - Zookeer是hadoop的一部分还是单独配置？

正如我从各种tuts中读到的那样，zookeeper有助于协调和同步各种hadoop集群。目前我安装的是hadoop2.5.0。当我执行jps时，它会显示4494SecondaryNameNode8683Jps4679ResourceManager3921NameNode4174DataNode4943NodeManager动物园管理员没有进程。我怀疑zookeeper是hdfs的一部分还是我们需要手动安装？最佳答案如果你只使用hadoop，不需要zookeeper!hadoop中的其他工具，比如hbase，就看zookeepe

macos - 在 OSX 上安装 Chorus 的 GreenPlum

我正在尝试在OSX上安装Chorus。所以我需要按照描述安装GreenPlumhere.文档说我必须下载GreenPLum数据库并提取greenplum-db-4.2.5.0.tar.gztar文件。所以我去了专门的网站[Pivotal][2]。该文件提供了一些.bin文件，但是当我执行它时，我收到消息InstallerwillonlyinstallonRedHat/CentOSx86_64。该文件的执行假设它提供了上述的tar文件。所以我推断我必须得到一些OSX专用文件，但是Pivotal文档说应该提取tar文件(仅在开发模式下)。也许我运行了一些错误的命令。有人可以帮忙吗？

GreenPlum Chorus code section https macos hadoop bigdata

hadoop - pig 本地模式溢出数据问题

我正在尝试解决这个问题，但无法理解。我的开发机器中的pig脚本在1.8GB的数据文件上成功运行。当我试图在服务器上运行它时，它指出它找不到本地设备来溢出数据spill0.out我修改了pig.property文件中的pig.temp.Dir属性以指向一个有空间的位置..错误:org.apache.hadoop.util.DiskChecker$DiskErrorException:无法为输出/spill0.out找到任何有效的本地目录那么如何找出pig溢出数据的位置，以及我们能否以某种方式更改pig溢出目录位置。我在本地模式下使用pig。任何想法或建议或解决方法都会有很大帮助。谢谢..

hadoop pig section stackoverflow mapreduce apache-pig bigdata

hadoop - 独立的 map reduce 作业一个接一个地执行

是否有可能执行独立的mapreduce作业(不在reducer输出的链接中成为映射器的输入。可以一个接一个地执行。最佳答案在你的驱动代码中调用两个方法runfirstjob,runsecondjob.就像这样。这只是一个提示，根据你的需要做修改publicclassExerciseDriver{staticConfigurationconf;publicstaticvoidmain(String[]args)throwsException{ExerciseDriverED=newExerciseDriver();conf=new

hadoop reduce job class String mapreduce bigdata

java - 如何解决 MapReduce 中每个 'n' 的 TOP 'entity'？

我是Hadoop/MR领域的新手，正在尝试解决以下问题:一所大学试图根据其受欢迎程度找出过去20年开设的前20门学科。该程序应该通过计算每个校区的独特学生的访问次数来找出前20个主题。理想的输出应该是这样的:Campus1Mathes:3500Law:3200JavaProg:2830Anatomy:2701...Campus2DB:4200Chamistry:4190Business:3999Astronomy:3500...Campus3C/C++:2800Python:2799BigData:1900WebDev:1200.........有两个文件包含不同但相关的数据集:sub

amp 39 code section strong java hadoop mapreduce bigdata

hadoop - hadoop如何存储数据和使用MapReduce？

当我试图理解hadoop架构时，我想弄清楚一些问题。当有大数据输入时，HDFS会把它分成很多block(每个block64MB或128MB)然后复制很多次存储在内存块中，对吧？但是，我仍然不知道MapReduce在哪里工作。是用分合数据来存储的吗？或者用它来返回一些有用的输出？最佳答案在HDFS中存储数据与使用MapReduce范式分析数据是完全不同的事情。当上传到HDFS时，大数据文件被拆分成block存储在数据节点中，每个block被复制的次数与配置的复制因子(默认为3)一样多。数据拆分就像将文件除以配置的block大小一样

hadoop MapReduce section block 大数 hdfs bigdata

hadoop - 您如何验证 Hive Metastore uri

作为应用程序的一部分，我需要验证用户为其Hive输入的Hive元存储Uris。我想知道可以对String执行哪些所有验证以验证它是否是正确的HiveMetastoreURI任何建议。谢谢最佳答案 hive.metastore.uris指定的MetaStoreuri通常采用以下格式:thrift://n.n.n.n:9083file:///var/metastore/metadb/所以我建议您编写一个正则表达式来匹配可能性，同时请记住hive.metastore.uris属性采用逗号分隔值，以便匹配多次出现。完成基本验证后，您还可以

Metastore hadoop section code hive bigdata

csv - 最佳实践 : how to handle data records with changing "schema"/ "columns"

这是一个最佳实践问题。我们的设置是一个hadoop集群，将(日志)数据存储在hdfs中。我们获取csv格式的数据，每天一个文件。在hadoop中对这些文件运行MR作业没问题，只要文件的“架构”(尤其是列数)不变即可。但是，我们面临的问题是，我们要分析的日志记录最终会发生变化，因为可能会添加或删除列。我想知道你们中的一些人是否愿意分享针对此类情况的最佳实践。我们目前能想到的最好的方式是将数据存储为json格式而不是csv。但是，这会增加(至少增加一倍)所需的存储空间。我们还遇到了ApacheAvro和ApacheParquet，并且刚刚开始对此进行研究。欢迎就此问题提出任何想法和意见。

amp 34 section stackoverflow 的 csv hadoop bigdata avro parquet

hadoop - 海量数据的内存处理引擎有什么好处？

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭7年前。Improvethisquestion如果数据集适合内存，Spark表现最佳，如果数据集不适合，它将使用磁盘，因此它与hadoop一样快。假设我正在处理Tera/Peta字节的数据。有一个小集群。显然，没有办法将其放入内存中。我的观察是，在大数据时代，如果不是更多的话，大多数数据集都是千兆字节。内存处理引擎的好处是什么？

海量 hadoop section class notice apache-spark bigdata batch-processing

hadoop - 我没有收到来自 Twitter 的推文

我尝试在HDFS中通过Flume流式传输推文，但我没有从twitter获取推文。该过程在下面提到的这一点停止....!!除了这一步什么都没有。INFOinstrumentation.MonitoredCounterGroup:Monitoriedcountergroupfortype:SINK,name:HDFS,registeredsuccessfully.INFOinstrumentation.MonitoredCounterGroup:Componenttype:SINK,name:HDFSstarted我的flume.conf文件:TwitterAgent.sources=Tw

Twitter hadoop TwitterAgent sinks HDFS bigdata flume

11 12 131415 16 17