bigdata

hadoop - kafka在大数据集群中有什么用？

我最近部署了大数据集群。在这方面，我使用了ApacheKafka和zookeeper。但是我仍然不了解它在集群中的用法。什么时候需要两者以及出于什么目的？最佳答案我在这里简化概念。您可以在此处找到详细说明articleKafka是一种快速、可扩展、本质上分布式的设计、分区和复制的提交日志服务。它具有独特的设计。特定类型的消息流被定义为主题。生产者可以是任何可以向主题发布消息的人。然后，发布的消息存储在一组称为代理或Kafka集群的服务器中。消费者可以订阅一个或多个主题，并通过从代理中提取数据来消费发布的消息。ZooKeeper是

大数 hadoop strong section ZooKeeper amazon-web-services bigdata apache-kafka apache-zookeeper

hadoop - Pig 或 Hive 用于文件操作

我有一个文件组成如下:&009:6534KKll90JJKK87LLOO%(..)?.I$£.....&013:3536KKll90TTYY87LLPP%%(.9)?'&025:6655KKll88ZZYY87MMQQ%&(.9)?%%??-_'我想获取一个文件:&009:6534KKll90JJKK87LLOO%(..)?.I$£.....&013:3536KKll90TTYY87LLPP%%(.9)?'.......&025:6655KKll88ZZYY87MMQQ%&(.9)?%%??-_'.......我使用hortonworks，我想知道使用Hive还是PIG更好，我如何使用

hadoop Hive section code amp apache-pig bigdata hortonworks-data-platform

java - 复制自本地 : `/user/hduser/input' : No such file or directory

我试图从这个website开始做WordCount教程但遇到了一些问题，我遵循了这个thread中的解决方案.一切都很好，直到我尝试执行产生此错误的hadoopfs-copyFromLocal/user/hduser/inputcopyFromLocal:`/user/hduser/input':Nosuchfileordirectory我试图通过执行hadoopfs-mkdir/user/hduser/input来双重确认是否存在这样的文件，它说mkdir:/user/hduser/输入':文件存在`所以我对哪里出了问题有点困惑。我只想能够执行copyFromLocal函数。When

自本 directory hadoop code section java bigdata

hadoop - 如何在 Hadoop 中执行类似 shell 脚本的操作

我在执行剪切、尾部、排序等操作时遇到了问题，因为我能够在UnixShell环境中对文件执行这些操作。我遇到的情况是我想要我的文件中没有按时间戳排序的最高时间戳并将其存储在“X”中，然后在执行MR时将“X”作为参数传递给我的MapReducer驱动程序类工作。在本地模式下很容易做到这一点:cut-d,-f>>|sort-n|tail-1这给了我最大的时间戳。现在在分布式模式下，如何去执行这样的操作，或者换句话说，我们可以使用什么技巧来帮助解决这样的问题，我不希望触发一个MapReduce作业来找到最大时间戳，然后将它传递给另一个MapReduce作业。请建议。如果需要更多信息，请告诉我。

何在 hadoop section lt gt mapreduce apache-pig bigdata

hadoop - 在 Hadoop 2.6.0 中运行自定义 Speculator

我正在编写我的自定义推测器，我查看了文档，默认情况下是“DefaultSpeculator.java”并在类“MRAppMaster.java”(函数createSpeculator())中设置在Hadoop的核心。我想知道您是否可以在执行我的工作时在运行时更新/更改投机者，因为我需要在大约5个投机者之间进行测试。谢谢!!! 最佳答案可以在集群范围或每个作业的基础上为map任务和reduce任务打开和关闭推测执行。推测器在MRAppMaster(Map-ReduceApplicationMaster)中实例化。正如您在问题中提到的

中运自定推测 code strong hadoop mapreduce bigdata

hadoop - 无法打开cloudera管理器

我是大数据和hadoop的新手，我制作了一个名为test的文件，其中包含helloworld内容，我想在尝试此操作时将其上传到文件浏览器中，它给了我一个错误，我试图通过在此搜索答案来解决它网站，我发现问题出在群集“clouderamanager”中，当我尝试打开它时，它给了我一条消息，强烈建议使用10个Rams，但如果你想强制打开，请使用命令force“我的电脑是6gram并且在下载系统时建议使用8gram总线我给虚拟机5.5gram并且它在使用系统时很灵活那么问题是什么以及我如何强制启动cloudera管理器？最佳答案启动终端

cloudera hadoop section 入门 bigdata data-science cloudera-manager

hadoop - Hive外部表能否智能识别分区？

每当我需要挂载分区时，我都需要运行它。有没有一种方法可以自动检测外部配置单元表中的分区，而不是我手动执行它ALTERTABLETableNameADDIFNOTEXISTSPARTITION()location'locationpath'; 最佳答案恢复分区(MSCK修复表)https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-RecoverPartitions(MSCKREPAIRTABLE)MSCKREPAIR

hadoop Hive section LanguageManualDDL-RecoverPartitio https bigdata

hadoop - Hadoop 在 N 层架构中的什么位置？

我对Hadoop及其生态系统还很陌生。我想知道Hadoop在哪里以及如何适合典型的N层架构或任何现代架构？从Hadoop获得结果非常棒，但我如何以及以何种方式整理数据结果以在我的表示层上显示它们？最佳答案 “典型的n层系统”？不在2层客户端服务器中；不在三层。可以将数据的Map/reduce计算添加到任何系统中。Hadoop是集群上的map/reduce，具有基于冗余数据的分布式文件系统。这会让我想到数据的预定批处理。将数据传送到Hadoop的方式可以是实时的，也可以是从事务数据库到报告数据库的批处理ETL过程。这些都不是“典型”

hadoop section 典型 database-design architecture hadoop2 bigdata

python - 获取子目录列表

我知道我可以做到:data=sc.textFile('/hadoop_foo/a')data.count()240data=sc.textFile('/hadoop_foo/*')data.count()168129但是，我想统计“/hadoop_foo/”的每个子目录的数据大小。我可以这样做吗？换句话说，我想要的是这样的:subdirectories=magicFunction()forsubdirinsubdirectories:datasc.textFile(subdir)data.count()我试过:In[9]:[x[0]forxinos.walk("/hadoop_foo/

子目子目录 hadoop code hadoop_foo python apache-spark hdfs bigdata

hadoop - 带 RAID 的 HDP 集群？

您在HDP集群上使用RAID1的体验如何？我有两个选择:为主节点和zoo节点设置RAID1，完全不要在从属节点(如kafka代理、hbase区域服务器和yarn节点管理器)上使用RAID。即使我失去一个从节点，我也会有另外两个副本。在我看来，RAID只会减慢我的集群。无论如何，使用RAID1设置所有内容。你怎么看？您对HDP和RAID有何体验？您如何看待从节点使用RAID0？最佳答案我建议在Hadoop主机上完全不要使用RAID。有一点需要注意，如果您正在运行Oozie和HiveMetastore等在后台使用关系数据库的服务，则

hadoop RAID section 节点 hortonworks-data-platform bigdata

1 2 345 6 7