BigData

hadoop - 使用Spark的有状态操作updateStateByKey如何保持实时性

首先是虚构的用例。假设我有一个元组流(user_id,time_stamp,login_ip)。我想以5秒的粒度维护每个用户的最后登录IP。使用Spark流，我可以使用updateStateByKey方法更新这张map。问题是，随着数据流不断涌来，每个时间间隔的RDD越来越大，因为看到了更多的user_ids。一段时间后，map会变得很大，维护时间会变长，无法实现结果的实时传递。请注意，这只是我想出的一个简单示例来说明问题。实际问题可能更复杂，确实需要实时交付。关于如何解决这个问题的任何想法(在Spark以及其他解决方案中都会很好)？最佳答案

hadoop - 更改 HIVE 中的目标目录

我正在将一张表从NETEZZA导入HIVE。我在SQOOP命令中明确提到了我的目标目录，但它始终采用默认路径:/user/hive/warehouse如何更改这个默认路径？？最佳答案在$HIVE_CONF/conf/hive-site.xml你必须把这个:hive.metastore.warehouse.diryour/directory/in/hdfs然后重启hive。关于hadoop-更改HIVE中的目标目录，我们在StackOverflow上找到一个类似的问题：

hadoop HIVE section strong bigdata sqoop hiveql

Hadoop:格式化名称节点时出错 - 'Could not find or load main class namenodes'

在我安装了上传hadoop所需的一切之后(win-7-64位上的unix)，我得到了这个错误(粗体):roeygol@roeygol-PC/etc/hadoop-2.5.1/bin$./hdfsnamenodes-formatError:Couldnotfindorloadmainclassnamenodes我按要求定义了所需的节点和所有其他配置，我该如何解决这个问题？最佳答案 hdfsnamenode-formatits"namenode"not"namenodes" 关于Hadoo

时出 amp section namenodes strong hadoop bigdata

hadoop - 我的 hdfs 总是向许多损坏的 block 报告

我有一个运行hdfs(hadoop2.6.0)的集群，但它的名称节点向我报告了一个关于丢失block的错误:Thereare102missingblocks.Thefollowingfilesmaybecorrupted:当我跳转到名称节点并读取登录(名称节点文件日志)时，我收到许多警告，例如:ErrorreportfromDatanodeRegistration(10.3.24.71,datanodeUuid=b1aa43eb-bd9c-4e1a-b919-d7c99ad0fcdf,infoPort=50075,ipcPort=50020,storageInfo=lv=-56;cid

许多 hadoop section strong block hdfs bigdata

java - 无法在 ambari 中重启 yarn 节点管理器

我是ambari和yarn的新手，我的新flashambari机器没有任何其他配置。ambari版本是最新的，这里是yarn.py地址:ambari-server/src/main/resources/common-services/YARN/2.1.0.2.0/package/scripts/yarn.py我发现了一些潜在的解决方案，例如https://community.hortonworks.com/questions/11907/nodemanager-fails-to-start-io-error-lock.html和https://reviews.apache.org/r/

ambari java hadoop NodeManager hadoop-yarn bigdata

hadoop - 如何从 HBase 读取记录然后存储到 Spark RDD(弹性分布式数据集)；并读取一个 RDD 记录然后写入 HBase？

所以我想写一段代码从HadoopHBase中读取一条记录，然后将其存储到SparkRDD(ResilientDistributedDatasets)中；并读取一条RDD记录然后写入HBase。我对这两者的了解为零，我需要使用AWS云或Hadoop虚拟机。请有人指导我从头开始。最佳答案请使用Scala中的基本代码，我们正在使用Scala读取HBase中的数据。同样可以写个建表把数据写入HBaseimportorg.apache.hadoop.hbase.client.{HBaseAdmin,Result}importorg.apa

HBase RDD 34 section hadoop apache-spark bigdata

scala - 限制 yarn 容器一次只能执行一个任务

我正在使用hadoop集群运行Spark程序，它使用yarn调度程序来运行任务。但是，我注意到一个奇怪的行为。yarn有时会杀死提示内存不足错误的任务，而如果我轮流执行任务，即执行与容器/执行程序相同数量的任务，让它们完成，然后执行下一组任务，它运行良好，这意味着任务使用的内存不会超过容器中允许的内存。所以，我怀疑yarn试图在容器中并行运行多个任务，这就是容器内存不足的原因。有没有办法限制这种行为并告诉yarn在容器中一次只运行一个任务。最佳答案一般来说，Spark请求的每个YARN容器直接对应一个“执行器”，即使YARN可能

容器 scala code section hadoop apache-spark hadoop-yarn bigdata

hadoop - 如何在 spark 中处理后发布单个 Parquet 文件

我有一个包含100,000条记录的Parquet文件。我想并行处理所有记录，我的处理将生成更多列。因此，如果我的Parquet文件有3列和100,000条记录，我的文件如下所示-colAcolBcolCaabbccaa1bb1cc1并行处理后，我想要一个包含相同列和3列的新Parquet文件。我的输出看起来像这样-colAcolBcolCcolDcolEcolFaabbccddeeffaa1bb1cc1dd1ee1ff1我想知道-在spark节点中并行运行后，如何将所有结果合并到1个parquet文件中？如何向现有文件添加更多列？如有任何帮助，我们将不胜感激。

后发何在 section Parquet code hadoop apache-spark bigdata

hadoop - 为什么运行 1TB teragen 时没有 reducer ？

我正在使用以下命令为hadoop运行terasort基准测试:jar/Users/karan.verma/Documents/backups/h/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jarteragen-Dmapreduce.job.maps=1001trandom-data并为100个maptask打印了以下日志:18/03/2713:06:03WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform..

teragen reducer mapreduce code INFO hadoop bigdata terasort

hadoop - Pig Latin JOIN 错误

我正在加载两个数据集A、BA=LOAD[datapath]B=LOAD[datapath]我想通过id字段连接A和B的所有字段。A和B都有公共(public)字段id和其他字段。当我通过id执行JOIN时:AB=JOINAbyid,Bbyid;结果数据集AB包含两个类似的字段id列，但是，它只能显示id字段的一列。我在这里做错了什么？最佳答案这是预期的行为，当连接两个数据集时，所有列都包括在内(即使是您连接的那些列)可以查一下here如果你想删除一个列，你可以使用generate语句来完成。但首先您需要知道不需要的列的位置。例如

hadoop Latin section code pre hdfs bigdata apache-pig

16 17 181920 21 22