distributed-computing
全部标签 这是我的场景。我有一份处理大量csv数据并使用Avro将其写出到按日期划分的文件中的工作。我得到了一个小文件,我想用它来更新其中一些文件和第二个作业的附加条目我可以在需要发生时运行,而不是再次重新处理整个数据集。这个想法大概是这样的:工作1:处理大量csv数据,将其写入压缩的Avro文件中,按输入日期拆分为多个文件。源数据未按日期划分,因此此作业将执行此操作。Job2(在Job1运行之间根据需要运行):处理小更新文件并使用它来将条目添加到适当的Avro文件中。如果它不存在,则创建一个新文件。Job3(始终运行):根据Job1(可能还有Job2)的输出生成一些报告指标。因此,我必须以这种
在设计分布式存储和分析架构时,在与数据节点相同的机器上运行分析引擎是否是一种常见的使用模式?具体来说,直接在Cassandra/HDFS节点上运行Spark/Storm是否有意义?我知道自accordingtoHortonworks以来HDFS上的MapReduce具有这种使用模式,YARN最小化数据移动。我不知道这些其他系统是否也是如此。我想这是因为它们似乎可以相互插入,但我似乎无法在网上找到有关此的任何信息。我是这个主题的新手,因此非常感谢任何资源或答案。谢谢 最佳答案 是的,在Cassandra节点上运行Spark以最大限度地
我使用kerberos配置了hadoop,一切正常,我可以浏览hdfs、提交作业等。但是httpweb身份验证失败。我在cdh3u2中使用hadoop-0.20.2,它支持HTTPSPNEGO。core-site.xml中HTTP认证相关配置如下:hadoop.http.filter.initializersorg.apache.hadoop.security.AuthenticationFilterInitializerhadoop.http.authentication.typekerberoshadoop.http.authentication.token.validity360
我已经使用HDFS设置了一个Spark集群配置,我知道在HDFS示例中Sparkall将读取默认文件路径:/ad-cpc/2014-11-28/Sparkwillreadin:hdfs://hmaster155:9000/ad-cpc/2014-11-28/有时我想知道如何在不重新配置我的集群(不使用hdfs)的情况下强制Spark在本地读取文件。请帮帮我!!! 最佳答案 可以从Spark引用本地文件系统,前缀为file:///Eg:sparkContext.textFile("file:///>")此命令从本地文件系统读取文件。注
我在apachespark中遇到了一个奇怪的问题,我将不胜感激。从hdfs读取数据(并进行一些从json到对象的转换)后,下一阶段(处理所述对象)在处理完2个分区(总共512个)后失败。这种情况发生在大型数据集上(我注意到的最小数据集约为700兆,但可能会更低,我还没有缩小范围)。编辑:700megs是tgz文件大小,未压缩是6gigs。编辑2:同样的事情发生在spark1.1.0我在一台32核、60演出的机器上使用本地主机运行spark,设置如下:spark.akka.timeout=200spark.shuffle.consolidateFiles=truespark.kryose
有没有办法控制HadoopStreaming作业的输出文件名?具体来说,我希望我的作业的输出文件内容和名称由reducer输出来组织——每个文件只包含一个键的值,它的名称将是键。更新:刚刚找到答案-使用派生自MultipleOutputFormat的Java类作为作业输出格式可以控制输出文件名。http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/mapred/lib/MultipleOutputFormat.html我还没有看到这方面的任何样本......谁能指出一个使用自定义输出格式Java类的Hadoop
在最近关于分布式处理和流的讨论中,我遇到了“代码移动到数据”的概念。有人可以帮忙解释一下吗?此短语的引用是MapReduceWay.在Hadoop方面,it'sstatedinaquestion但仍然无法以技术不可知的方式找出对原理的解释。 最佳答案 基本思想很简单:如果代码和数据在不同的机器上,则必须先将其中一个移动到另一台机器上,然后才能在数据上执行代码。如果代码小于数据,最好将代码发送到保存数据的机器,而不是相反,如果所有机器都同样快且代码兼容。[可以说您可以根据需要发送源代码和JIT编译]。在大数据的世界里,代码几乎总是比数
在我们80%满的YARN集群中,我们看到一些yarnnodemanager被标记为不健康。在深入研究日志后,我发现它是因为数据目录的磁盘空间已满90%。出现以下错误2015-02-2108:33:51,590INFOorg.apache.hadoop.yarn.server.resourcemanager.rmnode.RMNodeImpl:Nodehdp009.abc.com:8041reportedUNHEALTHYwithdetails:4/4local-dirsarebad:/data3/yarn/nm,/data2/yarn/nm,/data4/yarn/nm,/data1/
我对学习分布式计算技术很感兴趣。作为Java开发人员,我可能愿意从Hadoop开始。.您能否推荐一些书籍/教程/文章作为开始? 最佳答案 也许你可以先阅读一些与MapReduce和分布式计算相关的论文,以更好地理解它。以下是一些我想推荐的:MapReduce:大型集群上的简化数据处理,http://www.usenix.org/events/osdi04/tech/full_papers/dean/dean_html/Bigtable:结构化数据的分布式存储系统,http://www.usenix.org/events/osdi06
根据ApacheAVRO项目,“Avro是一个序列化系统”。说数据序列化系统,是说avro是产品还是api?另外,我不太清楚什么是数据序列化系统?目前,我的理解是它是一种协议(protocol),它定义了数据对象如何通过网络传递。谁能帮忙解释一下,让分布式计算背景有限的人更容易理解?提前致谢! 最佳答案 所以当DougCutting在编写Hadoop时,他认为使用Java对象序列化(JavaSerialization)来序列化Java对象的标准Java方法不符合他对Hadoop的要求。即,这些要求是:将数据序列化为紧凑二进制格式。快