我正在研究大数据,我的项目由具有文本数据的图表组成。我必须在一个项目本身中计算顶点之间的相似性、跳数概率、连接组件的数量、页面排名向量和随机游走。我在hadoop中实现了它们,但我认为它需要更多时间(图形有2500个节点、4000个边、600个连接的组件需要25分钟)所以什么是实现这些的最佳选择,apachehadoop或apachegiraph或apachetwister? 最佳答案 查找连接组件、页面排名计算和随机游走是迭代算法的示例。传统的Map-Reduce编程模型不是迭代算法(特别是图形算法)的好选择。原因是在map-re
我在Hadoop2.6.0上运行Giraph1.1.0。mapredsite.xml看起来像这样mapreduce.framework.nameyarnTheruntimeframeworkforexecutingMapReducejobs.Canbeoneoflocal,classicoryarn.mapreduce.map.memory.mb4096mapreduce.reduce.memory.mb8192mapreduce.map.java.opts-Xmx3072mmapreduce.reduce.java.opts-Xmx6144mmapred.tasktracker.ma
我正在尝试将GIRAPH1.1.0添加到HADOOP2.6.0我必须以某种方式编辑pom.xml才能正确打包GIRAPH。我运行命令mvn-Phadoop_yarn-Dhadoop.version=2.6.0package我在行(1292)中编辑了默认的pom.xml文件:hadoop_2giraph-accumulogiraph-hbasegiraph-hcataloggiraph-hivegiraph-goragiraph-rexstergiraph-dist2.6.0但是当我运行它给出的命令时[INFO]ApacheGiraphParent....................
我在ApacheGiraph中运行SimpleOutDegreeCountComputation程序时收到以下错误。我使用JsonLongDoubleFloatDouble作为输入格式。$HADOOP_HOME/bin/hadoopjar$GIRAPH_HOME/giraph-examples/target/giraph-examples-1.2.0-SNAPSHOT-for-hadoop-1.2.1-jar-with-dependencies.jarorg.apache.giraph.GiraphRunnerorg.apache.giraph.examples.SimpleOutDe
我正在使用PageRankBenchmark示例测试我的单节点集群Giraph安装,方法如下:$HADOOP_HOME/bin/hadoopjar/usr/local/hadoop/share/hadoop/mapreduce/giraph-examples-1.1.0-for-hadoop-2.4.0-jar-with-dependencies.jarorg.apache.giraph.benchmark.PageRankBenchmark-v-V1000-e1-s5-w1但是在映射器完成他们的工作之后,reducer不会启动(映射100%减少0%,根据控制台)。这是该算法的适当行为
我正在运行来自http://giraph.apache.org/quick_start.html#qs_section_2的示例成功安装Giraph后,我创建文件/tmp/tiny_graph.txt并运行$HADOOP_HOME/bin/hadoopjar/usr/local/giraph/giraph-examples/target/giraph-examples-1.2.0-SNAPSHOT-for-hadoop-1.2.1-jar-with-dependencies.jarorg.apache.giraph.GiraphRunnerorg.apache.giraph.examp
我正在尝试在giraph中实现Spinner图分区算法。在第一步中,我的程序向给定的输入图添加边,使其成为无向图,每个顶点选择一个随机分区。(此分区整数存储在VertexValue中)在此初始化步骤结束时,每个顶点向所有输出边发送一条消息,其中包含顶点ID(aLongWritable)和顶点选择的分区。一切正常。现在在我遇到问题的步骤中,每个顶点迭代接收到的消息并将接收到的分区保存在EdgeValue中。对应的边。(VertexValue是V在Vertex,EdgeValue是E在Edge)以下是我的代码的重要部分:包装类:publicclassEdgeValueimplementsW
我是Hadoop/Giraph和Java的新手。作为任务的一部分,我在其上下载了ClouderaQuickstartVM和Giraph。我正在使用这本书,名为“使用ApacheGiraph进行实用图形分析;作者:Shaposhnik、Roman、Martella、Claudio、Logothetis、Dionysios”,我尝试从中运行第111页上的第一个示例(TwitterFollowershipGraph)。编辑:显然,书中的示例(2015年出版)所依赖的Hadoop版本比当前(2017年)版本的ClouderaQuickstartVM提供的版本要旧得多。如何让示例运行?原帖:运行
我正在尝试运行RandomWalkWithRestart示例https://github.com/apache/giraph/blob/release-1.0/giraph-examples/src/main/java/org/apache/giraph/examples/RandomWalkWithRestartVertex.java我的输入是数据是12345634785634787834我正在运行hadoopjargiraph-examples-1.1.0-for-hadoop-2.2.0-jar-with-dependencies.jarGiraphRunner-Dgiraph.
我正在尝试将一些包含相关顶点信息的文本文件读入Giraph:每一行都是vertex_idattribute_1attribute_2.....attribute_n其中每个属性都是一个字符串。目标是创建一个顶点,其中所有这些属性都是顶点值的一部分。查找各种输入格式我找不到任何现成的东西,所以我假设我必须从VertexValueInputFormat派生我的顶点输入类(我有一个单独的边阅读器)。问题是:如何?我已经创建了一个包含String[]数组的Value类,但我如何将它交给Giraph/Hadoop?这是单行阅读器:https://giraph.apache.org/giraph-