BigData_JJZJJ

hadoop - 在 yarn 集群上安装 spark

我正在寻找有关如何在现有虚拟yarn集群上安装spark的指南。我有一个由两个节点组成的yarn集群，运行了map-reduce作业，效果很好。在日志中查找结果，一切正常。现在我需要在我的vagrantfile中添加spark安装命令和配置文件。我找不到好的指南，有人可以给我一个好的链接吗？我将这个指南用于yarnclusterhttp://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide/#single-node-installation提前致谢!

scala - 在 Spark 作业服务器中运行 Mllib

我正在练习使用spark网站提供的在线资源开发示例模型。我设法创建了模型并使用Spark-Shell为示例数据运行它，但是如何在生产环境中实际运行模型？是通过Spark作业服务器吗？importorg.apache.spark.mllib.classification.SVMWithSGDimportorg.apache.spark.mllib.regression.LabeledPointimportorg.apache.spark.mllib.linalg.Vectorsvaldata=sc.textFile("hdfs://mycluster/user/Cancer.csv")v

中运 scala spark apache hadoop apache-spark-mllib spark-jobserver bigdata

hadoop - 将运行多少映射器？

我有这个问题。假设我有3个数据节点+节点管理器(集群)。我们的复制因子为3。在第一个集群中我们有4个block，因此默认情况下4个映射器将在第一个集群上并行运行。那么因为我们的复制因子为3，所以我们将在开始时运行12个映射器？最佳答案 block数取决于文件大小。如果您有1gb的文件，可以构成8个block(共128mb)。所以现在所有8个block将按照datalocalityandrackawareness被复制三次-但这并不意味着当您针对此文件运行任何作业时，将处理所有24(8x3)block。复制用于从磁盘故障类型的场景中

射器 hadoop section block mapreduce hadoop-yarn bigdata

hadoop - 无法运行 Spark Java 程序

我正在运行一个用java编写的Spark程序，我正在使用示例wordcount示例。我已经创建了一个jar文件，但是当我提交spark作业时它抛出了一个错误。$spark-submit--classWordCount--masterlocal\home/cloudera/workspace/sparksample/target/sparksample-0.0.1-SNAPSHOT.jar我收到以下错误java.lang.ClassNotFoundException:wordCountatjava.net.URLClassLoader$1.run(URLClassLoader.java:

hadoop Spark SparkSubmit java apache apache-spark bigdata

hadoop - 从 hdfs 读取数据时级联的实现问题

假设我在hdfs目录中有这些文件500/Customer/part-001500/Customer/part-002500/Customer/part-003是否可以检查元组来自哪个部分文件？注意:我已经研究过了，但一无所获。最佳答案你的问题不是很清楚。假设您的输出采用以下布局，分隔符为“;”身份证；姓名；年龄1;约旦;222;内森;33等等您可以使用awk或grep或两者来获取记录例如，如果你想搜索记录Nathan，试试文件命令grep-r"Nathan"部分*以上命令将搜索字符串“Nathan”，如果该字符串存在于任何部分文

hadoop hdfs section Nathan strong cascading bigdata

hadoop - 使用 spark 跨 hadoop 集群复制数据

我有一种情况，我必须将数据/文件从PROD复制到UAT(hadoop集群)。为此，我现在正在使用'distcp'。但它需要永远。由于distcp在引擎盖下使用map-reduce，有什么方法可以使用spark使过程更快？就像我们可以将hive执行引擎设置为'TEZ'(以替换map-reduce)，我们是否可以将执行引擎设置为sparkfordistcp？或者是否有任何其他'spark'跨集群复制数据的方法，甚至可能不关心distcp？这是我的第二个问题(假设我们可以将distcp执行引擎设置为spark而不是map-reduce，否则请不要费心回答这个问题):-据我所知，Spark比m

hadoop spark distcp code section apache-spark hdfs bigdata

java - 为大数据生成最佳 UUID

我想为大数据生成唯一标识符并以UUID结尾。我引用了维基百科(https://en.wikipedia.org/wiki/Universally_unique_identifier)的UUID，文章提到哈希冲突可能是一种概率和“需要选择标识符大小和生成过程，以使其充分不可能在实践中”。“...这些概率仅在使用足够的熵生成UUID时成立。否则，重复的概率可能会高得多，...”。“...如果这不可行，RFC4122建议改用namespace变体，例如Type5UUID。”。我计划使用Java生成UUID并引用APIhttps://docs.oracle.com/javase/8/docs/

大数 java UUID blockquote section hadoop bigdata

hadoop - 在hadoop中保存和访问类似表的数据结构

我想使用MapReduce编程在HDFS中保存和访问类似表的数据结构。此DS的部分内容如下图所示。这个DS有几万列和几百行，所有节点都应该可以访问它。我的问题是:如何将此DS保存在HDFS中并使用MapReduce编程访问它。我应该使用数组吗？(或Hive表？或Hbase？)谢谢。最佳答案 HDFS是分布式文件系统，它将您的大文件存储在分布式服务器中。您可以使用命令将您的文件从本地系统复制到HDFShadoopfs-copyFromLocal/source/local/pathdestincation/hdfs/path复制完成后

hadoop 在 section HDFS data-structures mapreduce bigdata

hadoop - 使用 Pig 脚本删除文件的第一行和最后一行

我想使用pig脚本删除HDFS文件的第一行和最后一行。我尝试使用Rank实现此目的并且它有效但我应该知道最后一个排名数字以删除它但我的文件是动态的它可以有更多或更少的行，对于那种情况我无法找到任何事物。请帮忙编辑:我的数据很大，所以我无法创建模式，也无法将它们分组以使用MIN()如何实现这一点？最佳答案一旦您获得可用的排名，您就可以通过MIN和MAXeval函数获得要排除的第一个和最后一个排名(即文件的第一行和最后一行)。这样您就无需对排名过滤器进行硬编码。EvalfunctionMAXEvalfunctionMIN注意:这是针

hadoop Pig section strong 排名 apache-pig bigdata

java - 使用hadoop jar时如何增加堆大小？

我正在使用hadoopjar命令运行一个程序。但是，为了使该程序运行得更快，我需要增加Hadoop的堆大小。我尝试了以下方法，但它没有任何效果(我有hadoop版本2.5)，即使在同一个终端上也是如此。exportHADOOP_HEAPSIZE=16384exportHADOOP_OPTS="-Xmx16g"我认为的另一种方法是将以下内容添加到mapred-site.xml文件中，但不幸的是我不是管理员，所以不能这样做。mapred.child.java.opts-Xmx16384m还有其他方法吗？最佳答案我通过修改HADOOP

hadoop java section code mapreduce bigdata heap-memory