jjzjj

Distributed

全部标签

Hadoop 演示代码不工作

Hadoop字数统计示例在执行命令hadoopjar/home/meghna/Desktop/hadoop-1.1.2/hadoop-examples-1.1.2.jarwordcount/word.txt/out时抛出访问控制异常以下是异常的详细信息。13/06/3023:21:21INFOinput.FileInputFormat:Totalinputpathstoprocess:113/06/3023:21:21WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuil

hadoop - 分布式系统-主服务器故障

我最近在分布式系统上阅读了一些内容,例如Google的MapReduce和GSF研究论文。这两个系统都依赖于Master节点的存在,该节点协调其他“worker”节点。我想知道设计师如何保护自己免受主失效的影响?在MapReduce论文中,我们可以阅读:Itiseasytomakethemasterwriteperiodiccheckpointsofthemasterdatastructuresdescribedabove.Ifthemastertaskdies,anewcopycanbestartedfromthelastcheckpointedstate我不清楚世卫组织负责监测主故

hadoop - hadoop 上的 Hbase 未在分布式模式下连接

您好,我正在尝试在HADOOP(hadoop-2.7.0)上设置HBASE(hbase-0.98.12-hadoop2)Hadoop在localhost:560070上运行,运行良好。我的hbase-site.xml如下所示hbase.rootdirhdfs://localhost:9000/hbasehbase.cluster.distributedtruehbase.zookeeper.quorumlocalhostdfs.replication1-->hbase.zookeeper.property.clientPort2181当我启动./start-hbase.sh时,我在日志

hadoop - 如何使用远程hadoop集群

我部署了一个Hadoop集群,客户端MapReduce程序运行在另一台机器上。我该如何使用该集群? 最佳答案 如果您在客户端机器上安装了jars,请在该机器上安装hadoop-client包,并在conf文件夹中包含集群的配置详细信息,以便您可以将作业从客户端机器触发到远程集群 关于hadoop-如何使用远程hadoop集群,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/2985

java - Reduce 任务被 Hadoop 多节点 (10x) 集群中的太多获取失败消息停止

我将Hadoop1.0.3用于一个10桌面集群系统,每个系统都有Ubuntu12.04LTS32位操作系统。JDK是7u75。每台机器有2GBRAM和core2-duo处理器。对于一个研究项目,我需要运行一个类似于“字数统计”的hadoop作业。我需要对大量数据集运行此操作,例如至少1GB的大小。我正在尝试使用hadoop的示例jarhadoop-examples-1.0.3.jar来计算输入数据集的单词数。不幸的是,我无法运行任何输入数据超过5-6MB的实验。对于输入,我使用来自https://www.gutenberg.org的纯文本共振峰故事书.我还使用了来自https://ww

hadoop - 如何找到Hadoop 2.x的安装方式

找到Hadoop2.x安装模式最快的方法是什么?我只想了解在我第一次登录到安装了Hadoop的机器时找到模式的最佳方法。 最佳答案 在hadoop2中-转到/etc/hadoop/conf文件夹并检查core-site.xml中的Fs.defaultFS和yarn-site.xml中的Yarn.resourcemanager.hostname属性。这些属性的值决定了您正在运行的模式。Fs.defaultFSStandalonemode-file:///pseudodistributed-hdfs://localhost:8020/F

apache-spark - Spark 独立集群 :Configuring Distributed File System

我刚刚从Spark本地设置迁移到Spark独立集群。显然,加载和保存文件不再有效。我了解我需要使用Hadoop来保存和加载文件。我的Spark安装是spark-2.2.1-bin-hadoop2.7问题1:我仍然需要单独下载、安装和配置Hadoop以与我的独立Spark集群一起工作,我是否正确?问题2:使用Hadoop运行和使用Yarn运行有什么区别?...哪个更容易安装和配置(假设数据负载相当轻)? 最佳答案 A1。正确的。你提到的包只是打包了指定版本的hadoop客户端,如果你想使用hdfs,你仍然需要安装hadoop。A2。使

java - "sql like"apache 配置单元的替代品

我正在寻找一个支持类似于sql查询的分布式数据库的解决方案。更准确地说,它应该有一个JDBC连接器和与sql语法相同或相似的语法。通过谷歌搜索,我发现了HIVEwithhadoop。您还知道哪些其他选择? 最佳答案 ClouderaImpala是一个支持类SQL查询并与HiveQL兼容的框架。虽然Hive已经存在一段时间并且面向批处理,但Impala是新的并且适合实时处理。不确定JDBC是否与Impala一起工作。 关于java-"sqllike"apache配置单元的替代品,我们在St

hadoop - 工具同步日志文件分布式系统

我在多个Linux节点上运行分布式作业。每个节点将数据记录到一个文件中。我浪费了很多时间使用ssh连接和单独查看每个日志。有没有工具可以整合跨系统的文件?或另一种同时查看多个日志的方法? 最佳答案 我建议查看Splunk,它是跨多个系统管理日志文件的绝佳工具,我已经在大型Hadoop系统中使用了一段时间,它基本上会从所有日志中实时聚合数据,并为您提供系统的整体View一个用户界面,这样您就不必登录到每个系统,您可以在用户界面中看到所有内容。它还允许您定义警报,并且您可以过滤所有内容并根据需要查看单个主机。

memcached - Memcached 和 Hadoop 之间的区别?

Memcached和Hadoop之间的基本区别是什么?Microsoft似乎使用WindowsServerAppFabric进行内存缓存。我知道memcached是一个使用多个服务器的巨大键值散列函数。什么是hadoop,hadoop与memcached有何不同?是用来存储数据的吗?对象?我需要在内存对象中保存巨型对象,但似乎我需要某种方式将这个巨型对象拆分成人们所说的“block”。当我考虑将对象拆分为字节时,Hadoop似乎正在兴起。我在内存中有一个巨大的类,内存超过100MB。我需要复制这个对象,以某种方式缓存这个对象。当我研究缓存这个怪物对象时,似乎我需要像谷歌那样拆分它。谷歌