replicating

hadoop - dfs.replication提供复制因子，file.replication提供什么

我的理解是dfs.replication提供了HDFS维护的复制数量，在core-default.xml中，我看到“file.replication”以及“s3.replication”、“ftp.replication”和“s3native.replication"，能否请您提供有关这些变量重要性的任何输入最佳答案 Hadoop支持不同的文件系统实现，所有这些属性定义了用于其相应文件系统的复制因子。------------------------------------------------------------------

hadoop - Hadoop dfs.replicate 如何工作？

我有一个2节点的hadoop(一个是主/从，另一个是从)设置和4个输入文件，每个文件大小为1GB。当我将dfs.replicate设置为2时，整个数据将被复制到两个节点，这是可以理解的。但我的问题是，我如何看到单节点设置的性能提高(几乎是原来的两倍)，因为在2节点的情况下，map-reduce仍然会运行在两个系统上的完整数据集以及添加的将输入从2个映射器传送到缩减器的开销。此外，当我将复制设置为1时，整个数据仅存在于主节点上，这也是可以理解的，以避免以太网开销。但即使在这种情况下，我也看到了与单节点设置相比的性能改进，这让我感到困惑，因为map-reduce在本地数据集上运行，这种情况

apache-spark - Hadoop/ Spark : How replication factor and performance are related?

在不讨论所有其他性能因素、磁盘空间和名称节点对象的情况下，复制因子如何提高MR、Tez和Spark的性能。如果我们有5个数据链，执行引擎将复制设置为5是否更好？什么是最好的和最坏的值(value)？这对聚合、连接和仅限map的作业有何好处？最佳答案 Hadoop的主要租户之一正在将计算转移到数据。如果您将复制因子设置为大约等于数据节点的数量，则可以保证每台机器都能够处理该数据。但是，正如您提到的，namenode开销非常重要，更多的文件或副本会导致请求缓慢。在不健康的集群中，更多的副本也会使您的网络饱和。我从未见过高于5的数据，而

hadoop - HDFS 名称节点 HA : Why use NFS rather than simply replicate between the two?

看Facebook使用的AvatarNode方案为HDFSNamenode提供HA，不明白为什么要用NFS。让我感到困惑的是，NFS无论如何都必须复制才能实现HA。主节点必须写入NFS并刷新才能获得HA。为什么不简单地在主节点和辅助节点之间打开一个套接字channel，然后对辅助Namenode执行相同的写入。这将是(大约)相同数量的网络流量，并且似乎具有相同的复制语义。那么问题来了，为什么不这样做呢？我想原因之一可能是NFS存在，因此问题可能更容易实现。但是考虑到在主要和次要之间使用原始套接字channel将写入流接口(interface)(即文件)的相同信息写入NFS的(明显的)简

hadoop - "dfs.replication"和 "dfs.datanode.data.dir"配置如何在集群中工作？

我已按照Apache“单节点设置”说明在单节点上设置dfs.replication。但是后来我按照“ClusterSetup”进行操作，但它没有提到这个属性，所以我不知道这是要在Namenode上设置的属性，还是也/仅在Datanodes上设置的属性..我还读到在数据节点上的dfs.datanode.data.dir中设置多个(逗号分隔)路径将复制所有路径上的数据。所以我的问题是:dfs.replication将对哪个节点产生影响，如果dfs.datanode.data.dir的多个路径是设置，这些额外的独立复制是否仅针对每个数据节点，或者这些是否也以某种方式与dfs.replicat

hadoop - 如何在hadoop中解析 'file could only be replicated to 0 nodes, instead of 1'？

我有一个简单的hadoop作业，可以抓取网站并将它们缓存到HDFS。映射器检查HDFS中是否已存在URL，如果存在，则使用它，否则下载页面并将其保存到HDFS。如果在下载页面时遇到网络错误(404等)，则URL将被完全跳过-不会写入HDFS。每当我运行一个小列表~1000个网站时，我似乎总是遇到这个错误，它在我的伪分布式安装中反复使作业崩溃。可能是什么问题？我正在运行Hadoop0.20.2-cdh3u3。org.apache.hadoop.ipc.RemoteException:java.io.IOException:File/user/raj/cache/9b4edc6adab6f

amazon-ec2 - HDFS 错误 : could only be replicated to 0 nodes, 而不是 1

我在EC2中创建了一个ubuntu单节点hadoop集群。测试一个简单的文件上传到hdfs可以在EC2机器上运行，但不能在EC2之外的机器上运行。我可以从远程机器通过Web界面浏览文件系统，它显示一个报告为正在服务的数据节点。已经打开了从0到60000(!)的安全性中的所有tcp端口，所以我不认为是这样。我得到了错误java.io.IOException:File/user/ubuntu/piescouldonlybereplicatedto0nodes,insteadof1atorg.apache.hadoop.hdfs.server.namenode.FSNamesystem.ge

replication - Redis slave 是否会在 SYNC 期间从部分更新的数据集提供服务？

我们正在考虑迁移到一种新架构，其中包含一个主Redis数据库和10个只读从属数据库。只有奴隶服务于公众的请求。master每隔几天更新一次，删除所有key并添加全新的key。没有“更新”。(这是一个奇怪的应用程序)正因为如此，我很担心SYNC过程中会发生什么。从Redis文档中不清楚是否:A(好):从站继续为来自旧数据集的请求提供服务，直到SYNC完成，然后它切换到从完全同步的数据集提供服务。B(差):从站尽可能地从部分更新的数据集中处理请求。在我们的例子中，这将导致在SYNC完成之前提供损坏的结果。最佳答案来自redisdoc

redis - Redis Replication 是否有助于负载平衡？

我们不断地将事件写入和更新到Redis中，因此当我们想要读取数据(大量数据，超过500000个键值对)时，Redis会出现性能问题。所以，我们决定通过多线程获取数据。但是由于单实例redis，性能问题仍然存在。复制对我们有帮助吗？就像通过创建主从redis一样，我们对事件的读取是否会分发给从属。我们正在考虑让master只写。还有其他性能改进建议吗？最佳答案 (其中之一)复制的声明目的是帮助扩展读取，所以是的。请注意，在设置从属之后，您需要为读取器线程和进程指定其地址。如果您没有明确区分写入者和读取者，请确保从读取从属开始。如果一

java - Redis Replication和Cluster区别

目前我的Springboot应用程序有一个redis服务器。既然我想让redis服务器高可用，我应该采用哪种方法？例如，如果我的主人自动关闭，我会设置主人，奴隶和哨兵，新的主人被选举出来并且应用程序正常工作。这种方法是否称为具有自动故障转移的复制？另一方面，集群与上述(复制)设置有何不同。它是否也支持自动故障转移的哨兵服务器？在数据方面，我读到，在多个Node之间集群拆分数据而不是relication在所有从属Node中具有主Node数据的精确副本。在那种情况下，在集群的多个Node中拆分数据，如果某些Node出现故障，会导致数据过时吗？最佳答案