bigdata

java - 在大型数据集中对相同值进行分组的有效解决方案

在我的工作中，我要为以下问题开发和实现解决方案:给定一个包含30M记录的数据集，从特定数据集字段中提取(键，值)元组，按键和值对它们进行分组，存储每个键的相同值的数量。将每个键的前5000个最常见值写入数据库。每个数据集行最多包含100个(键、值)序列化XML形式的元组。我想出了这样的解决方案(使用Spring-Batch):批处理作业步骤:第1步。遍历数据集行并提取(键、值)元组。获得一些固定数量的元组后，将它们转储到磁盘上。每个元组进入一个名称模式为“/chunk-”的文件，因此指定键的所有值都存储在一个目录中。在一个文件中，值按顺序存储。第2步。遍历所有''目录并将它们的bloc

大型 java strong section 的 algorithm batch-processing spring-batch bigdata

java - 如何避免 Kafka 的限制？

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭5年前。Improvethisquestion我们正在尝试构建一个BI系统，该系统将收集大量应该由其他组件处理的数据。我们认为有一个中间层来收集、存储和分发数据是个好主意。数据由一大组日志消息表示。每条日志消息都有:一个产品一个Action类型约会对象消息负载系统细节:平均:150万条消息/分钟峰值:1500万条消息/分钟平均消息大小为:700字节(约1.3TB/天)我们有200种产品我们有1100种操作类型数据应每5分钟提取一次消费者应用程序通常需

Kafka java section li class bigdata business-intelligence apache-kafka

c++ - 1亿节点大图的C++表示

我正在处理一个非常大的图，它有5亿个节点，节点的平均度为100。所以它是一种稀疏图。我还必须存储每条边的权重。我目前正在使用两个vector，如下所示//Vcouldbe100millionvector*AdjList=newvector[V];vector*Weight=newvector[V];使用vector的vector似乎不节省空间。它需要超过400GB的存储空间。有没有更好的节省空间的方法来将这个大图存储在内存中？有使用任何C++库的建议吗？最佳答案初步说明您可以考虑使用vector的vector而不是使用动态内存分

amp 大图 vector code strong c++c graph bigdata bdd

hadoop - Gemfire XD 中的默认复制因子是多少？

我正在创建一些表，它显示复制因子为1。它是默认复制因子还是因为GemFireXD安装在伪分发环境中？我正在尝试这个查询来验证默认情况下表是否被复制。并且显示已复制selecttablename,datapolicyfromsys.systableswheretableschemaname='APP'; 最佳答案在gemfireXD中，如果不指定分区，表将被复制到集群中的所有服务器。关于hadoop-GemfireXD中的默认复制因子是多少？，我们在StackOverflow上找到一个

Gemfire hadoop section stackoverflow blockquote bigdata

Hadoop 输入文件名问题

我面临如下问题。我的输入文件夹包含一个名为:/xyz/pqr/job_ip/output_upto_Thu_Apr_23_14:53:05_2015.log的文件当我开始我的hadoop作业时，我的作业无法读取输入如果我更改文件名，请说mv/xyz/pqr/job_ip/output_upto_Thu_Apr_23_14:53:05_2015.log/xyz/pqr/job_ip/output_upto_Thu_Apr_23_145305_2015.log然后我的工作运行正常...当我将文件名保留为output_upto_Thu_Apr_23_14:53:05_2015.log时出现的

Hadoop 输入 output_upto_Thu_Apr java section mapreduce bigdata

java - Hadoop map reduce 从 csv 格式的 csv 文件中提取特定列

我是hadoop的新手，正在从事一个大数据项目，我必须清理和过滤给定的csv文件。就像如果给定的csv文件有200列，那么我只需要选择20个特定的列(所谓的数据过滤)作为进一步操作的输出。同样作为数据清理的一部分，我必须检查日期列的日期格式是否正确，并将所有格式更改为单一格式，如DD-MM-YYYY。到目前为止，我可以读取给定的文件，但是您能否建议如何选择特定的列以及如何检查日期格式？最佳答案您也可以使用ApachePig来过滤和验证日期格式。请按照以下步骤操作:将文件复制到HDFS使用加载命令和pigStorage()加载文件

csv Hadoop section 给定 pig-java-udf-validate-date-format java file-io mapreduce bigdata

hadoop - 如何在 MRUnit 中使用 avro 参数测试 reducer ？

我正在尝试测试下面的ReducerReducer,AvroKey,NullWritable>出于这些目的，我在测试中使用了下一个代码:CustomReducerreducer=newCustomReducer();reduceDriver=newReduceDriver,AvroKey,NullWritable>();Jobjob=newJob();reduceDriver=ReduceDriver.newReduceDriver(reducer).withConfiguration(job.getConfiguration());reduceDriver.setReducer(red

何在 reducer java ParentRunner junit hadoop mapreduce bigdata avro mrunit

java - 真正的大数据如何在数据科学家老死之前导入HDFS？

我是Hadoop的新手并且相信我开始看到数据分析(“离线”)与超低延迟的网络应用程序世界有多少不同.我仍在努力理解的一件重要事情是，真正的“大数据”最初是如何进入HDFS的。假设我在各种系统(RDBMS、NoSQL、日志数据等)中存储了500TB的数据。我的理解是，如果我想编写MR作业来查询和分析这些数据，我需要先将其全部导入/摄取到HDFS。但即使我在每个不同的系统和我的Hadoop集群之间有一个1Gbps的网络连接，这也是500TB=500*1000Gb=500,000GB的数据，在1Gbps下，是500,000秒或~138小时将所有数据移植到我的HDFS集群上。差不多一周了。而且

大数老死 section 的 java hadoop hdfs bigdata

hadoop - 是否可以将一个 oozie 操作的输出用于其他操作而无需从 hdfs 保存和加载？子工作流选项在这方面有用吗？

我必须编写一个运行多个pig操作的oozie工作流。这些pig操作可能相互依赖。我的意思是一个pig脚本的输出将对其他脚本有用。我想避免从hdfs进行多次保存和加载。这是如何实现的？我可以使用TEZDAG将DAG结构中的所有pig脚本组合起来，并从Oozie运行一个JavaAction吗？最佳答案在oozie中，你不能将一个节点的输出传递到另一个节点(不存储在HDFS中)。您可以实现PigServer(pigjavaAPI)来执行多个pig脚本。在一个使用pigserver的java程序中，它总是很容易满足您的要求。

这方这方面 section pig 合起 hadoop bigdata oozie apache-tez

hadoop - 使用不在 hdfs 中的文件

我有服务器的root访问权限，安装了hadoop和hive。但是，尽管我有root权限，但我无法将数据从文件系统复制到hdfs:root@serv:~#hadoopfs-putflume_test/logs/userput:Permissiondenied:user=root,access=WRITE,inode="/user":hdfs:supergroup:drwxr-xr-x我尝试了不同的方法从文件flume_test/logs创建表，它不在hdfs中。例如:CREATETABLEnatlog_orc(src_local_ipSTRING,time_startSTRING,tim

hadoop hdfs section STRING hive bigdata

1 234 5 6