cascalog

java - JVM(尴尬地)并行处理库/工具

我正在寻找能让在集群上轻松运行(正确编码)令人尴尬的并行JVM代码的东西(以便我可以使用Clojure+Incanter)。我过去曾使用ParallelPython来执行此操作。我们有一个新的PBS集群，我们的管理员将很快设置使用PBS作为后端的IPython节点。这两个系统使得在集群中运行某些类型的代码几乎是轻而易举的事。我过去在使用Hadoop时犯了一个错误(Hadoop不适合我使用的数据类型)-延迟使得即使是小的运行也需要执行1-2分钟。JPPF或Gridgain哪个更适合我的需要？这里有没有人有任何经验？您还有什么可以推荐的吗？最佳答案

hadoop - Jcascalog 查询 HDFS 上的 thrift 数据

我读了NathanMarz关于lambda架构的书。实际上，我正在对这个解决方案进行概念验证。我在构建Jcascalog查询时遇到困难。这是我们感兴趣的节俭模式的一部分:unionArticlePropertyValue{1:decimalquantity,2:stringname;}unionArticleID{1:intid;}structArticleProperty{1:requiredArticleIDid;2:requiredArticlePropertyValueproperty;}unionDataUnit{1:TicketPropertyticket_property

Jcascalog hadoop 34 predicate section hdfs thrift cascalog lambda-architecture

hadoop - Cascalog first-n - 无法连接谓词

我正在处理followingexample在来自cascalogproject的克隆中的leinrepl.我跑过:(defsrc[[1][3][2]])(defqueryx(?y)))(?但是当我尝试这个时:(?我明白了IllegalArgumentExceptionUnabletojoinpredicatestogetherjackknife.core/throw-illegal(core.clj:100)这似乎是查询创建与执行的对比。是否可以创建执行此查询的查询？最佳答案根据文档，first-n返回一个查询，并且查询对象也用

Cascalog first-n code queryx section hadoop clojure cascading

hadoop - clojure:使用多台计算机进行并行处理

我有500个目录，每个目录有1000个文件(每个大约3-4k行)。我想在这些文件中的每一个上运行相同clojure程序(已经编写)。我有4个八核服务器。在这些核心之间分配流程的好方法是什么？cascalog(hadoop+clojure)？基本上，该程序读取文件，使用第3方Javajar进行计算，并将结果插入数据库请注意:1.必须能够使用第3方库/jar2.没有任何形式的查询最佳答案因为据我所知，您的整个过程没有“减少”阶段，所以将125个目录放在每台服务器上，然后将剩余的时间花在尝试使该程序更快地处理它们上是有意义的。当然，直

clojure hadoop section stackoverflow parallel-processing cascalog

hadoop - Cascalog进程多行json？

我有一个要使用cascalog处理的Json文件目录。我现在拥有的解决方案要求我使用bash脚本从我的json文件中删除所有换行符。我正在寻找更好的解决方案，因为我使用rsync同步这些文件。我的问题是我能否在Cascalog中读取文件的内容并将文件的内容作为一个元组返回。目前，函数“lfs-textline”为文件中的每一行返回一个元组序列，因此我必须删除换行符。最好我想为每个文件返回一个元组序列。(defntextline-parsed[dir](let[source(lfs-textlinedir)]( 最佳答案使用casc

多行 Cascalog section code 换行符 hadoop clojure

hadoop - 使用 Cascalog/Cascading 读取 XML

网上有一些信息表明Mahout的XMLInputFormat可用于在hadoop上有效地处理XML，但我一直无法找到如何使其工作的示例。有人可以指出我正确的方向吗？我正在使用Cascalog/Clojure。最佳答案看看这个使用记录阅读器的hadoop实现读取xml文件:http://javatute.com/javatute/faces/post/hadoop/2014/reading-simple-xml-file-using-hadoop.xhtml 关于hadoop-使用Ca

Cascading Cascalog section hadoop javatute clojure mahout

hadoop - Clojure Hadoop - 5 行 Cascalog 相当于 300 行 PIG？

在thispresentation在幻灯片36和37-Cascalog的作者断言，给定一组姓名和年龄的数据，例如:[姓名年龄]返回所有大于平均年龄的结果的查询是300行PIG。这是一个有效的断言吗？PIG到底有几行？或者他描述的问题比我描述的更严重？(免责声明-我是Nathan的作品、Clojure和Cascalog的忠实粉丝-我只是想弄清楚一些事实)。最佳答案您误解了他在本次演讲中所说的话。他的意思是PIG中的“平均”实现是300行java代码，而由宏谓词功能实现的5行cascalog代码。他想强调构图的力量。PD:抱歉我的英

Cascalog 相当 section stackoverflow hadoop clojure apache-pig cascading

hadoop - 使用 cascalog 将同现计数转化为同现概率

我有一个存储在s3上的同现计数表(其中每一行都是[key-a,key-b,count])，我想从中生成同现概率矩阵。为此，我需要计算每个键a的计数总和，然后将每行除以其键a的总和。如果我“手动”执行此操作，我会传递数据以生成从键到总计的哈希表(在leveldb或类似的东西中)，然后第二次传递数据以执行分配。这听起来不像是一种非常流氓的方式。有什么方法可以通过执行相当于自连接的操作来获取一行的总计吗？最佳答案示例数据:(defcoocurrences[["foo""bar"3]["bar""foo"3]["foo""quux"6]

同现化为 34 section hadoop clojure cascalog

hadoop - Cascalog Hadoop 版本支持

我注意到Cascalog入门指南指定了Hadoop的一个版本:profiles{:dev{:dependencies[[org.apache.hadoop/hadoop-core"1.0.3"]]}}如果我的团队使用不同版本的Hadoop，那我就不走运了吗？更广泛地说，Cascalog与哪些Hadoop版本集互操作？最佳答案目前的简单答案是(截至2014年8月10日)Cascalog的版本为2.1.1，默认情况下使用Cascading2.5.3和Hadoop1.2.1，所以是的，如果您的团队没有使用Hadoop1.x版那你就不走

Cascalog hadoop section clojure