jjzjj

hadoop - 使用 cascalog 将同现计数转化为同现概率

我有一个存储在s3上的同现计数表(其中每一行都是[key-a,key-b,count]),我想从中生成同现概率矩阵。为此,我需要计算每个键a的计数总和,然后将每行除以其键a的总和。如果我“手动”执行此操作,我会传递数据以生成从键到总计的哈希表(在leveldb或类似的东西中),然后第二次传递数据以执行分配。这听起来不像是一种非常流氓的方式。有什么方法可以通过执行相当于自连接的操作来获取一行的总计吗? 最佳答案 示例数据:(defcoocurrences[["foo""bar"3]["bar""foo"3]["foo""quux"6]