jjzjj

Storehaus

全部标签

scala - 使用 Storehaus 存储 algebird Bloom Filter

我有一个Spark作业,其最终输出是一个Algebird布隆过滤器,我需要在另一个Spark作业中重用这个布隆过滤器。有没有办法使用TwitterStorehaus将此布隆过滤器存储在kv存储(例如:redis)中并在其他作业中检索它(反序列化为algebird布隆过滤器)? 最佳答案 如果您不打算对bloomfilter进行并发修改,最好的方法是将bloomfilter存储为分布式位集。将键空间视为数组分区的索引,而值是该索引的数组部分。然后你可以用更少的IO进行读写。这基本上需要您在storehausMergeableStore

scala - 使用 Storehaus 存储 algebird Bloom Filter

我有一个Spark作业,其最终输出是一个Algebird布隆过滤器,我需要在另一个Spark作业中重用这个布隆过滤器。有没有办法使用TwitterStorehaus将此布隆过滤器存储在kv存储(例如:redis)中并在其他作业中检索它(反序列化为algebird布隆过滤器)? 最佳答案 如果您不打算对bloomfilter进行并发修改,最好的方法是将bloomfilter存储为分布式位集。将键空间视为数组分区的索引,而值是该索引的数组部分。然后你可以用更少的IO进行读写。这基本上需要您在storehausMergeableStore