单机海量哈希去重算法 - whatsns开源问答社区

单机海量哈希去重算法财富值30

2016-10-12 23:43发布

该问题目前已经被作者或者管理员关闭, 无法添加新回复

7条回答

Battle field - 这个人很懒，什么都没留下

1楼-- · 2016-10-12 23:38

哈希值是128位的，只要其中1位不同，就不是重复的。
所以，不用太复杂的比较算法，只要抽取其中一部分进行比对就行了。
比如，只比较每个哈希值的低64位。这样能过滤掉大部分值。

田鼠 - 这个人很懒，什么都没留下

2楼-- · 2016-10-12 23:47

硬盘最好是2个，避免读写冲突。
第二个空硬盘当作平坦空间用，用来标记重复值，而不是把哈希值从A盘复制出来。

恰逢花开 - 这个人很懒，什么都没留下

3楼-- · 2016-10-12 23:35

之前做过去除几百G的DNA序列中的重复序列，感觉和这个问题类似（假设你的文件一行一个hash），buffsize给的是30G（在集群上跑了一天），不知道你这个512M要跑多久...

bobomao - 这个人很懒，什么都没留下

4楼-- · 2016-10-12 23:45

不知我是否对那1TB数据真正理解，我按你的方法算出来的空间要求远大于你的空间限制，但时间远小于你的估计。
考虑MD5为最优存储方案，则每个MD5占用的硬盘空间为$$frac{log_{2}1632}{8}=16$$，如此，整个1TB硬盘中约有$$610^{10}$$个MD5。
按你的方法，在平均情况下，空间占用为1TB/256(4GB)，超过了256MB的限制。何况MD5首两个字母的分布不一定是平均的，所以这个值可能会更大。
但是计算时间，我得出来的答案约为16h，算上IO的开销及分类准备，怎么也不可能超过两天。
当然，理论上分类没必要这么麻烦，直接外部排序并线性去重来的更方便。且你的方法复杂度为$$O(nklog_{2}frac{n}{k})(k=256)$$，直接方法为$$O(nlog_{2}n)$$，所以在理论复杂度上后者也更低。但是加上磁盘IO等因素，孰优孰劣我可不能妄加定论了。
所谓

Battle field - 这个人很懒，什么都没留下

5楼-- · 2016-10-12 23:31

1.我觉得这类问题出现频率很高的，比如面试，笔试题中，所以一般Google一把，都能找到比较详细的答案的。
2.hash去重应该可以用这个算法Bloom Filter

balisong - 我对你的爱。每天都在一点点的更深刻。或许我表面不在乎。

6楼-- · 2016-10-12 23:37

这个得用布隆过滤器

mishen - whatsns产品经理

7楼-- · 2016-10-12 23:39

直接用Hadoop行不行~

单机海量哈希去重算法财富值30

一周热门更多>

相关问题

相关文章

单机海量哈希去重算法 财富值30

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间

一周热门 更多>

相关问题

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

单机海量哈希去重算法财富值30

一周热门更多>