algorithm - 计数最小草图 : How to handle counters overflow?

标签 algorithm count-min-sketch

所以 Count-Min Sketch 的重点是根据提供的散列函数的结果更新某些计数器。但是,这些计数器在内存中是有限的,在运行一段时间后,它们可能会溢出,从 MAX 值下降到 MIN 值(就像整数一样)。假设我只需要草图中出现次数最多的 N 个值,除了每隔一段时间重新启动草图之外,是否有其他方法可以避免这种情况?

最佳答案

如果这让您担心,请使用适当大小的整数。

一个 8 字节(long long)无符号整数的最大值为 18,446,744,073,709,551,615。这应该足够了。

编辑

Assuming all I need is the N most frequent values in the sketch, is there a way to avoid this other than restarting the sketch every once in a while?

也许你可以适应reservoir sampling满足您的需求。

关于algorithm - 计数最小草图 : How to handle counters overflow?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49160122/

相关文章:

algorithm - 逐字母搜索背后的数据结构是什么?

java - 如何确定与道路相连的城市的 A* 搜索算法中的 H 成本

c# - Asp.net 成员(member)资格使用什么哈希算法?

php - 通过标签列表查找相关帖子

algorithm - 如何确定上下文相关的同义词?

data-structures - count-min 草图是否比典型的稀疏矢量格式占用更少的空间?