python - 如何得到一族独立的通用哈希函数?

标签 python hash hyperloglog

我正在尝试使用随机平均来实现 hyperloglog 计数算法。为此,我需要许多独立的通用哈希函数来对不同子流中的项目进行哈希处理。

我发现hashlib中只有几个可用的哈希函数 而且我好像没办法提供种子什么的?我正在考虑对不同的子流使用不同的盐。

最佳答案

您可能不需要不同的哈希函数。此问题的常见解决方案是仅使用哈希的一部分来计算 HyperLogLog rho 统计量,另一部分来选择子流。如果您使用良好的哈希函数(例如 murmur3),它实际上表现为多个独立的函数。

请参阅此处的“随机平均”部分以获取对此的解释: https://research.neustar.biz/2012/10/25/sketch-of-the-day-hyperloglog-cornerstone-of-a-big-data-infrastructure/

关于python - 如何得到一族独立的通用哈希函数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36737371/

相关文章:

python - 时间序列数据 : bin data to each day, 然后按星期绘制

c# - 如何使用 C# 取消散列?

java - IdentityHashMap.hash() 中这段代码的用途是什么?

algorithm - 为什么在hyperloglog算法中前导零计数加1

javascript - 用于计算大基数的 LogLog 和 HyperLogLog 算法

python - Django - 循环导入模块和子模块

python - SQL mycursor.execute INSERT 代码使用 python 失败

python - 任何人都可以看到我的代码中的缺陷吗?

php - UPDATE 时使用 SHA512 对密码进行哈希处理

android - hyperlog-android 并不是所有的日志都发送到服务器。如何解决这个问题?