我正在尝试使用随机平均来实现 hyperloglog 计数算法。为此,我需要许多独立的通用哈希函数来对不同子流中的项目进行哈希处理。
我发现hashlib中只有几个可用的哈希函数 而且我好像没办法提供种子什么的?我正在考虑对不同的子流使用不同的盐。
最佳答案
您可能不需要不同的哈希函数。此问题的常见解决方案是仅使用哈希的一部分来计算 HyperLogLog rho 统计量,另一部分来选择子流。如果您使用良好的哈希函数(例如 murmur3),它实际上表现为多个独立的函数。
请参阅此处的“随机平均”部分以获取对此的解释: https://research.neustar.biz/2012/10/25/sketch-of-the-day-hyperloglog-cornerstone-of-a-big-data-infrastructure/
关于python - 如何得到一族独立的通用哈希函数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36737371/