hash - 如果我散列一堆散列，散列冲突的可能性有多大？

假设我使用散列来识别文件，所以我不需要它来确保安全，我只需要尽量减少冲突。我在想我可以通过使用 SIMD 并行运行四个散列然后散列最终结果来加速散列。如果散列被设计为采用 512 位 block ，我只需一次性遍历文件，采用 4x512 位 block 并从中生成四个散列；然后在文件末尾，我将四个生成的哈希值哈希在一起。

我很确定这种方法会产生较差的哈希值……但会差多少？有任何粗略的计算吗？

最佳答案

从磁盘读取文件 block 的速度比散列它们的速度更快，这个想法是未经检验的假设吗？磁盘 IO - 甚至 SSD - 比哈希所经过的 RAM 慢很多数量级。

确保低冲突是所有哈希的设计标准，所有主流哈希都做得很好——只需使用主流哈希，例如MD5.

具体到发帖者正在考虑的解决方案，并不能说明并行散列会削弱散列。有专门为 block 的并行散列设计的散列并结合发帖人所说的结果，尽管可能尚未广泛采用(例如 MD6 ，它完整地从 SHA3 中退出)

更一般地，有mainstream implementations使用 SIMD 的散列函数。哈希实现者非常performance-aware ，并花时间优化他们的实现；你会得到一份与他们的努力相当的艰苦工作。 strong 散列的最佳软件大约是 6 到 10 个周期/字节。 Hardware accelerated如果哈希是真正的瓶颈，也可以使用哈希。

关于hash - 如果我散列一堆散列，散列冲突的可能性有多大？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1706461/

hash - 如果我散列一堆散列，散列冲突的可能性有多大？

上一篇：wpf - 在不使用 anchor 的情况下通过一条线连接两个 WPF Canvas 元素？

下一篇：unix - 是否有一种标准方法来区分 du 输出以检测磁盘空间使用量增长最多的地方