我看过JavaDays的一个代码,作者说这种有概率的方法对于存储字符串非常有效,类似于String intern方法
public class CHMDeduplicator<T> {
private final int prob;
private final Map<T, T> map;
public CHMDeduplicator(double prob) {
this.prob = (int) (Integer.MIN_VALUE + prob * (1L << 32));
this.map = new ConcurrentHashMap<>();
}
public T dedup(T t) {
if (ThreadLocalRandom.current().nextInt() > prob) {
return t;
}
T exist = map.putIfAbsent(t, t);
return (exist == null) ? t : exist;
}
}
请解释一下,这一行中概率的作用是什么:
if (ThreadLocalRandom.current().nextInt() > prob) return t;
这是来自 Java Days 的原创演示 https://shipilev.net/talks/jpoint-April2015-string-catechism.pdf (第 56 张幻灯片)
最佳答案
如果您查看下一张幻灯片,其中包含不同概率数据的表格,或者收听 talk ,您将看到/听到基本原理:概率重复数据删除器平衡了对字符串进行重复数据删除所花费的时间以及重复数据删除带来的内存节省。这允许微调处理字符串所花费的时间,甚至可以在代码周围散布低概率重复数据删除器,从而分摊重复数据删除成本。
(来源:这些是我的幻灯片)
关于java - ConcurrentHashMap 中 String intern 方法的去重,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38768352/