java - ConcurrentHashMap 中 String intern 方法的去重

标签 java string dictionary duplicates concurrenthashmap

我看过JavaDays的一个代码，作者说这种有概率的方法对于存储字符串非常有效，类似于String intern方法

 public class CHMDeduplicator<T> {
    private final int prob;
    private final Map<T, T> map;

    public CHMDeduplicator(double prob) {
        this.prob = (int) (Integer.MIN_VALUE + prob * (1L << 32));
        this.map = new ConcurrentHashMap<>();
    }

    public T dedup(T t) {
        if (ThreadLocalRandom.current().nextInt() > prob) {
            return t;
        }
        T exist = map.putIfAbsent(t, t);
        return (exist == null) ? t : exist;
    }
}

请解释一下，这一行中概率的作用是什么:

if (ThreadLocalRandom.current().nextInt() > prob) return t;

这是来自 Java Days 的原创演示 https://shipilev.net/talks/jpoint-April2015-string-catechism.pdf (第 56 张幻灯片)

最佳答案

如果您查看下一张幻灯片，其中包含不同概率数据的表格，或者收听 talk ，您将看到/听到基本原理:概率重复数据删除器平衡了对字符串进行重复数据删除所花费的时间以及重复数据删除带来的内存节省。这允许微调处理字符串所花费的时间，甚至可以在代码周围散布低概率重复数据删除器，从而分摊重复数据删除成本。

(来源:这些是我的幻灯片)

关于java - ConcurrentHashMap 中 String intern 方法的去重，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38768352/

上一篇：java - JPA 映射一个映射，其中键是一个枚举

下一篇：java - 在 Spring Boot 1.4 中测试安全性

相关文章：

java - 无法从 sqlite 表获取值

c++ - 字符串流变空

python - 如何在发布数据python中接收字典

python - 如何将嵌套的 python 字典转换为简单的命名空间？

Java Process.waitFor() 和 IO 流

java - 具有一对多和多对一关系的 CriteriaQuery

c - 用C中的字符替换字符串

python - 使用键作为方法(getter 和 setter)调用语法访问字典

java - 如何在 Eclipse 中的 Java 构建路径中更新 Android

java - 从字符串数组 java 中的标记/单词构建句子