java - 计算文件中重复的单词

标签 java string data-structures hashmap

目标:找到文件中所有单词的数量。文件包含 1000 多个单词

我的方法:使用 HashMap<String,Integer>()存储和统计每个单词在文件中出现的次数。

问题: 会 HashMap()是最好的方法还是使用二叉树来确保更快的查找更好,因为文件中有大量单词?

或者有更好的方法吗?

HashMap 会导致大量内存开销,这是不希望的。

最佳答案

所以你在寻找不同的词?

我能想到的最有效的结构是 Trie

这是一个开源实现:Google Code patricia-trie

尽管我倾向于同意 Mitch Wheat 的观点——听起来 HashMap 应该可以正常工作(最好避免过早优化……因此您应该使用 HashMap 直到您证明它是瓶颈)

关于java - 计算文件中重复的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3942444/

相关文章:

java - 在 Java 中,为什么调用 foo() 在给定 2 个可变参数方法 foo(int...ints) 和 foo(Object...objects) 的情况下没有歧义?

java - 了解函数运算符 : Lambda

C 连接字符串额外空格

c - 指针和数据结构

java - 无法一次将多个图像移动到另一个文件夹

java - Spring Boot验证,反序列化requestBody时期望字段,但不来自responseBody

javascript - 测试字符串是否为 html 的最佳方法

java - inputStream 字符串不同于字符串字面量

c - 奇怪的数字出现在输出-C

Java 多个关键字搜索