java - NLP for java，我应该使用哪个工具包？

我正在做一个项目，需要计算 txt 文件中每个单词的出现次数。例如，我有一个这样的文本文件:

What Silver Lake Looks For in IPO Candidates 3 Companies Crushed by Earnings: Apple, Cirrus Logic, IBM IBM's Palmisano: How You Get To Be A 100-Year Old Company

如果文件中有上面显示的 3 个句子，我想计算每个单词的出现次数。这里，Company和company应该被认为是同一个词“company”(小写)，所以“company”这个词的总出现次数是2。

是否有任何适用于 Java 的 NLP 工具包可以分辨“家庭”和“家庭”等两个词实际上来自同一个词“家庭”？

我会统计每个词的出现次数，进一步做朴素贝叶斯训练，所以准确的得到每个词的出现次数非常重要。

最佳答案

Apache Lucene和 OpenNLP提供良好的词干算法实现。您可以查看并使用最适合您的那个。我一直在为我的项目使用 Lucene。

关于java - NLP for java，我应该使用哪个工具包？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8515281/

上一篇：java - 在运行的 servlet 中从 Eclipse 修改 Java 类？

下一篇：java - 扩展类时出错

相关文章：

java - Intellij 添加 jar 作为源

java - 使用泛型类时 lambda 使用者参数的类型未知

java - 将txt文件转换为邻接表，然后制作Graph

python - 使用 Python 进行实时文本处理

python - tensorflow : ValueError: Shape must be rank 2 but is rank 3

java - JMX MXBean 属性全部未定义 - Spring 3.0.x/Tomcat 6.0

java - eclipse可以将类文件中的第二个类提取到自己的文件中吗

python - 如何检查 txt 文件中的每一行是否有正确的用户名和密码

apache-flex - 如何在 AS3 中从文本创建粒子结构？

machine-learning - 我们能否在通过 NER 标记的实体周围找到句子？