java - NLP for java,我应该使用哪个工具包?

标签 java text nlp text-mining

我正在做一个项目,需要计算 txt 文件中每个单词的出现次数。 例如,我有一个这样的文本文件:

What Silver Lake Looks For in IPO Candidates 3 Companies Crushed by Earnings: Apple, Cirrus Logic, IBM IBM's Palmisano: How You Get To Be A 100-Year Old Company

如果文件中有上面显示的 3 个句子,我想计算每个单词的出现次数。这里,Company和company应该被认为是同一个词“company”(小写),所以“company”这个词的总出现次数是2。

是否有任何适用于 Java 的 NLP 工具包可以分辨“家庭”和“家庭”等两个词实际上来自同一个词“家庭”?

我会统计每个词的出现次数,进一步做朴素贝叶斯训练,所以准确的得到每个词的出现次数非常重要。

最佳答案

Apache LuceneOpenNLP提供良好的词干算法实现。您可以查看并使用最适合您的那个。我一直在为我的项目使用 Lucene。

关于java - NLP for java,我应该使用哪个工具包?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8515281/

相关文章:

java - Intellij 添加 jar 作为源

java - 使用泛型类时 lambda 使用者参数的类型未知

java - 将txt文件转换为邻接表,然后制作Graph

python - 使用 Python 进行实时文本处理

python - tensorflow : ValueError: Shape must be rank 2 but is rank 3

java - JMX MXBean 属性全部未定义 - Spring 3.0.x/Tomcat 6.0

java - eclipse可以将类文件中的第二个类提取到自己的文件中吗

python - 如何检查 txt 文件中的每一行是否有正确的用户名和密码

apache-flex - 如何在 AS3 中从文本创建粒子结构?

machine-learning - 我们能否在通过 NER 标记的实体周围找到句子?