我正在做一个项目,需要计算 txt 文件中每个单词的出现次数。 例如,我有一个这样的文本文件:
What Silver Lake Looks For in IPO Candidates 3 Companies Crushed by Earnings: Apple, Cirrus Logic, IBM IBM's Palmisano: How You Get To Be A 100-Year Old Company
如果文件中有上面显示的 3 个句子,我想计算每个单词的出现次数。这里,Company和company应该被认为是同一个词“company”(小写),所以“company”这个词的总出现次数是2。
是否有任何适用于 Java 的 NLP 工具包可以分辨“家庭”和“家庭”等两个词实际上来自同一个词“家庭”?
我会统计每个词的出现次数,进一步做朴素贝叶斯训练,所以准确的得到每个词的出现次数非常重要。
最佳答案
Apache Lucene和 OpenNLP提供良好的词干算法实现。您可以查看并使用最适合您的那个。我一直在为我的项目使用 Lucene。
关于java - NLP for java,我应该使用哪个工具包?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8515281/