java - 用于净化文本的 Lucene 库(复数、动词......)

标签 java lucene purify

我需要一些帮助来在我的 Java 应用程序中使用 Lucene 来简化文本。

我自己已经做到了,但我没有动词和复数的解决方案。

我该如何处理?

最佳答案

如果我正确理解你的问题,你想从文本中检测名词/动词。据我所知,Lucene 本身没有能力检测到这一点。您可以查看 OpenNLP库是一个

machine learning based toolkit for the processing of natural language text

因此,它将使用训练模型和预测等概念。它有一个 POSTagger API(词性标注器)——你可以看看它的用法 here在文档和一些详细示例中 here , herehere .

Java中另一个优秀的框架是Stanford Core NLP您可以查看斯坦福对数线性词性标注器 here

关于java - 用于净化文本的 Lucene 库(复数、动词......),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45535666/

相关文章:

algorithm - 大数据模式匹配的数据结构

Solr 方面总和而不是计数

apache - Liferay 的 SOLR 插件有什么用?

oracle - 如何使用 purify 将共享库从工具化中排除?

java - 如何检测 Java 字符串中的日语文本?

Java 序列化(X509CertificateObject 的)

windows-7 - Rational PurifyPlus : where to buy? 任何替代品的经验?

java - Weblogic 12c 上的 PermGenSpace 错误

java - 无法在 Java 中获取 Switch 案例的行为