parsing - 术语提取: Generatings tags out of text

这个问题之前已经被问过很多次了。

尝试使用现有解决方案解决此问题时，我偶然发现 Solr 在索引之前对文档执行“文本分析”，如 http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters 中所述。 - 其中还包括词干提取。

因此最终索引将主要由用于描述文档的术语组成。

是否有提供分析器、分词器和分词过滤器供直接使用的解决方案？如果 solr 是出路，那么从 solr 索引获取这些数据的最佳方法是什么？

最佳答案

Solr 是一种创建自定义搜索引擎的方法。它似乎不是适合这项工作的工具。 Wikipedia article about term extraction在其“外部链接”部分列出了几个用于术语提取的 Web 应用程序。 OpenNLP有一个可能有用的工具列表。 Its Chunker可能会有所帮助。

关于parsing - 术语提取: Generatings tags out of text，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1100549/

相关文章：

java - 运行 Solr 需要有效的 Java 8 吗？