如何获得与 http://developer.yahoo.com/search/content/V1/termExtraction.html 相同的结果
这个问题之前已经被问过很多次了。
尝试使用现有解决方案解决此问题时,我偶然发现 Solr 在索引之前对文档执行“文本分析”,如 http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters 中所述。 - 其中还包括词干提取。
因此最终索引将主要由用于描述文档的术语组成。
是否有提供分析器、分词器和分词过滤器供直接使用的解决方案?如果 solr 是出路,那么从 solr 索引获取这些数据的最佳方法是什么?
最佳答案
Solr 是一种创建自定义搜索引擎的方法。它似乎不是适合这项工作的工具。 Wikipedia article about term extraction在其“外部链接”部分列出了几个用于术语提取的 Web 应用程序。 OpenNLP有一个可能有用的工具列表。 Its Chunker可能会有所帮助。
关于parsing - 术语提取: Generatings tags out of text,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1100549/