parsing - 术语提取: Generatings tags out of text

标签 parsing tags solr tokenize

如何获得与 http://developer.yahoo.com/search/content/V1/termExtraction.html 相同的结果

这个问题之前已经被问过很多次了。

尝试使用现有解决方案解决此问题时,我偶然发现 Solr 在索引之前对文档执行“文本分析”,如 http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters 中所述。 - 其中还包括词干提取。

因此最终索引将主要由用于描述文档的术语组成。

是否有提供分析器、分词器和分词过滤器供直接使用的解决方案?如果 solr 是出路,那么从 solr 索引获取这些数据的最佳方法是什么?

最佳答案

Solr 是一种创建自定义搜索引擎的方法。它似乎不是适合这项工作的工具。 Wikipedia article about term extraction在其“外部链接”部分列出了几个用于术语提取的 Web 应用程序。 OpenNLP有一个可能有用的工具列表。 Its Chunker可能会有所帮助。

关于parsing - 术语提取: Generatings tags out of text,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1100549/

相关文章:

java - 运行 Solr 需要有效的 Java 8 吗?

c# - 在 C# 中将 XML 文件解析为字符串

xml - 解析器从 RDF/XML 网页中为我的 Java 网络爬虫提取 URI

C# double.TryParse with InvariantCulture 返回意外结果

Android NFC,在onCreate 中做空检查?

solr - 用非常简单的术语来说,precisionStep 是什么?

php - Jquery 解析 XML 文件

python - 在python中获取html标签值

html - 随机字母 html 标签

solr - 如何在 SOLR 中使用 OR 传递多个 fq