lucene - 从elasticsearch api获取词干

标签 lucene elasticsearch stemming

我正在开发一个项目,使用elasticsearch来分析推文。我正在制作一个他们最常发布推文的热门话题(人们的兴趣)列表。

由于推文大多数时候都包含一些单词,需要先对其进行词干处理,然后才能将其用作列表(兴趣)名称。

Elasticsearch 擅长从数据库中进行搜索,它可以处理停用词删除;词干;等等,但我想知道是否有一种方法可以从 Elasticsearch API 中从我的推文中提取词干。

我认为 apache lucene 可以做到这一点,但我想坚持使用 elasticsearch。

任何人都可以建议我一种在 Elasticsearch 中实现此目标的方法吗?

提前致谢!!!

  • 编辑:-

假设我们有 3 个单词,例如。玩,玩,玩等等。

所有这些单词在词干提取后都是相同的(play),所以我想增加这里仅 play(词干单词)的计数,而不是 3 个非词干单词的单独计数。

希望这个例子能让我的目的更加明确。

最佳答案

关于lucene - 从elasticsearch api获取词干,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19557456/

相关文章:

elasticsearch - 让 elasticsearch 和 bigquery 协同工作

elasticsearch - Kibana脚本字段中的Groovy脚本

java - lucene standardanalyzer是否删除停用词并具有词干提取功能?

json - 发送 JSON/XML/TXT/CSV 文件到 ElasticSearch

ruby-on-rails - Faraday::ConnectionFailed连接被拒绝- “localhost”端口9200的connect(2)

r - 使用 R 文本分析进行词干提取

java - 使用 Lucene 6 提取英语单词

c# - Lucene.net 和部分 "starts with"词组搜索

lucene - 如何使用ElasticSearch进行 “is contained in”