我正在开发一个项目,使用elasticsearch来分析推文。我正在制作一个他们最常发布推文的热门话题(人们的兴趣)列表。
由于推文大多数时候都包含一些单词,需要先对其进行词干处理,然后才能将其用作列表(兴趣)名称。
Elasticsearch 擅长从数据库中进行搜索,它可以处理停用词删除;词干;等等,但我想知道是否有一种方法可以从 Elasticsearch API 中从我的推文中提取词干。
我认为 apache lucene 可以做到这一点,但我想坚持使用 elasticsearch。
任何人都可以建议我一种在 Elasticsearch 中实现此目标的方法吗?
提前致谢!!!
- 编辑:-
假设我们有 3 个单词,例如。玩,玩,玩等等。
所有这些单词在词干提取后都是相同的(play),所以我想增加这里仅 play(词干单词)的计数,而不是 3 个非词干单词的单独计数。
希望这个例子能让我的目的更加明确。
最佳答案
使用Elasticsearch的Analyze API怎么样? http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/indices-analyze.html
关于lucene - 从elasticsearch api获取词干,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19557456/