java - 为elasticsearch索引实现LSA

标签 java stanford-nlp elasticsearch-plugin elasticsearch-5 lsa

过去几天我一直在思考如何对 Elasticsearch 中索引的文档实现潜在语义分析。 第一步是构建术语文档矩阵。所以我认为使用 stanford nlp 库将索引作为输入意味着小写,删除停用词,也许词干并生成矩阵,或者可以使用 elasticsearch java api 来构建它?

最佳答案

是的,您可以使用elasticsearch的_analyze端点并对文本进行标记化/字符映射/词干提取/...并获取结果。

关于java - 为elasticsearch索引实现LSA,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44068238/

相关文章:

c# - 在c#中运行Stanford.NLP.CoreNLP 3.8示例时出现TypeInitializationException

java - hashcode在java对象头中的作用是什么

java - 用于序列化 List<String> 中的 List<User> 的自定义序列化程序

java - 如何在 Java 中对 ArrayList 进行排序

java - 暂停代码,直到用户在对话框提示中输入数据

java - Stanford POS Tagger-Windows和MapReduce之间的依赖关系(Linux)

java - 斯坦福 NER - 提取多词实体

elasticsearch - 如何使用 Elasticsearch 摄取附件插件索引 pdf 文件?

elasticsearch - 在集群中的每个节点上安装插件?

elasticsearch - elasticsearch_http Logstash错误