过去几天我一直在思考如何对 Elasticsearch 中索引的文档实现潜在语义分析。 第一步是构建术语文档矩阵。所以我认为使用 stanford nlp 库将索引作为输入意味着小写,删除停用词,也许词干并生成矩阵,或者可以使用 elasticsearch java api 来构建它?
最佳答案
是的,您可以使用elasticsearch的_analyze
端点并对文本进行标记化/字符映射/词干提取/...
并获取结果。
关于java - 为elasticsearch索引实现LSA,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44068238/