我有一个字符串,例如“这是美好的一天”
我应该使用什么标记器或标记器和标记过滤器之间的组合来产生包含最多2个单词的术语的输出?理想情况下,输出应为:
“这是一个美好的一天,美好的一天,一天,这一天,”
到目前为止,我已经尝试了所有内置的标记器,“pattern”标记器似乎是我可以使用的标记器,但是我不知道如何为我的情况编写正则表达式模式。有什么帮助吗?
最佳答案
似乎您在寻找shingle token filter确实符合您的要求。
关于elasticsearch - 如何在Elasticsearch中根据最大单词数对句子进行标记?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59353059/