elasticsearch - 如何在Elasticsearch中根据最大单词数对句子进行标记?

标签 elasticsearch filter tokenize

我有一个字符串,例如“这是美好的一天”
我应该使用什么标记器或标记器和标记过滤器之间的组合来产生包含最多2个单词的术语的输出?理想情况下,输出应为:
“这是一个美好的一天,美好的一天,一天,这一天,”
到目前为止,我已经尝试了所有内置的标记器,“pattern”标记器似乎是我可以使用的标记器,但是我不知道如何为我的情况编写正则表达式模式。有什么帮助吗?

最佳答案

似乎您在寻找shingle token filter确实符合您的要求。

关于elasticsearch - 如何在Elasticsearch中根据最大单词数对句子进行标记?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59353059/

相关文章:

elasticsearch - ElasticSearch多字段不起作用

c# - 如何根据另一个 Observable 的值过滤 Observable?

asp.net - ASP.NET MVC 6 中 FilterAttribute 内的依赖注入(inject)

python - 与 Python 中包含空格的术语一起使用的标记化?

javascript - 绘制 Elasticsearch 日期直方图的空间隔

elasticsearch - Elasticsearch 查找多个精确值查询

c# - Elasticsearch 和 NEST : How do you purge all documents from an index?

java - 嵌套 For 循环的有效替代方案

XSLT 2.0 : Tokenize does not work on period character (full stop/dot)

python - spacy 标记化合并了错误的标记