我正在寻找一种不应该考虑 $、@、# 等特殊字符的方法。作为分隔符,使用标准分词器。它可以通过使用空白标记器和单词定界符过滤器组合来实现。但我希望使用标准分析器,因为我不确定它如何生成 token 以及如何利用标准分词器的其他优势。
如果没有办法用标准分词器做到这一点。请给我一些建议, token 生成是如何在内部发生的,以及标准 token 生成器的其他好处是什么。
--谢谢
最佳答案
您可以使用 uax_url_email 分词器。这是对此的描述,
UAX URL Email Tokenizer
The uax_url_email tokenizer is like the standard tokenizer
except that it recognises URLs and email addresses as single tokens.
https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-uaxurlemail-tokenizer.html
关于elasticsearch - 有什么方法可以告诉 elasticsearch 标准分词器不要将 $、@、# 视为分隔符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31447615/