elasticsearch - 有什么方法可以告诉 elasticsearch 标准分词器不要将 $、@、# 视为分隔符?

标签 elasticsearch tokenize delimiter

我正在寻找一种不应该考虑 $、@、# 等特殊字符的方法。作为分隔符,使用标准分词器。它可以通过使用空白标记器和单词定界符过滤器组合来实现。但我希望使用标准分析器,因为我不确定它如何生成 token 以及如何利用标准分词器的其他优势。

如果没有办法用标准分词器做到这一点。请给我一些建议, token 生成是如何在内部发生的,以及标准 token 生成器的其他好处是什么。

--谢谢

最佳答案

您可以使用 uax_url_email 分词器。这是对此的描述,

    UAX URL Email Tokenizer
    The uax_url_email tokenizer is like the standard tokenizer
 except that it recognises URLs and email addresses as single tokens.

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-uaxurlemail-tokenizer.html

关于elasticsearch - 有什么方法可以告诉 elasticsearch 标准分词器不要将 $、@、# 视为分隔符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31447615/

相关文章:

elasticsearch - 查询以提取超过30m年前更新的时间戳不起作用

elasticsearch - 如何在Elasticsearch中查询空白日期

json - Kibana4 : Analyzed string field warning

java - 流标记器、空格

sql-server - SQL 拆分制表符分隔列

elasticsearch - Elasticsearch-聚合多层次结构

php - 如何从具有特殊编码的单词中获取每个字符

c++ - 有没有比 lex/flex 更好(更现代)的工具来为 C++ 生成标记器?

java - mysql触发器麻烦 IF ELSE UPDATE

c - 在 C 中,如何将 scanf 的分隔符设置为非字母的任何内容?