elasticsearch - 有什么方法可以告诉 elasticsearch 标准分词器不要将 $、@、# 视为分隔符？

我正在寻找一种不应该考虑 $、@、# 等特殊字符的方法。作为分隔符，使用标准分词器。它可以通过使用空白标记器和单词定界符过滤器组合来实现。但我希望使用标准分析器，因为我不确定它如何生成 token 以及如何利用标准分词器的其他优势。

如果没有办法用标准分词器做到这一点。请给我一些建议， token 生成是如何在内部发生的，以及标准 token 生成器的其他好处是什么。

--谢谢

最佳答案

您可以使用 uax_url_email 分词器。这是对此的描述，

    UAX URL Email Tokenizer
    The uax_url_email tokenizer is like the standard tokenizer
 except that it recognises URLs and email addresses as single tokens.

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-uaxurlemail-tokenizer.html

关于elasticsearch - 有什么方法可以告诉 elasticsearch 标准分词器不要将 $、@、# 视为分隔符？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31447615/

上一篇：python - elasticsearch python正则表达式查询

下一篇：macos - 使用从alSourceUnqueueBuffers()获得的缓冲区ID时，alBufferData()设置AL_INVALID_OPERATION

相关文章：

elasticsearch - 查询以提取超过30m年前更新的时间戳不起作用

elasticsearch - 如何在Elasticsearch中查询空白日期

json - Kibana4 : Analyzed string field warning

java - 流标记器、空格

sql-server - SQL 拆分制表符分隔列

elasticsearch - Elasticsearch-聚合多层次结构

php - 如何从具有特殊编码的单词中获取每个字符

c++ - 有没有比 lex/flex 更好(更现代)的工具来为 C++ 生成标记器？

java - mysql触发器麻烦 IF ELSE UPDATE

c - 在 C 中，如何将 scanf 的分隔符设置为非字母的任何内容？