regex - Elasticsearch 正则表达式不起作用

标签 regex elasticsearch

我需要在 elasticsearch 上做一个正则表达式来过滤一些数据。 我过滤的字段是人名。数据的格式并不总是正确的(有时,没有名字,有时,姓氏后跟句点或逗号或“逗号+名字”或“点+名字”....)。

例如,使用 "bouchard" 我得到以下匹配项:

 "bouchard", "bouchard, m.", "bouchard, j.", "bouchard j.p.", "bouchard. j.p."

我还需要排除以相同前缀开头的名称,例如“bouchardat”

我尝试了很多正则表达式,最后发现排除可能会产生更好的结果:

   "query" :  { "regexp" : {
                    "RECORDEDBY" : "bouchard([^a-z].*)"
    }}

这不起作用,因为它返回“bouchard, m.”、“bouchard, j.”、“bouchard j.p.” 但不是“bouchard. j.p.”而不是“bouchard”

我尝试了一些带有 + 和 .* 的正则表达式,但它们不起作用。

( "bouchard([^a-z].*.*)" "bouchard([^a-z]*+.*)")

为了清楚起见,我想允许:

bouchard
bouchard, m.
bouchard, j.
bouchard j.p.
bouchard. j.p.

我要排除

bouchardat

欢迎提出任何建议。

最佳答案

在这种情况下,您可以使用 conditional operator如果没有像 ''、'.' 或 ', 这样的特殊字符,则排除每个 [a-z] 后缀' 跟在您要查找的单词之后:

((bouchard)+?([ .,]+)[ ,.a-zA-Z]*)|(bouchard[^a-zA-Z]?)

此正则表达式返回条件(必须有 [ .,]+):

bouchard
bouchard, m.
bouchard, j.
bouchard j.p.
bouchard. j.p.

并忽略管道 | 之后没有 [ .,]+ 的内容:

bouchardat

Regex101

关于regex - Elasticsearch 正则表达式不起作用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29343157/

相关文章:

c# - 如何使用 REGEX 在 C# 中转换作为 "FY18 Q1"提供的季度以生成 "2018.4"?

regex - Perl 正则表达式/(\r\n|\r|\n)/

javascript - 从字符串中删除除智能引号之外的所有非 ASCII 字符

laravel - 如何使用 Laravel Scout 和 ElasticSearch 设置提升和过滤器?

java - 使用 Apache HttpComponents 客户端签署 AWS HTTP 请求

elasticsearch - Cassandra:无法在特定键空间上达到一致性级别QUORUM

regex - 如何系统地替换大量文本中 mustache 标签内的文本?

javascript - 如何在正则表达式中设置变量模板?

ElasticSearch - 指定一个确切的端口(无端口范围)

elasticsearch - 如何根据 Elasticsearch 中的重新评分函数选择顶级术语桶