regex - 对可选捕获子表达式的模式反向引用

标签 regex bash backreference

试图使用Bash内置的正则表达式匹配来解析以下类型的字符串,将其转换为Perl替换表达式(引号不是数据的一部分)

'~#A#B#'
#^ ^ ^-- Replacement string.
#| +---- Pattern string.
#+------ Regular expression indicator (no need to escape strings A and B),
#        which is only allowed if strings A and B are surrounded with ##.
#        Strings A and B may not contain #, but are allowed to have ~.

'#A#B#'
#^------ When regex indicator is missing, strings A and B will be escaped.

'A#B'
#        Simplified form of '#A#B#', i. e. without the enclosing ##.
#        Still none of the strings A and B is allowed to contain # at any position,
#        but can have ~, so leading ~ should be treated as part of string A.

我尝试了以下模式(同样,没有引号):

'^((~)?(#))?([^#]+)#([^#]+)\3$'

也就是说,它声明前导的 ~# 是可选的(而其中的 ~ 甚至是可选的),然后捕获部分 AB,并且要求结尾的 # 只有在领导者中出现时才会出现。捕获前导的 # 仅用于反向引用匹配——其他地方不需要它,而捕获 ~ 以供随后的脚本检查。

但是,该模式仅适用于最完整类型的输入数据:

'~#A#B#'
'#A#B#'

但不是为了

'A#B'

我。即,无论何时缺少前导部分,\3 都无法匹配。但是如果将\3替换为.*,则匹配成功,可以看出${BASH_REMATCH[3]}为空字符串。这是我不明白的事情,前提是未设置的变量在 Bash 中被视为空字符串。 我该如何匹配反向引用和可选内容?

作为变通方法,我可以编写替代模式

'^(~?)#([^#]+)#([^#]+)#$|^([^#]+)#([^#]+)$'

但它会为每种可能的情况产生不同的捕获组,这使得代码不那么直观。

重要说明。正如@anubhava 在他的评论中提到的,反向引用匹配在某些 Bash 构建中可能不可用(这可能是构建选项的问题,而不是版本号,甚至是某些外部库的问题)。这个问题当然是针对那些支持这种功能的 Bash 环境。

最佳答案

有两种方法可以解决这个问题:

  1. 与其将组设置为可选(换句话说,允许它根本不匹配),不如将其设置为强制但匹配空字符串。换句话说,将 (#)? 等结构更改为 (#?)

  2. 仅当第 3 组匹配时,才使用条件匹配反向引用 \3。为此,将 \3 更改为 (?(3)#|)

通常,第一个选项更可取,因为它的可读性更好。此外,bash 的正则表达式似乎不支持条件构造,因此我们需要使选项 1 起作用。这很困难,因为附加条件是 ~ 仅在 # 也存在时才被允许。如果 bash 支持前瞻,我们可以做类似 ((~)(?:#))?(#?) 的事情。但既然没有,我们就需要发挥创意。我想出了以下模式:

^((~(#))|(#?))([^#]+)#([^#]+)(\3|\4)$

Demo .

想法是利用交替运算符 | 来处理两种不同的情况:文本以 ~# 开头,或者不是。 ((~(#))|(#?)) 在第 2 组中捕获 ~# 并在可能的情况下在第 3 组中捕获 #,但如果没有 ~ 然后它只捕获第 4 组中的 # (如果存在)。然后我们可以在 (\3|\4) end 以匹配结尾的 #,如果有开头的(请记住,如果文本以 ~# 开头,则第 3 组捕获 #,并且第 4 组捕获 # 或空字符串(如果文本不是~# 开头)。

关于regex - 对可选捕获子表达式的模式反向引用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37297881/

相关文章:

arrays - 在 ruby​​ 中拆分字符串数组的最佳方法?

java - Java中特殊字符的正则表达式

regex - bash脚本删除文件名中的前缀

r - 在 R 的正则表达式中是否有等效的 "&"用于反向引用整个匹配?

regex - 重复单词的正则表达式

Javascript 如何强制 string.replace 不将我的字符串解释为正则表达式

java - 如何在Java中的匹配中获取名为捕获组的正则表达式的名称?

mysql - 带记录器的 Bash 脚本

python - 使用python将带有撇号的文件名传递给scp