sed - 用sed替换2个已知模式之间的可变长度字符串

标签 sed

我希望能够在2个已知模式之间替换字符串。我要抓住的是,我想用仅由“ x”组成的相同长度的字符串替换它。

假设我有一个包含以下内容的文件:

Hello.StringToBeReplaced.SecondString
Hello.ShortString.SecondString


我希望输出是这样的:

Hello.xxxxxxxxxxxxxxxxxx.SecondString
Hello.xxxxxxxxxxx.SecondString

最佳答案

使用sed循环

您可以使用sed,尽管所需的思想并不完全清楚:

sed ':a;s/^\(Hello\.x*\)[^x]\(.*\.SecondString\)/\1x\2/;t a'


这是针对GNU sed的; BSD(Mac OS X)sed和其他版本可能比较麻烦,并且要求:

sed -e ':a' -e 's/^\(Hello\.x*\)[^x]\(.*\.SecondString\)/\1x\2/' -e 't a'


两者的逻辑是相同的:


创建标签a
替换引导字符串和x的序列(捕获1),后跟非x以及任意其他数据加上第二个字​​符串(捕获2),然后将其替换为捕获1的内容, x和捕获内容2。
如果s///命令进行了更改,请返回标签a


当两个标记字符串之间没有非x时,它将停止替换。

对正则表达式的两个调整允许代码在一行上识别模式的两个副本。丢失将匹配锚定到行首的^,然后将.*更改为[^.]*(这样,正则表达式就不会那么贪心了):

$ echo Hello.StringToBeReplaced.SecondString Hello.StringToBeReplaced.SecondString |
> sed ':a;s/\(Hello\.x*\)[^x]\([^.]*\.SecondString\)/\1x\2/;t a'
Hello.xxxxxxxxxxxxxxxxxx.SecondString Hello.xxxxxxxxxxxxxxxxxx.SecondString
$


使用容纳空间

hek2mgl建议在sed中使用保留空间的另一种方法。可以使用以下方法实现:

$ echo Hello.StringToBeReplaced.SecondString |
> sed 's/^\(Hello\.\)\([^.]\{1,\}\)\(\.SecondString\)/\1@\3@@\2/
>      h
>      s/.*@@//
>      s/./x/g
>      G
>      s/\(x*\)\n\([^@]*\)@\([^@]*\)@@.*/\2\1\3/
>      '
Hello.xxxxxxxxxxxxxxxxxx.SecondString
$


该脚本不如循环版本健壮,但可以正常工作,如每行匹配引线中尾模式。首先将线分为三个部分:第一个标记,要被修整的钻头和第二个标记。它进行了重新组织,以使两个标记由@分隔,然后由@@和要修饰的位分隔。 h将结果复制到保留空间。删除所有内容,直到@@;将要替换的位中的每个字符替换为x,然后在模式空间中的x之后复制保留空间中的内容,并用换行符分隔它们。最后,识别并捕获x,前导标记和尾部标记,而忽略换行符,@@@以及尾随材料,然后重新组装为前导标记,x和尾巴标记。

为了使其健壮,您需要识别出模式,然后将{}中显示的命令进行分组以将它们分组,以便仅在识别出模式时才执行它们:

sed '/^\(Hello\.\)\([^.]\{1,\}\)\(\.SecondString\)/{
     s/^\(Hello\.\)\([^.]\{1,\}\)\(\.SecondString\)/\1@\3@@\2/
     h
     s/.*@@//
     s/./x/g
     G
     s/\(x*\)\n\([^@]*\)@\([^@]*\)@@.*/\2\1\3/
     }'


调整以适应您的需求...

调整以适应您的需求


[我尝试了您的一种解决方案,但效果很好。]
但是,当我尝试用我的真实字符串替换“ hello”(即
'1.2.840.')和我的第二个字符串(只是一个点'.'),一切就停止了
加工。我想所有这些点都会混淆sed命令。
我试图实现的是将这个'1.2.840.10008.'转换为
'1.2.840.xxxxx.'

而且此模式在我的文件中多次发生,且编号可变
'1.2.840.'和下一个点'.'之间要替换的字符数


在某些情况下,使您的问题足够接近实际情况很重要,这可能就是一个这样的情况。点是的元字符
sed正则表达式(以及大多数其他正则表达式中的方言-shell遍历是明显的例外)。如果“待修改的位”始终是数字,那么我们可以收紧正则表达式,尽管实际上(当我看前面的代码时)收紧实际上并没有太多限制。

几乎所有使用正则表达式的解决方案都是一种平衡行为,必须使便利性和缩写性与可靠性和准确性相抵触。

修改后的代码和数据

cat <<EOF |
transform this '1.2.840.10008.' to '1.2.840.xxxxx.'
OK, and hence 1.2.840.21. and 1.2.840.20992. should lose the 21 and 20992.
EOF

sed ':a;s/\(1\.2\.840\.x*\)[^x.]\([^.]*\.\)/\1x\2/;t a'


输出示例:

transform this '1.2.840.xxxxx.' to '1.2.840.xxxxx.'
OK, and hence 1.2.840.xx. and 1.2.840.xxxxx. should lose the 21 and 20992.


脚本中的更改是:

sed ':a;s/\(1\.2\.840\.x*\)[^x.]\([^.]*\.\)/\1x\2/;t a'



添加1\.2\.840\.作为开始模式。
将“替换字符”表达式修改为“不是x.”。
仅使用\.作为尾巴样式。


如果您确定只希望数字匹配,可以用[^x.]替换[0-9],在这种情况下,您不必担心空格,如下所述。

您可能会决定不希望将空格匹配,以便随便添加如下注释:

The net prefix is 1.2.840. And there are other prefixes too.


最终不会是:

The net prefix is 1.2.840.xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx.


在这种情况下,您可能需要使用:

sed ':a;s/\(1\.2\.840\.x*\)[^x. ]\([^ .]*\.\)/\1x\2/;t a'


因此,更改将继续进行,直到您拥有足够精确的功能来执行所需的操作,而无需对当前数据集执行任何不需要的操作。编写防弹正则表达式需要对要匹配的内容进行精确说明,并且可能很难。

关于sed - 用sed替换2个已知模式之间的可变长度字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29174646/

相关文章:

regex - sed:在匹配之前显示行

awk - 使用 sed 或 awk 从行首删除句点字符

Linux - 找到一个字符串并获取下一部分

AWK:如何实现编号自增?

linux - Linux中的合并和对齐线

awk - 在 text.file 中切换列

正则表达式比较多个文件中的字符串

linux - 使用 sed/awk/grep 从 .gff 文件中提取子字符串

bash 替换每一行中的第一个字符

linux - 多行字符串搜索输出为一行