sed - 用sed替换2个已知模式之间的可变长度字符串

我希望能够在2个已知模式之间替换字符串。我要抓住的是，我想用仅由“ x”组成的相同长度的字符串替换它。

假设我有一个包含以下内容的文件：

Hello.StringToBeReplaced.SecondString
Hello.ShortString.SecondString

我希望输出是这样的：

Hello.xxxxxxxxxxxxxxxxxx.SecondString
Hello.xxxxxxxxxxx.SecondString

最佳答案

使用sed循环

您可以使用sed，尽管所需的思想并不完全清楚：

sed ':a;s/^\(Hello\.x*\)[^x]\(.*\.SecondString\)/\1x\2/;t a'

这是针对GNU sed的； BSD（Mac OS X）sed和其他版本可能比较麻烦，并且要求：

sed -e ':a' -e 's/^\(Hello\.x*\)[^x]\(.*\.SecondString\)/\1x\2/' -e 't a'

两者的逻辑是相同的：

创建标签a
替换引导字符串和x的序列（捕获1），后跟非x以及任意其他数据加上第二个字符串（捕获2），然后将其替换为捕获1的内容， x和捕获内容2。
如果s///命令进行了更改，请返回标签a。

当两个标记字符串之间没有非x时，它将停止替换。

对正则表达式的两个调整允许代码在一行上识别模式的两个副本。丢失将匹配锚定到行首的^，然后将.*更改为[^.]*（这样，正则表达式就不会那么贪心了）：

$ echo Hello.StringToBeReplaced.SecondString Hello.StringToBeReplaced.SecondString |
> sed ':a;s/\(Hello\.x*\)[^x]\([^.]*\.SecondString\)/\1x\2/;t a'
Hello.xxxxxxxxxxxxxxxxxx.SecondString Hello.xxxxxxxxxxxxxxxxxx.SecondString
$

使用容纳空间

hek2mgl建议在sed中使用保留空间的另一种方法。可以使用以下方法实现：

$ echo Hello.StringToBeReplaced.SecondString |
> sed 's/^\(Hello\.\)\([^.]\{1,\}\)\(\.SecondString\)/\1@\3@@\2/
>      h
>      s/.*@@//
>      s/./x/g
>      G
>      s/\(x*\)\n\([^@]*\)@\([^@]*\)@@.*/\2\1\3/
>      '
Hello.xxxxxxxxxxxxxxxxxx.SecondString
$

该脚本不如循环版本健壮，但可以正常工作，如每行匹配引线中尾模式。首先将线分为三个部分：第一个标记，要被修整的钻头和第二个标记。它进行了重新组织，以使两个标记由@分隔，然后由@@和要修饰的位分隔。 h将结果复制到保留空间。删除所有内容，直到@@；将要替换的位中的每个字符替换为x，然后在模式空间中的x之后复制保留空间中的内容，并用换行符分隔它们。最后，识别并捕获x，前导标记和尾部标记，而忽略换行符，@和@@以及尾随材料，然后重新组装为前导标记，x和尾巴标记。

为了使其健壮，您需要识别出模式，然后将{和}中显示的命令进行分组以将它们分组，以便仅在识别出模式时才执行它们：

sed '/^\(Hello\.\)\([^.]\{1,\}\)\(\.SecondString\)/{
     s/^\(Hello\.\)\([^.]\{1,\}\)\(\.SecondString\)/\1@\3@@\2/
     h
     s/.*@@//
     s/./x/g
     G
     s/\(x*\)\n\([^@]*\)@\([^@]*\)@@.*/\2\1\3/
     }'

调整以适应您的需求...

调整以适应您的需求

[我尝试了您的一种解决方案，但效果很好。]
但是，当我尝试用我的真实字符串替换“ hello”（即
'1.2.840.'）和我的第二个字符串（只是一个点'.'），一切就停止了
加工。我想所有这些点都会混淆sed命令。
我试图实现的是将这个'1.2.840.10008.'转换为
'1.2.840.xxxxx.'

而且此模式在我的文件中多次发生，且编号可变
'1.2.840.'和下一个点'.'之间要替换的字符数

在某些情况下，使您的问题足够接近实际情况很重要，这可能就是一个这样的情况。点是的元字符
sed正则表达式（以及大多数其他正则表达式中的方言-shell遍历是明显的例外）。如果“待修改的位”始终是数字，那么我们可以收紧正则表达式，尽管实际上（当我看前面的代码时）收紧实际上并没有太多限制。

几乎所有使用正则表达式的解决方案都是一种平衡行为，必须使便利性和缩写性与可靠性和准确性相抵触。

修改后的代码和数据

cat <<EOF |
transform this '1.2.840.10008.' to '1.2.840.xxxxx.'
OK, and hence 1.2.840.21. and 1.2.840.20992. should lose the 21 and 20992.
EOF

sed ':a;s/\(1\.2\.840\.x*\)[^x.]\([^.]*\.\)/\1x\2/;t a'

输出示例：

transform this '1.2.840.xxxxx.' to '1.2.840.xxxxx.'
OK, and hence 1.2.840.xx. and 1.2.840.xxxxx. should lose the 21 and 20992.

脚本中的更改是：

sed ':a;s/\(1\.2\.840\.x*\)[^x.]\([^.]*\.\)/\1x\2/;t a'

添加1\.2\.840\.作为开始模式。
将“替换字符”表达式修改为“不是x或.”。
仅使用\.作为尾巴样式。

如果您确定只希望数字匹配，可以用[^x.]替换[0-9]，在这种情况下，您不必担心空格，如下所述。

您可能会决定不希望将空格匹配，以便随便添加如下注释：

The net prefix is 1.2.840. And there are other prefixes too.

最终不会是：

The net prefix is 1.2.840.xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx.

在这种情况下，您可能需要使用：

sed ':a;s/\(1\.2\.840\.x*\)[^x. ]\([^ .]*\.\)/\1x\2/;t a'

因此，更改将继续进行，直到您拥有足够精确的功能来执行所需的操作，而无需对当前数据集执行任何不需要的操作。编写防弹正则表达式需要对要匹配的内容进行精确说明，并且可能很难。

关于sed - 用sed替换2个已知模式之间的可变长度字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29174646/

sed - 用sed替换2个已知模式之间的可变长度字符串

上一篇：SQL 语句获取所有具有所有能力列表的公司

下一篇：svn - 如何远程访问我的 visualsvn 服务器