我希望能够在2个已知模式之间替换字符串。我要抓住的是,我想用仅由“ x”组成的相同长度的字符串替换它。
假设我有一个包含以下内容的文件:
Hello.StringToBeReplaced.SecondString
Hello.ShortString.SecondString
我希望输出是这样的:
Hello.xxxxxxxxxxxxxxxxxx.SecondString
Hello.xxxxxxxxxxx.SecondString
最佳答案
使用sed
循环
您可以使用sed
,尽管所需的思想并不完全清楚:
sed ':a;s/^\(Hello\.x*\)[^x]\(.*\.SecondString\)/\1x\2/;t a'
这是针对GNU
sed
的; BSD(Mac OS X)sed
和其他版本可能比较麻烦,并且要求:sed -e ':a' -e 's/^\(Hello\.x*\)[^x]\(.*\.SecondString\)/\1x\2/' -e 't a'
两者的逻辑是相同的:
创建标签
a
替换引导字符串和
x
的序列(捕获1),后跟非x
以及任意其他数据加上第二个字符串(捕获2),然后将其替换为捕获1的内容, x
和捕获内容2。如果
s///
命令进行了更改,请返回标签a
。当两个标记字符串之间没有非
x
时,它将停止替换。对正则表达式的两个调整允许代码在一行上识别模式的两个副本。丢失将匹配锚定到行首的
^
,然后将.*
更改为[^.]*
(这样,正则表达式就不会那么贪心了):$ echo Hello.StringToBeReplaced.SecondString Hello.StringToBeReplaced.SecondString |
> sed ':a;s/\(Hello\.x*\)[^x]\([^.]*\.SecondString\)/\1x\2/;t a'
Hello.xxxxxxxxxxxxxxxxxx.SecondString Hello.xxxxxxxxxxxxxxxxxx.SecondString
$
使用容纳空间
hek2mgl建议在
sed
中使用保留空间的另一种方法。可以使用以下方法实现:$ echo Hello.StringToBeReplaced.SecondString |
> sed 's/^\(Hello\.\)\([^.]\{1,\}\)\(\.SecondString\)/\1@\3@@\2/
> h
> s/.*@@//
> s/./x/g
> G
> s/\(x*\)\n\([^@]*\)@\([^@]*\)@@.*/\2\1\3/
> '
Hello.xxxxxxxxxxxxxxxxxx.SecondString
$
该脚本不如循环版本健壮,但可以正常工作,如每行匹配引线中尾模式。首先将线分为三个部分:第一个标记,要被修整的钻头和第二个标记。它进行了重新组织,以使两个标记由
@
分隔,然后由@@
和要修饰的位分隔。 h
将结果复制到保留空间。删除所有内容,直到@@
;将要替换的位中的每个字符替换为x
,然后在模式空间中的x
之后复制保留空间中的内容,并用换行符分隔它们。最后,识别并捕获x
,前导标记和尾部标记,而忽略换行符,@
和@@
以及尾随材料,然后重新组装为前导标记,x
和尾巴标记。为了使其健壮,您需要识别出模式,然后将
{
和}
中显示的命令进行分组以将它们分组,以便仅在识别出模式时才执行它们:sed '/^\(Hello\.\)\([^.]\{1,\}\)\(\.SecondString\)/{
s/^\(Hello\.\)\([^.]\{1,\}\)\(\.SecondString\)/\1@\3@@\2/
h
s/.*@@//
s/./x/g
G
s/\(x*\)\n\([^@]*\)@\([^@]*\)@@.*/\2\1\3/
}'
调整以适应您的需求...
调整以适应您的需求
[我尝试了您的一种解决方案,但效果很好。]
但是,当我尝试用我的真实字符串替换“ hello”(即
'
1.2.840.
')和我的第二个字符串(只是一个点'.
'),一切就停止了加工。我想所有这些点都会混淆
sed
命令。我试图实现的是将这个'
1.2.840.10008.
'转换为'
1.2.840.xxxxx.
'而且此模式在我的文件中多次发生,且编号可变
'
1.2.840.
'和下一个点'.
'之间要替换的字符数在某些情况下,使您的问题足够接近实际情况很重要,这可能就是一个这样的情况。点是的元字符
sed
正则表达式(以及大多数其他正则表达式中的方言-shell遍历是明显的例外)。如果“待修改的位”始终是数字,那么我们可以收紧正则表达式,尽管实际上(当我看前面的代码时)收紧实际上并没有太多限制。几乎所有使用正则表达式的解决方案都是一种平衡行为,必须使便利性和缩写性与可靠性和准确性相抵触。
修改后的代码和数据
cat <<EOF |
transform this '1.2.840.10008.' to '1.2.840.xxxxx.'
OK, and hence 1.2.840.21. and 1.2.840.20992. should lose the 21 and 20992.
EOF
sed ':a;s/\(1\.2\.840\.x*\)[^x.]\([^.]*\.\)/\1x\2/;t a'
输出示例:
transform this '1.2.840.xxxxx.' to '1.2.840.xxxxx.'
OK, and hence 1.2.840.xx. and 1.2.840.xxxxx. should lose the 21 and 20992.
脚本中的更改是:
sed ':a;s/\(1\.2\.840\.x*\)[^x.]\([^.]*\.\)/\1x\2/;t a'
添加
1\.2\.840\.
作为开始模式。将“替换字符”表达式修改为“不是
x
或.
”。仅使用
\.
作为尾巴样式。如果您确定只希望数字匹配,可以用
[^x.]
替换[0-9]
,在这种情况下,您不必担心空格,如下所述。您可能会决定不希望将空格匹配,以便随便添加如下注释:
The net prefix is 1.2.840. And there are other prefixes too.
最终不会是:
The net prefix is 1.2.840.xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx.
在这种情况下,您可能需要使用:
sed ':a;s/\(1\.2\.840\.x*\)[^x. ]\([^ .]*\.\)/\1x\2/;t a'
因此,更改将继续进行,直到您拥有足够精确的功能来执行所需的操作,而无需对当前数据集执行任何不需要的操作。编写防弹正则表达式需要对要匹配的内容进行精确说明,并且可能很难。
关于sed - 用sed替换2个已知模式之间的可变长度字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29174646/