基本上,我有一个包含多个列的文件从另一个团队传给我。我需要从第 4 列到第 12 列获取最后 4 个字符。问题是,第 5 列到第 12 列可能不存在,因为当文件发送给我时它们可能没有被填充。
我目前的想法/代码是这样的:
for ((i=4;i<12;i++));
do
letterCode=`echo $line | awk '{if($i) print substr($i, (length($i)-4), 4)}'`
done
我的数据是这样的。我不需要最后一列的最后 4 个字符,但我仍然需要最后一列。
123456789 LTT0010002 2014090820140908 W20140908B337 W201409111D01 5000600000000000
987654321 LTT0010001 2014091120140911 W201409111D01 5000600000000000
543216789 LTT0010002 2014082720140827 B20140827M030 B20140827M030 B20140827M030 5000600000000000
678954321 LTT0010001 2014091220140912 W20140912B122 W20140908B337 5000600000000000
我需要捕获
B337 1D01
1D01
M030 M030 M030
B122 B337
等等。
但是,awk 似乎讨厌这个。有什么建议吗?
最佳答案
将您的输入数据保存在名为 data
的文件中:
$ awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}' data
B337 1D01
1D01
M030 M030 M030
B122 B337
解释:
awk
将隐式循环文件中的所有行。对于每一行:
s=""
这会初始化变量
s
为空字符串。for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)}
对于从 4 到倒数第二列的每一列,提取最后四个字符并将它们附加到字符串
s
中.print s
最后,打印
s
.
一次处理一行
如果该行位于名为 line
的 shell 变量中:
echo "$line" | awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}'
这与上面的代码相同。唯一的区别是,不是在 awk
上提供文件名。命令行,我们将输入数据提供给 awk
在 stdin
.
将输出保存到 bash 变量或数组
保存awk
输出到 bash 变量:
$ line="543216789 LTT0010002 2014082720140827 B20140827M030 B20140827M030 B20140827M030 5000600000000000"
$ x="$(echo "$line" | awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}')"
$ echo $x
M030 M030 M030
由于有多个值,保存 awk
可能更灵活输出保存到 bash
数组:
$ line="543216789 LTT0010002 2014082720140827 B20140827M030 B20140827M030 B20140827M030 5000600000000000"
$ x=($(echo "$line" | awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}'))
准确查看 bash
中内容的最便捷方式数组是使用declare -p
:
$ declare -p x
declare -a x='([0]="M030" [1]="M030" [2]="M030")'
每个输出值都可以作为数组中的单独条目访问。
直接显示结果而不保存到变量
$ echo "really long parm string$(echo "$line" | awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}')"
really long parm string M030 M030 M030
或者,awk
可以做格式化:
$ echo "$line" | awk -v a="really long parm string" '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print a s}'
really long parm string M030 M030 M030
备用输出格式
按照评论中的要求格式化:
$ echo "$line" | awk -v a="really long parm string" '{s="";for (i=4;i<NF;i++) {s=s a" "substr($i,length($i)-3)" "};print s}'
really long parm string M030 really long parm string M030 really long parm string M030
关于linux - 当列可能存在或可能不存在时,如何获取多列文件的最后 4 个字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26166302/