linux - 当列可能存在或可能不存在时,如何获取多列文件的最后 4 个字符?

标签 linux unix awk

基本上,我有一个包含多个列的文件从另一个团队传给我。我需要从第 4 列到第 12 列获取最后 4 个字符。问题是,第 5 列到第 12 列可能不存在,因为当文件发送给我时它们可能没有被填充。

我目前的想法/代码是这样的:

for ((i=4;i<12;i++));
do
    letterCode=`echo $line | awk  '{if($i) print substr($i, (length($i)-4), 4)}'`
done

我的数据是这样的。我不需要最后一列的最后 4 个字符,但我仍然需要最后一列。

123456789 LTT0010002 2014090820140908 W20140908B337 W201409111D01 5000600000000000
987654321 LTT0010001 2014091120140911 W201409111D01 5000600000000000
543216789 LTT0010002 2014082720140827 B20140827M030 B20140827M030 B20140827M030 5000600000000000
678954321 LTT0010001 2014091220140912 W20140912B122 W20140908B337 5000600000000000

我需要捕获

B337 1D01
1D01 
M030 M030 M030 
B122 B337

等等。

但是,awk 似乎讨厌这个。有什么建议吗?

最佳答案

将您的输入数据保存在名为 data 的文件中:

$ awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}' data
 B337 1D01
 1D01
 M030 M030 M030
 B122 B337

解释:

awk将隐式循环文件中的所有行。对于每一行:

  • s=""

    这会初始化变量 s为空字符串。

  • for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)}

    对于从 4 到倒数第二列的每一列,提取最后四个字符并将它们附加到字符串 s 中.

  • print s

    最后,打印s .

一次处理一行

如果该行位于名为 line 的 shell 变量中:

echo "$line" | awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}'

这与上面的代码相同。唯一的区别是,不是在 awk 上提供文件名。命令行,我们将输入数据提供给 awkstdin .

将输出保存到 bash 变量或数组

保存awk输出到 bash 变量:

$ line="543216789 LTT0010002 2014082720140827 B20140827M030 B20140827M030 B20140827M030 5000600000000000"
$ x="$(echo "$line" | awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}')"
$ echo $x
M030 M030 M030

由于有多个值,保存 awk 可能更灵活输出保存到 bash数组:

$ line="543216789 LTT0010002 2014082720140827 B20140827M030 B20140827M030 B20140827M030 5000600000000000"
$ x=($(echo "$line" | awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}'))

准确查看 bash 中内容的最便捷方式数组是使用declare -p :

$ declare -p x
declare -a x='([0]="M030" [1]="M030" [2]="M030")'

每个输出值都可以作为数组中的单独条目访问。

直接显示结果而不保存到变量

$ echo "really long parm string$(echo "$line" | awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}')"
really long parm string M030 M030 M030

或者,awk可以做格式化:

$ echo "$line" | awk -v a="really long parm string" '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print a s}'
really long parm string M030 M030 M030

备用输出格式

按照评论中的要求格式化:

$ echo "$line" | awk -v a="really long parm string" '{s="";for (i=4;i<NF;i++) {s=s a" "substr($i,length($i)-3)" "};print s}'
really long parm string M030 really long parm string M030 really long parm string M030

关于linux - 当列可能存在或可能不存在时,如何获取多列文件的最后 4 个字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26166302/

相关文章:

linux - 为什么这个 wmctrl 脚本不移动窗口

linux - 什么存储在线程的堆栈中?

C++计算时间间隔

python - 安装 python 启动文件

linux - 当我从 Perl 调用时,为什么我的 awk 单行代码不起作用?

regex - 如何删除给定行中后跟点(.)的数字

node.js - 将版本托管 Node 作为远程 SSH 脚本运行的问题

python - OSError - Errno 13 权限被拒绝

linux - 如何删除特定模式后的行并提取某些内容

awk:在同一行打印 $1 和不同数量的附加字段