arrays - 为什么 AWK 不将此数组索引视为数字,除非我使用 int()?

标签 arrays bash awk

我有以下类型的基因组学文件:

$ cat test-file_long.txt 
2 41647 A G
2 45895 A G
2 45953 T C
2 224919 A G
2 230055 C G
2 233239 A G
2 234130 T G
2 23454 T C

当我使用以下简短的 AWK 脚本时,它不会返回所有大于 if 语句中使用的元素的元素:

{
    a[$2]
}
END{
    for (i in a){
    if(i > 45895) 
    print i
    }
}

脚本返回这个:

$ awk -f practice.awk test-file_long.txt 
45953

但是,当我使用 int() 更改 if 语句时,它返回的行实际上大于我想要的:

{
    a[$2]
}
END{
    for (i in a){
    if(int(i) > 45895) 
    print i
    }
}

结果:

$ awk -f practice.awk test-file_long.txt 
233239
230055
234130
224919
45953

它似乎只与第一个数字进行比较,如果它们相同,它会查看下一个数字,但它不会处理整个数字。有人可以向我解释关联数组的内部机制是什么,它不会进行数字 >/< 比较,除非我指定我想要数组元素的 int() 吗?如果我的数组元素是 float 并且 int() 不是一个选项怎么办?

最佳答案

awk 中的数组键是字符串,所以这里按字母顺序进行比较。在您的第一个示例中,459 按字母顺序大于 458,因此它通过了测试。

如果您的唯一目标是打印第 2 列为 > 45895 numerically 的行,则这样做:

awk '$2 > 45895' test-file_long.txt

变量会根据评估它们的上下文改变类型。因此,通过将变量放在明确的数字上下文中,它将被视为这样。 @glenn 关于 i+0 的建议完美地证明了这一点。

或者,unary plus operator +i 可用于将表达式转换为数字。因此,您可以将更长的示例更改为:

awk '{a[$2]} END { for (i in a) { if (+i > 45895) print i } }' test-file_long.txt

关于arrays - 为什么 AWK 不将此数组索引视为数字,除非我使用 int()?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23272927/

相关文章:

arrays - 如何迭代多个 Perl 数组

ios - UIPickerView 在 vi​​ewWillAppear if 语句中不会改变颜色

git - 如何在 git bash 终端(Windows 10)中打开谷歌浏览器

Linux - 搜索文件中的文本并加入另一个文件

java - 迭代实现 Iterable<Item> 的类中数组的非空部分

php - 如何只获取数组中第一个匹配的值

bash:使用精美的 PS1 进行换行,进行位置回显

linux - 如何查找用户所有权下所有文件的总大小?

linux - 用 awk 将双引号替换为双引号

Unix:使用第二列合并2个文件