linux - 在 vagrant 上排序需要 2 小时 - 大约 100m 行

标签 linux sorting ubuntu optimization vagrant

我可以做什么来优化这种排序?

我正在运行:

mytime="$(time ( cat quotes_2009-04.txt | tr [:space:] '\n' | grep -v "^\s*$" | sort | uniq -c  ) 2>&1 1>/dev/null )"

然后:

echo "$mytime"

得到以下输出:

real    134m0.107s
user    105m27.274s
sys 42m34.889s

这是我正在使用的数据集:

enter image description here

原始数据集的预览:

enter image description here

以下是 vagrant 机器的详细信息:

enter image description here

我可以做什么来优化这种排序?

最佳答案

将数据拆分为多个文件,并行对每个文件进行排序,然后将文件合并在一起。请参阅here例如。

关于linux - 在 vagrant 上排序需要 2 小时 - 大约 100m 行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31165955/

相关文章:

Java:赛车 Arrays.sort

linux - 记录终端的命令不适用于 bash

ubuntu - SSLv3 警报握手失败

javascript - 在我的操作系统中找不到命令 yarn global add @vue/cli vue

linux - rsyslog - 基于属性的过滤不起作用

linux - 我可以在别名中使用 source 命令吗?

linux - 如何在 Cygwin 中重置 PATH 变量列表

c++ - ctags 忽略 libc6、libstdc++ 和 boost 的列表

C++排序数组函数

c - 在c中使用sift down方法实现堆排序