我可以做什么来优化这种排序?
我正在运行:
mytime="$(time ( cat quotes_2009-04.txt | tr [:space:] '\n' | grep -v "^\s*$" | sort | uniq -c ) 2>&1 1>/dev/null )"
然后:
echo "$mytime"
得到以下输出:
real 134m0.107s
user 105m27.274s
sys 42m34.889s
这是我正在使用的数据集:
原始数据集的预览:
以下是 vagrant 机器的详细信息:
我可以做什么来优化这种排序?
最佳答案
将数据拆分为多个文件,并行对每个文件进行排序,然后将文件合并在一起。请参阅here例如。
关于linux - 在 vagrant 上排序需要 2 小时 - 大约 100m 行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31165955/