- 我有一个超过 250MB 的巨大 csv 文件要上传
- 文件格式为
group_id, application_id, reading
数据可能如下所示
1, a1, 0.1 1, a1, 0.2 1, a1, 0.4 1, a1, 0.3 1, a1, 0.0 1, a1, 0.9 2, b1, 0.1 2, b1, 0.2 2, b1, 0.4 2, b1, 0.3 2, b1, 0.0 2, b1, 0.9 ..... n, x, 0.3(lets say)
- 我想根据
group_id
来划分文件,所以输出应该是n个文件,其中n=group_id
输出
File 1 1, a1, 0.1 1, a1, 0.2 1, a1, 0.4 1, a1, 0.3 1, a1, 0.0 1, a1, 0.9
和
File2 2, b1, 0.1 2, b1, 0.2 2, b1, 0.4 2, b1, 0.3 2, b1, 0.0 2, b1, 0.9 .....
和
File n n, x, 0.3(lets say)
我怎样才能有效地做到这一点?
最佳答案
awk
能够:
awk -F "," '{print $0 >> ("FILE" $1)}' HUGE.csv
关于python - 如何根据第一列的内容拆分一个巨大的 csv 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9489078/