python - 如何根据第一列的内容拆分一个巨大的 csv 文件?

标签 python linux unix ubuntu

  • 我有一个超过 250MB 的巨大 csv 文件要上传
  • 文件格式为group_id, application_id, reading 数据可能如下所示
1, a1, 0.1
1, a1, 0.2
1, a1, 0.4
1, a1, 0.3
1, a1, 0.0
1, a1, 0.9
2, b1, 0.1
2, b1, 0.2
2, b1, 0.4
2, b1, 0.3
2, b1, 0.0
2, b1, 0.9
.....
n, x, 0.3(lets say)  
  • 我想根据group_id来划分文件,所以输出应该是n个文件,其中n=group_id

输出

File 1

1, a1, 0.1
1, a1, 0.2
1, a1, 0.4
1, a1, 0.3
1, a1, 0.0
1, a1, 0.9

File2
2, b1, 0.1
2, b1, 0.2
2, b1, 0.4
2, b1, 0.3
2, b1, 0.0
2, b1, 0.9
.....

File n
n, x, 0.3(lets say)  

我怎样才能有效地做到这一点?

最佳答案

awk 能够:

 awk -F "," '{print $0 >> ("FILE" $1)}' HUGE.csv

关于python - 如何根据第一列的内容拆分一个巨大的 csv 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9489078/

相关文章:

python - 为什么Python中的像素值会自动变化?

结合 setattr 和 getattr 的 Python

python - 在 linux SUSE 或 RedHat 上,如何加载 Python 2.7

c - fork() 的行为在此示例中不明确

linux - 如何找到特定键的更大值

python - 变量列表在python中自动更新

c++ - 是否有任何工具支持 C++ 基于检查点的内存使用分析

c - 如何 dlopen 未知版本的库

c - 错误1 :10: fatal error compilation error with the directories

xml - 在 xml 字符串上查找特定标签