python - 超过 5000 万行数据 - CSV 或 MySQL

标签 python mysql database optimization csv

我有一个大约 1GB 的 CSV 文件,包含大约 5000 万行数据,我想知道是将它保存为 CSV 文件还是将其存储为某种形式的数据库更好。我对 MySQL 了解不多,无法争论为什么我应该使用它或其他数据库框架而不是将其保存为 CSV 文件。我基本上是在对这个数据集进行广度优先搜索,所以一旦我获得初始“种子”设置 5000 万,我就将其用作队列中的第一个值。

谢谢,

最佳答案

我想说的是,对于如此大的结构化数据,使用数据库而不是 CSV 有很多好处,所以我建议您学习足够多的知识来这样做。但是,根据您的描述,您可能想要查看非服务器/轻量级数据库。例如 SQLite,或类似于 JavaDB/Derby 的东西……或者根据您的数据结构,一个非关系 (Nosql) 数据库——显然您需要一个具有某种类型的 Python 支持的数据库。

关于python - 超过 5000 万行数据 - CSV 或 MySQL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4505170/

相关文章:

mysql - 更新查询中的强制转换函数出现问题

mysql - 从不同的列表中选择

mysql - 为什么数据库表 TABLES.table_rows 列与 MySQL 中物理表中的 select count(*) 不匹配

mysql - 如何将 mysql SELECT 读入 bash 变量,然后使用这些变量 INSERT INTO 不同的表

Python:检查上传的文件是否为jpg

python - 我如何在 Numpy 中向量化这个双 for 循环?

python - 使用 .concat 创建 Pandas 数据框时包括空系列

php - 从php脚本插入语句到mysql : Database not reading insert statement

mysql - 为什么在 Laravel 5.3 中调用 onetoMany 关系会抛出未定义属性错误?

python - 如何创建具有多个不同形状字段的 numpy 结构化数组?