python - 有没有办法让 pandas read_csv 函数更快

目前，我正在处理一个很大的文件(大约 45GB) 我正在尝试使用 pandas read_csv 函数加载文件，但是，仅加载文件就需要很长时间。有没有办法加快这个过程？

我正在考虑将文件分成几个 block 并使用多重处理加载它们。

或者有更好的方法吗？

编辑:我认为在 read_csv() 中使用 chunksize 参数是最好的选择

最佳答案

您可以使用modin.pandas refer this link其中显示了 read_csv 的性能差异。

根据我使用 modin 的经验，它比 pandas 更快。但还没有尝试过 45GB 数据。你可以尝试一下

您还可以尝试使用Dask click here

关于python - 有没有办法让 pandas read_csv 函数更快，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58829175/

相关文章：

python - 字典列表中的重复索引 Python Pandas