python - 有没有办法让 pandas read_csv 函数更快

标签 python pandas multithreading multiprocessing

目前,我正在处理一个很大的文件(大约 45GB) 我正在尝试使用 pandas read_csv 函数加载文件,但是,仅加载文件就需要很长时间。有没有办法加快这个过程?

我正在考虑将文件分成几个 block 并使用多重处理加载它们。

或者有更好的方法吗?

编辑:我认为在 read_csv() 中使用 chunksize 参数是最好的选择

最佳答案

您可以使用modin.pandas refer this link其中显示了 read_csv 的性能差异。

根据我使用 modin 的经验,它比 pandas 更快。但还没有尝试过 45GB 数据。你可以尝试一下

您还可以尝试使用Dask click here

关于python - 有没有办法让 pandas read_csv 函数更快,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58829175/

相关文章:

python - 字典列表中的重复索引 Python Pandas

c++ - waitforsingleobject 等待一个已经发出信号的事件

android - 如何使用ffmpeg进行多线程?

Python 文本匹配 - 同义词

python - 合并两列以消除重复的行

python - 在多进程线程之前和之后发出运行代码

python - Python 中的切片操作危险吗?

python - 如何更改 matplotlib 在绘制时间戳对象时使用的步长?

python - python 中的异步函数调用

python - 删除多个列表中列表的唯一项目