目前,我正在处理一个很大的文件(大约 45GB) 我正在尝试使用 pandas read_csv 函数加载文件,但是,仅加载文件就需要很长时间。有没有办法加快这个过程?
我正在考虑将文件分成几个 block 并使用多重处理加载它们。
或者有更好的方法吗?
编辑:我认为在 read_csv() 中使用 chunksize 参数是最好的选择
最佳答案
您可以使用modin.pandas
refer this link其中显示了 read_csv
的性能差异。
根据我使用 modin 的经验,它比 pandas 更快。但还没有尝试过 45GB 数据。你可以尝试一下
您还可以尝试使用Dask
click here
关于python - 有没有办法让 pandas read_csv 函数更快,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58829175/