我想知道是否有一种方法或 Python 包可以让我使用大型数据集而无需将其写入 RAM。
我也在使用 pandas 来实现统计功能。
我需要访问整个数据集,因为许多统计函数需要整个数据集才能返回可靠的结果。
我在装有 Windows 10 的 LiClipse 上使用 PyDev(带有解释器 Python 3.4)。
最佳答案
您也可以使用 Sframes , Dask用于大型数据集支持,或者使用 pandas 并分块读取/迭代,以最大限度地减少 RAM 使用。 同样值得一看的 blaze图书馆
分块阅读:
chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
process(chunk)
关于python - 在 Python 中使用硬盘而不是 RAM,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38118942/