python - 在 Python 中使用硬盘而不是 RAM

标签 python pandas memory pydev

我想知道是否有一种方法或 Python 包可以让我使用大型数据集而无需将其写入 RAM。

我也在使用 pandas 来实现统计功能。

我需要访问整个数据集,因为许多统计函数需要整个数据集才能返回可靠的结果。

我在装有 Windows 10 的 LiClipse 上使用 PyDev(带有解释器 Python 3.4)。

最佳答案

您也可以使用 Sframes , Dask用于大型数据集支持,或者使用 pandas 并分块读取/迭代,以最大限度地减少 RAM 使用。 同样值得一看的 blaze图书馆

分块阅读:

chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
process(chunk)

关于python - 在 Python 中使用硬盘而不是 RAM,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38118942/

相关文章:

python - 当指数为负数时,pow(a, b, c) 会做什么?

python - 根据条件在 Pandas 数据框行之间填充多行

sql-server - 在将 python 3.5 与 pandas 和 sqlalchemy 一起使用时,尝试从 csv 文件在 SQL Server 2016 中创建新数据库表时出错

python - 将字典转换为 Python 数据框

c - 共享段内存写入随机数

c# - 在 C# 中重新分配数组时内存会发生什么?

Java 8 奇数计时/内存问题

python - Pygame 的 colliderect 没有注意到碰撞

python - 仅在 pandas 系列日期时间索引中重新设置日期

python - JPype 和 JayDeBeAPI : AttributeError: 'property' object has no attribute 'isBeanAccessor'