python - Pandas read_table() 有大小限制吗？

假设我有一个 .dat 文件，filename.dat，我希望将其读入 Pandas Dataframe:

import pandas as pd
df = pd.read_table('filename.dat')

这方面有大小限制吗？我希望将数据帧的列单独保存为大小为 1 TB 的文件。这可能吗？

最佳答案

为了扩展评论中提到的 chunksize 的用法，我会执行如下操作:

chunks = pd.read_table('filename.dat', chunksize=10**5)
fileout = 'filname_{}.dat'
for i, chunk in enumerate(chunks):
    mode = 'w' if i == 0 else 'a'
    header = i == 0
    for col in chunk.columns:
        chunk[col].to_csv(fileout.format(col), index=False, header=header, mode=mode)

您可能想要尝试使用 chunksize 参数，看看什么对您的数据最有效。

我使用enumerate的原因是在读入第一个 block 时创建一个带有 header 的新文件，并为后续 block 附加不带 header 的文件。

关于python - Pandas read_table() 有大小限制吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38444676/

上一篇：python - 在 EC2 上运行大数据计算时出现 dask.async.MemoryError

下一篇：python - 用户无权使用 os.chmod( )

相关文章：

python - 启动时自动将数据集添加到 Dask 调度程序

scala - 如何重命名 Scala 中 count() 函数生成的列

python - pandas.DataFrame.loc ，在新列中标记数据

Python3 字符串格式赋值导致赋值前被引用

python - 将列表转换为字典列表

python - 迭代 pandas DataFrame 中的选择单元格并替换值

python - 根据 df 中的另一列值选择 df pandas 中的元素

python-2.7 - 我正在尝试在 Python 中的 statsmodels 中运行 Dickey-Fuller 测试，但出现错误

根据 R 中的条件删除数据框列

Python 机器学习与音频(预测性维护)