python - Pandas read_table() 有大小限制吗?

标签 python pandas dataframe

假设我有一个 .dat 文件,filename.dat,我希望将其读入 Pandas Dataframe:

import pandas as pd
df = pd.read_table('filename.dat')

这方面有大小限制吗?我希望将数据帧的列单独保存为大小为 1 TB 的文件。这可能吗?

最佳答案

为了扩展评论中提到的 chunksize 的用法,我会执行如下操作:

chunks = pd.read_table('filename.dat', chunksize=10**5)
fileout = 'filname_{}.dat'
for i, chunk in enumerate(chunks):
    mode = 'w' if i == 0 else 'a'
    header = i == 0
    for col in chunk.columns:
        chunk[col].to_csv(fileout.format(col), index=False, header=header, mode=mode)

您可能想要尝试使用 chunksize 参数,看看什么对您的数据最有效。

我使用enumerate的原因是在读入第一个 block 时创建一个带有 header 的新文件,并为后续 block 附加不带 header 的文件。

关于python - Pandas read_table() 有大小限制吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38444676/

相关文章:

python - 启动时自动将数据集添加到 Dask 调度程序

scala - 如何重命名 Scala 中 count() 函数生成的列

python - pandas.DataFrame.loc ,在新列中标记数据

Python3 字符串格式赋值导致赋值前被引用

python - 将列表转换为字典列表

python - 迭代 pandas DataFrame 中的选择单元格并替换值

python - 根据 df 中的另一列值选择 df pandas 中的元素

python-2.7 - 我正在尝试在 Python 中的 statsmodels 中运行 Dickey-Fuller 测试,但出现错误

根据 R 中的条件删除数据框列

Python 机器学习与音频(预测性维护)