python - 使用 python 读取大型 xlsx 文件的一部分

标签 python pandas

我有一个包含 100 万行的大型 .xlsx 文件。我不想一次打开整个文件。我想知道我是否可以读取文件的一个 block ,处理它然后读取下一个 block ? (我更喜欢使用 pandas。)

最佳答案

更新: 2019-09-05

chunksize 参数已被弃用,因为它未被 pd.read_excel() 使用,因为 XLSX 文件格式的性质,将被读取在解析过程中作为一个整体进入内存。

this great SO answer 中有更多详细信息...


旧答案:

你可以使用read_excel()方法:

chunksize = 10**5
for chunk in pd.read_excel(filename, chunksize=chunksize):
    # process `chunk` DF

如果您的 Excel 文件有多个工作表,请查看 bpachev's解决方案

关于python - 使用 python 读取大型 xlsx 文件的一部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38623368/

相关文章:

python - 从替换映射递归替换

Python 估计数据拟合后的标准差

python - Pandas 选择并写入包含特定文本的行

python - 尝试对 Pandas 使用替换方法

python - 如何处理偏移量超出可接受范围的时间戳字段

python - Pandas dataframe,连续查找所选列中的最大值,并根据该值查找另一列的值

python - 抓取框架 NTSCtoUSB 加密狗、opencv2、python 包装器

Python查找两个不同长度的数据框列的部分匹配

python - 根据 Pandas 中的单元格值索引列

python - PyQt5 Python 透明 QWebViewEngine