我有一个包含 100 万行的大型 .xlsx 文件。我不想一次打开整个文件。我想知道我是否可以读取文件的一个 block ,处理它然后读取下一个 block ? (我更喜欢使用 pandas。)
最佳答案
更新: 2019-09-05
chunksize
参数已被弃用,因为它未被 pd.read_excel()
使用,因为 XLSX 文件格式的性质,将被读取在解析过程中作为一个整体进入内存。
this great SO answer 中有更多详细信息...
旧答案:
你可以使用read_excel()方法:
chunksize = 10**5
for chunk in pd.read_excel(filename, chunksize=chunksize):
# process `chunk` DF
如果您的 Excel 文件有多个工作表,请查看 bpachev's解决方案
关于python - 使用 python 读取大型 xlsx 文件的一部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38623368/