我有一个大型 Parquet 文件,其中包含许多小行组。我想生成一个带有单个(更大)行组的新 Parquet 文件,并且我正在 Python 中操作。我可以做这样的事情:
import pyarrow.parquet as pq
table = pq.read_table('many_tiny_row_groups.parquet')
pq.write_table(table, 'one_big_row_group.parquet')
# Lots of row groups...
print (pq.ParquetFile('many_tiny_row_groups.parquet').num_row_groups)
# Now, only 1 row group...
print (pq.ParquetFile('one_big_row_group.parquet').num_row_groups)
但是,这要求我立即将整个 Parquet 文件读入内存。我想避免这样做。是否有某种“流”方法可以保持较小的内存占用?
最佳答案
fastparquet
的文档指出了迭代大到无法放入内存的数据集的可能性。要阅读,您可以使用:
pf = ParquetFile('myfile.parquet')
for df in pf.iter_row_groups():
print(df.shape)
# process sub-data-frame df
要写入,您可以附加
到文件。
关于python - 有效地折叠 Parquet 中的行组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56189982/