python - 将 Parquet 转换为 CSV

标签 python csv command-line parquet

如何在没有 Spark 的情况下从本地文件系统(例如 python、某些库等)将 Parquet 转换为 CSV? (试图找到尽可能简单和简约的解决方案,因为需要自动化一切,而且资源不多)。

我试过例如parquet-tools 在我的 Mac 上,但数据输出看起来不正确。

需要进行输出,以便当某些列中不存在数据时 - CSV 将具有相应的 NULL(2 个逗号之间的空列)..

谢谢。

最佳答案

您可以使用 Python 包 pandaspyarrow 来完成此操作(pyarrowpandas 的可选依赖项> 您需要此功能)。

import pandas as pd
df = pd.read_parquet('filename.parquet')
df.to_csv('filename.csv')

当你需要对文件中的内容进行修改时,你可以对df进行标准的pandas操作。

关于python - 将 Parquet 转换为 CSV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51215166/

相关文章:

python - 伊辛模型大都会算法 : lattice won't equilibrate

python - 序列化 MD5 计算状态并稍后恢复?

python - 在 gtk.ToolButton 中显示 gtk.Spinner

python-3.x - 使用 ISO 8601 时间戳和自定义刻度解析多个 *.csv

eclipse - XTend 的命令行编译器

python - Python 文档字符串中尾随白线的目的是什么?

python - 使用 Python 连接 CSV 中的行

ruby CSV重复行解析

linux - 打印出带有特殊字符的文件行 - Linux

linux - 使用 find 计算超过 180 天的文件的总已用磁盘空间