python - 如何在 Python 中读取 gzipped parquet 文件

标签 python hadoop gzip parquet

我需要打开一个压缩文件,里面有一个 Parquet 文件,里面有一些数据。我在尝试打印/读取文件中的内容时遇到了很多麻烦。我尝试了以下方法:

with gzip.open("myFile.parquet.gzip", "rb") as f:
    data = f.read()
这似乎不起作用,因为我收到一个错误,即我的文件 id 不是 gz 文件。谢谢!

最佳答案

您可以使用 read_parquet函数来自 pandas模块:

  • 安装 pandaspyarrow :
  • pip install pandas pyarrow
    
  • 使用 read_parquet返回 DataFrame :
  • data = read_parquet("myFile.parquet.gzip")
    print(data.count()) # example of operation on the returned DataFrame
    

    关于python - 如何在 Python 中读取 gzipped parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63372039/

    相关文章:

    hadoop - 安全退出 pig shell 命令

    python - 使用hdfs3读取文件失败

    java - 使用 gzip 压缩 InputStream

    python - 如何保护自己免受 gzip 或 bzip2 炸弹的伤害?

    Python reportLab 鸭嘴兽 : bottom image

    python - 如何在Python(最好)的pdf模板中插入二维码和一些文本来生成门票

    python - 比较两个数据框中的多列并选择具有不同值的行

    azure - Pig 无法在 HDFS 中创建(或查找)pigjobs 文件 (riskfactor.pig)

    jersey - Jersey 2/Grizzly 中的 GZIP 编码

    python:将 float 转换为字符串时,在点后强制加两个零