csv - 如何将本地 ORC 文件转换为 CSV?

标签 csv orc

我的本地机器上有一个 ORC 文件,我需要它的任何合理格式(例如 CSV、JSON、YAML 等)。

如何将 ORC 转换为 CSV?

最佳答案

  • Download
  • 解压文件,转至 java文件夹并执行 maven:mvn install
  • 使用 ORC 工具

  • 这就是我使用它们的方式 - 您可能需要调整路径:
    java -jar ~/.m2/repository/org/apache/orc/orc-tools/1.5.4/orc-tools-1.5.4-uber.jar data ~/your_file.orc > output.json
    

    输出为 JSON Lines这很容易转换为CSV。首先,我需要从输出中删除最后两行。然后:
    import pandas as pd
    
    df = pd.read_json('output.json', lines=True)
    df.to_csv('output.csv')
    

    关于csv - 如何将本地 ORC 文件转换为 CSV?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54482815/

    相关文章:

    python - 在 Python 中读取 CSV 的特定行

    r - 如何创建两个具有相同名称但一个使用大写字母而另一个使用小写字母的不同 CSV 文件

    python - 如何将 CSV 数据存储在具有字典和列表的嵌套字典中?

    hadoop - 无法通过临时Hive表将文本数据作为ORC加载到Hive表中

    apache-spark - Spark 在驱动程序中而不是在执行程序中读取 orc 文件

    hadoop - 在 s3n 上查询 Orc 文件非常慢

    python - 对列多个文件 Pandas 的操作

    powershell - 通过 PowerShell 将所有已安装的软件分组到一个单元中

    python - 如何从视频流中提取文本?

    hadoop - 使用 hive 的合并语句将增量数据合并到外部表中