javascript - 将 Parquet 转换为常规 TXT 文件的最快方法是什么?

标签 javascript python module parquet

我正在考虑如何快速地将 parquet 文件格式转换为 TXT。

尝试使用parquet-tools cat parque_file > parque_file.txt 但5KB文件需要2秒以上。

我相信这个工具有一定的开销。什么是更快的方法?

(如果可能的话,寻找 500ms 解决方案)..

最佳答案

您可以尝试将 Python 与 pandas 和 pyarrow 一起使用:

import pandas as pd
df = pd.read_parquet('input.parquet')
df.to_csv('out.csv', index=False)             # Exporting to CSV is easy
df.to_csv('out.txt', index=False, sep=' ')    # Text is just a tad more difficult
df.to_csv('out.txt', index=False, sep='\t')   # Alternatively, you can use tab separators
df.to_json('out.json')                        # Exporting to JSON is easy as well

查看相关API文档:

您还可以更改上面的代码以使用 fastparquet 而不是 pyarrow 并测试这是否会给您带来更好或更差的性能。您需要修改的只是读取 Parquet 文件的行:

df = pd.read_parquet('input.parquet', engine = 'fastparquet')

不要忘记首先通过发出 pip install pandas pyarrow fastparquet (或类似命令,具体取决于您的包管理解决方案)来安装 pandas、pyarrow 和 fastparquet。

关于javascript - 将 Parquet 转换为常规 TXT 文件的最快方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55001874/

相关文章:

javascript - 某些导航元素在页面上时会显示悬停,而其他元素则不会?

python - 如何使用 Python 发出 URL 请求并返回重定向到的 URL?

python - 在python中在哪里存储日志文件名?

python - 在类实例中使用模块变量

javascript - 如何让我的按钮内联(在输入旁边)?

javascript - 防止表从长 td 增长

Javascript 获得 MIME 类型支持

python - 重新启动女服务员服务

python - 在 for 循环中通过三元运算符递增不同的变量

node.js - 如何在 CasperJS 运行的文件中使用 NPM 模块?