python - 使用 PyArrow 读取 CSV

标签 python pyarrow

我有大型 CSV 文件,我最终希望将其转换为 Parquet 。由于内存限制及其处理 NULL 值(这在我的数据中很常见)的困难,Pandas 无济于事。我检查了 PyArrow 文档,并且有用于读取 Parquet 文件的工具,但我没有看到有关读取 CSV 的任何内容。我错过了什么,还是这个功能与 PyArrow 不兼容?

最佳答案

我们正在研究此功能,现在有一个拉取请求:https://github.com/apache/arrow/pull/2576 .您可以通过测试来提供帮助!

关于python - 使用 PyArrow 读取 CSV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52413318/

相关文章:

python - 尝试在 Google Colab 中加载 pickle 文件时出错

python - 将 pandas Dataframe 的行转换为可迭代的字符串列表

python - fastparquet 和 pyarrow 之间的比较?

python - pyarrow.lib.ArrowInvalid : ('Could not convert X with type Y: did not recognize Python value type when inferring an Arrow data type' )

python - 尝试升级 pyarrow 会导致错误

python - IplImage 里面的 IplImage

python - 根据 Django 模型中的条件根据需要创建模型字段

Python pdist : Setting an array element with a sequence

python - 在 Windows 中创建的 Parquet 文件无法在 Ubuntu 中打开

python - Pyarrow:将流读入 p​​andas 数据帧高内存消耗