r - 如何从 R 连接到 HDFS 并使用 arrow 读/写 Parquet ？

我在 HDFS 中有几个 parquet 文件，我想将其读入 R 中，并将 R 中的一些数据写入 HDFS 并以 parquet 文件格式存储。我想使用 arrow 库，因为我相信它是 pyarrow 的 R 版本，而且 pyarrow 非常棒。

问题是，在 R arrow 文档中我找不到有关使用 HDFS 的信息，而且通常也没有太多关于如何正确使用该库的信息。

我基本上是在寻找 R 等价物:

from pyarrow import fs
filesystem = fs.HadoopFileSystem(host = 'my_host', port = 0, kerb_ticket = 'my_ticket')

披露: 我知道如何使用 odbc 读取和写入我的数据。虽然读取很好(但速度很慢)，但以这种方式将大量数据插入到 impala/hive 中简直太糟糕了(速度慢，经常失败，而且 impala 并不是真正为以这种方式消化数据而构建的)。

我知道我可能可以使用 pyarrow 来处理 hdfs，但希望避免为此目的在我的 docker 镜像中安装 python。

最佳答案

目前 R 中尚未实现此绑定(bind)；这里有一个关于 JIRA 项目的票证，在撰写本文时仍标记为“未解决”:https://issues.apache.org/jira/browse/ARROW-6981 。我将在 JIRA 票证上发表评论，指出用户有兴趣实现这些绑定(bind)。

关于r - 如何从 R 连接到 HDFS 并使用 arrow 读/写 Parquet ？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/72255582/

相关文章：

oracle - 从Oracle压缩数据到配置单元错误