r - 如何从 R 连接到 HDFS 并使用 arrow 读/写 Parquet ?

标签 r hadoop hdfs pyarrow apache-arrow

我在 HDFS 中有几个 parquet 文件,我想将其读入 R 中,并将 R 中的一些数据写入 HDFS 并以 parquet 文件格式存储。我想使用 arrow 库,因为我相信它是 pyarrow 的 R 版本,而且 pyarrow 非常棒。

问题是,在 R arrow 文档中我找不到有关使用 HDFS 的信息,而且通常也没有太多关于如何正确使用该库的信息。

我基本上是在寻找 R 等价物:

from pyarrow import fs
filesystem = fs.HadoopFileSystem(host = 'my_host', port = 0, kerb_ticket = 'my_ticket')

披露: 我知道如何使用 odbc 读取和写入我的数据。虽然读取很好(但速度很慢),但以这种方式将大量数据插入到 impala/hive 中简直太糟糕了(速度慢,经常失败,而且 impala 并不是真正为以这种方式消化数据而构建的)。

我知道我可能可以使用 pyarrow 来处理 hdfs,但希望避免为此目的在我的 docker 镜像中安装 python。

最佳答案

目前 R 中尚未实现此绑定(bind);这里有一个关于 JIRA 项目的票证,在撰写本文时仍标记为“未解决”:https://issues.apache.org/jira/browse/ARROW-6981 。我将在 JIRA 票证上发表评论,指出用户有兴趣实现这些绑定(bind)。

关于r - 如何从 R 连接到 HDFS 并使用 arrow 读/写 Parquet ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72255582/

相关文章:

oracle - 从Oracle压缩数据到配置单元错误

java - 使用Spring-XD将数据加载到Hadoop 2.2

ubuntu - 为 hadoop 设置无密码 ssh

hadoop - 该示例如何在 Oozie 最佳情况下找到库?

r - 标记 R 中的 X 次先前出现

r - 如何在 R 中训练和交叉验证

python - 在 Python 或 R 中为给定的度序列生成图

apache - 无法运行导入 org.apache.lucene.analysis.Analyzer 的 Java 程序

hadoop - Vertica HCatalog连接器是否支持非标准Hive的StorageHandler?

r - 使用 xlsx 包保存 data.frame 时如何避免写入 row.names 列