r - 如何在 R 中读取 Parquet 并将其转换为 R DataFrame?

标签 r apache-spark parquet sparkr

我要处理Apache Parquet R 编程语言中的文件(在我的例子中,在 Spark 中生成)。

有 R 阅读器吗?或者正在做一个工作?

如果没有,到达那里最方便的方法是什么?注意:有 Java 和 C++ 绑定(bind):https://github.com/apache/parquet-mr

最佳答案

您可以简单地使用 arrow package :

install.packages("arrow")
library(arrow)
read_parquet("myfile.parquet")

关于r - 如何在 R 中读取 Parquet 并将其转换为 R DataFrame?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30402253/

相关文章:

java - 如何在 Java 中为 Hadoop 作业的 ParquetOutputFormat 定义 Parquet 模式?

r - as.environment(x) 错误 : invalid object for 'as.environment' in R

hadoop - yarn client模式如何在远程master节点提交spark作业?

r - 在 R 中输入高阶交互项

gradle - Apache Spark 和 gRPC

unit-testing - 在 Windows 上运行 spark 单元测试

java - 如何使用纯Java(包括日期和小数类型)生成Parquet文件并将其上传到S3 [Windows](无HDFS)

r - 有没有办法在读取 Parquet 文件时处理嵌入的 null ?

r - 将具有相似名称的列相乘

使用 list.files() 查找不从特定字符串开始的文件的正则表达式