使用 R 从 s3 读取/写入 Parquet 文件

标签 r

我想使用 R 从我的 s3 存储桶中获取 Parquet 文件。在我的服务器中未安装 Spark。

如何在没有 spark 的情况下在 R 中读写 parquet 文件?我能够使用不同的格式从 s3 读取和写入数据,但不能使用 Parquet 格式。

我的代码如下-

从s3读取csv文件

library(aws.s3)
obj <-get_object("s3://mn-dl.sandbox/Internal Data/test.csv")  
csvcharobj <- rawToChar(obj)  
con <- textConnection(csvcharobj)  
data <- read.csv(file = con)
data1 <-data

#Write csv data directly to s3
s3write_using(data1, FUN = write.csv,
                    bucket = "mn-dl.sandbox",
                    object = "Internal Data/abc.csv")

提前致谢

最佳答案

绝对是使用 R 和 AWS 的新手,所以希望这是一个通用的解决方案,而不仅仅是对我有用的解决方案,但这就是我所做的。

install.packages("paws")
install.packages("arrow")

library(paws)
library(arrow)

s3 <- paws::s3(config=list(<your configurations here to give access to s3>))
object <- s3$get_object(Bucket = "path_to_bucket", Key = "file_name.parquet")
data <- object$Body
read_parquet(data)

关于使用 R 从 s3 读取/写入 Parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49937467/

相关文章:

R:在 data.frame 中插入向量作为行

r - 如何使用 [row,col] 距离索引对特定列进行行求和循环

按名称返回所有因子级别作为来自三列数据的新列。表 [R]

r - 使用 R 将 basemap 添加到 SpatialPointDataFrames

r - 矩阵中的索引元素和相应的列号

r - 使用 ggplot2 在构面中包含未使用的因子水平

r - 将社区检测与连接组件分组 igraph R 相结合

r - n() 在 summarise_at() 中使用时行为不一致

r - 比较 data.table 中的连续行并替换行值

linux - Ubuntu下的R RODBC包