我想使用 R 从我的 s3 存储桶中获取 Parquet 文件。在我的服务器中未安装 Spark。
如何在没有 spark 的情况下在 R 中读写 parquet 文件?我能够使用不同的格式从 s3 读取和写入数据,但不能使用 Parquet 格式。
我的代码如下-
从s3读取csv文件
library(aws.s3)
obj <-get_object("s3://mn-dl.sandbox/Internal Data/test.csv")
csvcharobj <- rawToChar(obj)
con <- textConnection(csvcharobj)
data <- read.csv(file = con)
data1 <-data
#Write csv data directly to s3
s3write_using(data1, FUN = write.csv,
bucket = "mn-dl.sandbox",
object = "Internal Data/abc.csv")
提前致谢
最佳答案
绝对是使用 R 和 AWS 的新手,所以希望这是一个通用的解决方案,而不仅仅是对我有用的解决方案,但这就是我所做的。
install.packages("paws")
install.packages("arrow")
library(paws)
library(arrow)
s3 <- paws::s3(config=list(<your configurations here to give access to s3>))
object <- s3$get_object(Bucket = "path_to_bucket", Key = "file_name.parquet")
data <- object$Body
read_parquet(data)
关于使用 R 从 s3 读取/写入 Parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49937467/