我在 AWS 上的 Elastic MapReduce 集群上运行 R 代码,涉及从 S3 存储桶导入的数据。我正在使用 SparkR 库测试 Apache Spark 的一些功能。这是我要运行的代码。
mnist_train <- SparkR::read.df("s3a://spark-rstudio-test-new/mnist_train.csv",
header = "false", source = "csv",
inferSchema = "true", na.strings = "")
subsamplesize <- 30000
subsample <- sample(nrow(mnist_train), subsamplesize, replace = FALSE)
这会返回以下错误:
“样本错误(nrow(mnist_train),subsamplesize,replace = F): 未使用的参数(替换 = F)”
同一段代码适用于我本地的 RStudio。这里发生了什么?如果有任何指示,我将不胜感激。
最佳答案
看起来 SparkR 实现具有不兼容的签名,遮蔽了 base
中的那个。使用完全限定名称应该可以解决问题:
base::sample(nrow(mnist_train), subsamplesize, replace = FALSE)
关于r - R 中的 sample() 出现 "Unused argument (replace = FALSE)"错误(在 AWS 上),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46892208/