r - R 中的 sample() 出现 "Unused argument (replace = FALSE)"错误(在 AWS 上)

标签 r apache-spark sparkr

我在 AWS 上的 Elastic MapReduce 集群上运行 R 代码,涉及从 S3 存储桶导入的数据。我正在使用 SparkR 库测试 Apache Spark 的一些功能。这是我要运行的代码。

mnist_train <- SparkR::read.df("s3a://spark-rstudio-test-new/mnist_train.csv", 
                  header = "false", source = "csv", 
                  inferSchema = "true", na.strings = "")
subsamplesize <- 30000
subsample <- sample(nrow(mnist_train), subsamplesize, replace = FALSE)

这会返回以下错误:

“样本错误(nrow(mnist_train),subsamplesize,replace = F): 未使用的参数(替换 = F)”

同一段代码适用于我本地的 RStudio。这里发生了什么?如果有任何指示,我将不胜感激。

最佳答案

看起来 SparkR 实现具有不兼容的签名,遮蔽了 base 中的那个。使用完全限定名称应该可以解决问题:

base::sample(nrow(mnist_train), subsamplesize, replace = FALSE)

关于r - R 中的 sample() 出现 "Unused argument (replace = FALSE)"错误(在 AWS 上),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46892208/

相关文章:

r - 制作特殊矩阵的最佳方法

r - Dplyr 使用字符串变量作为表达式重命名

r - 循环遍历 R 中有序集的功能方法

javascript - Apache Spark 和 node.js

python-2.7 - 如何运行egg分布式的pyspark应用程序?

apache-spark - Sparkr 使用 HDFS 读/写

r - ggplot条形图中的水平白线

python - Pyspark 驱动程序中 Python 子进程的内存分配

apache-spark - hdp沙箱/齐柏林飞艇上的%spark2.r无法正常工作

r - Spark R - Spark R 中的 `factors()` 是什么?