r - 如何为 sparkR 运行 R 脚本？

我正在从终端运行 sparkR 2.0.0，并且可以运行 R 命令。但是，我如何创建一个 .r 脚本并能够在 spark session 中运行它。

最佳答案

SparkR 使用标准的 R 解释器，因此适用相同的规则。如果要在当前 session 中执行外部脚本，请使用 source 函数。

## Welcome to
##    ____              __ 
##   / __/__  ___ _____/ /__ 
##  _\ \/ _ \/ _ `/ __/  '_/ 
## /___/ .__/\_,_/_/ /_/\_\   version  2.1.0-SNAPSHOT 
##    /_/ 
##
##
## SparkSession available as 'spark'.
> sink("test.R")
> cat("print(head(createDataFrame(mtcars)))")
> sink()
> source("test.R")
##    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## 1 21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## 2 21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## 3 22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## 4 21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## 5 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## 6 18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

如果您想在现有 SparkR session 之外提交独立脚本，您应该在脚本本身中初始化所需的上下文。之后，您可以使用 SPARK_HOME/bin/spark-submit (首选选项)甚至 Rscript 执行它。

关于r - 如何为 sparkR 运行 R 脚本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39624424/

上一篇：php - Atom 中的自定义 PHP 代码段

下一篇：SQL 到 powerBI 表达式？

相关文章：

scala - Spark中进行特征选择后，使测试数据的特征与训练数据相同

r - R 中的 sample() 出现 "Unused argument (replace = FALSE)"错误(在 AWS 上)

r - 使用对行号和值的过滤器进行选择

apache-spark - 如何在安装 spark 2.4.4 后尝试运行 pyspark 时修复 'TypeError: an integer is required (got type bytes)' 错误

apache-spark - Spark提交使用其他容器

将空列替换为 r 中 Spark 数据帧中另一列中的值

r - Windows 上的 SparkR - Spark SQL 不是使用 Hive 支持构建的

r - 在 R : Error in is. data.frame(data) : object '' not found, C5.0 plot

从 ggsurvplot 中的图例中删除变量名称

R - 替换向量中的第一个 NA