r - 如何安装 Apache spark 并为 R 启动和运行它？

所以，我对 Hadoop 和 Apache Spark 还很陌生。我是一个尝试动手的初学者。所以，首先我了解了 hadoop 和 MapReduce 的基本概念，它们是如何产生的，然后 Apache Spark 相对于 Hadoop 有什么优势(一些在内存和磁盘上的处理速度更快)，以及多个库让我们的生活更轻松.现在，我正在尝试使用 Apache Spark。为此，我假设我必须在我的机器上安装一个名为 Apache Spark 的软件。

我所做的是安装 Oracle Virtual box。然后我安装了流浪汉。现在，我知道在下载 vagrant、解压文件和其他东西之后，我必须运行命令 vagrant up，它会下载并安装我的虚拟机。但是，我想通过 R 使用 Apache Spark。我的意思是，我不知道 Python，但我知道 R。而且我前几天读到 Databricks 显然已经发布了对 R 的支持。因为，我是新手，我假设，将有一些 shell，我可以在其中键入我的 R 命令，并且将使用 Apache Spark 进行计算。

因此，我不知道如何进行。我是否应该执行 vagrant up，我猜这将允许我使用 python shell 使用 apache spark。或者这是前进的方向，在这样做之后我将不得不安装一些额外的库来使用 R。

最佳答案

你说的包是SparkR 实际上，您可以在 R 中导入并可以在 R 中本地使用 spark 的包很少，但是如果您想使用 Spark Standalone 集群，那么您也必须安装 Spark。在 Spark 1.4.0 中，R 包已随 Spark 安装一起嵌入，您可以通过将其导入 R 来直接使用它们。

这个新发布的包可以从这个位置下载-

https://spark.apache.org/downloads.html

现在您可以使用 RStudio 或 R shell 并使用这些行导入 R 包 -

Sys.setenv(SPARK_HOME="/home/hduser/Downloads/FlareGet/Others/spark-1.4.0-bin-hadoop2.6").libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))

library(SparkR)

或者您可以直接从下载包的 bin 文件夹中运行 sparkR shell - 转到 bin 文件夹并键入命令提示符

./sparkR

从此位置下载包 - http://www.webhostingjams.com/mirror/apache/spark/spark-1.4.0/spark-1.4.0-bin-hadoop2.6.tgz

关于r - 如何安装 Apache spark 并为 R 启动和运行它？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30885718/

r - 如何安装 Apache spark 并为 R 启动和运行它？

上一篇：java - reduce 阶段的输入不是我在 Hadoop (Java) 中所期望的

下一篇：mysql - Sqoop 中不明确的列名