r - 如何安装 Apache spark 并为 R 启动和运行它?

标签 r hadoop apache-spark

所以,我对 Hadoop 和 Apache Spark 还很陌生。我是一个尝试动手的初学者。所以,首先我了解了 hadoop 和 MapReduce 的基本概念,它们是如何产生的,然后 Apache Spark 相对于 Hadoop 有什么优势(一些在内存和磁盘上的处理速度更快),以及多个库让我们的生活更轻松.现在,我正在尝试使用 Apache Spark。为此,我假设我必须在我的机器上安装一个名为 Apache Spark 的软件。

我所做的是安装 Oracle Virtual box。然后我安装了流浪汉。现在,我知道在下载 vagrant、解压文件和其他东西之后,我必须运行命令 vagrant up,它会下载并安装我的虚拟机。但是,我想通过 R 使用 Apache Spark。我的意思是,我不知道 Python,但我知道 R。而且我前几天读到 Databricks 显然已经发布了对 R 的支持。因为,我是新手,我假设,将有一些 shell,我可以在其中键入我的 R 命令,并且将使用 Apache Spark 进行计算。

因此,我不知道如何进行。我是否应该执行 vagrant up,我猜这将允许我使用 python shell 使用 apache spark。或者这是前进的方向,在这样做之后我将不得不安装一些额外的库来使用 R。

最佳答案

你说的包是SparkR 实际上,您可以在 R 中导入并可以在 R 中本地使用 spark 的包很少,但是如果您想使用 Spark Standalone 集群,那么您也必须安装 Spark。在 Spark 1.4.0 中,R 包已随 Spark 安装一起嵌入,您可以通过将其导入 R 来直接使用它们。

这个新发布的包可以从这个位置下载-

https://spark.apache.org/downloads.html

现在您可以使用 RStudio 或 R shell 并使用这些行导入 R 包 -

Sys.setenv(SPARK_HOME="/home/hduser/Downloads/FlareGet/Others/spark-1.4.0-bin-hadoop2.6").libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))

library(SparkR)

或者您可以直接从下载包的 bin 文件夹中运行 sparkR shell - 转到 bin 文件夹并键入命令提示符

./sparkR

从此位置下载包 - http://www.webhostingjams.com/mirror/apache/spark/spark-1.4.0/spark-1.4.0-bin-hadoop2.6.tgz

关于r - 如何安装 Apache spark 并为 R 启动和运行它?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30885718/

相关文章:

hadoop - 如何通过grafana(opentsdb)监控dfs.namenode.handler.count?

scala - Spark Streaming Kafka CreateDirectStream 无法解析

apache-spark - 如何在 Spark Streaming 作业期间更新 ML 模型而不重新启动应用程序?

Hadoop 中具有大量多个输出文件的性能

scala - Spark : scala - how to convert collection from RDD to another RDD

r - 从 Rdata 文件中获取特定对象

r - R 中的日期时间/日期操作

r - 如何在 R 中以原始单位绘制转换后的时间序列 ETS 预测?

r - 如何提取每组的前 n 行?

apache-spark - 输入路径不存在:hdfs://quickstart/user/hive/warehouse/products