linux - 在现有的 Hadoop 集群上安装 Spark

标签 linux hadoop apache-spark

我不是系统管理员,但我可能需要执行一些管理任务,因此需要一些帮助。

我们有一个(远程)Hadoop 集群,人们通常在集群上运行 map-reduce 作业。

我打算在集群上安装 Apache Spark,以便集群中的所有机器都可以使用。这应该是可能的,我已经阅读了 http://spark.apache.org/docs/latest/spark-standalone.html “只需将 Spark 作为单独的服务在同一台机器上启动,您就可以将 Spark 与现有的 Hadoop 集群一起运行……”

如果您以前做过,请给我详细的步骤,以便创建 Spark 集群。

最佳答案

如果您的集群上已经安装了 Hadoop,并且想在 YARN 上运行 spark,这非常简单:

第 1 步:找到 YARN 主节点(即运行资源管理器的节点)。以下步骤仅在主节点上执行。

第 2 步: Download Spark tgz 包并将其解压到某处。

第三步:定义这些环境变量,例如在.bashrc中:

# Spark variables
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_HOME=<extracted_spark_package>
export PATH=$PATH:$SPARK_HOME/bin

第 4 步:使用 --master 选项运行您的 spark 作业到 yarn-clientyarn-master:

spark-submit \
--master yarn-client \
--class org.apache.spark.examples.JavaSparkPi \
$SPARK_HOME/lib/spark-examples-1.5.1-hadoop2.6.0.jar \
100

此特定示例使用 Spark 安装附带的预编译示例作业。

您可以阅读 this blog post我写了有关集群上 Hadoop 和 Spark 安装的更多详细信息。

您可以阅读下面的文章,了解如何使用 Java 编译和运行您自己的 Spark 作业。如果你想用 Python 或 Scala 编写作业,使用 IPython 或 Zeppelin 等笔记本很方便。阅读更多有关如何将它们用于 Hadoop-Spark 集群的信息 here .

关于linux - 在现有的 Hadoop 集群上安装 Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38259459/

相关文章:

c++ - Linux中mremap函数的特点

hadoop - Apache Sqoop 于 2021 年 6 月搬进阁楼

java - HBase Java Api 卡在 put()

apache-spark - 是否可以将经过训练的 Spark ML 模型或交叉验证器保存到 postgresql 数据库?

c - 在 C 中使用管道编写 linux 命令

linux - 需要确定 linux/OSX 何时完全初始化

linux - 将静态库链接到共享库

map - Hadoop:将slave设置为显式reducer?

apache-spark - 将 apache-spark 登录发送到 Amazon EMR 集群上的 redis/logstash 的最佳方式

python - Spark Python Pyspark 如何用字典数组和嵌入式字典展平列(sparknlp 注释器输出)