apache-spark - 如何使用 Zookeeper 为 HA 设置 Spark?

标签 apache-spark apache-zookeeper

我要配置 Apache Spark 主连接动物园管理员

我已经安装了它们并运行了 Zookeeper。

spark-env.sh , 我添加 2 行:

-Dspark.deploy.recoveryMode=ZOOKEEPER

-Dspark.deploy.zookeeper.url=localhost:2181

但是当我开始时 Apache Spark ./sbin/start-all.sh

它显示错误
/home/deploy/spark-1.0.0/sbin/../conf/spark-env.sh: line 46: -Dspark.deploy.recoveryMode=ZOOKEEPER: command not found

/home/deploy/spark-1.0.0/sbin/../conf/spark-env.sh: line 47: -Dspark.deploy.zookeeper.url=localhost:2181: command not found

我想知道如何在 spark-env.sh 上添加 Zookeeper 设置

最佳答案

很可能您已经将这些行直接添加到文件中,如下所示:

export SPARK_PREFIX=`dirname "$this"`/..
export SPARK_CONF_DIR="$SPARK_HOME/conf"
...
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=localhost:2181

当被 start-all.sh 调用时,bash 会提示那些 -Dspark...不是有效的命令。请注意 spark_config.sh是一个 bash 脚本,应该包含有效的 bash 表达式。

按照 High Availability 中的配置指南进行操作, 你应该设置 SPARK_DAEMON_JAVA_OPTS带有以下选项:spark.deploy.recoveryMode , spark.deploy.zookeeper.url , 和 spark.deploy.zookeeper.dir .

使用您的数据,您需要向 spark-conf.sh 添加一行像这样:
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=localhost:2181"

关于apache-spark - 如何使用 Zookeeper 为 HA 设置 Spark?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24183904/

相关文章:

java - 多个动物园管理员节点导致内存不足问题?

apache-kafka - Kafka 消费者 : fetching topic metadata for topics from broker [ArrayBuffer(id:0, 主机 :user-Desktop, 端口:9092)] 失败

performance - Spark-1.6.0+ : spark. shuffle.memoryFraction 已弃用 - 何时会发生溢出?

apache-spark - 来自 IBM MQ 的 Spark 流数据

java - Hbase 区域服务器关闭

java - 如何使用 Curator.x.discovery 注册服务 ZooKeeper

configuration - Zookeeper 如何管理其他集群中的节点角色?

java - 为什么我不能导入 org.apache.spark.sql.DataFrame

apache-spark - 如何使用 Livy 将 BigQuery Connector 包含在 Dataproc 中

java - 如果 Spark 数据集中的记录键相同,如何创建值列表