apache-spark - 具有多个执行程序的Spark独立配置

我正在尝试设置独立的Spark 2.0服务器以并行处理分析功能。为此，我想让一个 worker 与多个执行者一起工作。

我正在使用 :

独立Spark 2.0

8核

24gig RAM

Windows Server 2008

pyspark(尽管这似乎无关)

这仅仅是出于概念证明的目的，但是我想拥有8个执行器，每个核心一个。

我尝试关注此主题的其他主题，但由于某些原因，它对我不起作用。 IE:
Spark Standalone Number Executors/Cores Control

我的配置如下:

conf\spark-defaults.conf

spark.cores.max = 8
spark.executor.cores = 1

我也尝试将我的spark-env.sh文件更改为无效。相反，发生的事情是它表明我的1个 worker 上只有1个执行者。如下所示，它仍然显示带有1个执行器和8个内核的独立执行器。

最佳答案

我相信你混淆了本地和独立模式:

本地模式 是一种开发工具，其中所有进程都在单个 JVM 中执行。通过将 master 设置为 local 、 local[*] 或 local[n] ，应用程序以本地模式启动。 spark.executor.cores 和 spark.executor.cores 在本地模式下不适用，因为只有一个嵌入式执行器。

独立模式 需要独立的 Spark cluster 。它需要一个主节点(可以使用 SPARK_HOME/sbin/start-master.sh 脚本启动)和至少一个工作节点(可以使用 SPARK_HOME/sbin/start-slave.sh 脚本启动)。
SparkConf 应该使用主节点地址来创建( spark://host:port )。

关于apache-spark - 具有多个执行程序的Spark独立配置，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39986507/

上一篇：shell - 如何列出所有 zsh 自动完成？

下一篇：kubernetes - 如何将日志从运行在 GCP 之上的 Kubernetes 上的 pod 发送到 elasticsearch/logstash？

dataframe - 如何在pyspark中连接两个数组

pyspark - Azure Databricks 到 Azure SQL DW : Long text columns

apache-spark - Spark worker 上缺少 SLF4J 记录器

machine-learning - 为什么spark.ml不实现任何spark.mllib算法？

hadoop - 如何知道在 YARN 客户端模式下带有 spark-shell 的 ClosedChannelException 的原因是什么？

apache-spark - Spark 写入 Elasticsearch 性能低下

r - SparkR 与 sparklyr

scala - spark将简单字符串保存到文本文件

Pyspark:从 JSON 文件创建模式