apache-spark - 具有多个执行程序的Spark独立配置

标签 apache-spark pyspark

我正在尝试设置独立的Spark 2.0服务器以并行处理分析功能。为此,我想让一个 worker 与多个执行者一起工作。

我正在使用 :

  • 独立Spark 2.0
  • 8核
  • 24gig RAM
  • Windows Server 2008
  • pyspark(尽管这似乎无关)

  • 这仅仅是出于概念证明的目的,但是我想拥有8个执行器,每个核心一个。

    我尝试关注此主题的其他主题,但由于某些原因,它对我不起作用。 IE:
    Spark Standalone Number Executors/Cores Control

    我的配置如下:

    conf\spark-defaults.conf
    spark.cores.max = 8
    spark.executor.cores = 1
    

    我也尝试将我的spark-env.sh文件更改为无效。相反,发生的事情是它表明我的1个 worker 上只有1个执行者。如下所示,它仍然显示带有1个执行器和8个内核的独立执行器。

    enter image description here

    最佳答案

    我相信你混淆了本地和独立模式:

  • 本地模式 是一种开发工具,其中所有进程都在单个 JVM 中执行。通过将 master 设置为 locallocal[*]local[n] ,应用程序以本地模式启动。 spark.executor.coresspark.executor.cores 在本地模式下不适用,因为只有一个嵌入式执行器。
  • 独立模式 需要独立的 Spark cluster 。它需要一个主节点(可以使用 SPARK_HOME/sbin/start-master.sh 脚本启动)和至少一个工作节点(可以使用 SPARK_HOME/sbin/start-slave.sh 脚本启动)。
    SparkConf 应该使用主节点地址来创建( spark://host:port )。
  • 关于apache-spark - 具有多个执行程序的Spark独立配置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39986507/

    相关文章:

    scala - 如何为 Scala Spark ETL 设置本地开发环境以在 AWS Glue 中运行?

    dataframe - 如何在pyspark中连接两个数组

    pyspark - Azure Databricks 到 Azure SQL DW : Long text columns

    apache-spark - Spark worker 上缺少 SLF4J 记录器

    machine-learning - 为什么spark.ml不实现任何spark.mllib算法?

    hadoop - 如何知道在 YARN 客户端模式下带有 spark-shell 的 ClosedChannelException 的原因是什么?

    apache-spark - Spark 写入 Elasticsearch 性能低下

    r - SparkR 与 sparklyr

    scala - spark将简单字符串保存到文本文件

    Pyspark:从 JSON 文件创建模式