apache-spark - 如何设置 spark 使用特定数量的内核?

标签 apache-spark

我有 3 台机器,每台机器有 12 个内核。如何设置 spark 以使用 12 个内核?

在 spark-env.sh 我已经设置了内存,但我没有找到如何设置内核数。你能帮忙吗?

export SPARK_WORKER_MEMORY=28G

最佳答案

在所有机器上的 spark-env.sh 中添加以下内容

export SPARK_WORKER_CORES=12

SPARK_WORKER_CORES 指定允许 Spark 应用程序在机器上使用的内核总数(默认值:所有可用内核)。

此外,如果您希望在一台机器上有两个 worker ,请尝试以下操作:
export SPARK_WORKER_INSTANCES=2
export SPARK_WORKER_CORES=6

这将启动两个具有 6 个核心的 worker。

查询 http://spark.apache.org/docs/latest/spark-standalone.html#cluster-launch-scripts更多细节。

关于apache-spark - 如何设置 spark 使用特定数量的内核?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37473421/

相关文章:

pandas - Pandas 可以在 Spark 上运行吗?

scala - 连接 2 个大型 DF 时 Spark : Size exceeds Integer. MAX_VALUE

pandas - 如何对 pyspark dataframe 中的单列进行 reshape 操作?

scala - 启动 Spark-Shell 时出现许多错误

apache-spark - 如何将配置从 spark-submit 传递到 yarn cluster?

python - 通过 pyspark 加载文件名中包含冒号的 Amazon S3 文件

scala - Spark 将 DataFrame API 中的所有 NaN 替换为 null

csv - 将 CSV 文件读取到 Spark 时出现问题

java - 在spark java api(org.apache.spark.SparkException)中使用filter(),map(),...时出错

apache-spark - Zeppelin - 无法使用 %sql 查询我在 pyspark 注册的表