hadoop - 当动态分配设置为 true 时手动分配核心数

标签 hadoop apache-spark pyspark hdfs

我们有一个 3 节点集群。每个节点有 20 个内核和 100GB 内存。我们将动态资源分配设置为 true。

我想根据自己的意愿调整资源。

例如:

  1. spark-submit 仅使用 1 个核心。默认情况下,它选择 4-6 个内核。
  2. 我想为我运行的每个 spark-submit 设置它。

我怎样才能达到我的要求。

最佳答案

spark.dynamicAllocation.enabled 是应用程序的属性。它可以在每次提交时设置,使用以下之一:

  • --conf 选项传递给 Spark 提交。
  • SparkConf 对象上设置 spark.dynamicAllocation.enabled
  • 使用 SparkSessionBuilderconfig 方法。

关于hadoop - 当动态分配设置为 true 时手动分配核心数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46696072/

相关文章:

apache-spark - 由于 Kerberos : Caused by GSSException: No valid credentials provided .,spark-submit 无法连接到 Metastore,但在本地客户端模式下工作

Hadoop Streaming 1.0.3 无法识别的 -D 命令

python - 当我尝试以朴素的贝叶斯分类器形式https://github.com/muatik/naive-bayes-classifier我得到错误

java - JSON映射器类中的错误

java - 阶段 13.0 (TID 13) 中的任务 0.0 异常 java.lang.OutOfMemoryError : Java heap space

elasticsearch - 如何在 Dataproc 中访问 SparkContext?

python - 如何在 PySpark 数据框中添加变量/条件列

hadoop - Mapreduce Vs Spark Vs Storm Vs Drill——对于小文件

apache-spark - pySpark 使用键/值从 RDD 创建数据帧

hadoop - spark-ml 朴素贝叶斯保存到 hdfs