google-cloud-platform - GCP Dataproc - 配置 YARN 公平调度程序

标签 google-cloud-platform hadoop-yarn google-cloud-dataproc

我试图建立一个 dataproc 集群,它一次只计算一个作业(或指定的最大作业),其余的将在队列中。

我找到了这个解决方案,How to configure monopolistic FIFO application queue in YARN? ,但由于我一直在创建新集群,因此我需要将其自动化。我已将此添加到集群创建中:

"softwareConfig": {
    "properties": {
        "yarn:yarn.resourcemanager.scheduler.class":"org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler",
        "yarn:yarn.scheduler.fair.user-as-default-queue":"false",
        "yarn:yarn.scheduler.fair.allocation.file":"$HADOOP_CONF_DIR/fair-scheduler.xml",
     }
}

init 操作脚本中的另一行:
sudo echo "<allocations><queueMaxAppsDefault>1</queueMaxAppsDefault></allocations>" > /etc/hadoop/conf/fair-scheduler.xml

当我获取它的配置时,集群告诉我这个:
'softwareConfig': {
  'imageVersion': '1.2.27',
  'properties': {
    'capacity-scheduler:yarn.scheduler.capacity.root.default.ordering-policy': 'fair',
    'core:fs.gs.block.size': '134217728',
    'core:fs.gs.metadata.cache.enable': 'false',
    'distcp:mapreduce.map.java.opts': '-Xmx4096m',
    'distcp:mapreduce.map.memory.mb': '5120',
    'distcp:mapreduce.reduce.java.opts': '-Xmx4096m',
    'distcp:mapreduce.reduce.memory.mb': '5120',
    'hdfs:dfs.datanode.address': '0.0.0.0:9866',
    'hdfs:dfs.datanode.http.address': '0.0.0.0:9864',
    'hdfs:dfs.datanode.https.address': '0.0.0.0:9865',
    'hdfs:dfs.datanode.ipc.address': '0.0.0.0:9867',
    'hdfs:dfs.namenode.http-address': '0.0.0.0:9870',
    'hdfs:dfs.namenode.https-address': '0.0.0.0:9871',
    'hdfs:dfs.namenode.secondary.http-address': '0.0.0.0:9868',
    'hdfs:dfs.namenode.secondary.https-address': '0.0.0.0:9869',
    'mapred-env:HADOOP_JOB_HISTORYSERVER_HEAPSIZE': '3840',
    'mapred:mapreduce.job.maps': '189',
    'mapred:mapreduce.job.reduce.slowstart.completedmaps': '0.95',
    'mapred:mapreduce.job.reduces': '63',
    'mapred:mapreduce.map.cpu.vcores': '1',
    'mapred:mapreduce.map.java.opts': '-Xmx4096m',
    'mapred:mapreduce.map.memory.mb': '5120',
    'mapred:mapreduce.reduce.cpu.vcores': '1',
    'mapred:mapreduce.reduce.java.opts': '-Xmx4096m',
    'mapred:mapreduce.reduce.memory.mb': '5120',
    'mapred:mapreduce.task.io.sort.mb': '256',
    'mapred:yarn.app.mapreduce.am.command-opts': '-Xmx4096m',
    'mapred:yarn.app.mapreduce.am.resource.cpu-vcores': '1',
    'mapred:yarn.app.mapreduce.am.resource.mb': '5120',
    'spark-env:SPARK_DAEMON_MEMORY': '3840m',
    'spark:spark.driver.maxResultSize': '1920m',
    'spark:spark.driver.memory': '3840m',
    'spark:spark.executor.cores': '8',
    'spark:spark.executor.memory': '37237m',
    'spark:spark.yarn.am.memory': '640m',
    'yarn:yarn.nodemanager.resource.memory-mb': '81920',
    'yarn:yarn.resourcemanager.scheduler.class': 'org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler',
    'yarn:yarn.scheduler.fair.allocation.file': '$HADOOP_CONF_DIR/fair-scheduler.xml',
    'yarn:yarn.scheduler.fair.user-as-default-queue': 'false',
    'yarn:yarn.scheduler.maximum-allocation-mb': '81920',
    'yarn:yarn.scheduler.minimum-allocation-mb': '1024'
  }
},

文件 fair-scheduler.xml 还包含指定的代码(所有内容都在一行中,但我认为这可能不是问题所在)

毕竟,集群仍然像容量调度程序负责一样。不知道为什么。任何建议都会有所帮助。
谢谢。

最佳答案

由于init actions脚本是在集群创建后运行的,所以在脚本修改yarn-site.xml的时候,yarn服务已经在运行了。

所以修改xml配置文件并创建其他xml文件后,需要重启yarn服务。
可以使用以下命令完成:

sudo systemctl restart hadoop-yarn-resourcemanager.service

此外,由于未设置 $HADOOP_CONF_DIR(我认为应该设置),因此需要输入文件的整个路径。但是,在那之后,初始 YARN 服务将无法启动,因为它找不到稍后在 init 操作脚本中创建的文件。所以,我所做的是将最后几行添加到 init 操作脚本中的 yarn-site.xml 中。
init ActionScript 的代码如下:
ROLE=$(/usr/share/google/get_metadata_value attributes/dataproc-role)
if [[ "${ROLE}" == 'Master' ]]; then
    echo "<allocations>" > /etc/hadoop/conf/fair-scheduler.xml
    echo "  <queueMaxAppsDefault>1</queueMaxAppsDefault>" >> /etc/hadoop/conf/fair-scheduler.xml
    echo "</allocations>" >> /etc/hadoop/conf/fair-scheduler.xml

    sed -i '$ d' /etc/hadoop/conf/yarn-site.xml

    echo "  <property>" >> /etc/hadoop/conf/yarn-site.xml
    echo "    <name>yarn.scheduler.fair.allocation.file</name>" >> /etc/hadoop/conf/yarn-site.xml
    echo "    <value>/etc/hadoop/conf/fair-scheduler.xml</value>" >> /etc/hadoop/conf/yarn-site.xml
    echo "  </property>" >> /etc/hadoop/conf/yarn-site.xml
    echo "</configuration>" >> /etc/hadoop/conf/yarn-site.xml
    systemctl restart hadoop-yarn-resourcemanager.service
fi

关于google-cloud-platform - GCP Dataproc - 配置 YARN 公平调度程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49556305/

相关文章:

google-cloud-platform - 由于网络无法访问 googleapis.com,Dataproc 配置超时

google-cloud-storage - 如何使用 Google Cloud CDN 访问 Google Cloud Storage 公共(public)对象

kubernetes - 为什么kubectl描述 secret 不起作用?

java - 在 Java 代码中使用客户端将 Spark Streaming 作业提交到 YARN 时无法设置配置

google-cloud-platform - 在 dataproc 上使用 PEX 环境打包 PySpark

apache-spark - 如何重命名在 Dataproc Serverless 上运行的 Spark 中的 GCS 文件?

google-cloud-platform - 使用 GCP 的 MySQL Database Migration Service 迁移过程中出错

python-3.x - Gcloud 应用程序部署出现不受支持的 Python 2.5 运行时错误

apache-spark - 从 Eclipse 和 Spark Context 将 Spark 应用程序作为 yarn 作业提交

hadoop - 由于缺少 jar,无法配置 hive.exec Hook