amazon-web-services - AWS Glue 中 1 个 DPU 的最大并发任务数

标签 amazon-web-services apache-spark apache-spark-sql aws-glue

AWS Glue 中的标准 DPU 带有 4 个 vCPU 和 2 个执行器。 我对可以与此配置并行运行的最大并发任务数感到困惑。在具有 4 个 vcpu 和 2 个执行程序的单个 DPU 上是 4 个还是 8 个?

最佳答案

我与 AWS Glue 支持团队就此进行了类似的讨论,我将与您分享他们告诉我的有关 Glue 配置的内容。以标准配置和 G1.X 配置为例。

标准 DPU 配置:

  • 为主节点预留 1 个 DPU
  • 为 Driver/ApplicationMaster 保留 1 个执行器
  • 每个DPU配置2个executor
  • 每个执行器配置5.5GB内存
  • 每个执行器配置4核

G.1X WorkerType 配置:

  • 为 MasterNode 添加了 1 个 DPU
  • 1 个 DPU 保留给 Driver/ApplicationMaster
  • 每个worker配置1个executor
  • 每个执行器配置10GB内存
  • 每个执行器配置8核

例如,如果我们有一个带有 21 DPU 的标准配置的作业,则意味着我们有:

  • 1 个 DPU 保留给 Master
  • 20 个 DPU x 2 = 40 个执行器
  • 40 名执行者 - 1 名司机/AM = 39 名执行者

然后我们最终得到总共 156 个核心。也就是说,您的作业有 156 个执行槽。例如,如果您从 S3 读取文件,这意味着您将能够并行接受 156 个输入文件。

希望对您有所帮助。

关于amazon-web-services - AWS Glue 中 1 个 DPU 的最大并发任务数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62613729/

相关文章:

amazon-web-services - S3 生命周期策略删除没有特定标记值的所有对象

amazon-web-services - Kubernetes 是否合并容器/pod 以最小化资源碎片?

python - 为什么使用 python 的 cassandra-driver 连接到 AWS keyspaces 这么慢?

amazon-web-services - AWS ECS 服务内存或 CPU 要求的经验法则

azure - 在 HDInsight 群集上远程执行 Spark 作业

java - 过滤和减少之间的区别?

Scala 线程池 - 同时调用 API

SQL 是从右到左计算还是从左到右计算?

python - Spark- 计算一列在另一列之后的百分比

json - 如何使用Apache Spark将JSON文件转换为 Parquet ?