amazon-web-services - AWS Glue 中 1 个 DPU 的最大并发任务数

标签 amazon-web-services apache-spark apache-spark-sql aws-glue

AWS Glue 中的标准 DPU 带有 4 个 vCPU 和 2 个执行器。我对可以与此配置并行运行的最大并发任务数感到困惑。在具有 4 个 vcpu 和 2 个执行程序的单个 DPU 上是 4 个还是 8 个？

最佳答案

我与 AWS Glue 支持团队就此进行了类似的讨论，我将与您分享他们告诉我的有关 Glue 配置的内容。以标准配置和 G1.X 配置为例。

标准 DPU 配置:

为主节点预留 1 个 DPU
为 Driver/ApplicationMaster 保留 1 个执行器
每个DPU配置2个executor
每个执行器配置5.5GB内存
每个执行器配置4核

G.1X WorkerType 配置:

为 MasterNode 添加了 1 个 DPU
1 个 DPU 保留给 Driver/ApplicationMaster
每个worker配置1个executor
每个执行器配置10GB内存
每个执行器配置8核

例如，如果我们有一个带有 21 DPU 的标准配置的作业，则意味着我们有:

1 个 DPU 保留给 Master
20 个 DPU x 2 = 40 个执行器
40 名执行者 - 1 名司机/AM = 39 名执行者

然后我们最终得到总共 156 个核心。也就是说，您的作业有 156 个执行槽。例如，如果您从 S3 读取文件，这意味着您将能够并行接受 156 个输入文件。

希望对您有所帮助。

关于amazon-web-services - AWS Glue 中 1 个 DPU 的最大并发任务数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62613729/

上一篇：purescript - 如何将 Purescript 翻译成 ES6

下一篇：r - 从 R 上传图像到 wordpress 库

相关文章：

amazon-web-services - S3 生命周期策略删除没有特定标记值的所有对象

amazon-web-services - Kubernetes 是否合并容器/pod 以最小化资源碎片？

python - 为什么使用 python 的 cassandra-driver 连接到 AWS keyspaces 这么慢？

amazon-web-services - AWS ECS 服务内存或 CPU 要求的经验法则

azure - 在 HDInsight 群集上远程执行 Spark 作业

java - 过滤和减少之间的区别？

Scala 线程池 - 同时调用 API

SQL 是从右到左计算还是从左到右计算？

python - Spark- 计算一列在另一列之后的百分比

json - 如何使用Apache Spark将JSON文件转换为 Parquet ？

©2024 IT工具网联系我们