apache-spark - 如何为 spark-shell 设置 YARN 队列?

标签 apache-spark apache-spark-sql

我正在 spark shell 中执行一些 spark(scala) sql 代码。
我想知道我正在使用哪个队列,如果可能的话,我想知道我使用了多少内存和执行程序以及如何优化它?

最佳答案

您可以在启动 spark shell 或 spark-submit 时设置队列名称、执行程序数量、执行程序内存、总内核数、每个执行程序的内核数、驱动程序内存等

以下是指定参数的方法。

spark-shell --executor-memory 6G --executor-cores 5 --num-executors 20 --driver-memory 2G --queue $queue_name

您应该根据胖执行程序或瘦执行程序概念根据集群容量计算这些参数。

如果您还想查看资源利用率,可以查看资源管理器页面或 SPARK Web UI 页面

关于apache-spark - 如何为 spark-shell 设置 YARN 队列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53969619/

相关文章:

apache-spark - 为什么在 DataFrame 上使用 union()/coalesce(1,false) 时会在 Spark 中混洗大量数据?

amazon-ec2 - Spark 1.3.1 : cannot read file from S3 bucket, org/jets3t/service/ServiceException

java - 使用带迭代器的 mapPartition 保存 spark RDD

scala - 更改现有数据框的架构

apache-spark - Spark : Running Backwards Elimination By P-Value With Linear Regressions

scala - 为什么在 Structured Streaming 中,transform 只执行一次副作用(println)?

Azure Databricks 群集 API 身份验证

apache-spark - 检测到 Guava 问题 #1635,表明正在使用低于 16.01 的 Guava 版本

apache-spark - 如何获取一列中至少有两个不同值的行?

scala - 创建数据框时面对 "scala.MatchError: 1201 (of class java.lang.Integer)"