apache-spark - 以编程方式确定 Spark 可用的核心数量和内存量

标签 apache-spark

Spark Web UI 显示了有关整个集群可用资源的一些有趣信息。

Spark Web UI

我对以下值特别感兴趣:

  • worker
  • 核心
  • 内存

如何以编程方式查询有关整个集群的这些信息?

最佳答案

Spark 并没有真正公开此类信息,它全部隐藏在 Master 中并传输到 WebUI。

但是,您可以使用一个小技巧,WebUI 通过将/json/附加到页面来支持 JSON。

所以,转到 http://<master-host>:<master-port>/json/将仅返回您要查找的信息:

{
  url: "spark://<host>:<port>",
  workers: [ ],
  cores: 0,
  coresused: 0,
  memory: 0,
  memoryused: 0,
  activeapps: [ ],
  completedapps: [ ],
  activedrivers: [ ],
  status: "ALIVE"
}

关于apache-spark - 以编程方式确定 Spark 可用的核心数量和内存量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29639158/

相关文章:

amazon-web-services - 如何使 Pyspark 脚本在 Amazon EMR 上运行以识别 boto3 模块?它说找不到模块

python - 通过在 python (pyspark) 中使用 combinebykey spark rdd 计算组上的聚合

scala - scala 的 "collect"采用偏函数的 Spark 数据集等价物

python - pyspark 向数据框添加新行

apache-spark - PySpark:如何转置数据帧中的多列

oracle - pyspark读取格式jdbc生成ORA-00903 : invalid table name Error

r - sparkr 数据 block 错误 : too many open devices

apache-spark - SparkLauncher和Java -jar fat-jar相比有什么好处?

python-3.x - 值错误: Cannot run multiple SparkContexts at once in spark with pyspark

python - 统一码编码错误 : 'ascii' codec can't encode character error