apache-spark - 使用 Ganglia 进行 Spark 监测

标签 apache-spark ganglia

我正在测试框架 Apache Spark。 我需要监控集群的某些方面,例如网络和资源。

Ganglia 看起来是满足我需要的一个不错的选择。 然后,我发现 Spark 支持 Ganglia。

在Spark监控网页上有这样的信息: “要安装 GangliaSink,您需要执行 Spark 的自定义构建。”

我在我的 Spark 中找到了目录:“/extras/spark-ganglia-lgpl”。但我不知道如何安装它。

如何安装Ganglia来监控Spark集群? 我如何进行此自定义构建?

谢谢!

最佳答案

Spark Ganglia 支持是 Spark 项目的 Maven 配置文件之一,它是“spark-ganglia-lgpl”。为了激活配置文件,您在构建项目时在 mvn 命令中放置“-Pspark-ganglia-lgpl”选项。例如,使用 Ganglia 构建 Apache Hadoop 2.4.X 是由

mvn -Pspark-ganglia-lgpl -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package

构建Spark项目,请引用Building Spark with Maven的文档

关于apache-spark - 使用 Ganglia 进行 Spark 监测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26166398/

相关文章:

apache-spark - "Stage Skipped"在 Apache Spark Web UI 中意味着什么?

linux - sc 未在 SparkContext 中定义

java - 根据第一个数据框 Java 中的列创建具有新列值的新 Spark DataFrame

java - 我无法用spark编写orc文件

linux - Ganglia 无法在元节点和受监控节点之间进行通信

metrics - Graphite - 多文件级别检索问题

hadoop - Ambari 仪表板未检索任何统计信息

hadoop - Ganglia dfs.namenode.fileinfoops中的Hadoop指标。它代表什么?

database - Ganglia - RRD(循环数据库)可扩展性

json - 在 Spark DataFrame 中布局 TimeSeries 数据的最佳方式 - Scala