apache-spark - 使用 Ganglia 进行 Spark 监测

我正在测试框架 Apache Spark。我需要监控集群的某些方面，例如网络和资源。

Ganglia 看起来是满足我需要的一个不错的选择。然后，我发现 Spark 支持 Ganglia。

在Spark监控网页上有这样的信息: “要安装 GangliaSink，您需要执行 Spark 的自定义构建。”

我在我的 Spark 中找到了目录:“/extras/spark-ganglia-lgpl”。但我不知道如何安装它。

如何安装Ganglia来监控Spark集群？我如何进行此自定义构建？

谢谢!

最佳答案

Spark Ganglia 支持是 Spark 项目的 Maven 配置文件之一，它是“spark-ganglia-lgpl”。为了激活配置文件，您在构建项目时在 mvn 命令中放置“-Pspark-ganglia-lgpl”选项。例如，使用 Ganglia 构建 Apache Hadoop 2.4.X 是由

mvn -Pspark-ganglia-lgpl -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package

构建Spark项目，请引用Building Spark with Maven的文档

关于apache-spark - 使用 Ganglia 进行 Spark 监测，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26166398/

上一篇：matlab - 概率密度函数的理论图

下一篇：ruby-on-rails - Rails 持久键值存储 : Only in database?

linux - sc 未在 SparkContext 中定义

java - 根据第一个数据框 Java 中的列创建具有新列值的新 Spark DataFrame

java - 我无法用spark编写orc文件

linux - Ganglia 无法在元节点和受监控节点之间进行通信

metrics - Graphite - 多文件级别检索问题

hadoop - Ambari 仪表板未检索任何统计信息

hadoop - Ganglia dfs.namenode.fileinfoops中的Hadoop指标。它代表什么？

database - Ganglia - RRD(循环数据库)可扩展性

json - 在 Spark DataFrame 中布局 TimeSeries 数据的最佳方式 - Scala