<分区>
我想知道是否有任何 Hadoop 计数器和作业可视化库/项目。例如,随时间绘制的显示每个作业类型以及开始和结束时间的时间显示。另一个例子是随时间绘制给定的计数器。我认为这可以用于运营洞察、监控和警报。
<分区>
我想知道是否有任何 Hadoop 计数器和作业可视化库/项目。例如,随时间绘制的显示每个作业类型以及开始和结束时间的时间显示。另一个例子是随时间绘制给定的计数器。我认为这可以用于运营洞察、监控和警报。
最佳答案
注意:因为这是我在 SO 上的第一篇文章,所以我不能发布两个以上的 URL。请看this GitHub gist for my post with all links in Markdown format .下面所有斜体项目实际上是超链接。带来不便敬请谅解。 --迈克尔
我现在想到的唯一开源可视化项目是 Twitter Ambrose .从我在此回复中提到的各种工具中,您可能想先看看 Ambrose。它在其 Web UI 中支持以下功能:
[Ambrose web UI features]
- A table view of all the associated jobs, along with their current state
- Chord and graph diagrams to visualize job dependencies and current state
- An overall script progress bar
除此之外,我的个人经历还涉及商业供应商的产品。仅举其中两个:
这两种产品都带有一个 API,允许您扩展它们并将它们与您自己的 Ops 工具集集成。 Cloudera Manager 需要评估许可证,而 MapR 的 Dashboard 可以在免费的 M3 发行版中获得,如果您想试一试的话。与往常一样,它们各有利弊。
也就是说,您还可以配置标准 Hadoop 以将它的指标发送到监控工具,例如 Ganglia(参见 UC Berkely Grid 的现场演示).基本上,您只需将指标转储到 Ganglia 中,后者将负责各种指标的可视化/绘图。有几个可用的在线指南,描述了如何为小型 Hadoop 集群配置 Ganglia。如果您正在运行 Hadoop 2.x,请查看什么是 Hadoop Metrics2,了解下一代 Hadoop 中的指标系统的一般工作方式。
最后,尽管与您的直接问题有点无关,但您也可以通过调用 Hadoop 的 Java API 来编写自定义监视器。以与其他 Ops 基础设施工具(如 Nagios)兼容的方式编写这些自定义监视器通常是直接的。例如,我们的一个自定义监视器连接到 JobTracker 以检测任何运行时间超过 24 小时的 MapReduce 作业(这在 99% 的情况下表明作业以某种方式被破坏)。根据将指标转储到的工具,您将免费获得可视化/图形(参见上面的 Ganglia 示例)。
希望对您有所帮助, 迈克尔
关于Hadoop 计数器可视化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13707902/