Hadoop 计数器可视化

标签 hadoop d3.js visualization data-visualization bigdata

<分区>

我想知道是否有任何 Hadoop 计数器和作业可视化库/项目。例如,随时间绘制的显示每个作业类型以及开始和结束时间的时间显示。另一个例子是随时间绘制给定的计数器。我认为这可以用于运营洞察、监控和警报。

最佳答案

注意:因为这是我在 SO 上的第一篇文章,所以我不能发布两个以上的 URL。请看this GitHub gist for my post with all links in Markdown format .下面所有斜体项目实际上是超链接。带来不便敬请谅解。 --迈克尔

我现在想到的唯一开源可视化项目是 Twitter Ambrose .从我在此回复中提到的各种工具中,您可能想先看看 Ambrose。它在其 Web UI 中支持以下功能:

[Ambrose web UI features]

  • A table view of all the associated jobs, along with their current state
  • Chord and graph diagrams to visualize job dependencies and current state
  • An overall script progress bar

除此之外,我的个人经历还涉及商业供应商的产品。仅举其中两个:

  • Cloudera Manager 用于 CDH4 分发
  • MapR 的 Dashboard 用于 M3 和 M5 发行版

这两种产品都带有一个 API,允许您扩展它们并将它们与您自己的 Ops 工具集集成。 Cloudera Manager 需要评估许可证,而 MapR 的 Dashboard 可以在免费的 M3 发行版中获得,如果您想试一试的话。与往常一样,它们各有利弊。

也就是说,您还可以配置标准 Hadoop 以将它的指标发送到监控工具,例如 Ganglia(参见 UC Berkely Grid 的现场演示).基本上,您只需将指标转储到 Ganglia 中,后者将负责各种指标的可视化/绘图。有几个可用的在线指南,描述了如何为小型 Hadoop 集群配置 Ganglia。如果您正在运行 Hadoop 2.x,请查看什么是 Hadoop Metrics2,了解下一代 Hadoop 中的指标系统的一般工作方式。

最后,尽管与您的直接问题有点无关,但您也可以通过调用 Hadoop 的 Java API 来编写自定义监视器。以与其他 Ops 基础设施工具(如 Nagios)兼容的方式编写这些自定义监视器通常是直接的。例如,我们的一个自定义监视器连接到 JobTracker 以检测任何运行时间超过 24 小时的 MapReduce 作业(这在 99% 的情况下表明作业以某种方式被破坏)。根据将指标转储到的工具,您将免费获得可视化/图形(参见上面的 Ganglia 示例)。

希望对您有所帮助, 迈克尔

关于Hadoop 计数器可视化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13707902/

相关文章:

sql - 如何在 “sqoop export”中使用组合键来更新记录?

hadoop - 自定义对象作为 Mapper 输出的值

javascript - 如何使用 Scala.js 创建一个 javascript 函数?

javascript - 如何使用 d3 根据颜色范围的值对 SVG 图像进行着色?

d3.js - 在鼠标悬停时在折线图上画一条线?

python - Bokeh 散点图中的色点

date - 如何在 Hadoop Hive 中给定时间戳获取一周第一天的日期?

java - Zookeeper示例-分布式数学计算

Python:如果我有 x、y 和 z 作为某些参数的函数,如何绘制通用 3D 对象?

python-3.x - 在 python 中,如何使我的混淆矩阵图只有 1 个小数?