hadoop - Flink Prometheus Push Gateway Reporter - 在作业关闭时删除指标

标签 hadoop apache-flink hadoop-yarn prometheus prometheus-pushgateway

我已经按照文档指标部分中的说明设置了 PrometheusPushGatewayReporter

我可以看到来自推送网关 UI 中公开的 flink jobmanager 和 taskmanagers 的指标,以及它们已被 Prometheus 集群正确抓取。

问题是,即使我明确设置了 deleteOnJobShutdown 配置选项,当通过 flink cli 工具取消作业时,也只会删除 jobmanager 的指标。

有没有办法同时删除陈旧的任务管理器指标?我的配置如下:

metrics.reporter.promgateway.class: org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter
metrics.reporter.promgateway.host: $PUSH_GATEWAY_HOST
metrics.reporter.promgateway.port: 80
metrics.reporter.promgateway.jobName: foo
metrics.reporter.promgateway.randomJobNameSuffix: true
metrics.reporter.promgateway.deleteOnShutdown: true
metrics.reporter.promgateway.interval: 60 SECONDS

我在 Hadoop 2.6.0 上使用 Flink 1.7.1

最佳答案

.

在我们的产品环境中,我们也遇到了同样的问题。如果 pushgateway 可以为推送的指标实现 TTL[1],它将非常有用。但目前,我们使用外部调度系统检查 flink 作业是否存活,然后通过 pushgateway 的 rest api[2] 删除指标。

[1] https://github.com/prometheus/pushgateway/issues/19

[2] https://github.com/prometheus/pushgateway#delete-method

关于hadoop - Flink Prometheus Push Gateway Reporter - 在作业关闭时删除指标,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54420498/

相关文章:

scala - 在 IntelliJ Idea 中运行 Apache Spark 示例应用程序

apache-flink - 如何处理 Apache Flink 中的 transient /应用程序故障?

java - Hadoop MapReduce 作业创建太大的中间文件

java - 使用 Java 中的 TableSource、Table 或 DataSet 对象将 String 转换为 Double

java - 在 flink 流中使用 grok

eclipse - 无法解析主 URL

hadoop - yarn Spark 作业调度较慢

java - 映射器输出在组合器中加倍

hadoop - Cloudera无法识别主机

hadoop - 如何在 HBase 上配置 map reduce jobs