python - 数据流未显示流管道的输出收集计数?

标签 python google-cloud-dataflow apache-beam

我有一个从 Pubsub 读取数据的流媒体管道。我正在使用 apache beam python sdk 2.10。

我的管道包含不同的阶段。 当我们使用 ReadFromPubsub 从 pubsub 读取数据时,我可以在第一阶段看到输入和输出集合计数。但是在第二阶段仅显示输入收集计数,输出收集计数为空白。

在最后阶段,我正在向 BigQuery 写信。 enter image description here

enter image description here

enter image description here

最佳答案

Support for streaming pipelines with Apache Beam Python SDK on Google Cloud Dataflow is in Beta .

某些功能未得到完全支持,某些监控指标就是这种情况。随着支持的改善,这些将逐渐添加。

计数器不可用,但您可以使用指标计数器添加自己的计数器,如下所示:

from apache_beam.metrics import Metrics

def debug(msg):
  Metrics.counter('elementCounts', 'filePaths').inc()
  # The rest of your code....

这有帮助吗?

关于python - 数据流未显示流管道的输出收集计数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55022782/

相关文章:

google-bigquery - Dataflow Runner - 尝试刷新以获取初始 access_token

java - 数据流中的错误 : io. grpc.StatusRuntimeException:不可用

python - 命令 "python setup.py egg_info"失败,错误代码 1 - 在 OSX 中安装 apache-beam SDK

python - 在 Celery/Django : cannot find reference 'control' in celery. 任务.control

python - 在 Debug模式下切换断点时 Pycharm 运行缓慢

python - Bellman-Ford 算法的 Yen's & Bannister-Eppstein 优化

python - GCP Dataflow + Apache Beam - 缓存问题

Python 将 StringIO 转换为二进制

google-bigquery - 在 Dataflow 中将 BigQuery 联合表作为源读取会引发错误

python - Dataflow SDK 2.7.0,同时附加安装程序 2.10.0