google-cloud-platform - 使用 Google DataFlow/Apache Beam 并行化图像处理或抓取任务是否有意义？

标签 google-cloud-platform google-cloud-dataflow azure-data-factory amazon-data-pipeline apache-beam

我正在考虑将 Google DataFlow 作为运行涉及以下步骤的管道的选项:

从网络下载图像；

处理图像。

我喜欢 DataFlow 管理完成工作所需的 VM 的生命周期，所以我不需要自己启动或停止它们，但我遇到的所有示例都将它用于数据挖掘类任务。我想知道它是否是其他批处理任务(如图像处理和爬行)的可行选择。

最佳答案

此用例是 Dataflow/Beam 的可能应用。

如果您想以流式方式执行此操作，您可以让爬虫生成 URL 并将它们添加到 PubSub 或 Kafka 队列；并编写 Beam 管道以执行以下操作:

从 PubSub 阅读

在 ParDo 中下载网站内容

从另一个 ParDo* 中的网站解析图像 URL

再次使用 ParDo 下载每个图像并对其进行处理

将结果存储在 GCS、BigQuery 或其他中，具体取决于您希望从图像中获取哪些信息。

您可以对批处理作业执行相同操作，只需更改您从中读取 URL 的来源即可。

*解析这些图像 URL 后，您可能还想重新排列数据，以获得一些并行性。

关于google-cloud-platform - 使用 Google DataFlow/Apache Beam 并行化图像处理或抓取任务是否有意义？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44621488/

上一篇：dart - Dart 中的 RawSocket 是否允许直接发送和接收 IP 数据包？

下一篇：kotlin - 需要在 Kotlin 中覆盖的空函数的编码约定

escaping - Azure 数据工厂- "Invalid format"错误

azure - 创建依赖项管道以检查 ADF 中的文件是否为最新文件

cloud - 如何从我的本地计算机访问 GCP 的 VM 实例？

HTTP Google Cloud Functions 上的 Python 和 "import requests"

spring-boot - Spring 启动 : How to properly send error logs to Stackdriver on GCP

google-cloud-platform - YouTube 数据 API v3 每日配额仅为 10 000 与 1000 000

python-2.7 - Beam Pipeline (PY) 输出未写入本地主机磁盘

java - 使用 Apache Beam 和 Dataflow 的数据存储性能不佳

Azure数据工厂，用于创建新文件夹的utcNow()动态函数