google-cloud-platform - 使用 Google DataFlow/Apache Beam 并行化图像处理或抓取任务是否有意义?

标签 google-cloud-platform google-cloud-dataflow azure-data-factory amazon-data-pipeline apache-beam

我正在考虑将 Google DataFlow 作为运行涉及以下步骤的管道的选项:

  • 从网络下载图像;
  • 处理图像。

  • 我喜欢 DataFlow 管理完成工作所需的 VM 的生命周期,所以我不需要自己启动或停止它们,但我遇到的所有示例都将它用于数据挖掘类任务。我想知道它是否是其他批处理任务(如图像处理和爬行)的可行选择。

    最佳答案

    此用例是 Dataflow/Beam 的可能应用。

    如果您想以流式方式执行此操作,您可以让爬虫生成 URL 并将它们添加到 PubSub 或 Kafka 队列;并编写 Beam 管道以执行以下操作:

  • 从 PubSub 阅读
  • 在 ParDo 中下载网站内容
  • 从另一个 ParDo* 中的网站解析图像 URL
  • 再次使用 ParDo 下载每个图像并对其进行处理
  • 将结果存储在 GCS、BigQuery 或其他中,具体取决于您希望从图像中获取哪些信息。

  • 您可以对批处理作业执行相同操作,只需更改您从中读取 URL 的来源即可。

    *解析这些图像 URL 后,您可能还想重新排列数据,以获得一些并行性。

    关于google-cloud-platform - 使用 Google DataFlow/Apache Beam 并行化图像处理或抓取任务是否有意义?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44621488/

    相关文章:

    google-cloud-dataflow - Apache 光束 : why is the timestamp of aggregate value in Global Window 9223371950454775?

    escaping - Azure 数据工厂- "Invalid format"错误

    azure - 创建依赖项管道以检查 ADF 中的文件是否为最新文件

    cloud - 如何从我的本地计算机访问 GCP 的 VM 实例?

    HTTP Google Cloud Functions 上的 Python 和 "import requests"

    spring-boot - Spring 启动 : How to properly send error logs to Stackdriver on GCP

    google-cloud-platform - YouTube 数据 API v3 每日配额仅为 10 000 与 1000 000

    python-2.7 - Beam Pipeline (PY) 输出未写入本地主机磁盘

    java - 使用 Apache Beam 和 Dataflow 的数据存储性能不佳

    Azure数据工厂,用于创建新文件夹的utcNow()动态函数