我正在考虑将 Google DataFlow 作为运行涉及以下步骤的管道的选项:
我喜欢 DataFlow 管理完成工作所需的 VM 的生命周期,所以我不需要自己启动或停止它们,但我遇到的所有示例都将它用于数据挖掘类任务。我想知道它是否是其他批处理任务(如图像处理和爬行)的可行选择。
最佳答案
此用例是 Dataflow/Beam 的可能应用。
如果您想以流式方式执行此操作,您可以让爬虫生成 URL 并将它们添加到 PubSub 或 Kafka 队列;并编写 Beam 管道以执行以下操作:
您可以对批处理作业执行相同操作,只需更改您从中读取 URL 的来源即可。
*解析这些图像 URL 后,您可能还想重新排列数据,以获得一些并行性。
关于google-cloud-platform - 使用 Google DataFlow/Apache Beam 并行化图像处理或抓取任务是否有意义?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44621488/