您可以使用 Apache Beam 更改云数据库上的文件元数据吗?据我了解,Beam 用于为 Google Dataflow 设置数据流管道。但是,如果您在 CSV 文件中进行了必要的更改,而无需设置和运行整个新管道,是否可以使用 Beam 来更改元数据?如果可以的话,你会怎么做?
最佳答案
您可以编写 Cloud Dataflow 代码来处理此问题,但我不会。一个简单的 GCE 实例会更容易开发和运行该作业。更好的选择可能是 UDF(见下文)。
对于何时适用 Cloud Dataflow 有一些准则:
- 您的数据不是表格形式的,您无法使用 SQL 进行分析。
- 作业的大部分是并行的 - 换句话说,您可以在不同的机器上处理不同的数据子集。
- 您的逻辑涉及自定义函数、迭代等...
- 工作的分配因数据子集而异。
由于您的任务涉及修改数据库,我假设是 SQL 数据库,因此编写 UDF 来处理和修改数据库会更容易、更快。
关于java - 在云数据库上使用 Apache Beam 更改文件元数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52978251/