java - 在云数据库上使用 Apache Beam 更改文件元数据?

标签 java python google-cloud-platform apache-beam database-metadata

您可以使用 Apache Beam 更改云数据库上的文件元数据吗?据我了解,Beam 用于为 Google Dataflow 设置数据流管道。但是,如果您在 CSV 文件中进行了必要的更改,而无需设置和运行整个新管道,是否可以使用 Beam 来更改元数据?如果可以的话,你会怎么做?

最佳答案

您可以编写 Cloud Dataflow 代码来处理此问题,但我不会。一个简单的 GCE 实例会更容易开发和运行该作业。更好的选择可能是 UDF(见下文)。

对于何时适用 Cloud Dataflow 有一些准则:

  1. 您的数据不是表格形式的,您无法使用 SQL 进行分析。
  2. 作业的大部分是并行的 - 换句话说,您可以在不同的机器上处理不同的数据子集。
  3. 您的逻辑涉及自定义函数、迭代等...
  4. 工作的分配因数据子集而异。

由于您的任务涉及修改数据库,我假设是 SQL 数据库,因此编写 UDF 来处理和修改数据库会更容易、更快。

关于java - 在云数据库上使用 Apache Beam 更改文件元数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52978251/

相关文章:

java - 如何从另一个 Activity 设置 float 操作菜单的可见性

java - 从另一个 Activity 获取textView的文本

java - 无法使用 jdbc 瘦驱动程序连接到 oracle 数据库

python - 如何将写在 *.txt 文件中的单个大数字转换为其单个数字的 numpy 数组?

python - 如何从python中的图像中去除白色模糊

java - 在非默认模块上运行 appengine 端点

java - Eclipse 在组织导入时用 StricAssertions 替换 Assertions

python - 通过 ctypes 从 Python 调用的 C 函数返回错误的值

tensorflow - 如何保存在谷歌数据实验室笔记本中训练的 tensorflow 模型以进行离线预测?

node.js - 两个内部 Cloud Run node.js 微服务如何通过 gRPC 成功通信?