我们必须从 CSV 文件中读取数据并将两个文件映射到一列,然后使用 Google Cloud Dataflow 将数据推送到 Cloud SQL。
我们能够从 CSV 文件中读取数据,但无法进行后续步骤。请向我提供有关以下内容的信息或链接:
- 根据一列或多列条件合并/加入平面文件
- 将合并的 pcollection 复制到 Сloud SQL 数据库中
最佳答案
这里有一些可能有用的提示:
- > https://cloud.google.com/dataflow/model/joins描述了在Dataflow中加入PCollection的方法
- 目前没有用于写入 CloudSQL 的内置接收器,但是您可以使用 ParDo 简单地处理连接的结果,ParDo 写入每个单独的记录或分批处理(定期刷新或在 finishBundle() 中)- 或者如果您的需求比这更复杂,请考虑编写 CloudSQL 接收器 - 请参阅 https://cloud.google.com/dataflow/model/sources-and-sinks
关于google-app-engine - 使用 Google Cloud Dataflow 合并平面文件并导入 Cloud SQL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29840555/