google-cloud-dataflow - 使用 Dataflow 删除重复项

标签 google-cloud-dataflow

我有一个大型数据文件 (1 TB) 的数据要导入 BigQuery。每行包含一个键。在导入数据并创建我的 PCollection 以导出到 BigQuery 时,我想确保我不会基于此键值导入重复记录。使用 Dataflow 在我的 Java 程序中执行此操作的最有效方法是什么?
谢谢

最佳答案

关于google-cloud-dataflow - 使用 Dataflow 删除重复项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28436155/

相关文章:

google-cloud-datastore - 使用 Dataflow 的 DatastoreIO 查询命名空间

java - 从 Google Cloud BigQuery 读取数据

google-cloud-dataflow - 如何修复写入 BigQuery 的数据流模板作业中的 "java.lang.RuntimeException: Failed to create job"?

google-cloud-dataflow - TextIO.Write - 是否附加或替换输出文件(Google Cloud Dataflow)

python - Apache Beam/GCP 数据流 : read video/image files

google-cloud-dataflow - Apache Beam:FlatMap与Map?

java - 数据流中的错误 : io. grpc.StatusRuntimeException:不可用

python - 将文本输出写入 S3 存储桶的最佳实践是什么?

java - 使用 Java API/Dataflow 将重复记录插入 Big Query - "Repeated field must be imported as a JSON array"