我有一个大型数据文件 (1 TB) 的数据要导入 BigQuery。每行包含一个键。在导入数据并创建我的 PCollection 以导出到 BigQuery 时,我想确保我不会基于此键值导入重复记录。使用 Dataflow 在我的 Java 程序中执行此操作的最有效方法是什么?
谢谢
最佳答案
关于google-cloud-dataflow - 使用 Dataflow 删除重复项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28436155/