我有一个数据流,其中输入是从数据库读取的大量数据。我想拆分此查询,并在作业启动时从多个主机执行它。据我所知,BoundedSource 无法直接控制输入拆分。最接近的是 splitIntoBundles,这基本上意味着我必须开始一次非常昂贵的读取,并希望 Dataflow 取消它并使用我定义的包分割。这看起来相当疯狂,所以我希望有一种更好的方法来预定义可以在任何远程工作人员上运行的输入拆分。
最佳答案
经过大量研究,没有办法控制单个reader的分割并行度。我的解决方案是创建多个读取器,让每个读取器读入自己的 PCollection,然后将多个 PCollection 扁平化为单个 PCollection。
关于java - 如何控制有界源 split ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42149577/