SideInput 有点像 Spark 中的广播,这意味着您将数据缓存到本地工作计算机以进行快速查找,以减少网络/洗牌开销。认为堆中可以容纳的内存量的限制是合乎逻辑的。在数据流中documentation ,它说限制是 20K 分片。这是什么意思?碎片有多大?
最佳答案
要回答您原来的问题,您可以通过命令行上的 --workerCacheSizeMb
选项配置 Dataflow Worker 完成的内存缓存量,即 setWorkerCacheSizeMb
如果您以编程方式调用管道。默认值为 100Mb。
关于google-cloud-platform - 云数据流/光束 : Side Input Limit,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46098747/