google-cloud-platform - 云数据流/光束 : Side Input Limit

标签 google-cloud-platform apache-beam

SideInput 有点像 Spark 中的广播,这意味着您将数据缓存到本地工作计算机以进行快速查找,以减少网络/洗牌开销。认为堆中可以容纳的内存量的限制是合乎逻辑的。在数据流中documentation ,它说限制是 20K 分片。这是什么意思?碎片有多大?

最佳答案

要回答您原来的问题,您可以通过命令行上的 --workerCacheSizeMb 选项配置 Dataflow Worker 完成的内存缓存量,即 setWorkerCacheSizeMb如果您以编程方式调用管道。默认值为 100Mb。

关于google-cloud-platform - 云数据流/光束 : Side Input Limit,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46098747/

相关文章:

google-cloud-platform - 云存储桶中的公共(public)对象无法通过负载均衡器访问

python - Google Cloud Translate API 客户端属性

java - Apache 梁,FileBasedSink.CompressionType.GZIP 已弃用?

java - 在 eclipse 中自动化已经构建的 google 数据流管道

python - 谷歌数据流 : global name is not defined - apache beam

google-cloud-dataflow - 带窗口的 GroupByKey 后,Beam 管道不产生任何输出,并且出现内存错误

google-cloud-dataflow - 数据流触发器 AfterProcessingTime.pastFirstElementInPane() 如何工作?

python - 如何使用模拟服务帐户运行 python 代码

google-cloud-platform - 将 GCP Cloud IAM 自定义角色的访问权限限制为仅存储桶

python - Google Cloud Kubernetes 无法正确读取应用程序凭据