google-cloud-platform - 云数据流/光束 : Side Input Limit

标签 google-cloud-platform apache-beam

SideInput 有点像 Spark 中的广播，这意味着您将数据缓存到本地工作计算机以进行快速查找，以减少网络/洗牌开销。认为堆中可以容纳的内存量的限制是合乎逻辑的。在数据流中documentation ，它说限制是 20K 分片。这是什么意思？碎片有多大？

最佳答案

要回答您原来的问题，您可以通过命令行上的 --workerCacheSizeMb 选项配置 Dataflow Worker 完成的内存缓存量，即 setWorkerCacheSizeMb如果您以编程方式调用管道。默认值为 100Mb。

关于google-cloud-platform - 云数据流/光束 : Side Input Limit，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46098747/

上一篇：apache - 如何为 SAML2 生成有效的 SP XML 文件？

下一篇：sql-server - 从字符串中打印斜杠 '/' 前后的子字符串

相关文章：

google-cloud-platform - 云存储桶中的公共(public)对象无法通过负载均衡器访问

python - Google Cloud Translate API 客户端属性

java - Apache 梁，FileBasedSink.CompressionType.GZIP 已弃用？

java - 在 eclipse 中自动化已经构建的 google 数据流管道

python - 谷歌数据流 : global name is not defined - apache beam

google-cloud-dataflow - 带窗口的 GroupByKey 后，Beam 管道不产生任何输出，并且出现内存错误

google-cloud-dataflow - 数据流触发器 AfterProcessingTime.pastFirstElementInPane() 如何工作？

python - 如何使用模拟服务帐户运行 python 代码

google-cloud-platform - 将 GCP Cloud IAM 自定义角色的访问权限限制为仅存储桶

python - Google Cloud Kubernetes 无法正确读取应用程序凭据

©2024 IT工具网联系我们