apache-spark - 在 Pyspark 中使用 maxBytesPerTrigger 的正确方法是什么？

标签 apache-spark pyspark databricks spark-structured-streaming

我正在使用 Spark readStream 并设置选项 maxBytesPerTrigger，如下所示:temp_data = spark.readStream.format("delta").option("maxBytesPerTrigger",1000).load(raw_data_delta_table) 但我的整个文件是单批加载的。我想将其分批加载。我错过了什么？是的，如果我使用 maxFilesPerTrigger，那么它工作正常。但 maxBytesPerTrigger 不起作用。谢谢

最佳答案

您可以从Delta官方page找到maxBytesPerTrigger的行为。 maxBytesPerTrigger:每个微批处理中处理的数据量。此选项设置“软最大值”，这意味着批处理大约处理此数量的数据，并且可能处理超过限制的数据。如果您使用 Trigger.Once 进行流式传输，则此选项将被忽略。默认情况下未设置此值。

关于apache-spark - 在 Pyspark 中使用 maxBytesPerTrigger 的正确方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67702933/

上一篇：ethereum - web3j - 带有字符串参数的事件的 TypeReference

下一篇：vue.js - 使用 NUXT 从 API 预下载所有 Assets

相关文章：

apache-spark - 从简单的json文件创建和显示spark数据框

python - 在 PySpark 中使用多列从 groupby 中获取具有最大值的行

databricks - 如何从应用程序/命令行管理 Databricks SQL 端点？

azure - databricks 在工作流/作业中使用服务主体 + 远程存储库

apache-spark - 什么是 Databricks Spark 集群管理器？可以改变吗？

machine-learning - Apache Spark 中的支持向量机

java - 为什么 HBase API 在使用前缀过滤器扫描表后返回空集？

python - Pyspark:如何读取谷歌存储桶中的 .csv 文件？

apache-spark - 为什么驱动程序内存不在我的 Spark 上下文配置中？

apache-spark - 在 spark : object hive is not a member of package org. apache.spark.sql 中使用 Hive 上下文时出错