apache-spark - 在 Pyspark 中使用 maxBytesPerTrigger 的正确方法是什么?

标签 apache-spark pyspark databricks spark-structured-streaming

我正在使用 Spark readStream 并设置选项 maxBytesPerTrigger,如下所示:temp_data = spark.readStream.format("delta").option("maxBytesPerTrigger",1000).load(raw_data_delta_table) 但我的整个文件是单批加载的。我想将其分批加载。我错过了什么?是的,如果我使用 maxFilesPerTrigger,那么它工作正常。但 maxBytesPerTrigger 不起作用。 谢谢

最佳答案

您可以从Delta官方page找到maxBytesPerTrigger的行为。 maxBytesPerTrigger:每个微批处理中处理的数据量。此选项设置“软最大值”,这意味着批处理大约处理此数量的数据,并且可能处理超过限制的数据。如果您使用 Trigger.Once 进行流式传输,则此选项将被忽略。默认情况下未设置此值。

关于apache-spark - 在 Pyspark 中使用 maxBytesPerTrigger 的正确方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67702933/

相关文章:

apache-spark - 从简单的json文件创建和显示spark数据框

python - 在 PySpark 中使用多列从 groupby 中获取具有最大值的行

databricks - 如何从应用程序/命令行管理 Databricks SQL 端点?

azure - databricks 在工作流/作业中使用服务主体 + 远程存储库

apache-spark - 什么是 Databricks Spark 集群管理器?可以改变吗?

machine-learning - Apache Spark 中的支持向量机

java - 为什么 HBase API 在使用前缀过滤器扫描表后返回空集?

python - Pyspark:如何读取谷歌存储桶中的 .csv 文件?

apache-spark - 为什么驱动程序内存不在我的 Spark 上下文配置中?

apache-spark - 在 spark : object hive is not a member of package org. apache.spark.sql 中使用 Hive 上下文时出错