我正在使用 Spark readStream 并设置选项 maxBytesPerTrigger,如下所示:temp_data = spark.readStream.format("delta").option("maxBytesPerTrigger",1000).load(raw_data_delta_table)
但我的整个文件是单批加载的。我想将其分批加载。我错过了什么?是的,如果我使用 maxFilesPerTrigger,那么它工作正常。但 maxBytesPerTrigger 不起作用。
谢谢
最佳答案
您可以从Delta官方page找到maxBytesPerTrigger
的行为。
maxBytesPerTrigger
:每个微批处理中处理的数据量。此选项设置“软最大值”,这意味着批处理大约处理此数量的数据,并且可能处理超过限制的数据。如果您使用 Trigger.Once 进行流式传输,则此选项将被忽略。默认情况下未设置此值。
关于apache-spark - 在 Pyspark 中使用 maxBytesPerTrigger 的正确方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67702933/