我是新的 Spark 流。我知道窗口大小必须是批处理间隔的倍数。但是滑动间隔如何工作?如果我有3个窗口大小和2个滑动间隔,当我计算说出的字数时,会不会有重叠?还是滑动间隔和批处理间隔应该相同?
最佳答案
Here是文档的链接。
让我们来看一下这些概念:
您可以引用上面的图像,其中窗口大小是批处理间隔的3倍,而滑动窗口是批处理间隔的2倍。
要回答一个问题,为什么窗口和滑动间隔应为批处理间隔的倍数-这是因为否则,您的窗口将在批处理之间结束。
如果您有3个窗口大小和2个滑动间隔(见图)-是的,您的字数将重叠。基本上,当您需要在有限的时间内计算某些内容时(例如实际新闻或推文之类的东西),而您不需要所有历史数据进行分析时,则使用窗口。
关于apache-spark - Spark 流中批处理间隔,滑动间隔和窗口大小之间的差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50674262/