Spark dataframe 有 toRDD()
方法,但我不明白它有什么用。我们是否可以通过将转换后的源数据集处理为 RDD 来启动 SQL 流作业,而不是创建并启动 DataStreamWriter?
最佳答案
Dataset
为批处理和流处理提供统一的 API,但并非每种方法都适用于流数据集。如果您仔细搜索,您会发现其他无法与流数据集一起使用的方法(例如 describe
)。
Can we start a SQL streaming job by processing converted source dataset to RDD instead of making and starting DataStreamWriter?
我们不能。从结构化流式传输开始的内容,将始终保留在结构化流式传输中。不允许转换为 RDD。
关于java - 使用 Spark SQL 数据集作为基于 RDD 的作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48248959/