java - 使用 Spark SQL 数据集作为基于 RDD 的作业

Spark dataframe 有 toRDD() 方法，但我不明白它有什么用。我们是否可以通过将转换后的源数据集处理为 RDD 来启动 SQL 流作业，而不是创建并启动 DataStreamWriter？

最佳答案

Dataset 为批处理和流处理提供统一的 API，但并非每种方法都适用于流数据集。如果您仔细搜索，您会发现其他无法与流数据集一起使用的方法(例如 describe)。

Can we start a SQL streaming job by processing converted source dataset to RDD instead of making and starting DataStreamWriter?

我们不能。从结构化流式传输开始的内容，将始终保留在结构化流式传输中。不允许转换为 RDD。

关于java - 使用 Spark SQL 数据集作为基于 RDD 的作业，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48248959/

相关文章：

python - 从文本pyspark中提取字符串