java - 使用 Spark SQL 数据集作为基于 RDD 的作业

标签 java apache-spark apache-spark-sql

Spark dataframe 有 toRDD() 方法,但我不明白它有什么用。我们是否可以通过将转换后的源数据集处理为 RDD 来启动 SQL 流作业,而不是创建并启动 DataStreamWriter?

最佳答案

Dataset 为批处理和流处理提供统一的 API,但并非每种方法都适用于流数据集。如果您仔细搜索,您会发现其他无法与流数据集一起使用的方法(例如 describe)。

Can we start a SQL streaming job by processing converted source dataset to RDD instead of making and starting DataStreamWriter?

我们不能。从结构化流式传输开始的内容,将始终保留在结构化流式传输中。不允许转换为 RDD。

关于java - 使用 Spark SQL 数据集作为基于 RDD 的作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48248959/

相关文章:

python - 从文本pyspark中提取字符串

java - JTabbedPane 自动调整大小

apache-spark - spark.streaming.receiver.maxRate 是什么?批处理间隔是如何工作的

apache-spark - 如何在ElasticSearch中创建索引并从流式查询推送数据?

python - Spark : What's the difference between spark. sql 和 sqlCtx.sql

apache-spark - 即使枢轴不是操作,Spark 枢轴也会调用作业

java - 升级apachestorm(1.0.0到1.2.3)

java - Grails - 使用 java 域类使用 GORM 创建 grails 域类

java - 如何将数组链接到方法

python - Hadoop Spark 1.4.1 - 对多个 CSV 文件进行排序并将排序后的结果保存在 1 个输出文件中