apache-spark - updateStateByKey函数返回的DStream是否只包含一个RDD?

标签 apache-spark spark-streaming apache-spark-sql pyspark

updateStateByKey函数返回的DStream是否只包含一个RDD?如果不是,什么情况下DStream会包含多个RDD?

最佳答案

每批都包含一个 RDD。 updateStateByKey 返回的 DStream 是一个“状态”DStream。不过,您仍然可以将此 DStream 视为普通 DStream。对于每个批处理,RDD 根据您传递给 updateStateByKey 的更新函数来表示最新状态(键值对)。

关于apache-spark - updateStateByKey函数返回的DStream是否只包含一个RDD?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30835541/

相关文章:

java - Spark : Unsupported class version error

apache-spark - Spark 流、Kafka 和多个主题的性能不佳

caching - 如何在 Spark SQL 中缓存和持久化临时表?

apache-spark - 高效的pyspark连接

scala - RDD 的 foreachPartition 方法内的意外行为

hadoop - 使用大型数据集在 Spark 上训练 BloomFilter

scala - Spark清理shuffle溢出到磁盘

apache-spark - 具有单个源的多个接收器的结构化流

apache-spark - 在 hive 或 impala 中计算表统计数据如何加速 Spark SQL 中的查询?

apache-spark - 如何将 PythonRDD(JSON 中的行)转换为 DataFrame?