apache-spark - spark中如何区分操作是转换还是 Action ?

标签 apache-spark

最近在学习spark,对转化和 Action 操作感到困惑。我阅读了 spark 文档和一些关于 spark 的书籍,我知道 action 会导致在集群中执行 spark 作业,而转换则不会。但是spark的api doc中列出的rdd的操作并没有说明是转换操作还是 Action 操作。

例如,reduce 是一个 Action ,另一方面,reduceByKey 是一个转换!为什么会这样。

最佳答案

您可以通过查看返回类型来判断。操作将返回非 RDD 类型(通常是您的存储值类型),而转换将返回 RDD[Type]因为它仍然只是您计算的表示。

关于apache-spark - spark中如何区分操作是转换还是 Action ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34371993/

相关文章:

scala - org.apache.spark.SparkException : Failed to execute user defined function

postgresql - 在 pyspark 中使用 jdbc jar

sql - 如何在 Scala 中获取每个 ID 的电子邮件数量

apache-spark - Spark 数据帧中模式(最常见元素)的聚合

mysql - 我的 Spark sql 查询或数据帧在哪里执行?

job-scheduling - Spark Streaming 中的作业是如何分配给执行者的?

azure - 写入 Azure Cosmos,吞吐量 RU

java - Spark Streaming/Kafka 偏移量处理

scala - spark 中的 flatMap 会导致洗牌吗?

scala - 在 Apache Spark 中按列分区到 S3