scala - 如何在Spark中顺序处理两个RDD?

标签 scala hadoop apache-spark

当我在Spark程序中达到资源限制时,我想将处理分为多个迭代,并将每个迭代的结果上传到HDFS,如下所示。

do something using first rdd
upload the output to hdfs

do something using second rdd
upload the output to hdfs

但据我所知,Spark将尝试并行运行这两个。有没有办法在处理第二个rdd之前等待第一个rdd的处理?

最佳答案

我想我知道您感到困惑的地方。在单个RDD中,分区将彼此并行运行。但是,两个RDD将彼此顺序运行(除非您另有编码)。

关于scala - 如何在Spark中顺序处理两个RDD?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42056100/

相关文章:

java - 交叉口在 apache Spark 中不起作用

scala - Spark 斯卡拉 java.lang.NoSuchMethodError : while executing fat jar in CDH 5. 16

hadoop - 如何在配置单元中编写自连接查询以避免自定义重复

java - Spark过滤会重新加载数据吗?

scala - Upstart 的 daemonUser 无法在 sbt-native-packager 中工作

scala - 使用 scala sortWith 函数对对象中的多个字段进行排序

python - pyspark : removing special/numeric strings from array of string

scala - 将两列传递给scala中的udf?

hadoop - hbase.MasterNotRunningException 在 Hbase 中创建表时

hadoop - 替换 hbase/lib/中的 hadoop*.jar 后,hbase 0.90.5 无法正常工作