我正在 Spark Streaming 应用程序中从 kafka 读取数据并执行两个操作
- 将 dstream 插入 hbase 表 A
- 更新另一个 hbase 表 B
我想确保对于 dstream 中的每个 rdd 插入 hbase 表 A 将在对 hbase 表 B 进行更新操作之前发生(以上两个操作对于每个 rdd 依次发生)
如何在 Spark 流应用程序中实现此目的
最佳答案
据我所知,您可以通过以下方式执行上述任务
这将按顺序执行
recordStream.foreachRDD{rdd => { //this will be Dstream RDD Records from kafka
val record = rdd.map(line => line.split("\\|")).collect
record.foreach {recordRDD => { //Write the code for Insert in hbase}
record.foreach {recordRDD => { //Write the code for Update in hbase}
希望这有帮助
关于apache-spark - 顺序执行 Spark Streaming 操作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44259049/