apache-spark - 顺序执行 Spark Streaming 操作

标签 apache-spark hbase apache-kafka spark-streaming

我正在 Spark Streaming 应用程序中从 kafka 读取数据并执行两个操作

将 dstream 插入 hbase 表 A
更新另一个 hbase 表 B

我想确保对于 dstream 中的每个 rdd 插入 hbase 表 A 将在对 hbase 表 B 进行更新操作之前发生(以上两个操作对于每个 rdd 依次发生)

如何在 Spark 流应用程序中实现此目的

最佳答案

据我所知，您可以通过以下方式执行上述任务

这将按顺序执行

 recordStream.foreachRDD{rdd => { //this will be Dstream RDD Records from kafka
 val record = rdd.map(line => line.split("\\|")).collect 
 record.foreach {recordRDD => { //Write the code for Insert in hbase}
 record.foreach {recordRDD => { //Write the code for Update in hbase}

希望这有帮助

关于apache-spark - 顺序执行 Spark Streaming 操作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44259049/

上一篇：sql-server - 使用 SqlPackage 导入 bacpac 数据库，检查是否存在并指定位置

下一篇：winforms - Windows 服务与交互式应用程序中的 GDI 句柄

相关文章：

apache-spark - Sqoop命令-选项缺少参数:merge-key

hbase - 如何描述 Hbase 列族？

java - 卡夫卡消费者使用哪种语言

testing - 测试 Kafka Streams 拓扑

apache-spark - HIVE_CANNOT_OPEN_SPLIT : Column <column_name> type null not supported

apache-spark - 如何爆炸结构数组？

apache-spark - EMR 无服务器上的 Spark-cassandra-connector (PySpark)

hadoop - hadoop-2.7.1 使用哪个 hbase 版本

performance - hbase 'checkAndPut' 延迟是否高于简单的 'put'？

java - 为 JMS 消息创建分配并行流处理