scala - 结构化流 - Foreach Sink

标签 scala apache-spark apache-kafka spark-structured-streaming

我基本上是从 Kafka 源读取数据，并将每条消息转储到我的 foreach 处理器(感谢 Jacek 页面提供的简单示例)。

如果这确实有效，我实际上应该在此处的 process 方法中执行一些业务逻辑，但是，这不起作用。我相信 println 无法工作，因为它在执行器上运行，并且无法将这些日志返回到驱动程序。但是，这种插入临时表至少应该可以工作，并向我表明消息实际上已被消耗并处理到接收器。

我在这里缺少什么？

真的在寻找第二双眼睛来检查我的努力:

 val stream = spark
      .readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", Util.getProperty("kafka10.broker")) 
      .option("subscribe", src_topic) 
      .load()

    val rec = stream.selectExpr("CAST(value AS STRING) as txnJson").as[(String)]

    val df = stream.selectExpr("cast (value as string) as json")

    val writer = new ForeachWriter[Row] {
      val scon = new SConConnection
      override def open(partitionId: Long, version: Long) = {
        true
      }
      override def process(value: Row) = {
        println("++++++++++++++++++++++++++++++++++++" + value.get(0))
        scon.executeUpdate("insert into rs_kafka10(miscCol) values("+value.get(0)+")")
      }
      override def close(errorOrNull: Throwable) = {
        scon.closeConnection
      }
    }


    val yy = df.writeStream
      .queryName("ForEachQuery")
      .foreach(writer)
      .outputMode("append")
      .start()

    yy.awaitTermination()

最佳答案

感谢 Harald 和其他人的评论，我发现了一些事情，这使我实现了正常的处理行为 -

使用本地模式测试代码，yarn 并不是调试的最大帮助
由于某种原因，foreach接收器的process方法不允许调用其他方法。当我将业务逻辑直接放在那里时，它就可以工作。

希望对其他人有帮助。

关于scala - 结构化流 - Foreach Sink，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44193162/

上一篇：asp.net - ASP .Net 文件上传超过最大请求长度错误

下一篇：java - 如果测试失败，则重试 TestNG 代码中的特定代码段，而不是整个测试

相关文章：

scala - 从展平元组创建嵌套通用案例类

apache-spark - 对于相同的配置，Spark s3a会引发403错误

kubernetes - K8s 上广告的 kafka 连接休息监听器

apache-zookeeper - Zookeeper 具有 KeeperException 但 Kafka 能够创建主题并生产/消费

kubernetes - 使用 Strimzi 创建的 Kafka 的 Ingress 方式 SSL 握手失败

scala - Spark Streaming 和 Kafka : value reduceByKey is not a member of org. apache.spark.streaming.dstream.DStream[任何]

eclipse - Scala Worksheet Eclipse 插件中的结果编码

apache-spark - DMP系统的技术堆栈选择

java - java中spark cassandra连接器出现问题

scala - 如何将 Spark 数据帧写入 Kinesis Stream？