java - JavaPairDStream 中的最后一批大小

标签 java apache-spark spark-streaming

我有一个简单的 Spark Streaming 应用程序。 我使用 JavaPairDStreams。我想知道是否可以获得最后的批量大小。我需要它来完成对 JavaPairDStream 的每个 Tuple2 执行的操作。 JavaPairDStream.count() 方法不起作用,因为它只返回一个 long 的 JavaDStream,而我只需要最后一个批量大小。

提前谢谢您。

最佳答案

您需要访问底层 rdd 并对其进行计数。

dstream.foreachRDD( rdd -> 
   long batchSize = rdd.count();
   ...
)

关于java - JavaPairDStream 中的最后一批大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44546187/

相关文章:

java - 在与Google Play服务一起使用的Gradle脚本中找到NoClassDef

java - 如何从 Java Swing 应用程序退出,避免从 setInputVerifier 生成消息

java - Spring - 上传表单 - 无法获取文件列表

java - 为什么需要一个对象来引用静态方法内的类成员?

Cassandra 批量加载 - NoHostAvailableException

scala - Spark SQL 未正确转换时区

loops - 在脚本中迭代/循环 Spark parquet 文件会导致内存错误/累积(使用 Spark SQL 查询)

hadoop - Spark RDD更新

apache-spark - 启用检查点的 Spark Streaming 中的 java.io.NotSerializedException

azure - Spark Streaming 和 Azure 事件中心 mapWithState