java - 如何在 Spark Streaming 中获取当前批处理时间戳

标签 java apache-spark spark-streaming

如何在Spark Streaming中获取当前批处理时间戳(DStream)?

我有一个 Spark Streaming 应用程序,其中输入数据将进行多次转换。

我需要执行期间的当前时间戳来验证输入数据中的时间戳。

如果我与当前时间进行比较,那么时间戳可能与每个 RDD 转换执行不同。

有什么方法可以获取时间戳,特定的 Spark 流式微批何时开始或它属于哪个微批间隔?

最佳答案

dstream.foreachRDD((rdd, time)=> {
  // time is scheduler time for the batch job.it's interval was your window/slide length.
})

关于java - 如何在 Spark Streaming 中获取当前批处理时间戳,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34437359/

相关文章:

scala - Spark Streaming 保证特定的启动窗口时间

java - Java VisualVM 中的总方法时间

javax.xml.ws.WebServiceException : Failed to access the WSDL. 响应: '401: Unauthorized'

java - SimpleDateFormat.parse() 将 DTstring 转换为本地时间。可以转换为源时间吗?

apache-spark - 使用Spark编写Parquet文件,如何为单列启用字典

apache-spark - 集群部署模式下的 Spark-submit 如何管理应用程序 Jars

java - autowire 不适用于基于 jpa tomcat 和 jersey xml

python - 在数据框中注册临时表不起作用

windows - 用于 winutils 和 hadoop/spark 的 Powershell chmod on/tmp/hive

scala - Spark清理shuffle溢出到磁盘