hadoop - 从日志存档创建Spark Dstream

标签 hadoop apache-spark streaming

我是Spark的新手。看起来超棒!

我有来自不同来源的每小时日志文件的内容，并且想用〜5分钟的滑动窗口从它们创建DStream，以探索相关性。

我只是想知道实现此目标的最佳方法是什么。我应该把它们切成5分钟，放在不同目录中吗？该命名结构将如何与不同HDFS目录中的特定时间片相关联？我是否实现了一个知道日志记录嵌入时间戳的filter()方法？

建议，欢迎使用RTFM。

谢谢!
克里斯

最佳答案

您可以将apache Kafka用作Dstream源，然后可以尝试reduceByKeyAndWindow Dstream函数。它将根据您的所需时间创建一个窗口

Trying to understand spark streaming windowing

关于hadoop - 从日志存档创建Spark Dstream，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34031462/

上一篇：docker - Windows 容器无法访问互联网

下一篇：php - Docker PHP容器抛出20 0's and 404'

amazon-web-services - 在近实时分析中，为什么 Lambda-->Firehose-->S3 优于 Lambda-->S3？

oracle - Sqoop 增量导入和更新

amazon-web-services - 如何添加 EMR Spark 步骤？

scala - 更改 Spark 中的数据捕获

android - 使用 InputStream 将 Intent 发送到媒体播放器应用程序

android - 我需要一个稳定且统一的解决方案来在 Android 和 IOS 网络浏览器中流式传输音频

hadoop - 如何加载和存储nvarchar

hadoop - 转换序列文件并通过 map 和 hadoop 中的 reduce 任务获取键值对

hadoop - Apache PIG-如何减少小数点后的数字