我必须使用 Hadoop 相关工具 分析存储在生产服务器上的 Gzip 压缩日志文件。
我无法决定如何做,以及使用什么,这里是我考虑使用的一些方法(欢迎推荐其他方法):
- 水槽
- 卡夫卡
- map 缩减
在我可以做任何事情之前,我需要从生产服务器获取压缩文件并处理它们,然后将它们推送到 Apache HBase
最佳答案
根据日志的大小(假设计算不适合单台机器,即需要“大数据”产品),我认为使用 Apache Spark 可能是最合适的。鉴于您对生态系统了解不多,最好选择 Databricks Cloud。 ,这将为您提供一种从 HDFS 读取日志并以可视化方式(使用笔记本)使用 Spark 转换进行分析的直接方法。
你可以找到this video在上面的链接上。
我们提供免费试用,您可以先看看效果如何,然后再做决定。
PS 我与 Databricks 没有任何关系。想想他们有一个很棒的产品,仅此而已:)
关于hadoop - 哪个更适合做日志分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33888072/