hadoop - 哪个更适合做日志分析

我必须使用 Hadoop 相关工具 分析存储在生产服务器上的 Gzip 压缩日志文件。

我无法决定如何做，以及使用什么，这里是我考虑使用的一些方法(欢迎推荐其他方法):

在我可以做任何事情之前，我需要从生产服务器获取压缩文件并处理它们，然后将它们推送到 Apache HBase

最佳答案

根据日志的大小(假设计算不适合单台机器，即需要“大数据”产品)，我认为使用 Apache Spark 可能是最合适的。鉴于您对生态系统了解不多，最好选择 Databricks Cloud。，这将为您提供一种从 HDFS 读取日志并以可视化方式(使用笔记本)使用 Spark 转换进行分析的直接方法。

你可以找到this video在上面的链接上。
我们提供免费试用，您可以先看看效果如何，然后再做决定。

PS 我与 Databricks 没有任何关系。想想他们有一个很棒的产品，仅此而已:)

关于hadoop - 哪个更适合做日志分析，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33888072/

相关文章：

mysql - 比较大数据集