hadoop - 哪个更适合做日志分析

标签 hadoop mapreduce apache-spark apache-storm flume

我必须使用 Hadoop 相关工具 分析存储在生产服务器上的 Gzip 压缩日志文件。

我无法决定如何做,以及使用什么,这里是我考虑使用的一些方法(欢迎推荐其他方法):

  • 水槽
  • 卡夫卡
  • map 缩减

在我可以做任何事情之前,我需要从生产服务器获取压缩文件并处理它们,然后将它们推送到 Apache HBase

最佳答案

根据日志的大小(假设计算不适合单台机器,即需要“大数据”产品),我认为使用 Apache Spark 可能是最合适的。鉴于您对生态系统了解不多,最好选择 Databricks Cloud。 ,这将为您提供一种从 HDFS 读取日志并以可视化方式(使用笔记本)使用 Spark 转换进行分析的直接方法。

你可以找到this video在上面的链接上。
我们提供免费试用,您可以先看看效果如何,然后再做决定。

PS 我与 Databricks 没有任何关系。想想他们有一个很棒的产品,仅此而已:)

关于hadoop - 哪个更适合做日志分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33888072/

相关文章:

mysql - 比较大数据集

hadoop - 如何选择Hadoop工具以获得更快的性能

hadoop - FairScheduler是否适用于单节点集群?

scala - 在 Spark SQL 中动态绑定(bind)变量/参数?

spring - 由 : java. lang.ClassNotFoundException : org. apache.ignite.internal.util.spring.IgniteSpringHelperImpl 引起

hadoop - Cloudera安装代理问题

ubuntu - 127.0.0.1 是什么意思? 127.0.0.1 代表在/etc/hosts ubuntu 中吗?

apache-spark - Spark 如何管理阶段?

python - 如何通过一个数组列展平 pySpark 数据框?

java - 为什么 reducer 在我的情况下不能正常工作?