hadoop - 大数据/Hadoop项目的典型流程?

标签 hadoop hive apache-pig bigdata sqoop

我最近开始学习BigData技术,例如SQOOP,Hive,Pig,并发现可以使用多种替代方案(例如SQOOP,HiveQL等)来解决给定的问题。我对技术/工具的选择感到困惑。

如果大多数情况下您采用任何典型的Microsoft BI项目,流程将是

SSIS(用于处理原始数据)-> SSAS(用于创建OLAP DB)-> SSRS(用于生成报告)。

与此类似,BigData / Hadoop项目的典型流程是什么。假设我的数据源是“电子邮件日志”。

最佳答案

实际上,这取决于您的要求和所拥有的技能。我认为您可以通过多种方式处理电子邮件日志。

选件

  • (近实时)使用flume从源流式传输电子邮件日志--->将日志存储在HDFS的水槽中--->使用Pig或Hive分析日志。
  • (实时)使用Storm喷口流式传输电子邮件日志--->处理 Storm bolt 中的日志--->最终将其存储在nosql数据库中以进行进一步的报告和分析。

  • 还有许多其他方法可以做到这一点。根据适合您要求的可用技能,您可以决定。

    关于hadoop - 大数据/Hadoop项目的典型流程?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24285465/

    相关文章:

    sql - 失败 : ParseException line 1:36 cannot recognize input near '1987'

    hadoop - 如何从hdfs获取特定数据?

    java - Eclipse Hadoop 插件在尝试连接时显示 "java.io.EOFException"

    ubuntu - Hadoop:java.net.UnknownHostException:hadoop-slave-2

    在配置单元的 udf 上连接两个表

    hadoop - Hive CLI启动引发错误无法识别的Hadoop主要版本号:1.0.4

    java - 如何在级联中仅从一行中获取某些列

    performance - 方法 v Hadoop MapReduce 中的类级变量

    hadoop - 如何检查 Pig UDF 中的数据类型

    apache-pig - 如何在 PIG 中过滤具有空值的记录?