hadoop - 大数据/Hadoop项目的典型流程？

标签 hadoop hive apache-pig bigdata sqoop

我最近开始学习BigData技术，例如SQOOP，Hive，Pig，并发现可以使用多种替代方案(例如SQOOP，HiveQL等)来解决给定的问题。我对技术/工具的选择感到困惑。

如果大多数情况下您采用任何典型的Microsoft BI项目，流程将是

SSIS(用于处理原始数据)-> SSAS(用于创建OLAP DB)-> SSRS(用于生成报告)。

与此类似，BigData / Hadoop项目的典型流程是什么。假设我的数据源是“电子邮件日志”。

最佳答案

实际上，这取决于您的要求和所拥有的技能。我认为您可以通过多种方式处理电子邮件日志。

选件

(近实时)使用flume从源流式传输电子邮件日志--->将日志存储在HDFS的水槽中--->使用Pig或Hive分析日志。

(实时)使用Storm喷口流式传输电子邮件日志--->处理 Storm bolt 中的日志--->最终将其存储在nosql数据库中以进行进一步的报告和分析。

还有许多其他方法可以做到这一点。根据适合您要求的可用技能，您可以决定。

关于hadoop - 大数据/Hadoop项目的典型流程？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24285465/

上一篇：hadoop - 无需安装hadoop即可编译Hadoop程序

下一篇：hadoop - 无法删除目录/app/hadoop/tmp/dfs/name/current

hadoop - 如何从hdfs获取特定数据？

java - Eclipse Hadoop 插件在尝试连接时显示 "java.io.EOFException"

ubuntu - Hadoop:java.net.UnknownHostException:hadoop-slave-2

在配置单元的 udf 上连接两个表

hadoop - Hive CLI启动引发错误无法识别的Hadoop主要版本号:1.0.4

java - 如何在级联中仅从一行中获取某些列

performance - 方法 v Hadoop MapReduce 中的类级变量

hadoop - 如何检查 Pig UDF 中的数据类型

apache-pig - 如何在 PIG 中过滤具有空值的记录？