我有点混淆了我从 Wiki 上读到的用于制作 OLAP 的 Hadoop 配置单元。 现在我想从使用 Mysql 的 OLTP 数据库在 Hive 上制作 OLAP。
我该如何解决这个问题?我可以使用 Kettle 在 Hive 中制作 OLAP 吗? 任何关于如何从 OLTP mysql 在 Hive 上制作 OLAP 的指导?
谢谢。
最佳答案
我建议采用以下方法:
a) 指定 OLTP 流程的历史部分。通常它是某种操作日志。让我们称之为事实表。
b) 让事实表按时间分区
c) 通过将最旧的分区导出到 CSV 并从 MySQL 中删除,定期从 MySQL 卸载最旧的分区。
e) 将此 CSV 文件加载到 Hive
通过实现此架构,您将在配置单元中拥有除最新数据以外的所有数据,并防止 MySQL OLTP 数据库增长。
关于hadoop - 从 OLTP Mysql 使用 Hadoop Hive 制作 OLAP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6978300/