我是大数据处理的新手,正在寻找SO社区的一些特定指导。
当前,我们设置了单片/顺序ETL,不用说随着数据的增长它不可扩展。我们有什么选择(确保分发和并行化但需要具体说明)?我玩过Hadoop,可能适合在这里使用,但是我想知道那里还有其他一些选择吗?对于数据库开发人员来说,可能更容易过渡到此?
与上述问题相关的一种是,我们还有一个用于汇总数据的OLAP多维数据集。 Elasticsearch或Solr是否适合替代OLAP多维数据集?有人成功做到了吗?什么是陷阱?
最佳答案
我们目前正在使用的同一种用例。
我们的方法可能会用光。
步骤1:我们正在将数据从dbs压缩到hdfs
步骤2:Pig脚本中的ETL逻辑
步骤3:在汇总表数据上建立索引以进行solr。
步骤4:通过Web界面在solr上搜索。
在我们的用例中,我们正在开发Pig作业以执行转换逻辑,将它们逐步存储到最终文件夹中。之后,MR索引器工具会将数据索引到solr。我们正在使用cloudera-search。让我知道是否有事。
关于hadoop - 单片ETL到分布式/可扩展解决方案,OLAP立方体到Elasticsearch/Solr,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30746085/