hadoop - 单片ETL到分布式/可扩展解决方案,OLAP立方体到Elasticsearch/Solr

标签 hadoop solr elasticsearch etl olap-cube

我是大数据处理的新手,正在寻找SO社区的一些特定指导。

当前,我们设置了单片/顺序ETL,不用说随着数据的增长它不可扩展。我们有什么选择(确保分发和并行化但需要具体说明)?我玩过Hadoop,可能适合在这里使用,但是我想知道那里还有其他一些选择吗?对于数据库开发人员来说,可能更容易过渡到此?

与上述问题相关的一种是,我们还有一个用于汇总数据的OLAP多维数据集。 Elasticsearch或Solr是否适合替代OLAP多维数据集?有人成功做到了吗?什么是陷阱?

最佳答案

我们目前正在使用的同一种用例。

我们的方法可能会用光。

步骤1:我们正在将数据从dbs压缩到hdfs

步骤2:Pig脚本中的ETL逻辑

步骤3:在汇总表数据上建立索引以进行solr。

步骤4:通过Web界面在solr上搜索。

在我们的用例中,我们正在开发Pig作业以执行转换逻辑,将它们逐步存储到最终文件夹中。之后,MR索引器工具会将数据索引到solr。我们正在使用cloudera-search。让我知道是否有事。

关于hadoop - 单片ETL到分布式/可扩展解决方案,OLAP立方体到Elasticsearch/Solr,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30746085/

相关文章:

elasticsearch - ElasticSearch-用于在索引上分析文档的配置

hadoop - HiveQL 和排名()

java - 不同机器上solr-8.9.0加载一个csv文件的对比

SOLR - 结果分组的结果计数

elasticsearch - 匹配无效的 Elasticsearch 日期范围

json - logstash 提取 json 字段并覆盖索引

hadoop - 检查条件后如何终止mapreduce作业?

hadoop - 在 HDFS 上写入 Kafka Streaming 结果

java - 如何在HBase中存储和查询范围数据?

java - Apache solr 如何索引不同的文件