hadoop - 单片ETL到分布式/可扩展解决方案，OLAP立方体到Elasticsearch/Solr

标签 hadoop solr elasticsearch etl olap-cube

我是大数据处理的新手，正在寻找SO社区的一些特定指导。

当前，我们设置了单片/顺序ETL，不用说随着数据的增长它不可扩展。我们有什么选择(确保分发和并行化但需要具体说明)？我玩过Hadoop，可能适合在这里使用，但是我想知道那里还有其他一些选择吗？对于数据库开发人员来说，可能更容易过渡到此？

与上述问题相关的一种是，我们还有一个用于汇总数据的OLAP多维数据集。 Elasticsearch或Solr是否适合替代OLAP多维数据集？有人成功做到了吗？什么是陷阱？

最佳答案

我们目前正在使用的同一种用例。

我们的方法可能会用光。

步骤1:我们正在将数据从dbs压缩到hdfs

步骤2:Pig脚本中的ETL逻辑

步骤3:在汇总表数据上建立索引以进行solr。

步骤4:通过Web界面在solr上搜索。

在我们的用例中，我们正在开发Pig作业以执行转换逻辑，将它们逐步存储到最终文件夹中。之后，MR索引器工具会将数据索引到solr。我们正在使用cloudera-search。让我知道是否有事。

关于hadoop - 单片ETL到分布式/可扩展解决方案，OLAP立方体到Elasticsearch/Solr，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30746085/

上一篇：java - 如何通过网络将数据从一个HDFS集群迁移到另一个集群？

下一篇：hadoop - MapReduce 2.0 YARN中的 namespace 和 block 池是什么意思？

hadoop - HiveQL 和排名()

java - 不同机器上solr-8.9.0加载一个csv文件的对比

SOLR - 结果分组的结果计数

elasticsearch - 匹配无效的 Elasticsearch 日期范围

json - logstash 提取 json 字段并覆盖索引

hadoop - 检查条件后如何终止mapreduce作业？

hadoop - 在 HDFS 上写入 Kafka Streaming 结果

java - 如何在HBase中存储和查询范围数据？

java - Apache solr 如何索引不同的文件