我们目前有兴趣评估 datameer 并有几个问题。是否有任何 datameer 用户可以回答这些问题:
由于 datameer 在 HDFS 上运行,查询速度是否与 Hive 相似?查询速度与列式数据库相比如何?
既然 Hadoop 以高延迟着称,是否建议使用 datameer 进行实时查询?
谢谢。
拉维
最佳答案
- 关于 1:
- 查询速度与 Hive 相当。
- 但 Datameer 在“查询”的设计阶段要快得多。 Datameer 提供实时预览您的“查询”结果的样子,这是在内存中而不是在集群上发生的。预览基于您的数据的代表性样本。它只是一个预览而不是最终结果,但如果您的分析在设计时有意义,它会为您提供持续的反馈。 要测试 Hive 查询,您必须执行它,这使得设计过程非常缓慢。
- Datameer 相对于 Hive 的一大优势是:
- 将数据加载到 Hadoop 中要容易得多。无需创建静态模式、无需 ETL 等。只需使用向导即可从您的数据库、日志文件、社交媒体等下载数据。
- 设计分析或进行更改要快得多,甚至可以由非技术用户完成。
- 无需安装任何其他东西,因为 Datameer 在一个产品中包含了导入、分析、计划、安全、可视化等所需的一切
- 如果您有实时要求,则不应直接从 Datameer、Hive、Impala 等中提取数据。列式存储使某些处理速度更快,但延迟仍然不低。但是您可以将这些工具与低延迟数据库一起使用。使用 Datameer/Hive/Impala 进行繁重的工作,过滤大数据并将其预聚合成较小的数据,然后将其导出到数据库中。在 Datameer 中,您可以使用 Datameer 的向导之一非常轻松地进行设置。
希望对您有所帮助,
Peter Voß(Datameer)
关于hadoop - 用于实时查询的 Datameer,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21155529/