hadoop - 用于实时查询的 Datameer

标签 hadoop

我们目前有兴趣评估 datameer 并有几个问题。是否有任何 datameer 用户可以回答这些问题:

  1. 由于 datameer 在 HDFS 上运行,查询速度是否与 Hive 相似?查询速度与列式数据库相比如何?

  2. 既然 Hadoop 以高延迟着称,是否建议使用 datameer 进行实时查询?

谢谢。

拉维

最佳答案

  1. 关于 1:
    • 查询速度与 Hive 相当。
    • 但 Datameer 在“查询”的设计阶段要快得多。 Datameer 提供实时预览您的“查询”结果的样子,这是在内存中而不是在集群上发生的。预览基于您的数据的代表性样本。它只是一个预览而不是最终结果,但如果您的分析在设计时有意义,它会为您提供持续的反馈。 要测试 Hive 查询,您必须执行它,这使得设计过程非常缓慢。
    • Datameer 相对于 Hive 的一大优势是:
      1. 将数据加载到 Hadoop 中要容易得多。无需创建静态模式、无需 ETL 等。只需使用向导即可从您的数据库、日志文件、社交媒体等下载数据。
      2. 设计分析或进行更改要快得多,甚至可以由非技术用户完成。
      3. 无需安装任何其他东西,因为 Datameer 在一个产品中包含了导入、分析、计划、安全、可视化等所需的一切
  2. 如果您有实时要求,则不应直接从 Datameer、Hive、Impala 等中提取数据。列式存储使某些处理速度更快,但延迟仍然不低。但是您可以将这些工具与低延迟数据库一起使用。使用 Datameer/Hive/Impala 进行繁重的工作,过滤大数据并将其预聚合成较小的数据,然后将其导出到数据库中。在 Datameer 中,您可以使用 Datameer 的向导之一非常轻松地进行设置。

希望对您有所帮助,

Peter Voß(Datameer)

关于hadoop - 用于实时查询的 Datameer,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21155529/

相关文章:

python - Python NameNode脚本

java - 无法找到或加载主类 org.apache.hadoop.util.VersionInfo

mongodb - 社交网络 : Hadoop, HBase、Spark over MongoDB 还是 Postgres?

java - 我正在尝试在 hdfs 中格式化名称节点,但显示 : permission denied

mongodb - flume 或 kafka 相当于 mongodb

hadoop - Hadoop中数据仓库有没有好的ETL框架

hadoop - 我们可以在 oozie 工作流 xml 中访问整个 hadoop 作业日志吗?

java - 异常 :org. apache.hadoop.hbase.masternotrunningexception

java - 将正确的 Java 版本传达给 Hadoop

java - 使用 Java 将文件移动到 HDFS