hadoop - Cloudera Impala性能测试-空缓存

标签 hadoop cloudera impala

我尝试在cloudera hadoop集群上执行性能测试。但是,就Impala使用缓存存储以前的查询而言,如何清空缓存?

Does Impala use caching? Impala does not cache data but it does cache some table and file metadata. Although queries might run faster on subsequent iterations because the data set was cached in the OS buffer cache, Impala does not explicitly control this.



引用自:http://www.cloudera.com/content/cloudera/en/documentation/cloudera-impala/latest/topics/impala_faq.html#faq_performance_unique_1__faq_caching_unique_1

最佳答案

文件元数据缓存与“查询缓存”不同。它只是在HDFS中缓存文件和块的位置,这是大多数数据库已经知道的,但是Impala可能不知道,因为它从Hive获取表/文件元数据。在测试中,Impala应该可以使用文件元数据。

Impala永远不会缓存查询,但是可以通过以下两种方式之一缓存文件数据:

  • 您已启用HDFS caching。我认为您没有这样做。
  • HDFS读取的某些数据可能在操作系统缓冲区高速缓存中。 Impala无法对此进行控制。一些谷歌搜索有关清除Linux缓冲区高速缓存的指南,例如this unix.stackexchange.com answer
  • 关于hadoop - Cloudera Impala性能测试-空缓存,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29751870/

    相关文章:

    csv - 为 Impala 上传 CSV

    mongodb - 实时或近实时分析应用程序设计注意事项

    hadoop - ClassNotFoundException,同时运行Hadoop的示例作业

    apache - 在 Ambari UI 中为自定义服务添加组合框

    hadoop - CDH从5.1升级到5.3

    hadoop - 在虚拟盒集群上部署CDH5?

    hadoop - Cloudera-scm-server.log 在两个地方显示错误

    oracle - 查找当前月份和上个月值的总和

    hadoop - 在 Java 中从 HDFS 中删除以特定名称开头的目录

    java - 从 Tomcat 查询 Impala 抛出无效 URL 异常