hdfs - 为什么Impala 花费大量时间打开HDFS 文件(TotalRawHdfsOpenFileTime)?

原文 标签 hdfs olap impala namenode

我发现我的Impala swarm 执行不稳定,通常只需要几秒钟(不到10s)就可以完成一个查询,但偶尔会需要40s 以上(而且这种情况会持续几分钟),当那碰巧,根据配置文件,TotalRawHdfsOpenFileTime 非常高,这意味着大部分时间都花在打开 HDFS 文件上。
那么可能的原因是什么,我该如何解决呢?

最佳答案

这是打开文件所花费的时间。如果您正在查询 HDFS,这通常意味着它花费时间从 namenode 获取数据。
通过启用文件句柄缓存,我们看到许多生产部署遇到了这个瓶颈的显着改进 - https://docs.cloudera.com/documentation/enterprise/5-15-x/topics/impala_scalability.html#scalability_file_handle_cache

关于hdfs - 为什么Impala 花费大量时间打开HDFS 文件(TotalRawHdfsOpenFileTime)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63405856/

相关文章:

hadoop - S3 文件夹中的零长度文件可能会阻止使用 Hive 访问该文件夹?

java - 使用Java进行HDFS加密

reporting - 柱状数据库的维度建模

hadoop - 在Impala SQL中编写While循环?

hadoop - 分区仍显示在配置单元中,即使已将其删除用于外部表

hadoop - 从一个群集到另一个群集的HDFS数据传输不适用于distcp

docker - 如何使 HDFS 在 docker swarm 中工作

MySQL:在进一步计算中使用聚合结果

database - 如何使用 MDX 查询检索内部节点的数据集?

mysql - SQL WHERE NOT EXISTS查询未返回结果