hdfs - 为什么 Impala 花费大量时间打开 HDFS 文件(TotalRawHdfsOpenFileTime)?

标签 hdfs olap impala namenode

我发现我的Impala swarm表现不稳定,正常情况下只需要几秒(不到10s)就可以完成一个查询,但偶尔会需要40s以上(而且这种情况会持续几分钟),当发生这种情况时,根据配置文件,TotalRawHdfsOpenFileTime 非常高,这意味着大部分时间都花在打开 HDFS 文件上。

那么可能的原因是什么以及如何解决?

最佳答案

这是打开文件所花费的时间。如果您正在查询 HDFS,这通常意味着它花费时间从名称节点获取数据。

通过启用文件句柄缓存,我们看到许多遇到此瓶颈的生产部署得到了显着改进 - https://docs.cloudera.com/documentation/enterprise/5-15-x/topics/impala_scalability.html#scalability_file_handle_cache

关于hdfs - 为什么 Impala 花费大量时间打开 HDFS 文件(TotalRawHdfsOpenFileTime)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63405856/

相关文章:

hadoop - Impala 扫描 MapR-FS 慢

Hadoop哪个节点会将输入数据分割到多个 block ?

sql-server - 如何说服 ascmd.exe 将表作为输出,而不是 XML 文件?

scala - Impala 正在将时间转换为 GMT 如何避免这种情况

mysql - 在 Impala 中创建表或 View 时的行数不同

hadoop - 文件是否分成 block 存储在HDFS中?

hadoop dfs -copyFromLocal src dest

sql-server - 多维数据集项目因权限而无法运行

SQL Server 聚合非常大的表

hadoop - 如何跳过 impala 外部表中的文件头?