hdfs - Cloudera 黑斑羚 : How does it read data from HDFS blocks?

标签 hdfs cloudera impala

我在 Impala 中有一个基本问题。我们知道 Impala 允许您查询存储在 HDFS 中的数据。现在,如果一个文件被分成多个 block ,假设一行文本分布在两个 block 中。在 Hive/MapReduce 中,RecordReader 负责处理这个问题。

在这种情况下Impala如何读取记录?

最佳答案

引用my answer on the Impala user list :

当 Impala 发现不完整的记录(例如,扫描某些文件格式(如文本或 rc 文件)时,它将继续从下一个 block 开始增量读取,直到读取整个记录。请注意,这可能需要少量的“远程读取”(从远程数据节点读取),但与应该在本地读取的整个 block (最好是通过短路读取)相比,通常这是一个非常小的量。

关于hdfs - Cloudera 黑斑羚 : How does it read data from HDFS blocks?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26499889/

相关文章:

azure - Cloudera - 启动服务 - NameNode 未格式化

sql - Impala 无法删除外部表

apache - Hadoop:map reduce 作业中的错误类路径

docker - docker :快速入门cloudera色调配置问题

hadoop - Hive - 将层次结构表展平为多个级别

hadoop - hive -如何选择上一季度的最高日期

apache-spark - 从pyspark读取hdfs中的文件

java - hadoop wordcount 与 java

java - 我正在尝试在 hdfs 中格式化名称节点,但显示 : permission denied

hadoop - 连接拒绝快速启动.cloudera :8020