Hadoop - 文件到 block 的映射

标签 hadoop

当JobTracker分配一个map任务给TaskTracker时,是否需要和NameNode对话?或者它可以从 InputSplit 本身获取信息? 当我查看代码时,我看到 InputSplits 包含 BlockLocations。 JobTracker 会使用这些信息还是需要与 Namenode 一起使用?

最佳答案

客户端计算分割信息,并连同分割信息一起写入HDFS。

您可以查看 Hadoop 1.x JobSplit.SplitMetaInfo 实现的序列化也对位置进行序列化。

jobtracker 只是拾取这些序列化并安排它们,其中的位置只是一个提示,如果插槽可用则可以更快地执行。

关于Hadoop - 文件到 block 的映射,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13755232/

相关文章:

csv - 在 Hue 中上传/导入 .csv - 指定正确的分隔符等

hadoop - Oozie:oozie 是否生成输出事件?

Hadoop:外部 jar 文件夹引用

hadoop - "no such file or directory"oozie 错误

hadoop - Sqoop无法导入--as-parquetfile

hadoop - DataStax Enterprise 3.2-Hive S3 NoSuchBucket

azure - 使用脚本操作在HDInsight上安装Giraph

hadoop - Sqoop 停留在进度的 5%

hadoop - Hadoop Map Reduce 链接中的数据共享

hadoop - Sqoop 无法识别导入作业命令中的 --query 参数