Hadoop - 文件到 block 的映射

标签 hadoop

当JobTracker分配一个map任务给TaskTracker时，是否需要和NameNode对话？或者它可以从 InputSplit 本身获取信息？当我查看代码时，我看到 InputSplits 包含 BlockLocations。 JobTracker 会使用这些信息还是需要与 Namenode 一起使用？

最佳答案

客户端计算分割信息，并连同分割信息一起写入HDFS。

您可以查看 Hadoop 1.x JobSplit.SplitMetaInfo 实现的序列化也对位置进行序列化。

jobtracker 只是拾取这些序列化并安排它们，其中的位置只是一个提示，如果插槽可用则可以更快地执行。

关于Hadoop - 文件到 block 的映射，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13755232/

上一篇：hadoop - Hadoop的JobClient中的submitJob方法抛出空指针

下一篇：hadoop - 在 map 函数中更新计数器并在 reduce 中访问

相关文章：

csv - 在 Hue 中上传/导入 .csv - 指定正确的分隔符等

hadoop - Oozie:oozie 是否生成输出事件？

Hadoop:外部 jar 文件夹引用

hadoop - "no such file or directory"oozie 错误

hadoop - Sqoop无法导入--as-parquetfile

hadoop - DataStax Enterprise 3.2-Hive S3 NoSuchBucket

azure - 使用脚本操作在HDInsight上安装Giraph

hadoop - Sqoop 停留在进度的 5%

hadoop - Hadoop Map Reduce 链接中的数据共享

hadoop - Sqoop 无法识别导入作业命令中的 --query 参数