我想编写一个作业,其中每个映射器检查来自 hdfs 的文件是否存储在正在执行的节点中。如果没有发生,我想从 hdfs 检索它并将其本地存储在该节点中。这可能吗?
编辑:我正在尝试执行此操作 (3) Repartition Join 的预处理,如下所述:link
最佳答案
DistributedCache Hadoop 中的特性可用于分发完成作业所需的边数据或辅助数据。这里 ( 1 , 2 ) 是一些有趣的文章。
关于hadoop - 从 hdfs 远程检索文件并将其存储在本地节点中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14293765/