hadoop - 从 hdfs 远程检索文件并将其存储在本地节点中

标签 hadoop hdfs

我想编写一个作业,其中每个映射器检查来自 hdfs 的文件是否存储在正在执行的节点中。如果没有发生,我想从 hdfs 检索它并将其本地存储在该节点中。这可能吗?

编辑:我正在尝试执行此操作 (3) Repartition Join 的预处理,如下所述:link

最佳答案

DistributedCache Hadoop 中的特性可用于分发完成作业所需的边数据或辅助数据。这里 ( 1 , 2 ) 是一些有趣的文章。

关于hadoop - 从 hdfs 远程检索文件并将其存储在本地节点中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14293765/

相关文章:

hadoop - hadoop集群中的各种端口?

spring - 无法使用Spring云数据流将流数据写入接收器文件

hadoop - Hadoop 1.2.1-我需要从HDFS中删除文件

mongodb - mongo-hadoop。不处理 mongodb 文档删除

networking - 关于 Hadoop 网络系统调用

java - 如何从 Mapreduce 作业查询存储在 hdfs 中的嵌入式数据库?

scala - 创建像 TextLine 这样的 Scalding Source,将多个文件组合成单个映射器

hadoop - 您可以将什么类型的数据放入 HDFS

shell - 如何使用 Shell 脚本修改 job.properties 文件并运行 Oozie 脚本?

hdfs - HBase - 位置始终为零