hadoop - 为什么我们在hadoop中使用分布式缓存?

标签 hadoop mapreduce hdfs reduce distributed-cache

无论如何,map reduce 框架中有很多跨节点的文件传输。 那么分布式缓存的使用是如何提高性能的。

最佳答案

DistributedCache 是 Map-Reduce 框架提供的一种设施,用于缓存应用程序所需的文件。一旦你为你的工作缓存了一个文件,hadoop 框架将使它在你运行映射/ reduce task 的每个数据节点(在文件系统中,而不是在内存中)上可用。文件通过网络传输,通常通过 HDFS。与将 HDFS 用于任何非数据本地任务相比,它不会对网络造成更多压力。

关于hadoop - 为什么我们在hadoop中使用分布式缓存?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31108514/

相关文章:

hadoop - Amazon EMR 上的引导操作是否有任何限制?

单台机器上的 Hadoop 多个数据节点

input - 节点本地映射减少作业

linux - 从 Windows 服务器读取/写入文件到 HDFS

apache - 控制 HDFS 复制、映射器数量和 reducer 识别

hadoop - 按两个值分组的 Reducer

shell - 将早于 X 天的文件移动到 HDFS 中的目标目录

python - 寻找基于Python的机器学习库来处理图像

hadoop - 如何获得mapreduce工作的回应?

python - hadoop-streaming: reducer 处于挂起状态,不会启动吗?