hadoop - 为什么我们在hadoop中使用分布式缓存？

标签 hadoop mapreduce hdfs reduce distributed-cache

无论如何，map reduce 框架中有很多跨节点的文件传输。那么分布式缓存的使用是如何提高性能的。

最佳答案

DistributedCache 是 Map-Reduce 框架提供的一种设施，用于缓存应用程序所需的文件。一旦你为你的工作缓存了一个文件，hadoop 框架将使它在你运行映射/ reduce task 的每个数据节点(在文件系统中，而不是在内存中)上可用。文件通过网络传输，通常通过 HDFS。与将 HDFS 用于任何非数据本地任务相比，它不会对网络造成更多压力。

关于hadoop - 为什么我们在hadoop中使用分布式缓存？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31108514/

上一篇：parsing - Hadoop Informatica 日志处理

下一篇：hadoop - Hive Oozie 错误处理

相关文章：

hadoop - Amazon EMR 上的引导操作是否有任何限制？

单台机器上的 Hadoop 多个数据节点

input - 节点本地映射减少作业

linux - 从 Windows 服务器读取/写入文件到 HDFS

apache - 控制 HDFS 复制、映射器数量和 reducer 识别

hadoop - 按两个值分组的 Reducer

shell - 将早于 X 天的文件移动到 HDFS 中的目标目录

python - 寻找基于Python的机器学习库来处理图像

hadoop - 如何获得mapreduce工作的回应？

python - hadoop-streaming: reducer 处于挂起状态，不会启动吗？