无论如何,map reduce 框架中有很多跨节点的文件传输。 那么分布式缓存的使用是如何提高性能的。
最佳答案
DistributedCache 是 Map-Reduce 框架提供的一种设施,用于缓存应用程序所需的文件。一旦你为你的工作缓存了一个文件,hadoop 框架将使它在你运行映射/ reduce task 的每个数据节点(在文件系统中,而不是在内存中)上可用。文件通过网络传输,通常通过 HDFS。与将 HDFS 用于任何非数据本地任务相比,它不会对网络造成更多压力。
关于hadoop - 为什么我们在hadoop中使用分布式缓存?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31108514/