hadoop - RAM 如何用于 mapreduce 处理?

标签 hadoop mapreduce bigdata

需要澄清处理,像(namenode,datanode,jobttracker,task tracker)这样的守护进程都位于一个集群中(单节点集群 - 它们分布在硬盘中)。 RAM 或缓存​​在 map reduce 处理中的用途是什么,或者 map reduce 中的各种进程如何访问它?

最佳答案

Job Tracker 和 Task tracker 在 map reduce 1.x 中用于管理集群中的资源,它被删除的原因是因为它不是有效的方法。自 map reduce 2.x 以来,引入了一种称为 YARN 的新机制。您可以访问此链接 http://javacrunch.in/Yarn.jsp了解 YARN 的深入工作。 Hadoop 守护进程使用 ram 来优化作业执行,就像 map reduce RAM 用于在提交新作业时将资源日志保存在内存中,以便资源管理器可以确定如何在集群中分配作业。一件更重要的事情是 hadoop map reduce performe disk oriented jobs 它使用磁盘来执行作业,这是它比 spark 慢的主要原因。

希望这能解决您的疑问

关于hadoop - RAM 如何用于 mapreduce 处理?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42075476/

相关文章:

java - 如何设计一个特殊的MapReduce倒排索引?

hadoop - 在同一台机器上运行多个数据节点

hadoop - Apache Hadoop 与谷歌大数据

java - 如何将 Hadoop MapReduce 作业实现为非 Map/Reduce,即使没有任何意义?

maven - MapReduce的Hadoop Maven依赖关系

hadoop - 我可以使用 hadoop 发行版而不是手动安装吗?

database-design - 适用于存储日志、实时报告并用作日志关联引擎的数据库设计或架构

java - 如何配置 Maven 阴影插件以在我的 jar 中包含测试代码?

amazon-web-services - HDFS上的本地文件出现问题

java - 即使在命令行上告诉为 -D mapred.reduce.tasks=0 后,hadoop reduce 任务仍在运行