hadoop - RAM 如何用于 mapreduce 处理？

标签 hadoop mapreduce bigdata

需要澄清处理，像(namenode，datanode，jobttracker，task tracker)这样的守护进程都位于一个集群中(单节点集群 - 它们分布在硬盘中)。 RAM 或缓存在 map reduce 处理中的用途是什么，或者 map reduce 中的各种进程如何访问它？

最佳答案

Job Tracker 和 Task tracker 在 map reduce 1.x 中用于管理集群中的资源，它被删除的原因是因为它不是有效的方法。自 map reduce 2.x 以来，引入了一种称为 YARN 的新机制。您可以访问此链接 http://javacrunch.in/Yarn.jsp了解 YARN 的深入工作。 Hadoop 守护进程使用 ram 来优化作业执行，就像 map reduce RAM 用于在提交新作业时将资源日志保存在内存中，以便资源管理器可以确定如何在集群中分配作业。一件更重要的事情是 hadoop map reduce performe disk oriented jobs 它使用磁盘来执行作业，这是它比 spark 慢的主要原因。

希望这能解决您的疑问

关于hadoop - RAM 如何用于 mapreduce 处理？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42075476/

上一篇：hadoop - 在 Oozie 电子邮件操作中添加 html 标签

下一篇：azure - Azure Data Lake Analytics 数据库存储在哪里？

相关文章：

java - 如何设计一个特殊的MapReduce倒排索引？

hadoop - 在同一台机器上运行多个数据节点

hadoop - Apache Hadoop 与谷歌大数据

java - 如何将 Hadoop MapReduce 作业实现为非 Map/Reduce，即使没有任何意义？

maven - MapReduce的Hadoop Maven依赖关系

hadoop - 我可以使用 hadoop 发行版而不是手动安装吗？

database-design - 适用于存储日志、实时报告并用作日志关联引擎的数据库设计或架构

java - 如何配置 Maven 阴影插件以在我的 jar 中包含测试代码？

amazon-web-services - HDFS上的本地文件出现问题

java - 即使在命令行上告诉为 -D mapred.reduce.tasks=0 后，hadoop reduce 任务仍在运行