performance - Hadoop 版本 1 与版本 2 性能对比

<分区>

我计划从 Hadoop 版本 1 更新到 Hadoop 版本 2。谁能告诉我(如果您尝试过 hadoop 版本 2)，版本 2 中的 MR/Hive/Pig 作业与版本 1 相比是否有任何性能改进？

最佳答案

这是来自 apache 的注释.这些是改进的亮点。

这里简要概述了 HDFS 和 MapReduce 的改进。

HDFS 联盟为了横向扩展名称服务，联邦使用多个独立的名称节点/ namespace 。 Namenodes是联合的，即Namenodes是独立的，不需要相互协调。数据节点被所有名称节点用作 block 的公共(public)存储。每个数据节点向集群中的所有名称节点注册。 Datanodes 发送定期心跳和 block 报告并处理来自 Namenodes 的命令。

HDFS 联合文档中提供了更多详细信息。

MapReduce NextGen 又名 YARN 又名 MRv2 hadoop-0.23中引入的新架构，将JobTracker的两大功能:资源管理和作业生命周期管理划分为独立的组件。

新的 ResourceManager 管理计算资源到应用程序的全局分配，每个应用程序的 ApplicationMaster 管理应用程序的调度和协调。

应用程序可以是经典 MapReduce 作业意义上的单个作业，也可以是此类作业的 DAG。

ResourceManager 和每台机器的 NodeManager 守护进程(管理该机器上的用户进程)构成了计算结构。

每个应用程序的 ApplicationMaster 实际上是一个特定于框架的库，其任务是从 ResourceManager 协商资源并与 NodeManager(s) 一起执行和监视任务。

关于performance - Hadoop 版本 1 与版本 2 性能对比，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21263432/

上一篇：hadoop - HDFS 中的文件数与 block 数

下一篇：hadoop - 云计算中 Hadoop 的数据局部性

相关文章：

sql - Oracle ROWNUM 性能

java - pig 错误 : Failed to Parse Query

hadoop - 如何在 Pig Latin 中放置带引号字符串的参数？

mongodb - 使用本地 key MONGODB 启用数据加密时出错

c++ - 避免 RAII 计时器对象中的虚假构造和破坏

Python 使用 lambda 将 pd.DataFrame 应用于嵌套循环是否可能？

javascript - AngularJS:$eval 需要很多时间

hadoop - 记录发生

join - 您对 Hadoop MapReduce 作业的建议

.net - 在数据库中存储增量而不是整个对象