hadoop - 对Hadoop上的群集节点资源的建议?

标签 hadoop yarn administration

是否建议在群集的所有计算机上使用相同的资源(CPU和RAM)?

最佳答案

群集的基础结构配置将由要为其构建群集的业务案例确定,而业务案例又将转化为群集为实现业务成果而需要满足的数据处理要求。通常,hadoop系统最初是在概念中设计的,即集群中会存在异构配置的机器。 (现在,服务器供应商已经针对Hadoop工作量进行了优化,并且在主服务器和从服务器之间存在一些磁盘大小可变性的机器)。

为了专门解决您的问题,我在某些站点群集中看到多达50个节点,这些节点的主从配置完全相同(我认为这有点过头了)。通常安静的建筑设计决策并不总是决定采购决策。

来自3个主要的Hadoop Distribution供应商的以下链接将是一个很好的起点,以便更多地了解集群设计并应用站点特定的参数(即数据处理需求,数据增长,数据保留,复制等):

Hortonworks:

https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.5/bk_cluster-planning/bk_cluster-planning.pdf

Cloudera:

https://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/

MAPR:

http://doc.mapr.com/display/MapR/Planning+Cluster+Hardware

关于hadoop - 对Hadoop上的群集节点资源的建议?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45186864/

相关文章:

apache-spark - 从 S3 存储桶加载文件时,Spark 会创建多少个分区?

hadoop - 获取HIVE分区表的总大小

hadoop - 如何配置MR作业中的 map 以批量执行?

.net - 如何使用.net获取Windows服务的物理路径?

c++ - 识别主要页面错误原因

database - 大数据——存储与查询

apache-spark - 群集中HADOOP_CONF_DIR的值

apache-spark - Spark-submit/spark-shell > yarn-client 和 yarn-cluster 模式的区别

linux - 是否可以在守护进程不关闭文件的情况下修剪守护进程打开的日志文件?

java - 使用 Hadoop 解决大数据问题