mapreduce - 大规模 Hadoop 集群的计算和存储容量之间的典型关系是什么？

我正在考虑确定一个大型集群(10k 核心)的规模，该集群需要支持计算密集型深度分析以及 I/O 密集型大数据，我想听听一些构建了大数据集群的人的意见他们用来衡量计算与本地磁盘存储的规模。我假设采用基于在线 MapReduce 的数据仓库所提倡的直接附加存储架构

看看 2012 年的一些中密度 Blade 设备，例如双 Xeon 5650，我可以为每台服务器提供大约 2TB 的直接附加存储。这将为每 2TB 存储提供大约 100TFlops，或者 5:1 的比率。较低密度的设备可低至1:1，较高密度的设备可高达10:1。

我很想听听其他大数据人员正在运行的比率。

最佳答案

这里有一些文章1 2 3首先确定 Hadoop 硬件规模。

关于mapreduce - 大规模 Hadoop 集群的计算和存储容量之间的典型关系是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8695348/

相关文章：

使用 log4j 的 Hadoop Yarn 任务级日志记录