mapreduce - 大规模 Hadoop 集群的计算和存储容量之间的典型关系是什么?

标签 mapreduce data-warehouse

我正在考虑确定一个大型集群(10k 核心)的规模,该集群需要支持计算密集型深度分析以及 I/O 密集型大数据,我想听听一些构建了大数据集群的人的意见他们用来衡量计算与本地磁盘存储的规模。我假设采用基于在线 MapReduce 的数据仓库所提倡的直接附加存储架构

看看 2012 年的一些中密度 Blade 设备,例如双 Xeon 5650,我可以为每台服务器提供大约 2TB 的直接附加存储。这将为每 2TB 存储提供大约 100TFlops,或者 5:1 的比率。较低密度的设备可低至1:1,较高密度的设备可高达10:1。

我很想听听其他大数据人员正在运行的比率。

最佳答案

这里有一些文章1 2 3首先确定 Hadoop 硬件规模。

关于mapreduce - 大规模 Hadoop 集群的计算和存储容量之间的典型关系是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8695348/

相关文章:

使用 log4j 的 Hadoop Yarn 任务级日志记录

mongodb - 使用 MapReduce 删除重复记录

hadoop - YARN Mapreduce作业中的AccessControlException

mysql - 这是用唯一值填充维度表的适当方法吗?

适用于个人的 Azure Synapse 计费模型?

list - 从 reducer 输入聚合一个巨大的列表而不会耗尽内存

java - 从MapReduce程序读取xls文件

sql - 数据库/数据仓库中的多个相互矛盾的事实

reporting - 列式数据库的维度建模

hadoop - 在这个用例中什么是数据仓库