Closed. This question is
off-topic。它当前不接受答案。
想改善这个问题吗?
Update the question,所以它是用于堆栈溢出的
on-topic。
已关闭8年。
Improve this question
我有几个在EMR上运行的hadoop工作。其中一些作业需要处理日志文件。日志文件每个都是.gz格式,容量约为3GB。日志存储在S3中。
目前,我使用m1.xlarge进行处理,仅需3个小时即可将日志文件从S3复制到HDFS。在这里,瓶颈是从S3读取还是写入HDFS?
我计划使用的是新的基于SSD的hi1.4xlarge,因为它具有快速的I / O,而不是m1.xlarge。但这是否有助于降低成本?
但是hi1.4xlarge的成本要远远超过m1.xlarge。
m1.xlarge-8个EC2计算单元@每个0.614 $ = 4.912 $ /小时
h1.4xlarge-35个EC2计算单元@每个3.1 $ = 108.5 $ /小时
价格上涨约23倍。我会获得这么多的性能提升吗?考虑我的
hadoop的工作是高I / O约束。
我自己无法通过启动hi1.4xlarge实例进行测试,因此请在StackOverflow上进行询问。有没有人能比较这两种实例类型的基准? Google没有帮助。
问候。