hadoop - 用于EMR的hi1.4xlarge SSD EC2实例

Closed. This question is off-topic。它当前不接受答案。

想改善这个问题吗？ Update the question，所以它是用于堆栈溢出的on-topic。

已关闭8年。

Improve this question

我有几个在EMR上运行的hadoop工作。其中一些作业需要处理日志文件。日志文件每个都是.gz格式，容量约为3GB。日志存储在S3中。

目前，我使用m1.xlarge进行处理，仅需3个小时即可将日志文件从S3复制到HDFS。在这里，瓶颈是从S3读取还是写入HDFS？

我计划使用的是新的基于SSD的hi1.4xlarge，因为它具有快速的I / O，而不是m1.xlarge。但这是否有助于降低成本？

但是hi1.4xlarge的成本要远远超过m1.xlarge。

m1.xlarge-8个EC2计算单元@每个0.614 $ = 4.912 $ /小时
h1.4xlarge-35个EC2计算单元@每个3.1 $ = 108.5 $ /小时

价格上涨约23倍。我会获得这么多的性能提升吗？考虑我的
hadoop的工作是高I / O约束。

我自己无法通过启动hi1.4xlarge实例进行测试，因此请在StackOverflow上进行询问。有没有人能比较这两种实例类型的基准？ Google没有帮助。

问候。

最佳答案

我不认为SSD实例是好的选择，因为它们的值在高随机IO中，而在Hadoop中，我们需要顺序IO。

从s3复制到HDFS s3几乎是一个瓶颈。

为了省钱，我建议尝试使用较小的实例来平衡IO和CPU

您是否正在使用DISTCP将数据从s3复制到HDFS(只是为了检查...)

如果每个集群生命周期仅处理一次日志，则可以直接从s3处理，并避免将其复制到HDFS。

关于hadoop - 用于EMR的hi1.4xlarge SSD EC2实例，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12836311/

上一篇：hadoop - Hadoop Map输出类型以提高性能

下一篇：git - 在Docker容器上启动github

hadoop - 如何在hadoop中处理大型 map 输出？

hadoop - Hadoop 1.0.3 的 HBase 配置

hadoop - 如何为Hive中的不同列指定其他定界符？

amazon-web-services - Ansible 和 s3 模块

amazon-web-services - 从远程 Solaris 服务器到 AWS S3 存储桶的 FTP 文件

amazon-s3 - Hazelcast 对比 Redis 对比 S3

python - 作业完成后 spark-submit 继续挂起

amazon-web-services - 筛选具有特定端口和 IP ACL 的安全组的 AWS CLI 输出

ios - 我应该如何为我的应用构建 Amazon Web Services？