amazon-ec2 - AWS 弹性 map 上的加入性能减少运行配置单元

我正在运行一个简单的联接查询

 select count(*) from t1 join t2 on t1.sno=t2.sno

表t1和t2各有2000万条记录，列sno为字符串数据类型。

表数据以rcfile格式从Amazon s3导入到HDFS。该查询在 15 个 Amazon 大型实例上花费了 109 秒，但在具有 16 GB RAM 和 16 个 CPU 核心的 SQL Server 上花费了 42 秒。

我错过了什么吗？无法理解为什么我在亚马逊上的表现很慢？

最佳答案

帮助您调整 Hadoop 性能的一些问题:

sql-server 可能适合 40 毫米的记录，但等到你有 20 亿条记录时，看看它的表现如何。它可能会破裂。我更倾向于将 Hive 视为 MapReduce 的巧妙包装，而不是真正数据库的替代品。

根据经验，我认为拥有 15 个 c1.mediums 的性能可能与大型机器一样好，甚至更好。老实说，大型机器没有正确的 CPU/内存平衡。

关于amazon-ec2 - AWS 弹性 map 上的加入性能减少运行配置单元，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11226199/

相关文章：

hive - 在配置单元中添加一个具有常量值的新列