我的 hive 查询挂起,我不知道为什么(使用 hadoop 0.20.1、hive 0.9)。
查询:
SELECT
a.field1 FROM table_1 a
LEFT SEMI JOIN
(SELECT DISTINCT(usrId) FROM table_2 b
WHERE soemthing=true ORDER BY rand() limit 1000) random_user_ids
WHERE a.usrId=random_user_ids.usrId
解释给我回复:
STAGE DEPENDENCIES:
Stage-1 is a root stage
Stage-2 depends on stages: Stage-1
Stage-3 depends on stages: Stage-2
Stage-0 is a root stage
数据集
- 表内~200M 条目
- table_1.usrId 与 table_1 的关系应约为 1:40,即上述查询应返回 1000*40=40000
观察结果:
- 作业在最后第 3 阶段挂起,进度为 33%(reduce > sort),此时正在进行连接(连接结果约为 40000)
- 除了速度慢之外,为什么reduce > sort是Stage-3的一部分?它应该只加入东西而不是订购任何东西
- reducer 大小仅为 1(因为排序?),这几乎总是不好,因为它无法扩展。
如果您需要更多输入(例如更详细的 EXPLAIN 信息、更多集群信息),请告诉。
谢谢!
最佳答案
JOIN 条件应包含在 ON 子句中,而不是包含在 WHERE 子句中。
语法示例:
SELECT a.key, a.val
FROM a LEFT SEMI JOIN b ON (a.key = b.key)
关于hadoop - hive 查询速度慢,为什么(左半连接)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17596050/