3 个回答
![西瓜女皇 西瓜女皇](https://www.80wz.com/zb_users/avatar/0.png)
group by代替distinct 要统计某一列的去重数时,如果数据量很大,count(distinct)就会非常慢,原因与order by类似,count(distinct)逻辑导致最终只有一个Reduce任务。
发布于:8个月前 (11-20) IP属地:四川省
![你深入我心 你深入我心](https://www.80wz.com/zb_users/avatar/0.png)
业务问题或者业务数据本身的问题,某些数据比较集中。例如:
join小表:其中一个表是小表,但是key比较集中,导致的就是某些Reduce的值偏高。
空值或无意义值:如果缺失的项很多,在做join时这些空值就会非常集中,拖累进度。
group by:维度过小。
distinct:导致最终只有一个Reduce任务。
发布于:8个月前 (11-20) IP属地:四川省
![抛去江山、换她笑面如花 抛去江山、换她笑面如花](https://www.80wz.com/zb_users/avatar/0.png)
key分布不均衡。
发布于:8个月前 (11-20) IP属地:四川省
我来回答
您需要 登录 后回答此问题!