3 个回答
group by代替distinct 要统计某一列的去重数时,如果数据量很大,count(distinct)就会非常慢,原因与order by类似,count(distinct)逻辑导致最终只有一个Reduce任务。
发布于:1年前 (2023-11-20) IP属地:四川省
业务问题或者业务数据本身的问题,某些数据比较集中。例如:
join小表:其中一个表是小表,但是key比较集中,导致的就是某些Reduce的值偏高。
空值或无意义值:如果缺失的项很多,在做join时这些空值就会非常集中,拖累进度。
group by:维度过小。
distinct:导致最终只有一个Reduce任务。
发布于:1年前 (2023-11-20) IP属地:四川省
key分布不均衡。
发布于:1年前 (2023-11-20) IP属地:四川省
我来回答
您需要 登录 后回答此问题!