Hive数据倾斜的原因有哪些?

提问者:帅平 问题分类:面试刷题
Hive数据倾斜的原因有哪些?
3 个回答
西瓜女皇
西瓜女皇
group by代替distinct 要统计某一列的去重数时,如果数据量很大,count(distinct)就会非常慢,原因与order by类似,count(distinct)逻辑导致最终只有一个Reduce任务。
发布于:6个月前 (11-20) IP属地:四川省
你深入我心
你深入我心
业务问题或者业务数据本身的问题,某些数据比较集中。例如:
join小表:其中一个表是小表,但是key比较集中,导致的就是某些Reduce的值偏高。
空值或无意义值:如果缺失的项很多,在做join时这些空值就会非常集中,拖累进度。
group by:维度过小。
distinct:导致最终只有一个Reduce任务。
发布于:6个月前 (11-20) IP属地:四川省
抛去江山、换她笑面如花
抛去江山、换她笑面如花
key分布不均衡。
发布于:6个月前 (11-20) IP属地:四川省
我来回答