4 个回答
1、数据本身的分布不均匀导致数据倾斜
2、数据处理操作导致数据倾斜
2、数据处理操作导致数据倾斜
1、GroupBY:在进行分组时,分组的字段数据分布不均匀,导致分组后的结果,某个组的数据量远远大于其他组。
2、Join:在进行Join时,Join匹配的字段分布不均匀,导致数据集中在一起。
3、聚合:在进行聚合时,聚合的字段分布不均匀,导致某些聚合字段的数据量大于其他聚合字段。
发布于:3个月前 (01-24) IP属地:四川省
group by代替distinct 要统计某一列的去重数时,如果数据量很大,count(distinct)就会非常慢,原因与order by类似,count(distinct)逻辑导致最终只有一个Reduce任务。
发布于:1年前 (2023-11-20) IP属地:四川省
业务问题或者业务数据本身的问题,某些数据比较集中。例如:
join小表:其中一个表是小表,但是key比较集中,导致的就是某些Reduce的值偏高。
空值或无意义值:如果缺失的项很多,在做join时这些空值就会非常集中,拖累进度。
group by:维度过小。
distinct:导致最终只有一个Reduce任务。
发布于:1年前 (2023-11-20) IP属地:四川省
key分布不均衡。
发布于:1年前 (2023-11-20) IP属地:四川省
我来回答
您需要 登录 后回答此问题!