全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

Hive数据倾斜的原因有哪些？

提问者：帅平问题分类：面试刷题

Hive数据倾斜的原因有哪些？

Hive面试题 Hive 数据倾斜

发布于：2年前 (2023-11-20) IP属地：四川省

4 个回答

回忆多美好

1、数据本身的分布不均匀导致数据倾斜
2、数据处理操作导致数据倾斜

1、GroupBY：在进行分组时，分组的字段数据分布不均匀，导致分组后的结果，某个组的数据量远远大于其他组。
2、Join：在进行Join时，Join匹配的字段分布不均匀，导致数据集中在一起。
3、聚合：在进行聚合时，聚合的字段分布不均匀，导致某些聚合字段的数据量大于其他聚合字段。

发布于：5个月前 (01-24) IP属地：四川省

西瓜女皇

group by代替distinct 要统计某一列的去重数时，如果数据量很大，count(distinct)就会非常慢，原因与order by类似，count(distinct)逻辑导致最终只有一个Reduce任务。

发布于：2年前 (2023-11-20) IP属地：四川省

你深入我心

业务问题或者业务数据本身的问题，某些数据比较集中。例如：

join小表：其中一个表是小表，但是key比较集中，导致的就是某些Reduce的值偏高。
空值或无意义值：如果缺失的项很多，在做join时这些空值就会非常集中，拖累进度。
group by：维度过小。
distinct：导致最终只有一个Reduce任务。

发布于：2年前 (2023-11-20) IP属地：四川省

抛去江山、换她笑面如花

key分布不均衡。

发布于：2年前 (2023-11-20) IP属地：四川省

我来回答