全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

Hive出现数据倾斜问题如何解决？

提问者：帅平问题分类：面试刷题

Hive出现数据倾斜问题如何解决？

Hive面试题 Hive 数据倾斜

发布于：2年前 (2023-11-20) IP属地：四川省

6 个回答

岛是海碎了的心

解决数据倾斜的思路有：

1、数据重分布：打散Key，比如加Hash
2、预聚合：在Shuffle阶段前对数据进行预处理和过滤
3、打散Key+预聚合

注意：

1、Join问题有大表Join小表，大表Join大表问题，他们的情况是不同的，遇到这种场景，首要做的就是行列裁剪，其次再去考虑Join。
2、对于大表Join小表，Hive会基于查询成本最优的策略实现自动的优化，一般手动开启Map-side Join即可，其原理是把小表加载到内存中，把Join操作在Map端完成，减少网络IO和资源消耗。
3、对于大表Join大表，行列剪裁以后加资源。

发布于：9个月前 (01-24) IP属地：四川省

浅语望月

单独处理倾斜key

一般来讲倾斜的key都很少，我们可以将它们抽样出来，对应的行单独存入临时表中，然后打上随机数前缀，最后再进行聚合。或者是先对key做一层hash，先将数据随机打散让它的并行度变大，再汇集。其实办法一样。

发布于：2年前 (2023-11-20) IP属地：四川省

曾经多难忘

sort by代替order by

将结果按某字段全局排序，这会导致所有map端数据都进入一个reducer中，在数据量大时可能会长时间计算不完。使用sort by，那么还是会视情况启动多个reducer进行排序，并且保证每个reducer内局部有序。为了控制map端数据分配到reducer的key，往往还要配合distribute by一同使用。如果不加distribute by的话，map端数据就会随机分配到reducer。

发布于：2年前 (2023-11-20) IP属地：未知

自愈

Join相关的优化如下：

Hive在解析带join的SQL语句时，会默认将最后一个表作为大表，将前面的表作为小表，将它们读进内存。如果表顺序写反，如果大表在前面，引发OOM。不过现在hive自带优化。
map join:特别适合大小表join的情况，大小表join在map端直接完成join过程，没有reduce，效率很高。
多表join时key相同：会将多个join合并为一个MR job来处理，两个join的条件不相同，就会拆成多个MR job计算。

发布于：2年前 (2023-11-20) IP属地：四川省

下个站口、等迩

hive自带了一个参数：

hive.groupby.skewindata=false

这个参数默认是false表示不启用，我们可以启用一下，如果启用了，那么在group by时启动两个MR job。第一个job会将map端数据随机输入reducer，每个reducer做部分聚合，相同的key就会分布在不同的reducer中。第二个job再将前面预处理过的数据按key聚合并输出结果，这样就起到了均衡的效果。

发布于：2年前 (2023-11-20) IP属地：未知

有个笨蛋住进我心

map端做预聚合，也就是group by时，combiner在map端做部分预聚合，可以有效减少shuffle数据量。同时设置checkinterval（预聚合的行数阈值），超过该值就会分拆job。设置这个阈值的配置如下：

hive.map.aggr=true //默认
hive.groupby.mapaggr.checkinterval=100000 // 默认

发布于：2年前 (2023-11-20) IP属地：四川省

我来回答