Spark Sql中如何解决join倾斜连接的问题?

提问者:帅平 问题分类:大数据
Spark Sql中如何解决join倾斜连接的问题?
1 个回答
玖墨
玖墨
有时,我们可能会遇到分区中分布不均匀的数据,这称为数据倾斜。诸如 join 之类的操作在这些分区上执行得非常慢。通过启用 AQE, Spark 检查 stage 统计信息,确定是否存在 Skew 连接,并通过将较大的分区划分为较小的分区(与其他表/DataFrame 上的分区大小匹配)来优化它。示例如下:
session.conf.set("spark.sql.adaptive.skewJoin.enabled",true)
发布于:1年前 (2022-12-14) IP属地:四川省
我来回答