全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

Spark Sql中如何解决join倾斜连接的问题？

提问者：帅平问题分类：大数据

Spark SparkSQL

发布于：4年前 (2022-12-14) IP属地：四川省

1 个回答

玖墨

有时，我们可能会遇到分区中分布不均匀的数据，这称为数据倾斜。诸如 join 之类的操作在这些分区上执行得非常慢。通过启用 AQE, Spark 检查 stage 统计信息，确定是否存在 Skew 连接，并通过将较大的分区划分为较小的分区(与其他表/DataFrame 上的分区大小匹配)来优化它。示例如下：

session.conf.set("spark.sql.adaptive.skewJoin.enabled",true)

发布于：4年前 (2022-12-14) IP属地：四川省

我来回答