1 个回答

有时,我们可能会遇到分区中分布不均匀的数据,这称为数据倾斜。诸如 join 之类的操作在这些分区上执行得非常慢。通过启用 AQE, Spark 检查 stage 统计信息,确定是否存在 Skew 连接,并通过将较大的分区划分为较小的分区(与其他表/DataFrame 上的分区大小匹配)来优化它。示例如下:
session.conf.set("spark.sql.adaptive.skewJoin.enabled",true)
发布于:3个月前 (12-14)
我来回答
您需要 登录 后回答此问题!