spark应用程序运行的时候,在哪些情况下会发生shuffle操作?

提问者:帅平 问题分类:大数据
spark应用程序运行的时候,在哪些情况下会发生shuffle操作?

 您阅读本篇文章共花了: 

2 个回答
霸占丶迩德
霸占丶迩德
1、会引起 RDD 的分区器改变的 Pair RDD 转换:aggregateByKey, foldByKey, reduceByKey,groupByKey, join, leftOuterJoin, rightOuterJoin, fullOuterJoin, cogroup, subtractByKey;
2、RDD 转换:subtract, intersection, 以及 groupWith;
3、sortByKey :总是会引起一个 shuffle;
4、重分区操作,如 repartition、partitionBy 或 coalesce(shuffle=true)。
发布于:1年前 (2022-12-08) IP属地:四川省
国民小哥哥
国民小哥哥
在spark程序运行这些函数的时候会发生shuffle操作
1、gropByKey()
2、reducebyKey()
3、join()
4、union()
5、groupBy()
6、aggregateByKey()

同时还有在发生repartition的时候也会进行shuffle操作
发布于:1年前 (2022-12-08) IP属地:四川省
我来回答