Spark中repartition和colease有什么区别?

提问者:帅平 问题分类:面试刷题
Spark中repartition和colease有什么区别?
1 个回答
我心已凉
我心已凉
repartition 和 coalesce 都是Spark中用于重新分区数据的方法。但是他们有以下区别:
1、功能不同: repartition 方法用于增加或减少分区数量,而 coalesce 方法仅用于减少分区数量。
2、数据移动: repartition 方法会进行数据重分区,总是涉及 Shuffle,会导致数据的移动和重新分配。coalesce 默认不 Shuffle。
3、应用场景:repartition:用于重新均匀分布数据,增加分区提高并行度充分利用资源。coalesce:主要用于减少分区,避免 shuffle 开销。
发布于:3周前 (01-22) IP属地:四川省
我来回答