1 个回答
repartition 和 coalesce 都是Spark中用于重新分区数据的方法。但是他们有以下区别:
1、功能不同: repartition 方法用于增加或减少分区数量,而 coalesce 方法仅用于减少分区数量。
2、数据移动: repartition 方法会进行数据重分区,总是涉及 Shuffle,会导致数据的移动和重新分配。coalesce 默认不 Shuffle。
3、应用场景:repartition:用于重新均匀分布数据,增加分区提高并行度充分利用资源。coalesce:主要用于减少分区,避免 shuffle 开销。
发布于:3周前 (01-22) IP属地:四川省
我来回答
您需要 登录 后回答此问题!