全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

简述Spark的宽窄依赖，以及Spark如何划分stage，每个stage又根据什么决定task个数?

提问者：帅平问题分类：面试刷题

Spark

发布于：3年前 (2023-02-27) IP属地：四川省

3 个回答

素梦瑾然

在Spark中，每个宽依赖和窄依赖之间的转换都会形成一个Stage，每个Stage包含一组具有相同依赖关系的Task。一个Stage中的Task个数由多个因素决定，包括可用的CPU核心数、可用内存大小、数据分区数等。具体来说，Spark会将RDD划分成多个分区，并在每个分区上执行一个Task，以便实现并行计算。Task的个数通常等于RDD的分区数，这样可以确保所有Task都具有相同的计算量，并且可以在不同的节点上并行执行。
在Spark中，Stage划分的基本原则是：如果两个RDD之间存在宽依赖，那么它们就属于不同的Stage。这是因为宽依赖需要进行Shuffle操作，需要将数据从多个节点收集到一个节点上进行计算，这会产生较大的网络开销和计算成本。因此，将宽依赖放在不同的Stage中可以提高计算效率。而对于窄依赖，Spark会尽量将它们放在同一个Stage中，以便在同一个节点上执行计算，从而提高计算效率。

发布于：3年前 (2023-02-27) IP属地：四川省

扎起头发是矫情

Spark中的宽依赖和窄依赖是指RDD之间的依赖关系类型。在Spark中，每个RDD都有一个或多个父RDD和一个或多个子RDD，RDD之间的依赖关系分为宽依赖和窄依赖两种类型：

1、窄依赖（Narrow Dependency）：指一个RDD的每个分区只依赖于父RDD的一个或多个分区，父RDD的每个分区最多只被一个子RDD的分区使用。窄依赖的特点是数据局部性高，可以在同一个节点上完成计算，从而提高计算效率。
2、宽依赖（Wide Dependency）：指一个RDD的一个或多个分区依赖于父RDD的多个分区，或者父RDD的同一个分区被多个子RDD的分区使用。宽依赖的特点是数据局部性较低，需要进行数据的洗牌操作（Shuffle），从而增加了计算成本和网络传输开销。

发布于：3年前 (2023-02-27) IP属地：四川省

泛白的记忆使沉迷

spark的宽窄依赖问题是SparkCore部分的重点考察内容，多数出现在笔试中，大家需要注意。
窄依赖:父RDD的一个分区只会被子RDD的一个分区依赖
宽依赖:父RDD的一个分区会被子RDD的多个分区依赖(涉及到shuffle)
那Stage是如何划分的呢？

根据RDD之间的依赖关系的不同将Job划分成不同的Stage，遇到一个宽依赖则划分一个Stage。
每个stage又根据什么决定task个数?
Stage是一个TaskSet，将Stage根据分区数划分成一个个的Task。

发布于：3年前 (2023-02-27) IP属地：四川省

我来回答