全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

Spark Stage的划分逻辑？如何查看Spark任务的Stage？你在做任务优化的时候有哪些优化策略？

提问者：帅平问题分类：面试刷题

Spark面试题性能调优 Spark

发布于：3个月前 (05-15) IP属地：

1 个回答

披起头发是娇弱

Spark 通过宽依赖操作（如groupByKey、join）将作业划分为多个 Stage，每个 Stage 内部的窄依赖操作可以高效地流水线执行。理解 Stage 的划分逻辑有助于优化 Spark 作业，例如减少不必要的 Shuffle、调整分区数等。
启动Spark作业后，Spark Web UI可以查看Stage划分和性能指标，Stages的标签页会展示以下信息：

Stage 列表：展示所有 Stage 的 ID、名称、状态（运行中 / 已完成 / 失败）、任务数量、输入输出数据量等。
依赖关系：通过 Parent Stages 字段查看 Stage 之间的依赖关系（哪个 Stage 是上游 / 下游）。
Shuffle 指标：关注 Shuffle Read Size/Records 和 Shuffle Write Size/Records，这些指标反映了 Shuffle 的数据量。

推荐优先使用 Spark Web UI 查看 Stage 划分和性能指标，结合 EXPLAIN 命令分析 SQL 执行计划。对于复杂场景，可以通过编程方式获取更详细的运行时信息。通过这些工具，可以定位 Shuffle 操作、数据倾斜等性能瓶颈，针对性地优化 Spark 作业。

发布于：3个月前 (05-15) IP属地：

我来回答