Flink是如何通过checkpoint进行失败恢复的?

提问者:帅平 问题分类:面试刷题
Flink是如何通过checkpoint进行失败恢复的?
1 个回答
今夜星满天
今夜星满天
Flink通过checkpoint失败恢复的过程是:
1、获取checkpoint 元数据文件: 首先客户端提供 Checkpoint 或 Savepoint 的目录,JM 从给定的目录中找到 _metadata 文件 .
2、读取检查点,重置状态:JM 拿到所有算子对应的 State,给各个 subtask 分配 StateHandle(状态文件句柄) ​   TM 启动时的初始化阶段会创建 KeyedStateBackend 和 OperatorStateBackend​   创建过程中就会根据 JM 分配给自己的 StateHandle 从 dfs 上恢复 State.
3、重放数据: 从恢复的检查点后重新读取数据并处理.​​
发布于:3个月前 (02-06) IP属地:四川省
我来回答