1 个回答
Flink通过checkpoint失败恢复的过程是:
1、获取checkpoint 元数据文件: 首先客户端提供 Checkpoint 或 Savepoint 的目录,JM 从给定的目录中找到 _metadata 文件 .
2、读取检查点,重置状态:JM 拿到所有算子对应的 State,给各个 subtask 分配 StateHandle(状态文件句柄) TM 启动时的初始化阶段会创建 KeyedStateBackend 和 OperatorStateBackend 创建过程中就会根据 JM 分配给自己的 StateHandle 从 dfs 上恢复 State.
3、重放数据: 从恢复的检查点后重新读取数据并处理.
发布于:3个月前 (02-06) IP属地:四川省
我来回答
您需要 登录 后回答此问题!