2 个回答
算子或任务因代码异常、数据格式错误、内存溢出(OOM)等失败。TaskManager崩溃或资源耗尽(如内存、CPU、网络带宽不足)。依赖的外部系统(如Kafka、数据库)不可用,导致任务无法执行。显式配置了自动重启策略(如固定延迟、失败率策略)。都会导致重启
发布于:4周前 (05-29) IP属地:
当Checkpoint保存到外部存储(如HDFS、S3)失败时(如网络中断、存储不可用),Flink会尝试重启作业以恢复状态。解决方案:
-- 配置Checkpoint间隔和重启策略
SET 'execution.checkpointing.interval' = '1min';
SET 'restart-strategy.fixed-delay.attempts' = '3'; -- 最多重试3次
SET 'restart-strategy.fixed-delay.delay' = '10s'; -- 每次重试间隔10秒
发布于:4周前 (05-29) IP属地:
我来回答
您需要 登录 后回答此问题!