全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

在yarn中有哪些容错机制保证？

提问者：帅平问题分类：面试刷题

在yarn中有哪些容错机制保证？

Hadoop面试题 Hadoop Yarn

发布于：2年前 (2025-01-24) IP属地：四川省

1 个回答

渡不过的奈何桥

在YARN中较为常见的容错机制有以下几种：

1、ApplicationMaster容错：RM监控AM的运行状态，一旦发现它运行失败或者超时，就会重新分配资源并启动它，启动之后AM内部的状态如何恢复由自己保证，比如MRAppMaster在作业运行过程中将状态信息动态记录到HDFS上，一旦出现故障重启后，它能够从HDFS读取并恢复之前的运行状态，减少重复计算带来的开销。
2、NodeManager容错：NM超时没有心跳，则RM认为它死掉，会将上面的Container状态置为失败，并告诉对应的ApplicationMaster，以决定如何处理这些Container中运行的任务
3、Container容错：如果AM在一定时间内未启动分配到的Container，则RM会将该Container状态置为失败并回收它；如果一个Container在运行过程中，因为外界原因导致运行失败，则RM会转告对应的AM,由AM决定如何处理

发布于：2年前 (2025-01-24) IP属地：四川省

我来回答