全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

Linkis提示资源不足的有什么排查方法？

提问者：帅平问题分类：大数据

Linkis

发布于：3年前 (2023-10-11) IP属地：四川省

1 个回答

小馋兔

资源不足分为两种情况

1.服务器本身的资源不足 
2.用户自身的资源不足（linkis会对用户资源进行管控）。

这两种资源在linkis中都记录在linkis_cg_manager_label_resource和linkis_cg_manager_linkis_resources中，前者为label和resource的关联表，后者为resource表
通常情况下，linkis对资源的高并发管控是安全的，不建议通过修改表记录的方式去强行重置用户资源记录。但是由于安装调试过程中，linkis的执行环境有所不同，所以会出现引擎启动失败，或在引擎启动过程中对微服务的反复重启导致资源没有安全释放，或者监控器没来得及自动清理（有小时级的延迟），就可能会出现资源不足的问题，严重时会导致用户的大部分资源处于上锁状态。因此对于排查资源不足可以参考以下步骤：

1.在管理台确认ECM的剩余资源是否大于引擎的请求资源，如果ECM剩余的资源非常少，那么就会导致请求新的引擎失败，需要手动在ECM中关掉部分闲置的引擎，linkis对引擎也有闲时自动释放的机制，但这个时间默认设置的相对较长。
2.如果ECM资源充足，则必定是用户剩余资源不足以请求新的引擎，首先确定用户的执行任务时产生的label标签，例如用户hadoop在Scriptis上执行spark2.4.3脚本，则在linkis_cg_manager_label表中对应下条记录

我们拿到这条label的id值，在关联表linkis_cg_manager_label_resource中找到对应的resourceId，通过resourceId在linkis_cg_manager_linkis_resources中就能找到对应的label的resource记录，可以检查下这条记录中的剩余资源
如果这条资源排查判定是异常情况，即不符合实际引擎启动产生的资源。可以进行以下操作恢复：
在确认该label下所有引擎已经关停的情况下，可以将这条资源和关联表linkis_cg_manager_label_resource对应的关联记录直接删除，再次请求时则会自动重置这条资源。

发布于：3年前 (2023-10-11) IP属地：四川省

什么放弃治疗

该label所有引擎已经关停在上个例子中是指的hadoop用户在Scriptis上启动的spark2.4.3的引擎已经全部关停，可以在管理台的资源管理中看到该用户启动的所有引擎实例。否则可能CPU资源不足，建议调小驱动核数还会出现该label的资源记录异常。
也可以关闭资源检查：linkismanager服务修改下这个配置

wds.linkis.manager.rm.request.enable=false

发布于：3年前 (2023-10-11) IP属地：四川省

我来回答