Doris集群中某一台be经常挂掉怎么排查?

提问者:帅平 问题分类:数据库
Doris集群中某一台be经常挂掉怎么排查?
2 个回答
你深入我心
你深入我心
如果是crash的话,排查思路如下:
1、首先BE core了之后先不要着急,可以先尝试将服务拉起来(建议配置自动拉起),后续继续排查。首先观察堆栈信息,堆栈中有一个 Query id ,这个一般是导致BE core的query
2、通过 query_id 定位下是哪条sql导致的,需要去fe下fe.audit.log中grep下,注意要去所有FE 节点进行搜索,因为如果是做了负载均衡的话可能是发送到其中一个fe节点执行的,因为查询这种不涉及元数据操作的sql是不会转发到master的。
3、定位出是哪条sql导致的,可以先把这条sql禁止掉,同时方便的话可以整理下涉及到的表的schema信息等,把be.out + 整理的信息提供给社区同学,方便复现和定位问题。
发布于:4个月前 (12-17) IP属地:四川省
我是蓝天梦
我是蓝天梦
be经常挂掉一般主要看两块,第一块是看be.out查找是否有crash信息
cat be.out | grep crash
这种错误一般遇到比较少,但是还是需要排查一下。
第二块就是看是否被oom了,使用如下的命令可查看be是否因为oom被系统给kill掉了
#这是linux命令,不需要进入到doris命令中执行
dmesg -T
一般这种情况会比较多,命令执行之后一般会看到类型下面的日志(如果日志比较多,可以使用grep 查找下):
Out of memory: Killed process 2431446 (doris_be) total-vm:18229428kB, anon-rss:2373700kB, file-rss:4856kB, shmem-rss:0kB, UID:0 pgtables:11972kB oom_score_adj:0
如下图:
发布于:4个月前 (12-17) IP属地:四川省
我来回答