全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

目前团队使用了K8s，请问需要配置哪些监控指标？

提问者：帅平问题分类：运维

Kubernetes

发布于：2年前 (2024-03-26) IP属地：四川省

5 个回答

与风为伴

Pod CPU 使用率
1、container_cpu_usage_seconds_total 是容器累计使用的CPU时间用它除以CPU总时间，就可以得到容器的cpu使用率,首先计算容器的CPU占用时间，由于节点上的cpu有多个，所以需要将容器在每个CPU上占用的时间累加起来。

(sum(rate(container_cpu_usage_seconds_total{namespace="default",pod!=""}[3m])) by (pod))

2、container_spec_cpu_quota是容器的CPU 配额。所以只有配置了resource.cpu.limits CPU 的pod 才有该指标。

(sum(container_spec_cpu_quota{namespace="default",pod!=""}) by (pod) /100000

发布于：2年前 (2024-03-26) IP属地：未知

缝完心脏、一个人活

节点磁盘IO监控
1、node_disk_reads_completed_total：读IO

sum by (instance) (rate(node_disk_reads_completed_total[5m]))

2、node_disk_writes_completed_total ：写IO

sum by (instance) (rate(node_disk_reads_completed_total[5m]))

发布于：2年前 (2024-03-26) IP属地：未知

浅语望月

节点磁盘容量监控
1、node_filesystem_avail_bytes 磁盘可用空间
2、node_filesystem_size_bytes 磁盘总空间
3、磁盘使用率：1- (node_filesystem_avail_bytes{fstype="ext4"}) / (node_filesystem_size_bytes{fstype="ext4"})

发布于：2年前 (2024-03-26) IP属地：未知

踏尽风雪

Node节点内存使用率
1、node_memory_MemTotal_bytes ：节点总内存
2、node_memory_MemFree_bytes ：节点真正尚未被使用的物理内存数量
3、node_memory_MemAvailable_bytes ：从应用程序的角度看到的可用内存；linux 内核为了提升磁盘操作的性能，会消耗一部分内存去缓存磁盘数据。就是buffer和cache。从应用程序角度来说avaliable = free + buffer +cache, 不过这只是一个理想的公式，实际中的数据会有较大偏差。

(1-(node_memory_Buffers_bytes + node_memory_Cached_bytes + node_memory_MemFree_bytes )/node_memory_MemTotal_bytes)*100
(1- node_memory_MemAvailable_bytes/node_memory_MemTotal_bytes)*100

发布于：2年前 (2024-03-26) IP属地：未知

拜你所赐

node节点CPU使用率
node_cpu_seconds_total (counter类型指标，用来统计CPU每种模式下所花费的时间，是CPU时间片的一个累积值)
如果需要计算node节点CPU使用率：CPU使用率是cpu除空闲(idle)状态之外的其他所有CPU状态的时间总和除以总的CPU时间得到的结果。即：

(1- sum(rate(node_cpu_seconds_total{mode="idle"}[1m])) by (instance) / sum(rate(node_cpu_seconds_total[1m])) by (instance)) *100

如果需要采集节点vcpu指标信息：例如4u的一个节点，监控每个u的使用率，可参考公式:

(1- sum(rate(node_cpu_seconds_total{mode="idle"}[1m])) by (instance,cpu) / sum(rate(node_cpu_seconds_total[1m])) by (instance,cpu)) *100

发布于：2年前 (2024-03-26) IP属地：未知

我来回答