网易研发团队是如何做故障演练的？

Chaosblade 是阿里巴巴 2019 年开源的混沌工程项目，用于模拟常见的故障场景。

在网易，故障平台对chaosblade做了一层封装，好处是集成了测试环境，以及便于统一管理故障演练的用例；缺点是，因为完全在平台上进行配置，执行者对于chaosblade底层的执行命令很难完全了解。另一方面，限于平台的配置选项有限，无法发挥chaosblade全部的能力。

当然，对于绝大部分故障演练场景来说，平台化的好处是远远大于缺点的；不过，了解下平台操作对应的chaosblade命令也是极有必要的。

在实际项目中，我们把故障演练的用例分为三类：

1、系统级故障，比如应用所在机器内存、磁盘、网络发生问题等等。

2、中间件故障，比如常见的Kafka，数据库，ES引擎等等。

3、业务级故障，比如业务应用本身进程挂掉、假死等等。

本文所描述的演练故障就是在网易真实项目中模拟的所有故障类型（故障描述参考网易故障平台上的说明），入参是指在网易故障平台上需要设置的参数。然后分析对应的blade命令以及其作用。

坦率的讲，执行的是比较基础的用例，并不代表网易在这方面的最高水准；但另一方面，基础的用例对于大部分应用，大部分业务场景都足够了（过于复杂的失败用例往往不会被优化，不优化则没有给企业带来实际价值）。

一般来说，blade命令可以配置的参数是远远多于网易故障平台上的配置数量（这部分可以翻阅官方文档），但网易故障平台的配置一般是最常见最有用的配置项，可以满足绝大多数场景的需求。

系统级故障

内存满载：用于制造内存使用率故障，通过percent参数指定内存使用

入参：percent参数

对应blade命令	作用
blade create mem load	指定内存百分比。目前内存大小计算通过 memory.stat 等文件计算，所以和 free 命令计算不一致，同 top 命令一致，验证时请使用 top 命令查看内存使用

CPU满载：CPU所有内核满载（内存占用率）

blade create cpu load

可以指定核数、具体核满载或者总 CPU 负载百分比。旨在 CPU 在特定负载下，验证服务质量、监控告警、流量调度、弹性伸缩等能力

网络超时：通过指定本地网卡、本地监听端口、延迟时间，来设置本地的网络延迟。例如可以指定本地网卡eth0上的监听端口8080网络延迟3000ms

入参：

1、本地网卡

2、延迟时间

3、本地端口

对应blade命令	作用
blade create network delay	可以指定网卡、本地端口、远程端口、目标 IP 延迟。在本用例中指定本机端口延迟

网络抖动：指定本地网卡、本地端口、丢包比例，来确定网络抖动的程度，比例越大表示网络越不稳定

入参：

1、本地网卡

2、比例

3、本地端口

对应blade命令

作用

blade create network loss

可以指定网卡、本地端口、远程端口、目标 IP 丢包。

磁盘写满载（磁盘读满载）：让磁盘写（读）的性能满载，可指定读数据的块大小

入参：

1、写入块大小（单位 M）

2、超时回收（单位 s）

对应blade命令

作用

blade create disk burn

提升磁盘读写 io 负载，可以指定受影响的目录，也可以通过调整读写的块大小提升 io 负载，默认值是 10，单位是 M，块的数量固定为 100，即在默认情况下，写会占用 1000M 的磁盘空间，读会固定占用 600M 的空间，因为读操作会先创建一个 600M 的固定大小文件，预计 3s之内，在创建时写 io 会升高。验证磁盘 io 高负载下对系统服务的影响，比如监控告警、服务稳定性等。

中间件故障

Kafka连接延迟：配置远程监听端口网络延迟

入参：

1、网卡

2、远程ip

3、远程端口

4、延迟时间

对应blade命令

作用

blade create network delay

可以指定网卡、本地端口、远程端口、目标 IP 延迟。

中间件故障的本质都是模拟远程IP的网络延迟，所以不再重复描述。在我所在的项目中，还模拟了DB连接延迟，Redis连接延迟，ES连接延迟。

业务级故障

进程->杀死进程：通过传入进程标识或者进程号来杀死指定的进程，如传入tomcat 表示杀死系统中所有的tomcat进程。

入参：进程名

对应blade命令	作用
blade create process kill	验证程序的自愈能力，或者服务进程不存在时，系统的容错能力。

实现原理：

--process 内部使用 ps -ef | grep KEY 查找；--process-cmd 内部使用 pgrep 命令查找。使用 kill -9 PIDS 杀死进程。杀死进程后不能自动恢复，需要手动重启服务

进程->进程假死：通过传入进程标识或者进程号来假死指定的进程，如传入tomcat 表示让系统中所有的tomcat进程假死。

入参：进程名

对应blade命令	作用
blade create process stop	暂停进程。

实现原理：

使用 kill -STOP PIDS 暂停进程，使用 kill -CONT PIDS 恢复进程。

任务结束，进程状态恢复正常，无需手动重启。

正文

网易研发团队是如何做故障演练的？

系统级故障

中间件故障

业务级故障

相关阅读

OpenClaw 记忆系统：打造 AI 助手的三层记忆架构

OpenClaw 自动化配置指南 2026：Heartbeat 与 Cron Jobs 完整设置教程

OpenClaw 飞书机器人配置教程：从零开始搭建企业聊天机器人

magic-api 中，我想要只获取当前接口执行sql的执行结果怎么办？

magic-api 低代码开发：AI 辅助编程 Prompt 完整指南

让 AI 助手连接互联网：OpenClaw 配置搜索引擎和浏览器完整教程

OpenClaw个性化配置：SOUL.md与USER.md详解

OpenClaw更新教程：版本升级与自动更新配置

发表评论取消回复

目录[+]