运维/SRE 常见缩写术语速查表

一、SRE 核心三件套

缩写	全称	中文	一句话解释	举例
SLI	Service Level Indicator	服务水平指标	衡量服务质量的具体数字，可量化、可监控	”过去 30 天，99.7% 的请求在 200ms 内返回”
SLO	Service Level Objective	服务水平目标	对 SLI 设定的目标值，是内部承诺线	”99.5% 的请求必须在 200ms 内返回”
SLA	Service Level Agreement	服务水平协议	对客户的合同承诺，达不到要赔钱	”月度可用性 ≥ 99.9%，低于此值赔偿 10% 月费”

三者关系：

SLI（实际数据） > SLO（内部目标） > SLA（合同底线）
  99.7%             99.5%            99.9%   ← 如果 SLI < SLO 但 > SLA，用户无感知
                                       ↑
                                SLI 跌破 SLA → 赔钱

错误预算（Error Budget）

缩写	全称	中文	一句话解释
Error Budget	Error Budget	错误预算	1 − SLO，允许的”犯错额度”。用完了暂停发布，逼团队修稳定性
Burn Rate	Burn Rate	消耗速率	错误预算被消耗的速度。1x=匀速消耗，10x=10 倍速消耗，意味着很快会花光

二、可用性与灾难恢复

缩写	全称	中文	一句话解释
HA	High Availability	高可用	系统持续运行、不中断服务的能力
RTO	Recovery Time Objective	恢复时间目标	故障发生后，多久必须恢复服务
RPO	Recovery Point Objective	恢复点目标	故障发生后，允许丢失多少数据（按时间算）
DR	Disaster Recovery	灾难恢复	整个数据中心/区域挂了之后的恢复方案
MTTR	Mean Time to Repair	平均修复时间	从故障发生到修复完成的平均时间
MTBF	Mean Time Between Failures	平均故障间隔	两次故障之间的平均运行时间
MTTD	Mean Time to Detect	平均检测时间	从故障发生到被监控发现的平均时间
MTTF	Mean Time to Failure	平均失效时间	不可修复系统的平均寿命（如硬盘）

RTO vs RPO 的区别（关键！）：

        故障发生              服务恢复
           |<---- RTO ---->|
    ───────┼────────────────┼────────── 时间线
           |<-- RPO -->|                          ←
           这段时间的数据丢了                      数据

RTO 问的是”多快能好”，RPO 问的是”能丢多少数据”。

可用性等级对照表：

可用性	全年允许宕机	俗称
99% (两个 9)	3.65 天	—
99.9% (三个 9)	8.76 小时	高可用
99.99% (四个 9)	52.6 分钟	电信级
99.999% (五个 9)	5.26 分钟	运营商级

三、性能指标

缩写	全称	中文	一句话解释
QPS	Queries Per Second	每秒查询数	每秒处理多少个请求
TPS	Transactions Per Second	每秒事务数	每秒完成多少个业务事务（一个事务可能包含多个请求）
P50	50th Percentile	中位数延迟	50% 的请求在这个时间内完成
P95	95th Percentile	95 分位延迟	95% 的请求在这个时间内完成，排除 5% 长尾
P99	99th Percentile	99 分位延迟	99% 的请求在这个时间内完成，反映最差用户体验
P999	99.9th Percentile	99.9 分位延迟	千分之一长尾，通常是极端异常
IOPS	Input/Output Operations Per Second	每秒 IO 操作数	磁盘每秒能处理多少次读写
Throughput	Throughput	吞吐量	单位时间内处理的数据量（MB/s）

为什么不用平均值？

请求延迟：10ms, 10ms, 10ms, 10ms, 5000ms  →  平均 = 1008ms
但 80% 的请求只有 10ms！平均值被一个异常值严重扭曲了。
P50 = 10ms  ← 这才是真实用户体验

四、基础设施与云

缩写	全称	中文	一句话解释
IaC	Infrastructure as Code	基础设施即代码	用代码管理基础设施，如 Terraform、Ansible
GitOps	Git Operations	Git 运维	以 Git 为唯一真相源，声明式管理基础设施
CI/CD	Continuous Integration / Continuous Delivery	持续集成/持续交付	代码提交 → 自动构建测试 → 自动部署
K8s	Kubernetes	—	容器编排平台（K 到 s 中间有 8 个字母）
VM	Virtual Machine	虚拟机	完整操作系统虚拟化
AZ	Availability Zone	可用区	云厂商数据中心内的独立故障域
VPC	Virtual Private Cloud	虚拟私有云	云上划出来的私有网络空间
IAM	Identity and Access Management	身份与访问管理	控制谁可以访问什么资源
CNCF	Cloud Native Computing Foundation	云原生计算基金会	Kubernetes、Prometheus、Helm 等项目的归属组织

五、运维方法论

缩写	全称	中文	一句话解释
SRE	Site Reliability Engineering	站点可靠性工程	Google 提出的用软件工程方法做运维的实践体系
DevOps	Development + Operations	开发运维一体化	开发与运维协作的文化和实践，打破部门墙
AIOps	Artificial Intelligence for IT Operations	智能运维	用 AI/ML 做异常检测、根因分析、告警降噪
FinOps	Financial Operations	云财务管理	云成本的可视化、优化和治理
Platform Engineering	Platform Engineering	平台工程	构建内部开发者平台（IDP），让开发者自助部署和运维
Toil	Toil	重复劳动	手动、重复、可自动化的运维工作。SRE 目标是将 Toil 控制在 50% 以下
Runbook	Runbook	操作手册	标准化故障处理流程文档
Postmortem	Postmortem	事后复盘	故障后不问责、只找根因和改进措施的复盘文化

六：监控与可观测性

缩写	全称	中文	一句话解释
OTel	OpenTelemetry	开放遥测	Metrics + Logs + Traces 三合一统一采集标准
RED	Rate / Errors / Duration	速率/错误/延迟	服务监控的三个黄金指标
USE	Utilization / Saturation / Errors	利用率/饱和度/错误	资源监控的三个维度
Trace	Distributed Trace	分布式追踪	一次请求跨多个服务的完整调用链路
Span	Span	跨度	Trace 中的一个操作单元（如一次 HTTP 调用）
TSDB	Time Series Database	时序数据库	专门存储带时间戳的指标数据的数据库，如 Prometheus

RED vs USE：

RED（面向服务）              USE（面向资源）
  请求速率                     CPU 利用率
  请求错误率                   内存饱和度
  请求延迟                     IO 错误

七、日常排障缩写

缩写	全称	中文	使用场景
OOM	Out of Memory	内存耗尽	`dmesg \| grep -i oom`
PID	Process ID	进程号	`kill -9 PID`
CPU	Central Processing Unit	中央处理器	`top` / `mpstat`
IO	Input/Output	输入输出	`iostat -x 1`
NIC	Network Interface Card	网卡	`sar -n DEV 1`
DNS	Domain Name System	域名系统	`dig` / `nslookup`
SSL/TLS	Secure Sockets Layer / Transport Layer Security	安全传输协议	加密 HTTPS 通信
mTLS	Mutual TLS	双向 TLS	服务网格中服务间互相验证证书
JWT	JSON Web Token	JSON Web 令牌	API 认证用的签名字符串
RBAC	Role-Based Access Control	基于角色的访问控制	K8s 中控制谁能操作什么资源