运维/SRE 常见缩写术语速查表

系统性整理运维和 SRE 领域的高频英文缩写,每个词附带中文译名、一句话解释和典型使用场景

运维/SRE 常见缩写术语速查表

一、SRE 核心三件套

缩写全称中文一句话解释举例
SLIService Level Indicator服务水平指标衡量服务质量的具体数字,可量化、可监控”过去 30 天,99.7% 的请求在 200ms 内返回”
SLOService Level Objective服务水平目标对 SLI 设定的目标值,是内部承诺线”99.5% 的请求必须在 200ms 内返回”
SLAService Level Agreement服务水平协议对客户的合同承诺,达不到要赔钱”月度可用性 ≥ 99.9%,低于此值赔偿 10% 月费”

三者关系:

SLI(实际数据) > SLO(内部目标) > SLA(合同底线)
  99.7%             99.5%            99.9%   ← 如果 SLI < SLO 但 > SLA,用户无感知

                                SLI 跌破 SLA → 赔钱

错误预算(Error Budget)

缩写全称中文一句话解释
Error BudgetError Budget错误预算1 − SLO,允许的”犯错额度”。用完了暂停发布,逼团队修稳定性
Burn RateBurn Rate消耗速率错误预算被消耗的速度。1x=匀速消耗,10x=10 倍速消耗,意味着很快会花光

二、可用性与灾难恢复

缩写全称中文一句话解释
HAHigh Availability高可用系统持续运行、不中断服务的能力
RTORecovery Time Objective恢复时间目标故障发生后,多久必须恢复服务
RPORecovery Point Objective恢复点目标故障发生后,允许丢失多少数据(按时间算)
DRDisaster Recovery灾难恢复整个数据中心/区域挂了之后的恢复方案
MTTRMean Time to Repair平均修复时间从故障发生到修复完成的平均时间
MTBFMean Time Between Failures平均故障间隔两次故障之间的平均运行时间
MTTDMean Time to Detect平均检测时间从故障发生到被监控发现的平均时间
MTTFMean Time to Failure平均失效时间不可修复系统的平均寿命(如硬盘)

RTO vs RPO 的区别(关键!):

        故障发生              服务恢复
           |<---- RTO ---->|
    ───────┼────────────────┼────────── 时间线
           |<-- RPO -->|                          ←
           这段时间的数据丢了                      数据

RTO 问的是”多快能好”,RPO 问的是”能丢多少数据”。

可用性等级对照表:

可用性全年允许宕机俗称
99% (两个 9)3.65 天
99.9% (三个 9)8.76 小时高可用
99.99% (四个 9)52.6 分钟电信级
99.999% (五个 9)5.26 分钟运营商级

三、性能指标

缩写全称中文一句话解释
QPSQueries Per Second每秒查询数每秒处理多少个请求
TPSTransactions Per Second每秒事务数每秒完成多少个业务事务(一个事务可能包含多个请求)
P5050th Percentile中位数延迟50% 的请求在这个时间内完成
P9595th Percentile95 分位延迟95% 的请求在这个时间内完成,排除 5% 长尾
P9999th Percentile99 分位延迟99% 的请求在这个时间内完成,反映最差用户体验
P99999.9th Percentile99.9 分位延迟千分之一长尾,通常是极端异常
IOPSInput/Output Operations Per Second每秒 IO 操作数磁盘每秒能处理多少次读写
ThroughputThroughput吞吐量单位时间内处理的数据量(MB/s)

为什么不用平均值?

请求延迟:10ms, 10ms, 10ms, 10ms, 5000ms  →  平均 = 1008ms
但 80% 的请求只有 10ms!平均值被一个异常值严重扭曲了。
P50 = 10ms  ← 这才是真实用户体验

四、基础设施与云

缩写全称中文一句话解释
IaCInfrastructure as Code基础设施即代码用代码管理基础设施,如 Terraform、Ansible
GitOpsGit OperationsGit 运维以 Git 为唯一真相源,声明式管理基础设施
CI/CDContinuous Integration / Continuous Delivery持续集成/持续交付代码提交 → 自动构建测试 → 自动部署
K8sKubernetes容器编排平台(K 到 s 中间有 8 个字母)
VMVirtual Machine虚拟机完整操作系统虚拟化
AZAvailability Zone可用区云厂商数据中心内的独立故障域
VPCVirtual Private Cloud虚拟私有云云上划出来的私有网络空间
IAMIdentity and Access Management身份与访问管理控制谁可以访问什么资源
CNCFCloud Native Computing Foundation云原生计算基金会Kubernetes、Prometheus、Helm 等项目的归属组织

五、运维方法论

缩写全称中文一句话解释
SRESite Reliability Engineering站点可靠性工程Google 提出的用软件工程方法做运维的实践体系
DevOpsDevelopment + Operations开发运维一体化开发与运维协作的文化和实践,打破部门墙
AIOpsArtificial Intelligence for IT Operations智能运维用 AI/ML 做异常检测、根因分析、告警降噪
FinOpsFinancial Operations云财务管理云成本的可视化、优化和治理
Platform EngineeringPlatform Engineering平台工程构建内部开发者平台(IDP),让开发者自助部署和运维
ToilToil重复劳动手动、重复、可自动化的运维工作。SRE 目标是将 Toil 控制在 50% 以下
RunbookRunbook操作手册标准化故障处理流程文档
PostmortemPostmortem事后复盘故障后不问责、只找根因和改进措施的复盘文化

六:监控与可观测性

缩写全称中文一句话解释
OTelOpenTelemetry开放遥测Metrics + Logs + Traces 三合一统一采集标准
REDRate / Errors / Duration速率/错误/延迟服务监控的三个黄金指标
USEUtilization / Saturation / Errors利用率/饱和度/错误资源监控的三个维度
TraceDistributed Trace分布式追踪一次请求跨多个服务的完整调用链路
SpanSpan跨度Trace 中的一个操作单元(如一次 HTTP 调用)
TSDBTime Series Database时序数据库专门存储带时间戳的指标数据的数据库,如 Prometheus

RED vs USE:

RED(面向服务)              USE(面向资源)
  请求速率                     CPU 利用率
  请求错误率                   内存饱和度
  请求延迟                     IO 错误

七、日常排障缩写

缩写全称中文使用场景
OOMOut of Memory内存耗尽dmesg | grep -i oom
PIDProcess ID进程号kill -9 PID
CPUCentral Processing Unit中央处理器top / mpstat
IOInput/Output输入输出iostat -x 1
NICNetwork Interface Card网卡sar -n DEV 1
DNSDomain Name System域名系统dig / nslookup
SSL/TLSSecure Sockets Layer / Transport Layer Security安全传输协议加密 HTTPS 通信
mTLSMutual TLS双向 TLS服务网格中服务间互相验证证书
JWTJSON Web TokenJSON Web 令牌API 认证用的签名字符串
RBACRole-Based Access Control基于角色的访问控制K8s 中控制谁能操作什么资源