运维/SRE 常见缩写术语速查表
一、SRE 核心三件套
| 缩写 | 全称 | 中文 | 一句话解释 | 举例 |
|---|
| SLI | Service Level Indicator | 服务水平指标 | 衡量服务质量的具体数字,可量化、可监控 | ”过去 30 天,99.7% 的请求在 200ms 内返回” |
| SLO | Service Level Objective | 服务水平目标 | 对 SLI 设定的目标值,是内部承诺线 | ”99.5% 的请求必须在 200ms 内返回” |
| SLA | Service Level Agreement | 服务水平协议 | 对客户的合同承诺,达不到要赔钱 | ”月度可用性 ≥ 99.9%,低于此值赔偿 10% 月费” |
三者关系:
SLI(实际数据) > SLO(内部目标) > SLA(合同底线)
99.7% 99.5% 99.9% ← 如果 SLI < SLO 但 > SLA,用户无感知
↑
SLI 跌破 SLA → 赔钱
错误预算(Error Budget)
| 缩写 | 全称 | 中文 | 一句话解释 |
|---|
| Error Budget | Error Budget | 错误预算 | 1 − SLO,允许的”犯错额度”。用完了暂停发布,逼团队修稳定性 |
| Burn Rate | Burn Rate | 消耗速率 | 错误预算被消耗的速度。1x=匀速消耗,10x=10 倍速消耗,意味着很快会花光 |
二、可用性与灾难恢复
| 缩写 | 全称 | 中文 | 一句话解释 |
|---|
| HA | High Availability | 高可用 | 系统持续运行、不中断服务的能力 |
| RTO | Recovery Time Objective | 恢复时间目标 | 故障发生后,多久必须恢复服务 |
| RPO | Recovery Point Objective | 恢复点目标 | 故障发生后,允许丢失多少数据(按时间算) |
| DR | Disaster Recovery | 灾难恢复 | 整个数据中心/区域挂了之后的恢复方案 |
| MTTR | Mean Time to Repair | 平均修复时间 | 从故障发生到修复完成的平均时间 |
| MTBF | Mean Time Between Failures | 平均故障间隔 | 两次故障之间的平均运行时间 |
| MTTD | Mean Time to Detect | 平均检测时间 | 从故障发生到被监控发现的平均时间 |
| MTTF | Mean Time to Failure | 平均失效时间 | 不可修复系统的平均寿命(如硬盘) |
RTO vs RPO 的区别(关键!):
故障发生 服务恢复
|<---- RTO ---->|
───────┼────────────────┼────────── 时间线
|<-- RPO -->| ←
这段时间的数据丢了 数据
RTO 问的是”多快能好”,RPO 问的是”能丢多少数据”。
可用性等级对照表:
| 可用性 | 全年允许宕机 | 俗称 |
|---|
| 99% (两个 9) | 3.65 天 | — |
| 99.9% (三个 9) | 8.76 小时 | 高可用 |
| 99.99% (四个 9) | 52.6 分钟 | 电信级 |
| 99.999% (五个 9) | 5.26 分钟 | 运营商级 |
三、性能指标
| 缩写 | 全称 | 中文 | 一句话解释 |
|---|
| QPS | Queries Per Second | 每秒查询数 | 每秒处理多少个请求 |
| TPS | Transactions Per Second | 每秒事务数 | 每秒完成多少个业务事务(一个事务可能包含多个请求) |
| P50 | 50th Percentile | 中位数延迟 | 50% 的请求在这个时间内完成 |
| P95 | 95th Percentile | 95 分位延迟 | 95% 的请求在这个时间内完成,排除 5% 长尾 |
| P99 | 99th Percentile | 99 分位延迟 | 99% 的请求在这个时间内完成,反映最差用户体验 |
| P999 | 99.9th Percentile | 99.9 分位延迟 | 千分之一长尾,通常是极端异常 |
| IOPS | Input/Output Operations Per Second | 每秒 IO 操作数 | 磁盘每秒能处理多少次读写 |
| Throughput | Throughput | 吞吐量 | 单位时间内处理的数据量(MB/s) |
为什么不用平均值?
请求延迟:10ms, 10ms, 10ms, 10ms, 5000ms → 平均 = 1008ms
但 80% 的请求只有 10ms!平均值被一个异常值严重扭曲了。
P50 = 10ms ← 这才是真实用户体验
四、基础设施与云
| 缩写 | 全称 | 中文 | 一句话解释 |
|---|
| IaC | Infrastructure as Code | 基础设施即代码 | 用代码管理基础设施,如 Terraform、Ansible |
| GitOps | Git Operations | Git 运维 | 以 Git 为唯一真相源,声明式管理基础设施 |
| CI/CD | Continuous Integration / Continuous Delivery | 持续集成/持续交付 | 代码提交 → 自动构建测试 → 自动部署 |
| K8s | Kubernetes | — | 容器编排平台(K 到 s 中间有 8 个字母) |
| VM | Virtual Machine | 虚拟机 | 完整操作系统虚拟化 |
| AZ | Availability Zone | 可用区 | 云厂商数据中心内的独立故障域 |
| VPC | Virtual Private Cloud | 虚拟私有云 | 云上划出来的私有网络空间 |
| IAM | Identity and Access Management | 身份与访问管理 | 控制谁可以访问什么资源 |
| CNCF | Cloud Native Computing Foundation | 云原生计算基金会 | Kubernetes、Prometheus、Helm 等项目的归属组织 |
五、运维方法论
| 缩写 | 全称 | 中文 | 一句话解释 |
|---|
| SRE | Site Reliability Engineering | 站点可靠性工程 | Google 提出的用软件工程方法做运维的实践体系 |
| DevOps | Development + Operations | 开发运维一体化 | 开发与运维协作的文化和实践,打破部门墙 |
| AIOps | Artificial Intelligence for IT Operations | 智能运维 | 用 AI/ML 做异常检测、根因分析、告警降噪 |
| FinOps | Financial Operations | 云财务管理 | 云成本的可视化、优化和治理 |
| Platform Engineering | Platform Engineering | 平台工程 | 构建内部开发者平台(IDP),让开发者自助部署和运维 |
| Toil | Toil | 重复劳动 | 手动、重复、可自动化的运维工作。SRE 目标是将 Toil 控制在 50% 以下 |
| Runbook | Runbook | 操作手册 | 标准化故障处理流程文档 |
| Postmortem | Postmortem | 事后复盘 | 故障后不问责、只找根因和改进措施的复盘文化 |
六:监控与可观测性
| 缩写 | 全称 | 中文 | 一句话解释 |
|---|
| OTel | OpenTelemetry | 开放遥测 | Metrics + Logs + Traces 三合一统一采集标准 |
| RED | Rate / Errors / Duration | 速率/错误/延迟 | 服务监控的三个黄金指标 |
| USE | Utilization / Saturation / Errors | 利用率/饱和度/错误 | 资源监控的三个维度 |
| Trace | Distributed Trace | 分布式追踪 | 一次请求跨多个服务的完整调用链路 |
| Span | Span | 跨度 | Trace 中的一个操作单元(如一次 HTTP 调用) |
| TSDB | Time Series Database | 时序数据库 | 专门存储带时间戳的指标数据的数据库,如 Prometheus |
RED vs USE:
RED(面向服务) USE(面向资源)
请求速率 CPU 利用率
请求错误率 内存饱和度
请求延迟 IO 错误
七、日常排障缩写
| 缩写 | 全称 | 中文 | 使用场景 |
|---|
| OOM | Out of Memory | 内存耗尽 | dmesg | grep -i oom |
| PID | Process ID | 进程号 | kill -9 PID |
| CPU | Central Processing Unit | 中央处理器 | top / mpstat |
| IO | Input/Output | 输入输出 | iostat -x 1 |
| NIC | Network Interface Card | 网卡 | sar -n DEV 1 |
| DNS | Domain Name System | 域名系统 | dig / nslookup |
| SSL/TLS | Secure Sockets Layer / Transport Layer Security | 安全传输协议 | 加密 HTTPS 通信 |
| mTLS | Mutual TLS | 双向 TLS | 服务网格中服务间互相验证证书 |
| JWT | JSON Web Token | JSON Web 令牌 | API 认证用的签名字符串 |
| RBAC | Role-Based Access Control | 基于角色的访问控制 | K8s 中控制谁能操作什么资源 |