押题
26
Anno MMXXVI · Vol. I

系统架构设计师 · 论文备考手册

2026 年押题论文知识点 · 理论纲要
编 撰
私人复习资料
版 次
初版 / 2026 春
取 材
官方教程第 2 版 + 划重点版
架构风格 · 数据架构 · 质量属性 · 新技术应用

本手册整理 2026 年系统架构设计师论文考试可能涉及的核心理论知识点。所选题目基于 25 年上下半年真题、考情分析、官方教程章节分布与近年新技术热点综合推演,分四大主题区共 20 道预测题目展开,每题列出该论文写作所需的关键概念、设计原则、技术要点与典型应用场景,作为论文素材的"理论骨架"。

论文写作的真正难点不在记诵理论而在"理论 + 项目"的结合。本手册仅承担前者,使用时请将每一节的理论与自己的项目经验对应起来——选择 2–3 个有特色的措施深入展开,而非面面俱到。

— 凡题前缀 ★ 者为高概率押题 —

I
Chapter One
架构风格类
教程第 1 / 13 / 15 章
Definition · 核心定义

微服务架构是一种将单一应用程序划分为一组小的服务,服务间互相协调、互相配合的架构模式。每个服务运行在独立进程中,采用轻量级通信机制(通常基于 HTTP 的 RESTful API)互相沟通,可独立部署到生产环境。核心特点:小且专注 · 轻量通信 · 松耦合 · 独立部署

微服务的核心优势

  • 技术异构性 — 每个服务可选择最适合自身的技术栈,便于尝试新技术 (技术选型自由)
  • 弹性 — 单个服务故障不影响整体,内置可用性方案与功能降级 (故障隔离)
  • 可扩展性 — 针对单个服务独立扩展,而非整体扩展 (按需扩容)
  • 简化部署 — 服务独立部署,修改一行代码不需重新部署整个系统 (降低部署风险)
  • 与组织结构匹配 — 康威定律的应用,团队规模与服务粒度匹配 (两个披萨团队)
  • 可组合性 — 开放接口,可用不同方式构建应用 (API 复用)
  • 对可替代性的优化 — 可轻易重写或删除不再使用的服务 (降低改造成本)

常见微服务设计模式

聚合器模式聚合器调用多个微服务实现业务功能,整合结果对外提供
代理模式聚合器变种,只委派请求和数据转换,不聚合数据
链式模式同步消息传递,服务 A 调 B 再调 C,链不宜过长
分支模式客户端可同时调用两个独立的微服务链
数据共享模式过渡阶段允许多个微服务共享缓存与数据库
异步消息模式使用消息队列代替 REST,加快响应速度

微服务面临的挑战

  • 分布式系统复杂度 — 服务间通过网络通信,性能、可靠性、数据一致性都受影响
  • 运维成本激增 — 服务数量增多导致部署、配置、监控、日志收集成本呈指数级增长
  • 部署自动化要求高 — 必须建立 CI/CD 流水线,依赖容器与编排工具
  • DevOps 与组织结构变革 — 全功能团队、开发承担运维责任
  • 服务依赖测试与管理 — 服务数量多时,接口契约测试、依赖关系展示成挑战
  • 数据一致性难题 — 受 CAP 约束,从强一致性转向最终一致性

微服务 vs SOA 的本质差异

微服务
  • 更细粒度的服务拆分
  • 每个服务独立数据库
  • 去中心化治理(智能端点哑管道)
  • 轻量级通信(REST/gRPC)
  • 独立部署、独立扩展
SOA
  • 粒度较粗的业务服务
  • 常共享数据库
  • 集中式治理(ESB)
  • SOAP/XML 等重量级协议
  • 统一企业服务总线
软件开发没有银弹——微服务并不能解决所有问题
Definition · 核心定义

领域驱动设计(Domain-Driven Design)是一种以业务领域为核心的软件设计方法论,通过建立统一语言(Ubiquitous Language)、限界上下文(Bounded Context)和领域模型,让代码结构与业务结构高度对应。DDD 是微服务拆分的理论基础之一。

DDD 战略设计

  • 限界上下文(Bounded Context) — 明确模型适用的边界,每个上下文有独立的领域模型,常对应一个微服务
  • 统一语言(Ubiquitous Language) — 业务专家、设计人员、开发人员共用一套术语,消除沟通歧义
  • 上下文映射(Context Mapping) — 描述限界上下文之间的关系:共享内核、客户/供应商、防腐层、开放主机服务等
  • 子域划分 — 核心域(业务竞争力所在)、支撑子域、通用子域

DDD 战术设计

实体(Entity)有唯一标识、生命周期连续,关注身份不是属性
值对象(Value Object)不可变、无唯一标识,关注属性
聚合(Aggregate)一组相关对象的集合,作为数据修改的单元
聚合根(Aggregate Root)聚合内对外的唯一入口,保证一致性
领域服务不属于任何实体或值对象的领域逻辑
资源库(Repository)封装持久化细节,提供集合式访问
工厂(Factory)封装复杂对象的创建逻辑
领域事件描述领域内发生的、对其他对象有影响的事件

DDD 分层架构

  • 用户接口层 — 展示信息、解析用户命令,对应 UI/API 控制器
  • 应用层 — 协调任务、委派工作给领域对象,不含业务规则
  • 领域层 — 业务的核心,包含领域模型与领域逻辑
  • 基础设施层 — 为上层提供通用技术能力(持久化、消息、第三方集成)
Definition · 核心定义

服务网格(Service Mesh)是处理服务间通信的专用基础设施层,负责在现代云原生应用中实现复杂的服务拓扑下的可靠请求传递。通常通过与应用代码部署在一起的轻量级网络代理(Sidecar)实现,对应用透明。

核心架构组成

  • 数据平面(Data Plane) — 由一组以 Sidecar 形式部署的智能代理组成,处理服务间的所有网络通信
  • 控制平面(Control Plane) — 管理和配置代理来路由流量,负责策略和遥测数据收集
  • Sidecar 模式 — 应用容器与代理容器部署在同一 Pod 中,应用无感知
  • 典型实现 — Istio + Envoy、Linkerd、Consul Connect 等

提供的核心能力

流量管理负载均衡、流量切分(金丝雀/灰度)、A/B 测试、超时重试
服务发现动态注册与发现,无需服务自己处理
熔断与限流故障传播阻断、流量整形
可观测性分布式追踪、指标采集、访问日志
安全mTLS 双向加密、身份认证、授权策略
故障注入主动注入延迟或错误以测试系统韧性

解决了微服务的什么痛点

  • 把服务治理逻辑从业务代码中剥离,业务代码只关注业务
  • 跨语言的服务治理一致性(不再需要每种语言都写一套 SDK)
  • 治理策略可动态调整,无需修改代码或重启服务
  • 运维与开发关注点分离
Definition · 核心定义

中台是企业将共性的、稳定的能力沉淀到统一平台层的架构理念,介于前台业务与后台资源之间,提供"小前台 + 大中台"的快速业务响应能力。核心是能力复用数据贯通

中台的分类

  • 业务中台 — 将企业核心业务能力(用户、订单、商品、营销、支付等)下沉,为前台多业务线提供统一服务
  • 数据中台 — 打通各业务系统数据孤岛,统一采集、清洗、建模、服务,提供数据资产复用
  • 技术中台 — 沉淀公共技术能力(消息、缓存、注册中心、网关、监控)
  • AI 中台 — 统一管理算法模型、训练资源、推理服务
  • 组织中台 — 配套中台架构的组织调整与人才复用

中台架构的关键设计要点

  • 能力抽象 — 从多个业务中提炼共性能力,避免过早抽象与过度抽象
  • 服务化封装 — 通过 API 网关对外暴露能力,明确契约
  • 数据资产化 — 建立统一指标体系、主数据管理、标签体系
  • 赋能前台 — 提供低代码/无代码工具、配置化能力,加快前台业务搭建
  • 组织保障 — 中台团队的考核机制需与前台业务成功度挂钩
中台带来的价值
  • 消除重复建设,降低成本
  • 业务快速响应,缩短上线周期
  • 数据贯通,全局洞察
  • 能力沉淀,组织资产化
中台的常见陷阱
  • 过度抽象,反而难复用
  • 中台与前台职责不清
  • 建设周期长,短期收益不明显
  • 大企业病,决策效率下降
Definition · 核心定义

软件架构演化指随着业务发展,软件架构主动或被动地从一种形态向另一种形态逐步迁移的过程。从单体到微服务是典型场景,目标是解决单体在规模扩大后出现的开发、部署、扩展瓶颈

为什么要演化

  • 单体的瓶颈 — 代码库过大难维护、部署风险高、技术栈固化、团队协作困难
  • 业务增长 — 用户量、数据量、功能复杂度都超过单体可承载范围
  • 团队扩张 — 大团队在单体上协作效率下降
  • 技术升级 — 需要拥抱云原生、容器化、新型数据库等

演化的典型路径

  • 第一阶段:单体应用 — 所有功能在一个进程内,简单高效
  • 第二阶段:模块化单体 — 单体内部按业务划分模块,但仍是同一进程
  • 第三阶段:垂直拆分 — 按业务线拆分为多个独立单体(每个仍是单体)
  • 第四阶段:SOA / 服务化 — 抽象公共服务,引入服务总线
  • 第五阶段:微服务 — 细粒度拆分,独立部署、独立数据库
  • 第六阶段:云原生 / 服务网格 — 容器化、Service Mesh、Serverless

关键演化策略

  • 绞杀者模式(Strangler Fig) — 在单体外围逐步建立新服务,逐步"绞杀"老系统
  • 分支抽象(Branch by Abstraction) — 在代码中引入抽象层,逐步替换实现
  • 事件拦截器 — 通过消息事件解耦新旧系统
  • 数据库拆分 — 共享数据库 → 视图隔离 → 数据库逐步迁移
  • API 网关引入 — 在前端隔离老系统,便于后端逐步替换
  • 防腐层 — 在新旧系统之间建立翻译层,防止老系统的概念污染新系统

演化中的关键挑战

数据一致性分布式事务、Saga、最终一致性补偿
服务边界用 DDD 限界上下文指导拆分
团队协作组织架构需同步调整
运维能力需要配套的 CI/CD、监控、链路追踪
性能损耗网络调用代替本地调用,需要权衡
业务连续性不能为了架构而中断业务
❦ · ❦ · ❦
II
Chapter Two
数据 / 数据库类
教程第 6 / 11 / 19 章
Definition · 核心定义

数据湖仓一体(Lakehouse)是一种新型架构,将数据湖的灵活存储数据仓库的事务管理与高性能分析能力结合在一起,实现单一存储既能支持 BI 报表,又能支持机器学习、流处理等多样化负载。

三代数据架构演进

  • 第一代:数据仓库(Data Warehouse) — 结构化数据为主,Schema-on-Write,强一致性,但难处理半结构化/非结构化数据,扩展成本高
  • 第二代:数据湖(Data Lake) — 任意格式存储,Schema-on-Read,灵活但易成"数据沼泽",缺乏数据质量与事务保障
  • 第三代:湖仓一体(Lakehouse) — 在数据湖之上引入表格式(如 Delta Lake、Iceberg、Hudi),提供 ACID、时间旅行、Schema 演化等仓库能力

湖仓一体的核心特征

  • 事务支持(ACID) — 解决湖中并发读写一致性问题
  • Schema 强制与演化 — 既保数据质量又允许灵活变更
  • BI 直查能力 — 直接在数据湖上跑 SQL 分析,无需 ETL 到仓库
  • 开放格式 — Parquet / ORC 等开放格式,避免厂商锁定
  • 计算存储分离 — 计算引擎与存储独立扩展
  • 支持多样化工作负载 — BI、流处理、ML、SQL 都在一份数据上运行

关键技术组件

对象存储S3 / OSS / HDFS 作为底层存储
表格式Delta Lake / Iceberg / Hudi
计算引擎Spark / Flink / Trino / Presto
元数据管理Hive Metastore / Unity Catalog
数据治理血缘追踪、权限管理、数据质量
BI/ML 工具Tableau / PowerBI / Jupyter
Definition · 核心定义

分布式数据库系统是物理上分散、逻辑上统一的数据库系统。数据存储在多个节点上,对用户呈现为一个完整的数据库。设计目标是突破单机性能瓶颈,同时保证可用性与一致性。

CAP 理论与权衡

  • 一致性(Consistency) — 所有节点同一时刻看到相同数据
  • 可用性(Availability) — 每个请求都能在合理时间内得到响应
  • 分区容忍性(Partition Tolerance) — 网络分区时系统仍能继续运作
  • 权衡定律 — 三者不可兼得,分布式系统必选 P,在 C 和 A 之间取舍
  • BASE 理论 — 基本可用(Basically Available)、软状态(Soft State)、最终一致性(Eventual Consistency),是对 ACID 的弱化

数据分片策略

范围分片按 Key 范围划分,连续范围查询友好,易热点
哈希分片按 Key 哈希均匀分布,查询不友好
一致性哈希节点增减时数据迁移量小
目录分片查询元数据决定数据位置,灵活但元数据是瓶颈
复合分片多键组合分片,平衡热点与查询
地理分片按地理位置分片,就近访问

数据复制与一致性协议

  • 主从复制 — 一主多从,读写分离,主挂时需故障切换
  • 多主复制 — 多个主节点都可写,需冲突解决
  • Paxos / Raft — 强一致性共识算法,多数派提交
  • Gossip 协议 — 去中心化的最终一致性传播
  • Quorum 机制 — N/W/R 配置,W+R>N 保证读最新数据

分布式事务方案

  • 2PC(两阶段提交) — 准备阶段 + 提交阶段,强一致但阻塞、协调者单点
  • 3PC — 三阶段提交,引入超时机制缓解阻塞
  • TCC(Try-Confirm-Cancel) — 业务层补偿,灵活但实现复杂
  • Saga 模式 — 长事务拆为多个本地事务 + 补偿动作
  • 基于消息的最终一致性 — 借助可靠消息队列实现
Definition · 核心定义

向量数据库是专门用于存储、索引、查询高维向量数据的数据库系统。它支持相似度检索(最近邻搜索),是大模型时代 RAG(检索增强生成)、推荐系统、图像搜索、语义搜索的基础设施。

为什么需要向量数据库

  • 非结构化数据的语义检索 — 文本、图像、音频通过 Embedding 转为向量后才能做语义匹配
  • 大模型上下文窗口有限 — 通过外部向量检索补充知识,突破上下文长度限制
  • 传统数据库不支持高维相似度检索 — B+ 树、哈希索引在高维空间失效(维度灾难)
  • 实时性要求 — 毫秒级返回 Top-K 最相似结果

关键技术:近似最近邻(ANN)算法

HNSW分层可导航小世界图,查询效率高,目前主流
IVF倒排文件索引,先聚类再在簇内搜索
PQ(乘积量化)向量压缩,减少存储与计算
LSH(局部敏感哈希)哈希到相似桶,简单但精度有限
Annoy随机投影树,构建快但查询慢
ScaNNGoogle 提出的加速量化检索

向量距离度量

  • 欧氏距离(L2) — 几何距离,适合大小敏感场景
  • 余弦相似度 — 夹角余弦,适合方向比大小重要的场景(文本最常用)
  • 内积(IP) — 不归一化的相似度,推荐系统常用
  • 汉明距离 — 比特位差异,二值向量用

向量数据库的架构特点

  • 存储引擎 — 列式存储 + 内存索引,向量大块存盘,索引常驻内存
  • 混合检索 — 向量检索 + 标量过滤(如时间、类别)结合
  • 水平扩展 — 向量分片、副本,支持亿级向量
  • 动态索引 — 支持实时插入与索引更新
  • 典型实现 — Milvus、Pinecone、Weaviate、Qdrant、Chroma、PG-Vector
Definition · 核心定义

大数据处理架构需要兼顾历史数据的全量计算实时数据的低延迟处理。Lambda 架构通过"批 + 流"双层并行实现,Kappa 架构通过"流为主"的单层实现,是两种典型大数据架构模式。

Lambda 架构

  • 批处理层(Batch Layer) — 处理全量历史数据,生成批视图,准确但延迟高(Hadoop / Spark)
  • 速度层(Speed Layer) — 实时处理新数据,生成实时视图,低延迟但近似(Storm / Spark Streaming / Flink)
  • 服务层(Serving Layer) — 合并批视图与实时视图,对外提供查询
  • 优势 — 强容错性、准确性高、能处理超大规模历史数据
  • 劣势 — 两套代码维护、运维复杂、开发成本高

Kappa 架构

  • 核心思想 — 用流处理统一处理一切,全量计算通过"回放"消息队列实现
  • 关键组件 — 消息中间件(Kafka)+ 流处理引擎(Flink)
  • 全量计算流程 — 启动新的流任务,从消息队列头部重新消费,超过原结果后切换
  • 优势 — 一套代码、维护简单、概念清晰
  • 劣势 — 历史数据处理能力受限于消息队列性能,超大规模历史数据吃力

选型决策因素

业务需求偏离线选 Lambda,偏实时选 Kappa
团队能力资源充足选 Lambda,精简团队选 Kappa
算法复杂度批流不同结果用 Lambda,统一处理用 Kappa
历史数据量海量历史数据偏向 Lambda
开发成本Kappa 一套代码维护成本低
计算开销两者相差不大,不是关键因素
Definition · 核心定义

数据治理是对数据资产进行规划、控制、运营的一整套体系,涉及数据质量、数据安全、数据标准、数据生命周期等。主数据管理(MDM)是数据治理的核心子领域,专注于跨系统统一企业的核心实体数据(如客户、产品、组织)。

数据治理框架(DAMA-DMBOK)

  • 数据治理 — 核心,统领其他职能
  • 数据架构管理 — 数据模型、数据流
  • 数据开发 — 数据库设计、实现
  • 数据操作管理 — 数据库运维、性能
  • 数据安全管理 — 访问控制、隐私保护
  • 主数据与参考数据管理
  • 数据仓库与商业智能管理
  • 文档与内容管理
  • 元数据管理
  • 数据质量管理

数据质量的六个维度

准确性数据真实反映对象
完整性数据无缺失
一致性跨系统数据相同
及时性数据反映最新状态
唯一性数据不重复
有效性数据符合业务规则

主数据管理的关键能力

  • 数据建模 — 定义主数据实体、属性、关系
  • 数据集成 — 从多源系统采集主数据
  • 数据清洗与匹配 — 去重、合并、纠错
  • 数据分发 — 推送到下游业务系统
  • 数据治理流程 — 数据所有权、变更审批
  • 数据服务 — API 方式提供主数据查询
❦ · ❦ · ❦
III
Chapter Three
质量属性类
教程第 8 / 9 / 17 / 18 章
Definition · 核心定义

可用性(Availability)指系统在规定时间内能够正常工作的能力,常用 MTBF(平均无故障时间)/(MTBF + MTTR) 衡量。高可用性设计的目标是阻止错误发展成故障,至少把错误影响限制在一定范围内。常说的 4 个 9(99.99%)即每年宕机不超过约 52 分钟。

可用性战术 · 错误检测

  • 命令/响应 — 构件发出命令,期望预定时间内收到审查构件的响应,用于检测远程错误
  • 心跳(计时器) — 构件定期发心跳消息,监听方未收到则判定故障
  • 异常 — 出现异常时由异常处理程序处理

可用性战术 · 错误恢复

  • 表决 — 冗余构件并行计算,表决器按多数规则决定结果(常见于控制系统)
  • 主动冗余(热备份) — 所有冗余构件并行响应,仅用一个结果,错误时切换
  • 被动冗余(暖备份) — 主构件响应,定期同步状态给备用构件,主故障时备用接管
  • 备件 — 备用计算平台,需要时启动替换故障构件
  • 状态再同步 — 恢复的构件提供服务前必须更新状态
  • 检查点/回滚 — 定期记录一致状态,故障时回滚到最近检查点

可用性战术 · 错误预防

  • 从服务中删除 — 如定期删除并重启进程防止内存泄漏
  • 事务 — 保证多步操作的原子性
  • 进程监视器 — 监视进程并处理错误

典型高可用方案

双机热备(Active/Standby)主备模式,心跳机制切换,证券行情类常用
双机互备两台机器互为主备,运行各自业务
双机双工(Active/Active)两台同时对外服务,负载均衡
服务器集群多台机器对外提供同一服务,故障节点自动剔除
异地多活多个地域同时提供服务,抵抗区域性灾难
单元化架构业务封闭在单元内,故障域可控

高可用设计原则

  • 消除单点 — 任何组件都要有冗余
  • 故障隔离 — 舱壁模式、限制故障传播
  • 服务降级 — 非核心功能可暂时停用以保证核心
  • 熔断与限流 — 防止故障雪崩
  • 幂等性 — 重试不产生副作用
  • 无状态化 — 便于横向扩展和故障切换
Definition · 核心定义

安全架构是架构面向安全性方向的细分,应具备可用性、完整性、机密性(CIA 三元组)。安全架构包含三道防线:产品安全架构(源头打造安全产品)、安全技术体系架构(构建通用安全基础设施)、审计架构(独立审计能力)。

信息安全的核心属性(CIA)

  • 机密性(Confidentiality) — 防止数据资源未授权披露
  • 完整性(Integrity) — 防止数据资源未授权修改
  • 可用性(Availability) — 防止系统数据和资源丢失
  • 扩展属性 — 真实性、不可抵赖性、可控性、可审查性

常见安全威胁

信息泄露信息被泄露给非授权实体
破坏完整性数据被非授权增删改
拒绝服务合法访问被阻止
非法使用资源被非授权使用
窃听截取通信信号或电磁泄漏
假冒非法用户冒充合法用户
旁路控制利用安全缺陷绕过防线
授权侵犯越权使用,内部攻击
特洛伊木马软件中含隐藏恶意程序段
陷阱门系统中预留的非法入口
抵赖否认曾发布的消息或操作
重放截获合法通信后重新发送

安全架构设计的关键技术

  • 身份鉴别 — 密码、生物特征、多因素认证、单点登录(SSO)
  • 访问控制 — DAC(自主访问控制)、MAC(强制访问控制)、RBAC(基于角色)、ABAC(基于属性)
  • 内容安全 — 数据脱敏、内容过滤、DLP(数据防泄漏)
  • 冗余恢复 — 数据备份、灾难恢复、业务连续性
  • 审计响应 — 日志记录、安全事件响应、SIEM
  • 恶意代码防范 — 病毒查杀、入侵检测、入侵防御
  • 密码技术 — 对称加密(DES/AES)、非对称加密(RSA/ECC)、哈希、数字签名、PKI

等级保护与风险评估

  • 等保 1.0 / 2.0 — 五个等级:用户自主保护、系统审计保护、安全标记保护、结构化保护、访问验证保护
  • 风险评估三要素 — 资产(价值)、威胁(可能性)、脆弱性(暴露)
  • 评估流程 — 范围确定 → 资产识别 → 威胁识别 → 脆弱性识别 → 风险计算 → 处置建议
  • 残余风险 — 实施安全措施后仍存在的风险,需持续监视

零信任架构(新趋势)

  • 核心原则 — 默认不信任任何用户、设备、网络("Never trust, always verify")
  • 持续验证 — 每次访问都需重新认证授权
  • 最小权限 — 仅授予必需的权限,按需供给
  • 微隔离 — 网络细粒度分段,限制横向移动
Definition · 核心定义

架构评估是在系统开发之前(架构确定之后、详细设计之前)对架构进行评价,以发现潜在风险、检查质量属性是否满足,是降低系统开发风险的重要手段。三大经典方法:SAAM、ATAM、CBAM

架构评估的三大关键要素

  • 敏感点(Sensitivity Point) — 为达成某种质量属性所需的关键决策(特定组件/属性)
  • 权衡点(Tradeoff Point) — 影响多个质量属性的关键属性,是同时影响多个敏感点的属性
  • 风险承担者(Stakeholders) — 架构相关的所有人:架构师、开发、维护、测试、运维、客户、最终用户等
  • 场景(Scenarios) — 由刺激(Stimulus)、环境(Environment)、响应(Response)三部分描述

SAAM 方法

  • 全称 — Scenarios-based Architecture Analysis Method,基于场景的架构分析方法
  • 提出 — 卡耐基梅隆大学 SEI 的 Kazman 等人,最早形成文档的架构分析方法
  • 主要目标 — 评估可修改性,也可用于可移植性、可扩充性等
  • 五个步骤 — 场景开发 → 架构描述 → 单个场景评估 → 场景交互评估 → 总体评估
  • 特点 — 简单实用,可对比多个不同架构

ATAM 方法

  • 全称 — Architecture Tradeoff Analysis Method,架构权衡分析方法
  • 核心 — 在 SAAM 基础上发展而来,重点是识别多个质量属性之间的权衡
  • 九个步骤 — 描述方法 → 描述商业动机 → 描述架构 → 识别架构方法 → 生成质量属性效用树 → 分析架构方法 → 头脑风暴场景 → 再分析 → 呈现结果
  • 输出 — 风险(影响目标的决策)、敏感点、权衡点、非风险(已论证合理的决策)

CBAM 方法

  • 全称 — Cost-Benefit Analysis Method,成本效益分析方法
  • 定位 — 在 ATAM 之上加入经济维度,评估架构决策的成本与收益
  • 用途 — 帮助决策者在多种架构方案中选择性价比最高的
Definition · 核心定义

可扩展性(Scalability)指系统通过增加资源来应对业务增长的能力。在质量属性体系中可归入可修改性的子类(修改系统容量),核心在于不需要重构系统就能提升处理能力

两种扩展方式

垂直扩展 Scale Up
  • 提升单机配置(CPU、内存、磁盘)
  • 实施简单,无需架构改造
  • 性能提升立竿见影
  • 受单机硬件上限制约
  • 成本随性能非线性增长
水平扩展 Scale Out
  • 增加机器数量
  • 需要架构支持(无状态、分布式)
  • 理论上无上限
  • 线性成本增长
  • 引入分布式复杂度

可扩展性的核心设计原则

  • 无状态设计 — 服务层不保存状态,状态外移到缓存/数据库
  • 负载均衡 — DNS、四层(LVS)、七层(Nginx)、客户端均衡
  • 数据分片 — 数据库按 Key 分片、读写分离、分库分表
  • 缓存层次 — 浏览器缓存、CDN、网关缓存、应用缓存、数据库缓存
  • 异步化 — 通过消息队列削峰填谷、解耦组件
  • 资源池化 — 连接池、线程池、对象池
  • 弹性伸缩 — 基于负载指标自动扩缩容(K8s HPA、云平台自动伸缩组)

负载均衡算法

轮询按顺序分发,简单均匀
加权轮询按权重分配,适配不同性能机器
最少连接分给当前连接数最少的
哈希同一源地址或 URL 总落到同一服务
一致性哈希节点变化时迁移最少
响应时间动态权重,慢节点少分配
Definition · 核心定义

容灾是为防止系统因区域性灾难(火灾、地震、断电、网络中断等)导致业务中断而建立的异地备份与恢复机制。备份是容灾的基础手段,关键指标为 RPO(数据丢失容忍度)和 RTO(业务恢复时间容忍度)。

关键指标

  • RPO(Recovery Point Objective) — 恢复点目标,可接受的最大数据丢失量(以时间衡量)
  • RTO(Recovery Time Objective) — 恢复时间目标,从灾难发生到业务恢复的最大可接受时间
  • RCO(Recovery Cost Objective) — 恢复成本目标
  • NRO(Network Recovery Objective) — 网络恢复目标

容灾级别(国标 GB/T 20988)

  • 第 1 级 · 基本支持 — 异地数据备份介质
  • 第 2 级 · 备用场地支持 — 灾难时临时调用备用场地
  • 第 3 级 · 电子传输和部分设备支持
  • 第 4 级 · 电子传输及完整设备支持
  • 第 5 级 · 实时数据传输及完整设备支持
  • 第 6 级 · 数据零丢失和远程集群支持 — 异地双活,RPO ≈ 0

备份策略

完全备份备份所有数据,恢复快但占空间
增量备份只备份上次备份后变化的数据
差异备份备份上次完全备份后的所有变化
3-2-1 原则3 份副本、2 种介质、1 份异地
冷/温/热备份取决于数据可访问的实时性
快照某时点的只读副本

异地多活架构

  • 同城双活 — 同城两数据中心同时对外,主备切换快
  • 两地三中心 — 生产中心 + 同城灾备 + 异地灾备
  • 异地多活 — 多地数据中心同时承担业务流量,靠近用户访问
  • 单元化 — 将业务按用户维度划分单元,单元内闭环,减少跨地域调用
❦ · ❦ · ❦
IV
Chapter Four
新技术 / 场景类
教程第 11 / 14 章
Definition · 核心定义

AI 大模型(Large Language Model, LLM)指基于海量数据预训练的、参数规模在十亿到万亿级的深度学习模型。在企业应用中,大模型架构需要解决模型选型、推理服务、知识增强、安全合规、成本控制等问题。

大模型应用的三种模式

  • Prompt Engineering — 通过精心设计的提示词驱动大模型,成本最低、最灵活
  • RAG(检索增强生成) — 外部知识库 + 大模型,解决知识时效性与领域专业性
  • 微调(Fine-tuning) — 在基础模型上用领域数据训练,成本高但效果定制化
  • 组合应用 — Prompt + RAG + Fine-tuning 三者结合是主流方案

典型大模型应用架构层次

  • 基础设施层 — GPU 集群、模型推理引擎(vLLM、TGI、Triton)、模型服务(MaaS)
  • 模型层 — 基础大模型 + 领域微调模型 + Embedding 模型 + Reranker 模型
  • 能力层 — Prompt 工程、RAG 检索、Agent 编排、工具调用、Function Calling
  • 应用层 — 智能客服、文档助手、代码助手、企业知识库、业务流程自动化
  • 治理层 — 模型评估、内容安全、成本管控、审计日志

关键架构挑战

推理性能响应延迟、并发吞吐,需要 KV Cache、批处理
成本控制Token 计费、模型分级路由、本地化部署
幻觉控制RAG 接地、引用溯源、置信度评估
数据隐私私有化部署、数据脱敏、提示注入防御
评估困难主观题难评估、需要人工 + 自动结合
持续优化用户反馈闭环、模型迭代

AI Agent 智能体架构

  • 大脑 — 大模型作为推理决策核心
  • 记忆 — 短期记忆(对话上下文)+ 长期记忆(向量数据库)
  • 规划 — 任务分解、ReAct、CoT、ToT 等推理范式
  • 工具 — Function Calling 调用外部 API、代码执行、数据库查询
  • 反思 — 自我评估与修正
  • 多 Agent 协作 — 角色分工、辩论、群体智能
Definition · 核心定义

RAG(Retrieval-Augmented Generation)是一种结合信息检索与文本生成的架构。在生成回答前先从外部知识库检索相关内容,将其作为上下文输入大模型,从而降低幻觉、增强时效性、注入领域知识

RAG 的核心流程

  • 离线 · 知识库构建 — 文档采集 → 解析 → 分块(Chunking) → Embedding → 入向量库
  • 在线 · 检索 — 用户问题向量化 → 向量库 ANN 检索 Top-K → 重排(Rerank)
  • 在线 · 生成 — 检索结果 + 问题 + 系统 Prompt 一同输入大模型 → 生成答案
  • 反馈闭环 — 用户反馈用于优化分块策略、检索策略、Prompt

关键技术点

  • 文档解析 — PDF / Word / 表格 / 图片 OCR,保留结构信息
  • 分块策略 — 固定大小 / 按段落 / 按语义 / 重叠窗口 / 父子分块
  • Embedding 模型 — BGE、M3E、OpenAI Embedding、bce-embedding 等
  • 混合检索 — 向量检索(语义)+ 关键词检索(BM25)取长补短
  • 重排(Reranker) — Cross-Encoder 精排,提高 Top-K 准确性
  • 查询改写 — HyDE、Multi-Query、Step-Back 等改写技巧
  • 引用溯源 — 答案中标注来源,可信可查

高级 RAG 架构

Naive RAG基础三步:索引、检索、生成
Advanced RAG引入查询改写、重排、上下文压缩
Modular RAG模块化设计,灵活组合各环节
Graph RAG结合知识图谱,处理结构化关系
Agentic RAG由 Agent 决定何时、如何检索
Self-RAG模型自主判断是否需要检索

RAG 评估维度

  • 检索质量 — 召回率(Recall)、精确率(Precision)、MRR
  • 生成质量 — 答案相关性、事实准确性、流畅度
  • 系统指标 — 端到端延迟、Token 消耗、可用性
  • 评估框架 — RAGAS、TruLens、LangSmith
Definition · 核心定义

边缘计算指在靠近数据源或用户的网络边缘侧,提供计算、存储、网络能力,以满足低延迟、高带宽、隐私保护等需求。是云计算向数据源延伸的范式补充,形成"云边端"协同架构。

边缘计算的核心价值

  • 低延迟 — 数据本地处理,避免回传云端的网络延迟
  • 带宽节省 — 大量原始数据本地处理,仅上传摘要
  • 隐私保护 — 敏感数据不出本地
  • 可靠性 — 网络断开时仍能本地工作
  • 合规要求 — 数据主权与本地化要求

云边端协同架构

  • 端(Device) — 传感器、设备,采集数据,初步处理
  • 边(Edge) — 边缘节点、边缘网关,区域汇聚与实时处理
  • 云(Cloud) — 中心云,全局训练、模型下发、统一管理
  • 协同模式 — 数据协同、模型协同、应用协同

典型应用场景

智能驾驶车端实时决策,毫秒级响应
云游戏渲染下沉到边缘节点降低时延
视频监控本地 AI 分析"事前预警"
工业互联网预测性维护、质量检测
Cloud VR渲染、转码、缓存下沉
CDN内容缓存靠近用户
Definition · 核心定义

数字孪生体是现有或将有物理实体对象的数字模型,通过实测、仿真和数据分析实时感知、诊断、预测物理实体的状态,通过优化和指令调控其行为。是跨层级、跨尺度连接现实世界与虚拟世界的桥梁。

数字孪生的三项核心技术

  • 建模 — 将物理实体数字化、模型化,是创建数字孪生体的源头
  • 仿真 — 让模型动起来,验证物理实体在不同场景下的行为
  • 基于数据融合的数字线程(Digital Thread) — 贯穿全生命周期的数据流

支撑技术体系

顶层框架系统工程 + MBSE
底层伴生物联网(IoT)数据采集
外围使能云计算、大数据、机器学习、区块链
建模技术几何建模、物理建模、行为建模
仿真技术多物理场、多尺度耦合仿真
可视化3D 渲染、AR/VR 沉浸式展示

数字孪生的应用层次

  • 数字孪生原型体 — 设计阶段的虚拟产品模型
  • 数字孪生实例体 — 每个物理实例对应的运行时孪生
  • 数字孪生聚合体 — 多个实例聚合分析、群体优化
  • 典型应用 — 智能制造、智慧城市、数字电网、数字孪生流域
Definition · 核心定义

DevOps 是开发(Dev)与运维(Ops)的融合实践,通过文化、流程、工具的协同,缩短软件交付周期、提高发布质量。是云原生时代的标配,与微服务架构相辅相成。

DevOps 的三大支柱(CALMS)

  • Culture · 文化 — 协作、责任共担、容错文化
  • Automation · 自动化 — 代码、构建、测试、部署、监控全链路自动化
  • Lean · 精益 — 小批量、快速反馈、持续改进
  • Measurement · 度量 — 数据驱动的决策与改进
  • Sharing · 分享 — 知识共享、跨团队透明

CI/CD 流水线

  • 持续集成(CI) — 开发者频繁合并代码到主干,自动构建与测试
  • 持续交付(CD - Delivery) — 构建产物随时可部署到生产,手动触发
  • 持续部署(CD - Deployment) — 通过测试的构建自动部署到生产
  • 典型流程 — 代码提交 → 静态扫描 → 单元测试 → 构建镜像 → 集成测试 → 安全扫描 → 部署预发 → 自动化测试 → 部署生产

关键技术与工具链

版本控制Git / GitLab / GitHub
CI/CDJenkins / GitLab CI / ArgoCD
容器Docker / Containerd
编排Kubernetes / Helm
配置管理Ansible / Terraform(IaC)
监控Prometheus / Grafana / ELK
制品库Nexus / Harbor
APMSkyWalking / Pinpoint / Jaeger

部署策略

  • 蓝绿部署 — 双套环境切换流量,回滚快
  • 金丝雀发布 — 小流量先行验证,逐步放量
  • 滚动更新 — 逐批替换实例,平滑过渡
  • 灰度发布 — 按用户特征定向发布
  • A/B 测试 — 多版本并行验证
DevOps 不只是工具,更是文化与组织的变革
❦ · ❦ · ❦

使用建议——本手册是论文素材的"地基",论文写作的真正落地依赖你的项目经验与现场表达。每个题目至少准备 1 个紧密对应的项目背景;每个项目至少能套用 2–3 个理论方向;每个理论方向选 2–3 个特色措施深入展开,做到论据具体、数据真实、效果可量化。考前两周务必按 120 分钟模拟书写 2–3 篇全文。

愿尔笔下生风、临场不乱。