消息队列：异步执行链与最终一致性¶

消息队列（MQ）承载的是已不适合继续阻塞当前请求、但必须保证最终完成的后续动作。其核心工程价值在于将同步 HTTP 请求链路中的重型 I/O 操作转移为异步事件驱动，在释放上游吞吐能力的同时，通过持久化日志保障执行的最终确定性。

引入 MQ 后，系统获得了时序解耦与削峰填谷的能力，但同时也引入了分布式事务边界模糊、投递保证语义选择、消费幂等性设计等新的工程约束。

以"文档上传解析"为典型场景：同步链路要求在单次 HTTP 请求内串行完成 保存记录 → OCR 解析 → 向量化 → 写索引，在生产环境下任意一环的抖动都会造成请求超时，且失败后缺乏可靠的补偿路径。

数据库定状态，MQ 推进度：请求进入系统后，首先在数据库以 TaskStatus: Pending 记录任务初始状态。状态写入成功后，系统即可向上游返回成功响应。后续的重型处理任务通过 MQ 投递至后台 Worker 异步执行。这意味着用户看到的"成功"是指"系统已承诺会完成"，而非"已经完成"。
副作用优先原则：消费端提交 Offset 的时序至关重要。正确顺序为：执行副作用 → 数据库更新状态 → 提交 Offset。若先提交 Offset 后执行业务逻辑，Worker 宕机将产生"消息已标记消费但数据未落库"的状态空洞，且该消息不会被重新投递，数据永久丢失。

消息系统的积压特征由生产消费速率差决定。当生产速率长期高于消费速率时，系统积压呈线性增长：

\[\text{Backlog Growth} \approx \text{Produce Rate} - \text{Consume Rate}\]

引入 Little's Law 变体，消息的平均排队等待时延可近似表示为：

\[\text{Queuing Delay} \approx \frac{\text{Backlog}}{\text{Consume Rate}}\]

这揭示了 MQ 的本质物理约束：消息队列不会缩短业务处理的总耗时，它将同步阻塞的线程占用转移为异步队列等待，从而释放上游系统的并发吞吐上限。 如果消费侧的处理能力不足以消化生产速率，积压只会不断增长。

Kafka 的本质是分布式分区追加日志系统，而非传统意义上的点对点消息队列。其顺序保证、并行度单位与消费语义均由此派生。

Partition 与局部顺序：顺序保证仅在单个 Partition 内部成立。若需保证同一文档的解析任务按序执行，必须以 document_id 作为 Partition Key，将同文档的所有消息路由至同一分区。全局顺序消费需强制约束在单分区，代价是放弃水平扩展能力。
Consumer Group 与并行度：Partition 是消费并行度的最小单位。Topic 的分区数决定了消费侧的有效并发上限——若 Topic 仅有 2 个分区，扩容至 10 个 Consumer 实例，实际参与消费的也只有 2 个，其余 8 个处于空闲状态。因此分区数是水平扩展的核心控制抓手。
Rebalance（消费组重平衡）：Consumer 加入、退出或心跳超时时，触发 Partition 的重新分配。此期间未提交 Offset 的消息会在新节点被重复拉取，是偶发重复消费的主要根因。Rebalance 频率过高（如因 GC 停顿或网络抖动）会严重影响消费稳定性。

语义	Offset 提交时机	消息丢失风险	重复消费风险	消费端要求
At-Most-Once	拉取后立即提交	有（Worker 宕机时丢失）	无	无特殊要求
At-Least-Once	业务逻辑完成并落盘后提交	无	有（Rebalance/重启）	必须实现幂等性
Effectively-Once	At-Least-Once + 消费端强幂等去重	无	应用层感知无重复	幂等键 + 事务性写入

At-Least-Once 是业界工程基石。Effectively-Once 在底层通常通过 "At-Least-Once 投递 + 消费端数据库主键幂等去重" 或 "两阶段提交（2PC）与幂等写入事务数据库" 来实现应用层感知的精准一次语义。

幂等性是异步链路的入场条件：At-Least-Once 语义下，重复消费是常态而非异常。应通过数据库主键唯一约束或状态机条件更新（如 UPDATE ... WHERE status='Pending'）封堵重复执行路径。任何不具备幂等保证的消费逻辑，在分布式环境下都是定时炸弹。
重试预算分类治理：
- 临时故障（网络抖动、上游限流 429）：进入重试队列，采用指数退避（Exponential Backoff）策略，如 1s → 2s → 4s → 8s，避免重试风暴（Retry Storm）压垮下游。
- 永久故障（参数格式错误、权限不足、数据结构不兼容）：重试无意义，应直接转入死信队列（DLQ），触发告警并等待人工介入处理。DLQ 中的消息应包含完整的错误上下文和原始消息内容，以便定位根因。
Lag（消费积压）是核心健康指标：积压增长表明消费速率持续低于生产速率。初步响应通常为增加 Partition 数并同步扩容 Consumer 实例，同时排查单次消费耗时是否存在异常（如下游超时、锁等待）。
幂等键贯穿始终：在实际工程中，位点更新、数据库状态修改、外部 API 调用、搜索引擎索引同步等多个外部副作用需保证最终一致性。应将幂等键（Idempotent Key）贯穿始终，结合本地消息表或分布式原子操作，防止状态重入带来的数据污染。

查 Offset 与 Lag：进度滞留在哪个 Partition？是局部积压（某个 Partition Key 热点）还是全局跟不上（消费能力不足）？
查副作用状态一致性：数据库中的 TaskStatus 与 MQ 消费进度是否对齐？是否存在大量 TaskStatus 停留在 Processing 状态超过预期时间？
查 Rebalance 频率：Consumer 的 session.timeout.ms 和 max.poll.interval.ms 配置是否合理？是否因 GC 停顿或单次消费耗时过长频繁触发重平衡？
查 Broker 资源：磁盘是否写满？PageCache 命中率是否下降导致读取性能退化？网络带宽是否被大消息占满？

核心结论： Offset 是执行进度的标记，而非业务状态的真相。健壮的异步系统以数据库状态机作为最终收口，以 MQ 分区日志推进执行进度，并将幂等性作为消费端的基础设计约束，从而在重复投递的常态下保持正确性。