北大、清华和DeepSeek联合发的新论文《DualPath: Breaking

北大、清华和DeepSeek联合发的新论文《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》arxiv.org/abs/2602.21548以下为AI解读：DualPath 是一个面向多轮代理 LLM 推理的系统，核心改动在于把命中 KV-Cache 的加载从“单一路径”扩展为“双路径”：除了传统的“存储→Prefill 引擎（PE）”，还允许“存储→Decode 引擎（DE）→经由计算网络 RDMA 转发给 PE”，并配合全局调度在两条路径间动态分流；系统还包含以 CNIC 为中心的流量管理以隔离 KV-Cache 传输与模型执行通信，从而在生产代理式负载上把离线吞吐提升最高到 1.87×、在线吞吐平均提升到 1.96×。

它存在的意义在于解决代理式推理从“算力瓶颈”转向“KV-Cache 存储 I/O 瓶颈”后的结构性失衡：在常见 Prefill/Decode 解耦架构里，KV-Cache 往往只由 PE 侧从外部存储读取，导致 PE 的存储网卡（SNIC）长期打满，而 DE 侧 SNIC 闲置，整体吞吐被 PE 侧存储带宽卡死；DualPath 通过利用 DE 侧闲置的存储带宽并借助更高速的计算网络回传，把原本集中在 PE 的 I/O 压力“摊开”，从根上缓解存储带宽瓶颈并提升端到端性能。

同类工作中，Mooncake/TokenLake 走的是“把 KV-Cache 缓存在分布式 DRAM 前缀池/内存池”路线，目标是提高命中与减少外部存储访问；但论文指出 Mooncake 在内存受限（如 RL rollout 时 DRAM 被训练状态占用）或工作集极大（在线服务）时会受成本/容量约束，而 DualPath 直接面向存储后端，通过在所有引擎间均衡 SNIC 读流量来提升有效存储带宽，并显著降低对 DRAM 的依赖；此外，DualPath 也可以叠加中间层 DRAM cache，但论文认为增益有限，强调其主要价值在“跨引擎汇聚与调度存储带宽”而非“加大缓存层”。

HOW I AI

云霞资讯网

北大、清华和DeepSeek联合发的新论文《DualPath: Breaking

热门分类