SERVER

服务中心
展开分类
收起分类

中科院NeurIPS新成果SpaceServe:以“空分复用”破局MLLM推理行头阻塞难题

2026-01-23 17:36:11

  中国科学院计算技术研究所的研究团队在NeurIPS 2025会议上发布了一项突破性成果——SpaceServe架构,该架构首次将大语言模型(LLM)推理中的并行-解码(P/D)分离技术扩展至多模态场景,通过创新的“空分复用”机制彻底解决了多模态大语言模型(MLLM)推理中的行头阻塞问题。

  随着MLLM在图像理解、视频分析等高分辨率任务中的广泛应用,其推理流程中的多模态编码阶段逐渐成为性能瓶颈。传统系统如vLLM采用“时间复用”策略,即GPU需先完成视觉或音频编码任务后,才能切换至文本解码任务。这种设计在高并发场景下会引发严重问题:一个高分辨率图像的编码可能耗时数百毫秒,导致所有等待生成文本的解码请求被迫阻塞,造成解码器“饥饿”,输出token耗时(TPOT)随请求量激增而急剧上升,系统吞吐量大幅下降。

  研究团队提出的SpaceServe架构通过“空分复用”技术,将传统的时间串行执行模式转变为空间并行执行模式。定量分析显示,视觉编码器具有计算密集、内存带宽需求低的特点,而文本解码器则内存密集、高度依赖HBM带宽存储KV Cache。二者资源需求互补,却在时间复用架构下被迫串行执行,导致GPU资源浪费。SpaceServe的核心创新在于将编码器与解码器解耦,并利用现代GPU的细粒度流式多处理器(SM)分区能力,实现二者在同一GPU上的并发执行。

  该架构包含三大关键技术:首先,通过EPD(Encoder-Prefill-Decode)三阶段逻辑解耦与物理共置,将多模态编码器从共享文本解码器中完全分离,支持独立调度;其次,采用TWSRFT(Time-Window Shortest Remaining Work First)编码器调度策略,按剩余工作量最短优先原则批处理编码请求,避免大图阻塞小图,平滑解码器输入流;最后,开发基于资源利用曲线的动态分配运行时(Space Inference Runtime),离线构建资源-效用曲线,在线根据请求元数据动态分配SM计算单元,最小化端到端延迟。

  在Qwen2-VL系列模型(2B–72B)上的实测数据显示,SpaceServe显著优于传统vLLMv1系统。当请求率增加时,vLLM的TPOT从101ms急剧恶化至365ms,而SpaceServe仅从8.85ms微增至12.62ms。根本原因在于,vLLM中编码器独占GPU时解码器无法推进,而SpaceServe通过空分复用使解码器在编码器运行期间持续生成token,彻底解耦了执行流程。

  与NVIDIA MPS(Multi-Process Service)方案的对比进一步验证了SpaceServe的优势。在10 RPS(每秒请求数)条件下,MPS版本的TPOT为132ms,而SpaceServe通过细粒度SM分区将延迟降至40.68ms,提速3.3倍。这是因为MPS仅在进程级隔离资源,编码器与解码器仍会争抢同一SM内的寄存器、L1缓存等资源,导致缓存污染与执行效率下降。而SpaceServe通过SM级物理分区实现了真正的资源隔离,最大化各自执行效率。

  这项研究无需修改现有模型结构,即可兼容Qwen2-VL、Kimi-VL等主流MLLM,且代码已开源,有望集成至vLLM、SGLang等框架,推动多模态服务的高效落地。值得注意的是,SpaceServe主要优化稳态吞吐(TPOT),对首token延迟(TTFT)影响有限,这与设计目标一致——聚焦于解码器的持续高吞吐,而非单次编码加速。

  索尼着手软件优化PS5游戏,为下一代PlayStation掌机适配提前筹备

  并网式光伏气象站可提前预警暴雨、大风、高温等恶劣天气,让运维人员及时采取防护措施,避免设备损坏影响并网运行。湛江华润水泥厂光伏监测项目中,平台根据气象站传输的实时数据,自动优化并网发电方案,在光照充足时段最大…

  集成太阳能供电技术与先进传感单元的恶臭在线监测系统应运而生,为解决这一行业痛点提供了切实可行的技术路径。金叶仪器不仅提供标准化设备,更能根据客户的特定监测需求与环境条件,对传感器组合、供电配置和数据分析模型进…

  2026款电动MINI COOPER上市,经典设计邂逅5G科技与多样配置

  美国NASA“阿尔忒弥斯3号”登月推迟至2028年,12次在轨加注成关键阻碍

  国产NAS系统飞牛fnOS 1.0正式登场:功能全面升级,开启成熟稳定新篇章

  华为HarmonyOS 6系统上线新功能:查找设备增设关机验证密码防丢失

  Google Gemini再升级:图片AI生成验证开启,未来将拓展至多领域

  航班管家预测2025年中国民航:旅客运输量创新高,多维度数据揭示市场新趋势

  本网站LOGO小熊标志受版权保护,版权登记号:鲁作登字-2015-F-025467,未经ITBEAR官方许可,严禁使用。