谷歌发布革命性内存压缩算法TurboQuant
本周三,谷歌研究院正式推出名为TurboQuant的新型压缩技术,该方案在不牺牲任何精度的前提下,可将语言模型推理阶段的关键内存占用降低至六分之一以下。相关研究成果已被国际机器学习顶级会议ICLR 2026接收,并迅速在网络引发广泛关注。
聚焦注意力缓存的效率革新
尽管量化压缩本身已属重大进展,但“零精度损失”的真正含义需结合实际场景理解。TurboQuant的核心目标是优化KV缓存——即在生成式对话中用于存储历史上下文信息的GPU内存区域。随着模型上下文长度突破百万令牌级别,此类缓存体积可能飙升至数百吉字节,成为制约部署规模的主要障碍。
颠覆传统压缩逻辑
传统方法通过削减数值位宽来实现压缩,如从32位浮点转为16位、8位乃至4位整数。这一过程类似于将高分辨率图像降级为低清版本:虽能节省空间,却不可避免地带来细节丢失。此外,这类方法通常需额外存储“量化参数”以维持模型表现,每项数据增加1至2比特开销,部分抵消了压缩带来的收益。
TurboQuant采用两项创新子算法彻底规避此问题:其一,PolarQuant将向量分解为幅度与方向两个独立成分;其二,QJL(量化约翰逊-林登斯特劳斯)算法将残差误差压缩为单一符号位(正或负),无需保存任何额外常数。谷歌指出,该机制为注意力计算提供了数学上无偏的估计方式。
实测表现与行业影响
在Gemma与Mistral系列模型上的测试显示,当压缩比达到4倍时,模型仍能维持与全精度相当的性能水平,包括在长达十万令牌的“大海捞针”任务中实现100%准确率。这一成果对于构建具备超长上下文能力的语言系统具有决定性意义。
需要强调的是,“零精度损失”仅适用于推理阶段的中间缓存压缩,而非模型权重本身。后者涉及更复杂的训练与结构问题,属于另一独立挑战。而本技术所处理的正是理论上可逆的临时计算状态。
兼容性与未来展望
区别于需重构模型架构或重新训练的优化手段,TurboQuant无需任何微调操作,运行时资源消耗几乎可以忽略。理论上可无缝嵌入现有推理流程。目前该技术已在Gemma、Mistral及Llama等多个主流开源模型上完成验证,尚未部署于谷歌内部生产环境。
相关论文将于ICLR 2026正式发表。尽管仍处于实验室阶段,但其潜力已促使产业界重新评估高性能内存硬件的需求格局,或将推动下一代推理基础设施的演进。