Google新算法实现6倍内存压缩零损失

谷歌发布革命性内存压缩算法TurboQuant

本周三，谷歌研究院正式推出名为TurboQuant的新型压缩技术，该方案在不牺牲任何精度的前提下，可将语言模型推理阶段的关键内存占用降低至六分之一以下。相关研究成果已被国际机器学习顶级会议ICLR 2026接收，并迅速在网络引发广泛关注。

尽管量化压缩本身已属重大进展，但“零精度损失”的真正含义需结合实际场景理解。TurboQuant的核心目标是优化KV缓存——即在生成式对话中用于存储历史上下文信息的GPU内存区域。随着模型上下文长度突破百万令牌级别，此类缓存体积可能飙升至数百吉字节，成为制约部署规模的主要障碍。

传统方法通过削减数值位宽来实现压缩，如从32位浮点转为16位、8位乃至4位整数。这一过程类似于将高分辨率图像降级为低清版本：虽能节省空间，却不可避免地带来细节丢失。此外，这类方法通常需额外存储“量化参数”以维持模型表现，每项数据增加1至2比特开销，部分抵消了压缩带来的收益。

TurboQuant采用两项创新子算法彻底规避此问题：其一，PolarQuant将向量分解为幅度与方向两个独立成分；其二，QJL（量化约翰逊-林登斯特劳斯）算法将残差误差压缩为单一符号位（正或负），无需保存任何额外常数。谷歌指出，该机制为注意力计算提供了数学上无偏的估计方式。

在Gemma与Mistral系列模型上的测试显示，当压缩比达到4倍时，模型仍能维持与全精度相当的性能水平，包括在长达十万令牌的“大海捞针”任务中实现100%准确率。这一成果对于构建具备超长上下文能力的语言系统具有决定性意义。

需要强调的是，“零精度损失”仅适用于推理阶段的中间缓存压缩，而非模型权重本身。后者涉及更复杂的训练与结构问题，属于另一独立挑战。而本技术所处理的正是理论上可逆的临时计算状态。

区别于需重构模型架构或重新训练的优化手段，TurboQuant无需任何微调操作，运行时资源消耗几乎可以忽略。理论上可无缝嵌入现有推理流程。目前该技术已在Gemma、Mistral及Llama等多个主流开源模型上完成验证，尚未部署于谷歌内部生产环境。

相关论文将于ICLR 2026正式发表。尽管仍处于实验室阶段，但其潜力已促使产业界重新评估高性能内存硬件的需求格局，或将推动下一代推理基础设施的演进。