亚马逊云与Cerebras共建解耦推理架构

亚马逊云科技近日宣布与人工智能计算企业Cerebras建立多年合作伙伴关系，将在其数据中心内部署Cerebras处理器，重点用于人工智能推理任务。此次合作旨在提升大语言模型在代码生成、实时交互等场景下的响应效率，推动人工智能服务性能突破。根据协议，亚马逊将采用Cerebras的晶圆级引擎技术进行推理运算，并将其整合至Bedrock服务平台。该平台作为亚马逊核心人工智能产品体系，将直接受益于新硬件架构带来的性能跃升。双方未披露具体财务安排，但计划于今年晚些时候在Cerebras硬件上运行主流开源大语言模型及自研的Nova系统。

双芯片协同推理架构

该方案采用创新的“推理解耦”设计，将推理流程分为两个阶段：提示词处理（预填充）与输出生成（解码）。预填充阶段具有高并行性与计算密集特征，需中等内存带宽；而解码阶段为串行过程，虽计算负载较低，却对内存带宽要求极高。由于每个输出标记必须按序生成，解码环节通常成为整体耗时关键点。为此，亚马逊为不同阶段配置专用硬件：Trainium芯片负责预填充任务，Cerebras CS-3系统专注解码处理。两者通过低延迟、高带宽的弹性结构适配器网络连接，确保任务分离的同时实现服务一体化运行。亚马逊计算与机器学习服务副总裁表示：“当前推理速度瓶颈制约了实时编码辅助等应用体验。我们与Cerebras构建的分工协同架构，使各系统发挥所长，预计将带来数量级的性能提升。”

安全架构与产业影响

新系统将运行于亚马逊Nitro安全架构之上，保障Cerebras CS-3系统与Trainium实例之间的安全隔离与运行一致性，延续现有云环境的安全标准。此次合作进一步巩固了亚马逊自研芯片的市场定位。Trainium被定义为兼顾扩展性与成本效益的全栈人工智能芯片。目前，Anthropic已将亚马逊列为重要训练合作伙伴，并使用Trainium开展模型训练与部署；OpenAI亦通过亚马逊基础设施调用大量Trainium算力支持前沿模型研发。在解码加速方面，Cerebras CS-3系统专为高带宽需求优化，其内存带宽较顶级图形处理器提升数千倍。随着推理任务中逻辑推演比重上升，单次请求生成的标记数持续增长，对解码系统提出更高挑战。多家知名人工智能企业已在高负载场景中部署该系统。 Cerebras Systems创始人兼首席执行官指出：“与亚马逊的合作将打造全球领先的解耦推理解决方案，让企业能在现有云环境中获得突破性加速体验。这一进展将进一步加剧人工智能芯片领域的技术竞争格局。”