亚马逊云与Cerebras共建解耦推理架构

亚马逊云科技近日宣布与人工智能计算企业Cerebras建立多年合作伙伴关系,将在其数据中心内部署Cerebras处理器,重点用于人工智能推理任务。此次合作旨在提升大语言模型在代码生成、实时交互等场景下的响应效率,推动人工智能服务性能突破。 根据协议,亚马逊将采用Cerebras的晶圆级引擎技术进行推理运算,并将其整合至Bedrock服务平台。该平台作为亚马逊核心人工智能产品体系,将直接受益于新硬件架构带来的性能跃升。双方未披露具体财务安排,但计划于今年晚些时候在Cerebras硬件上运行主流开源大语言模型及自研的Nova系统。

双芯片协同推理架构

该方案采用创新的“推理解耦”设计,将推理流程分为两个阶段:提示词处理(预填充)与输出生成(解码)。预填充阶段具有高并行性与计算密集特征,需中等内存带宽;而解码阶段为串行过程,虽计算负载较低,却对内存带宽要求极高。由于每个输出标记必须按序生成,解码环节通常成为整体耗时关键点。 为此,亚马逊为不同阶段配置专用硬件:Trainium芯片负责预填充任务,Cerebras CS-3系统专注解码处理。两者通过低延迟、高带宽的弹性结构适配器网络连接,确保任务分离的同时实现服务一体化运行。 亚马逊计算与机器学习服务副总裁表示:“当前推理速度瓶颈制约了实时编码辅助等应用体验。我们与Cerebras构建的分工协同架构,使各系统发挥所长,预计将带来数量级的性能提升。”

安全架构与产业影响

新系统将运行于亚马逊Nitro安全架构之上,保障Cerebras CS-3系统与Trainium实例之间的安全隔离与运行一致性,延续现有云环境的安全标准。 此次合作进一步巩固了亚马逊自研芯片的市场定位。Trainium被定义为兼顾扩展性与成本效益的全栈人工智能芯片。目前,Anthropic已将亚马逊列为重要训练合作伙伴,并使用Trainium开展模型训练与部署;OpenAI亦通过亚马逊基础设施调用大量Trainium算力支持前沿模型研发。 在解码加速方面,Cerebras CS-3系统专为高带宽需求优化,其内存带宽较顶级图形处理器提升数千倍。随着推理任务中逻辑推演比重上升,单次请求生成的标记数持续增长,对解码系统提出更高挑战。多家知名人工智能企业已在高负载场景中部署该系统。 Cerebras Systems创始人兼首席执行官指出:“与亚马逊的合作将打造全球领先的解耦推理解决方案,让企业能在现有云环境中获得突破性加速体验。这一进展将进一步加剧人工智能芯片领域的技术竞争格局。”