图片来源:Unsplash
据The Information报道,微软正在重绘其自研人工智能服务器芯片的产品路线图,将在未来几年内专注于推出设计更保守、开发难度更低的芯片版本,目标是在2028年前克服当前导致研发延迟的一系列问题。
微软希望通过简化部分芯片设计,并推迟某些芯片的发布时间表,以降低整体研发复杂度,同时确保这些产品在未来三年内仍能与NVIDIA的AI芯片保持竞争力。
微软高管在上周的一次芯片团队会议上向工程师们通报了这一新计划。此前,由于进展滞后,微软已将原定于2025年发布的Maia 200推迟至2026年。
与Google和亚马逊一样,微软也在尝试自研AI芯片,希望为OpenAI的ChatGPT等AI服务提供NVIDIA以外的替代方案。当前,NVIDIA几乎垄断了AI芯片市场,并对芯片定价和供应拥有绝对控制权。
根据多位NVIDIA员工的说法,微软是其2023年营收最大客户,仅在Azure云服务上的AI芯片采购就耗资数十亿美元。
微软于2024年推出首款AI芯片Maia 100,并同时启动三个后续版本的研发,代号分别为Braga、Braga-R 和 Clea,原定于2025至2027年间陆续发布。然而,Braga与Clea均基于全新架构,开发难度极高,导致延期。
Braga芯片的设计直到今年6月才完成,已较原计划晚了约半年。Braga的延迟引发内部担忧:后续的Braga-R与Clea发布时间可能也将推迟,等到它们真正面市时,可能已难以对抗NVIDIA的新一代产品。
为此,微软高层上周向工程师透露,公司计划在2027年推出一个“过渡型”芯片——Maia 280,性能介于Braga与Braga-R之间。Maia 280将基于Braga架构,并通过将两颗Braga芯片打通互联,作为一个“联合核心”运行,从而增强整体算力。
据悉,微软内部预测Maia 280的“每瓦性能”将比同期NVIDIA芯片高出20%至30%。通过这个新路线图,微软能在无需重新设计Braga架构的前提下,于2027和2028年推出新一代芯片。
Braga-R将更名为Maia 400,预计在2028年实现量产。Maia 400采用“裸晶片级互连”(die-to-die)方式,将两颗芯片的计算核心在封装前打通,形成更高带宽的通信路径,实现更快的性能表现。不过,这种设计也提高了制造缺陷的风险。
这与NVIDIA的做法形成对比,后者采用的是“封装后互联”的方式将两颗完整芯片绑定以提升性能。
尽管Maia 400仍基于Braga架构,但微软将在其上引入Chiplet架构,即将芯片拆分为多个小模块分开制造,再组装为完整系统。此举不仅有助于减少制造缺陷率,还能外包部分模块设计,从而降低成本。不过,采用chiplet的芯片整体性能通常不及单芯片集成版本。
至于Maia系列的第三代芯片Clea,其发布时间已被推迟至2028年之后,前景未明。Clea原计划成为微软首款“性能/功耗比”对标NVIDIA的高端AI芯片。
这一路线图的调整也对微软的芯片合作伙伴造成冲击。知情人士表示,芯片公司 Marvell 原本受雇参与Braga-R(Maia 400)部分chiplet设计,并预计能提前获得收入。但由于微软延期,其股价在今年受客户项目放缓、全球经济放冷与贸易摩擦等多重压力影响而下滑。
不过,并非所有微软芯片项目都遭遇挑战。2024年,微软成功发布了自研CPU——Cobalt,用于替代英特尔和AMD的服务器芯片。相比图形处理器(GPU),中央处理器(CPU)的开发难度更低,亚马逊等科技公司也在内部成功构建了自研CPU体系。
Cobalt不仅用于微软内部服务(如Teams),也对Azure客户开放,且已开始为公司带来收入。据悉,其继任者“Kingsgate”的设计已于今年3月完成,同样采用chiplet架构,并引入高带宽内存。
参考资料:
[1]https://www.theinformation.com/articles/microsoft-scales-back-ambitions-ai-chips-overcome-delays?rc=o6xpry