亚马逊Trainium芯片实验室揭秘:赢得OpenAI和苹果青睐的秘密武器
创始人
2026-03-24 02:05:44
0

在亚马逊CEO安迪·贾西宣布AWS与OpenAI达成500亿美元的重大投资协议后不久,亚马逊邀请我私人参观了位于协议核心的芯片开发实验室。

行业专家正在密切关注亚马逊在该实验室创造的Trainium芯片,因为它可能带来更低成本的AI推理,并有望打破英伟达的近垄断地位。

我的导览向导是实验室主任克里斯托弗·金和工程总监马克·卡罗尔,以及安排此次访问的公关人员多伦·阿伦森。

AWS一直是Anthropic的主要云平台,这种关系重要到足以在Anthropic后来增加微软作为云合作伙伴,以及亚马逊与OpenAI不断发展的合作关系中依然保持。

OpenAI协议使AWS成为该模型制造商新AI智能体构建器Frontier的独家提供商,如果智能体真如硅谷预期的那样重要,这可能成为OpenAI业务的重要组成部分。

是什么让AWS对OpenAI如此有吸引力?作为协议的一部分,这家云巨头已同意为OpenAI提供2千兆瓦的Trainium计算能力。这是一个巨大的承诺,考虑到Anthropic和亚马逊自己的Bedrock服务已经消耗Trainium芯片的速度超过了亚马逊的生产能力。

目前在所有三代产品中部署了140万颗Trainium芯片,Anthropic的Claude在超过100万颗已部署的Trainium2芯片上运行。

值得注意的是,虽然Trainium最初面向更快、更便宜的模型训练(几年前这是更大的优先级),但现在也被调优并用于推理。推理——实际运行AI模型以生成响应的过程——目前是行业中最大的性能瓶颈。

一个例子是:Trainium2处理亚马逊Bedrock服务上的大部分推理流量,该服务支持亚马逊众多企业客户构建AI应用程序,并允许应用程序使用多个模型。

"我们的客户群正在以我们能够提供容量的速度扩展,"金说道。"Bedrock有朝一日可能会和EC2一样大,"他补充道,指的是AWS的巨型计算云服务。

Trainium对比英伟达

除了为英伟达积压、难以获得的GPU提供替代方案外,亚马逊表示其在新的专用Trn3 UltraServers上运行的新芯片,在可比性能下运行成本比使用经典云服务器低50%。

与12月发布的Trainium3一起,这个AWS团队还构建了新的Neuron交换机,卡罗尔说这个组合具有变革性。

"这给了我们巨大的东西,"卡罗尔说。这些交换机允许每个Trainium3芯片在网格配置中与其他每个芯片通信,减少延迟。"这就是为什么Trainium3打破了各种记录,"特别是在"性价比"方面,他说。

当每天涉及数万亿个Token时,这样的改进会累积起来。

事实上,亚马逊的芯片团队在2024年受到了苹果的赞扬。在这家保密公司罕见的开放时刻,苹果的AI总监公开描述了如何使用该团队的另一个芯片——Graviton,这是一个低功耗、基于ARM的服务器CPU,也是该团队设计的第一个突破性芯片。苹果还赞扬了专为推理设计的Inferentia芯片,并对当时还很新的Trainium表示认可。

这些芯片代表了经典的亚马逊策略:看人们想买什么,然后构建一个在价格上竞争的内部替代方案。

历史上,芯片的问题是切换成本。为英伟达芯片编写的应用程序必须重新架构才能与其他芯片配合使用——这是一个耗时的过程,阻碍开发者切换。

但AWS芯片团队自豪地告诉我,Trainium现在支持PyTorch,这是构建AI模型的流行开源框架。这包括许多托管在Hugging Face上的模型,Hugging Face是开发者分享开源模型的巨大库。

卡罗尔告诉我,转换需要"基本上改变一行代码,然后重新编译,然后在Trainium上运行。"换句话说,亚马逊正试图尽可能地削弱英伟达的市场主导地位。

AWS本月还宣布与Cerebras Systems合作,将该公司的推理芯片集成到运行Trainium的服务器上,亚马逊承诺这将提供超强、低延迟的AI性能。

但亚马逊的雄心超越了芯片本身。它还设计托管芯片的服务器。除了网络组件,该团队还设计了"Nitro",这是一个提供虚拟化技术的硬件软件组合;新的最先进液体冷却技术;以及托管这些设备的服务器滑板。

所有这些都是为了控制成本和性能。

全天候工作的"启动"过程

亚马逊的定制芯片设计单位诞生于2015年1月,当时云巨头以约3.5亿美元收购了以色列芯片设计商Annapurna Labs。因此,该团队现在已经为AWS设计芯片超过10年了。该单位保留了其Annapurna的根源和名称——其标志在办公室里随处可见。

这个芯片实验室位于奥斯汀高端"The Domain"区的一栋闪亮的铬合金窗户建筑中,这是一个步行友好的区域,到处都是商店和餐厅,有时被称为奥斯汀的硅谷。

办公室有典型的科技企业氛围:隔间里的桌子、聚会场所和会议室。但隐藏在建筑高层后面的是实际的实验室,可以俯瞰城市的美景。

这个充满货架的实验室,大约有两个大会议室的大小,由于设备上的风扇,这是一个嘈杂的工业空间。它看起来像高中车间教室和好莱坞高端实验室布景的混合体,只是工程师们穿着牛仔裤,而不是白色实验服。

请注意,这里不是制造芯片的地方,所以不需要白色防护服。Trainium3是最先进的3纳米芯片,由TSMC生产,TSMC可以说是3纳米制造的领导者,其他芯片由Marvell生产。

但这是发生"启动"魔法的房间。

"硅启动是你第一次得到芯片的时候,就像一个大型通宵聚会。你待在这里,就像锁定一样,"金解释道。经过18个月的工作,芯片首次激活以验证它按设计工作。团队甚至拍摄了一些Trainium3启动过程并发布在YouTube上。

剧透警告:它从来不是没有问题的。

对于Trainium3,原型芯片最初是风冷的,就像以前的版本一样。当前的芯片现在是液冷的,这提供了能源优势,是相当大的工程壮举。

在启动过程中,芯片连接到风冷散热器的尺寸不对,所以芯片无法激活。

团队毫不慌张,"立即拿了研磨机,开始研磨金属,"金说。因为他们不想让噪音干扰启动披萨聚会的氛围,他们偷偷跑到会议室里进行研磨。

熬夜和解决问题"就是硅启动的全部内容,"金说。

实验室甚至有一个焊接工作站,硬件实验室工程师和焊接大师艾萨克·格瓦拉演示了通过显微镜焊接微小集成电路组件。这是如此困难的工作,高级领导卡罗尔公开承认他做不到,引来了格瓦拉和房间里其他工程师的哄笑。

实验室还包含用于测试和分析芯片问题的定制和商业工具。这里是信号工程师阿文德·斯里尼瓦桑演示实验室如何测试芯片上的每个微小组件。

滑板是实验室的明星

但实验室的明星是展示团队设计的每一代"滑板"的整行。

滑板是容纳Trainium AI芯片、Graviton CPU芯片以及支持板和组件的托盘。将它们与同样由该团队定制设计的网络组件一起堆叠在机架上,你就得到了Anthropic Claude成功的核心系统。

这是12月在AWS re:invent会议上展示的滑板。

通过Anthropic和OpenAI验证

我期望我的向导在参观期间吹嘘OpenAI协议。但他们没有。

这种沉默可能与前述可能笼罩协议的潜在法律阴霾有关。但我得到的感觉是,这些脚踏实地的工程师(他们目前正在设计下一个版本Trainium4)还没有太多机会与OpenAI合作。他们的日常工作到目前为止一直专注于Anthropic和亚马逊的需求。

目前,Trainium2芯片的最大部分部署在Project Rainier中——世界最大的AI计算集群之一——它在2025年底上线,拥有50万颗芯片。它被Anthropic使用。

但主办公室里有一个墙壁监视器显示着关于OpenAI如何使用Trainium的引用。如果很微妙,骄傲还是在那里的。

除了这个实验室,团队还有自己的私人数据中心用于质量和测试目的。距离很短的车程,它不运行客户工作负载,所以它位于托管设施中,而不是AWS数据中心。

安全很严密:进入建筑和访问亚马逊在其中的区域有严格的协议。

数据中心的冷却系统非常吵,必须戴耳塞,空气中充满了加热金属的刺鼻气味。对于普通人来说,这不是一个愉快的地方。

在这个数据中心,有一排排服务器,里面装满了集成亚马逊所有最新定制芯片的滑板:Graviton CPU、液冷Trainium3、Amazon Nitro,都在愉快地计算。液体在封闭系统中运行,意味着它被重复使用,工程师说这也应该有助于减少环境影响。

这是当前Trn3 UltraServer的样子:多个滑板在顶部和底部,Neuron交换机在中间。硬件开发工程师大卫·马丁内斯-达罗在这里对滑板进行维护。

虽然对团队的关注一直很高,但最近审查真的加强了。

亚马逊CEO安迪·贾西密切关注这个实验室,像自豪的父亲一样公开吹嘘其产品。12月,他说Trainium已经是AWS的数十亿美元业务,并称其为他最兴奋的AWS技术之一。他还在宣布OpenAI协议时为芯片喝彩。

团队也感到压力。工程师将在每个启动事件周围24/7工作三到四周,以修复任何问题,使芯片能够大规模生产并投入数据中心。

"我们尽快证明它实际上会工作是非常重要的,"卡罗尔说。"到目前为止,我们做得非常好。"

Q&A

Q1:亚马逊Trainium芯片与英伟达GPU相比有什么优势?

A:亚马逊Trainium芯片在新的专用Trn3 UltraServers上运行成本比使用经典云服务器低50%,同时提供可比性能。它还支持PyTorch框架,开发者只需要基本上改变一行代码就能从英伟达芯片切换过来,大大降低了切换成本。

Q2:Trainium芯片目前的部署规模和应用情况如何?

A:目前在所有三代产品中部署了140万颗Trainium芯片,Anthropic的Claude在超过100万颗Trainium2芯片上运行。最大的部署是Project Rainier,这是世界最大的AI计算集群之一,拥有50万颗芯片,专门供Anthropic使用。

Q3:亚马逊芯片实验室的"启动"过程是什么?

A:"启动"是芯片第一次激活的关键过程,工程师会像通宵聚会一样24/7工作。经过18个月的开发工作后,他们需要验证芯片按设计正常工作。这个过程从不是完全顺利的,团队需要现场解决各种技术问题,比如Trainium3启动时就遇到了散热器尺寸问题。

相关内容

【投融资动态】高光微半导体...
证券之星消息,根据天眼查APP于3月17日公布的信息整理,上海高光...
2026-03-24 02:07:56
亚马逊Trainium芯片...
在亚马逊CEO安迪·贾西宣布AWS与OpenAI达成500亿美元的...
2026-03-24 02:05:44
存储芯片正迎供需失衡加剧局...
Wedbush最新报告指出,在需求激增与供应紧张的双重推动下,部分...
2026-03-24 02:04:37
原创 ...
3 月 23 日下午,在这次的华为春季全场景新品发布会上,华为畅享...
2026-03-24 02:01:30
1299元起!华为推出新款...
【大河财立方 记者 陈薇 文图】受存储芯片等核心元器件价格上涨等因...
2026-03-24 01:59:59
原创 ...
当地时间3月22日,特斯拉CEO埃隆・马斯克在X平台披露,特斯拉与...
2026-03-24 01:58:41
阿里明日或将发布重要芯片产...
证券时报记者获悉,阿里巴巴达摩院明日或将发布重要芯片产品,或直指今...
2026-03-24 01:57:53
华工科技:与国内外核心芯片...
有投资者在互动平台向华工科技提问:“全球高端光芯片短缺,贵司高速光...
2026-03-24 01:56:44

热门资讯

亚马逊Trainium芯片实验... 在亚马逊CEO安迪·贾西宣布AWS与OpenAI达成500亿美元的重大投资协议后不久,亚马逊邀请我私...
原创 1... 3 月 23 日下午,在这次的华为春季全场景新品发布会上,华为畅享 90 系列正式发布,该系列包括:...
1299元起!华为推出新款手机... 【大河财立方 记者 陈薇 文图】受存储芯片等核心元器件价格上涨等因素影响,进入2026年,部分手机厂...
阿里明日或将发布重要芯片产品 证券时报记者获悉,阿里巴巴达摩院明日或将发布重要芯片产品,或直指今年爆发的AI Agent算力需求。...
靠谱的青岛普尼电子仪器有限公司... 靠谱的***青岛普尼电子仪器有限公司:DPO3000系列/安捷伦/混合域/9000系列示波器推荐推荐...
兰州大学申请抗侧信道攻击的SM... 国家知识产权局信息显示,兰州大学、兰州炼芯微架构有限责任公司申请一项名为“抗侧信道攻击的SM3算法的...
股票行情快报:世运电路(603... 证券之星消息,截至2026年3月23日收盘,世运电路(603920)报收于49.9元,下跌3.52%...
全信股份:主要从事军用光电线缆... 证券之星消息,全信股份(300447)03月23日在投资者关系平台上答复投资者关心的问题。 投资者提...
宏达国际电子申请用于行动通讯的... 国家知识产权局信息显示,宏达国际电子股份有限公司申请一项名为“用于行动通讯的调适性逻辑信道优先处理的...
长江存储申请半导体器件专利,提... 国家知识产权局信息显示,长江存储科技有限责任公司申请一项名为“半导体器件、制作方法以及存储器系统”的...