一水 发自 凹非寺
量子位 | 公众号 QbitAI
“用模型优化芯片设计,比人类工程师更快。”
“合作水到渠成,相关项目已经持续了约18个月……”
好家伙,就在OpenAI博通官宣完合作之后,双方头头儿开始齐聚一堂亲口爆料了!
OpenAI这边派出了CEO奥特曼(右2)和总裁Greg Brockman(右1),博通则派出了总裁兼CEO Hock Tan(C位)以及半导体解决方案事业群总裁Charlie Kawwas(左2)。
人一多之后,什么合作契机、合作细节等等,几乎全都被抢着透了个干净。
不过在这之前,还是先来回顾一下双方刚刚达成的合作内容吧。
合作部署10GW规模芯片
根据公告,OpenAI与半导体巨头博通达成的合作如下——
双方将共同部署由OpenAI设计的10GW规模的AI加速器。预计博通会从2026年下半年开始部署配备AI加速器和网络系统的机架,并于2029年底前完成全部部署。
OpenAI将负责设计这些加速器与系统,而博通则与其合作开发并投入部署。
通过设计自己的芯片与系统,OpenAI可将其在前沿模型与产品开发中所获得的经验“直接内嵌”于硬件之中,解锁新的能力与智慧水平。
这些机架将完全采用博通的以太网及其他互联解决方案,用以满足全球对AI的激增需求,并在OpenAI的设施以及合作伙伴的数据中心内部署。
10GW规模啥概念?
通常而言,传统超算中心的功率大概在几百MW(兆瓦),而10GW=10000MW。
更大白话一点,10GW的电力足以同时点亮约1亿个100瓦灯泡。
OpenAI CEO奥特曼在公告中表示,“与博通的合作是构建解锁AI潜能所需基础设施的关键一步,有助于为人类与企业带来真正的益处”。
博通总裁兼CEO Hock Tan则认为,“博通与OpenAI的合作标志着在追求通用人工智能道路上的一个关键时刻。OpenAI自ChatGPT问世以来一直处于AI革命的前沿,我们非常高兴能与其共同开发并部署10GW的下一代加速器与网络系统,为AI的未来奠定基础”。
OpenAI总裁Greg Brockman强调道,“通过制造我们自己的芯片,我们可以将创造前沿模型与产品的经验直接嵌入硬件,从而解锁新的能力与智能水平”。
博通半导体解决方案事业群总裁Charlie Kawwas宣称,“我们与OpenAI的合作将推动AI突破,并使其潜力更快实现。定制加速器非常适合与标准化以太网的扩展互联解决方案结合应用,以在成本和性能上优化下一代AI基础设施。机架系统将包括博通全套以太网、PCIe和光互联连接方案,重申我们在AI基建领域的方案领导地位”。
总之,对博通而言,这次合作进一步凸显了定制加速器的重要性,以及以太网作为AI数据中心中纵向与横向扩展网络核心技术的战略地位。
而对OpenAI来说,则有助于进一步缓解算力紧张问题,毕竟ChatGPT每周有近8亿活跃用户。
按网友的话来说就是,找老黄买卡还要排队,心急的OpenAI这是决定自己下场了。
更多内幕曝光
OK,听完了各方场面话,咱们再来从几位的聊天中扒扒细节。
过程中主持人化身嘴替,问出了两个关键问题:
为什么OpenAI要现在自研芯片?
自研芯片之后会发生什么?
对于问题一,OpenAI总裁Greg Brockman总结了这样几点理由:1) 对工作负载的深刻理解以及垂直整合的必要性;2)规模带来的历史发现;3)外部合作受挫与实现愿景的必要性。
具体而言,Greg透露其实双方已经合作了约18个月,而且进展很快。之所以决定自研芯片,一大理由是他们对工作负载(workload)有了深刻理解。
我们与生态系统中的众多合作伙伴紧密协作。市场上有众多出色的芯片,每款芯片都有其独特的优势。因此,我们一直在寻找那些我们认为尚未得到充分服务的特定工作负载。
我们思考如何构建能够加速这些可能性的解决方案。所以,我认为我们拥有的这种能力——即能够为我们预见到但难以通过其他合作伙伴实现的需求进行完整的垂直整合——是一个非常明确的项目应用场景。
划重点,通过垂直整合来满足现有芯片无法覆盖到的特定计算任务或工作负载。
这也是奥特曼最近一再强调的点。他在a16z的一场个人采访中表示,曾经自己一直反对垂直整合,但现在认为自己错了。
当时他解释说,虽然经济理论倾向于公司只做一件事,但在OpenAI的案例中,为了实现使命,他们必须做比原先想象中更多的事情。
他还引用了iPhone的例子,称其是科技行业最令人难以置信的产品,并指出它是极其垂直整合的。
而自研芯片,无疑也是让OpenAI走向垂直整合的关键一环。
此外,Greg还谈到了规模的效力。
当我们创立OpenAI时,并没有把太多精力放在计算上。因为当时认为通往AGI的道路主要在于想法,主要在于尝试和其他东西……不过大约两年后,在2017年,我们发现从规模中获得了最好的结果。
当时他们正尝试在视频游戏《Dota 2》背景下扩展强化学习,结果无意中发现了规模扩展的巨大作用,于是开始将其作用于整个AI系统。
所以,自研芯片也是实现算力不断扩展的重要举措。
而且从以往经历来看,没有芯片就没有话语权。Greg透露一路遇到了很多芯片公司,当他们反馈“这是我们认为事情将要发展的方向、模型需要是这种形状的”,结果根本没人听。
处于这样一种境地非常令人沮丧,所以未来走向很明确了。
至于自研芯片后会发生什么,奥特曼认为通过优化整个堆栈,他们将能够实现巨大的效率提升,并能够 从每瓦特中榨取出更多的智能。
这种效率提升将直接转化为更好的性能、更快的模型、更便宜的模型。
这里他还有一个和老黄不谋而合的观点——人们总是想要更多,你只需要给他就行。
另外值得一提的是,Greg也爆料称,AI在自研芯片过程中发挥了大作用—— 已经在用模型优化芯片设计,而且比人类工程师更快(连用了“非常有趣”这样的表述)。
你拿出人类已经优化过的组件,然后投入计算,模型就会提出自己的优化方案,这非常有趣。
我们现在处于这样一个阶段,我不认为我们拥有的任何优化方案是人类设计师想不到的。
通常我们的专家稍后会看一眼,然后说,‘是的,这在我的清单上’,但这可能是‘20件事之一,他们需要再花一个月才能实现’。这确实非常、非常有趣。
One More Thing
其实上个月中旬,OpenAI也和英伟达达成了类似合作。
规模也是一样,采用英伟达系统,OpenAI将部署至少10GW的AI集群(大约数百万块英伟达GPU),时间大约也是在2026年下半年开始。
为支持该计划,英伟达还计划向OpenAI投资高达1000亿美元。
再后来,OpenAI还拉上了AMD,规模大约6GW。
直到今天,博通也加入了OpenAI的这一“朋友圈”。
总之,为了突破算力瓶颈,OpenAI走“自研+合作”的路线已经相当明确了。而且比想象中更早,OpenAI其实已经潜心布局了近两年。
据OpenAI芯片设计方面的员工透露, OpenAI过去18个月一直在研发芯片,并且自o1开启模型推理浪潮后,他们从几个月前也开始专门设计一款推理芯片。
现在,距离我认为的任何首次推出的芯片中,最快、最大规模量产的还有9个月。
不知道OpenAI第一款自研量产芯片表现如何?一把子期待住了~
参考链接:
[1]https://www.youtube.com/watch?v=qqAbVTFnfk8
[3]https://openai.com/index/openai-and-broadcom-announce-strategic-collaboration/