一文看懂华为昇腾芯片
创始人
2025-06-19 23:36:53
0

文末有抽奖赠书福利

最近这几年,网上关于华为昇腾的讨论很多,关注热度也很高。

我们经常说的昇腾,其实有两层定义。

一层是狭义的定义,特指华为昇腾芯片。

昇腾910芯片

另一层是广义的定义,是指围绕昇腾芯片的整个全栈计算生态。既包括硬件,也包括软件、算法以及应用服务。

来自《昇腾计算产业发展白皮书》

今天这篇文章,小枣君主要说说昇腾芯片和硬件体系。

昇腾芯片的演进

昇腾(Ascend)芯片是华为(海思)自研的、专门面向高性能AI计算的NPU(神经网络处理器)芯片。

现在AI浪潮风起云涌,到处都在搞AI大模型,还有AI应用落地。这些工作涉及到巨量的AI训练和推理计算需求,就会用到昇腾这样的AI芯片。

昇腾的对标对象,毫无疑问就是英伟达的GPU系列。

因为众所周知的原因,英伟达的GPU对我们禁售(现在连阉割版的H20都不卖给我们了),所以,昇腾作为国产AI芯片,就发挥了重要的替代作用,也迎来了巨大的市场机遇。

昇腾芯片是一个大系列,主要包括昇腾310和昇腾910两个子系列。

在2018年的华为全联接大会上,华为轮值CEO徐直军首次阐述了他们的AI战略,并正式公布了昇腾910和昇腾310两款AI芯片。当时,实体展示的,是昇腾310。

一年后,2019年8月,华为又正式推出了昇腾910。

昇腾310是SoC小芯片,和我们手机芯片差不多,只有指甲盖那么大,功耗仅有8W。

它集成了多个运算单元,包括CPU(8个ARM A55 Core)、AI Core、数字视觉预处理子系统等,主要面向边缘计算与低功耗终端,以完成AI推理任务为主。

AI Core是计算核心,采用了华为自研的达芬奇(DaVinci)架构,复杂执行矩阵、向量、标量计算的算子任务。CPU负责非矩阵类复杂计算。

昇腾310架构

根据海思官网的披露,昇腾310的FP16算力为8TOPS,INT8算力为16TOPS,采用12nm工艺制造。

昇腾910是大芯片,和我们的掌心差不多大,功耗在300W以上,主要面向云端高性能计算。它的算力更强,既能用于AI推理任务,也能用于AI训练任务。

华为早期发布的昇腾910,其实应该算是 910A。

当时,因为华为还没有被完全禁售,所以910A仍然采用了台积电的7nm增强版EUV工艺。

芯片内建了32颗达芬奇Max核心(达芬奇核心分为Max/Lite/Tiny三种,Max最完整),支持混合精度计算(FP16/FP32/INT8),FP16算力为256TFOPs,最大功耗350W(一开始说是350W,后来变成了310W)。

达芬奇架构参数(来自第31届Hot Chips大会)

2020年华为被列入实体清单后,台积电那边的先进工艺就用不了。于是,华为与中芯国际(SMIC)合作,采用他们的N+1工艺(等效7nm),推出了 910B。

910B优化了架构设计,提升了能效比,芯片尺寸为21.32mm×31.22mm,FP16算力约320TFLOPS,INT8算力约640TOPS。显存为64GB HBM2e,显存带宽400GB/s。

910B也分为B1/B2/B3。910B3引入了HBM3e内存,带宽提升至1.2TB/s,支持万亿参数模型训练。

来自知乎(万文友)

最近这两年,华为又推出了 昇腾910C。

昇腾910C采用中芯国际的7nm(N+2)工艺,晶体管数量达到530亿。

910C采用了类似B200的双die封装设计(将两颗独立的芯片die分别放置在各自的中介层,再通过有机基板将两个中介层连接起来),通过把两颗昇腾910B整合到一起,实现了性能的提升。

这种封装方式虽然在芯片间互联带宽上可能低于英伟达的先进封装方案,但具有更低的成本、更高的良率以及更快的量产速度。

业界估测,910C在FP16精度下的单卡算力能达到800TFLOPS左右,大概是英伟达H100芯片(2022年推出)的80%。

值得一提的是,910C的芯片逻辑面积大约比H100多60%。这意味着910C在架构效率和设计优化方面, 与H100依然存在差距。

910C的HBM高带宽内存仍然来自海外厂商(国内DRAM制造商长鑫存储HBM2e相关技术还需要再等等)。芯片的整体国产化比例据说已经达到90%以上。

910C的各方面参数以及进展信息都比较神秘。

根据网络上的不可靠信息,910C于2024年四季度推出样片,2025年一季度开始量产,目前已经处于大规模出货阶段,全年销量大概在70-80万颗。

也有不可靠消息指出,2024年910B的出货量约四十万张,今年910B出货量可能与去年持平或略低(约30万张),而910C的出货量预计可能超过40万张。因此,华为今年910B+910C的整体出货量可能是70-100万张。

出货量和产能也有很大关系。中芯国际N+2工艺良率去年只有20%,今年据说已经达到40-50%,分配给910C的产能貌似是2.6万片晶圆/月(数据不靠谱,仅供参考,与我无关)。

价格方面,910B的均价据说大约是11万/片,910C可能是18-20万/片。网上很多文章说910C价格是1800美元,我觉得不靠谱。相比之下,英伟达H100的市场价格,大约是2.5-3万美元/张。

值得一提的是,华为前段时间推出的CloudMatrix 384超节点,由384颗昇腾910C芯片构建,系统性能比英伟达的GB200 NVL72更强。

这属于典型的“群殴”模式。虽然单芯片的性能打不过,但通过系统层面的创新,组成更大规模的集群,也能一定程度弥补差距,满足算力需求。

在连接方面,需要提一下华为自研的 HCCS高速互连接口。

昇腾910集成了HCCS、PCIe 4.0和RoCE v2接口,可以灵活高效地实现横向扩展(Scale Out)和纵向扩展(Scale Up)。

HCCS对标的是英伟达的NVLINK,能够给内核、设备、集群提供系统内存的一致访问。在单一链路的单向/双向互联带宽上,HCCS有显著优势,可以有效提升多个Al芯片协同训练的能力。

910C之后,据说还有910D,采用5nm制程,4Die封装,支持FP8。今年5-6月份回片,预期2026Q2-Q3大规模量产。这个消息的来源不可靠,同样仅供参考。

再往后,华为可能就会推出昇腾920系列,采用下一代工艺,更先进制程,努力缩小和英伟达的差距。

哦,对了,差点忘了说,华为除了昇腾310和910之外,其实还有 昇腾610。

昇腾610也称为MDC610,是智能驾驶芯片,用于华为自己的智能驾驶平台(MDC)。根据资料显示,昇腾610采用了7nm制程,AI算力达到200TOPS@INT8或100TFLOPS@FP16,目前已经实现量产。

昇腾610芯片(图片来自网络)

昇腾硬件体系

基于昇腾芯片,华为开发了AI算力板卡、服务器、集群等一系列硬件产品,如下图所示:

这些硬件覆盖了边缘推理、云端推理、云端训练三大场景,可以满足不同行业用户的AI计算需求。

Atlas 200I DK A2,是面向开发者的高性能AI开发套件,集成了昇腾310芯片,内置2个Al core,可支持128位宽的LPDDR4X,最大算力为22TOPS。

Atlas 200I DK A2

Atlas 300T训练卡,基于昇腾910芯片,集成32个达芬奇AI核+16个TaiShan核,能够提供280TFLOPS FP16 算力,并集成了一枚100GE RoCE v2网卡,支持PCIe 4.0和1*100G RoCE高速接口。内存规格方面,包括32GB的HBM和16GB的DDR4。

Atlas 300T A2训练卡,强化了高速接口和对PCIe 5.0的支持,集成20个AI 核、8个CPU核、1*200GE RoCE,提供280TFLOPS FP16 算力。

Atlas 300T A2训练卡

Atlas 300I Pro推理卡,采用24GB LPDDR4X,单卡最大提供140TOPS INT8 算力。

Atlas 300I Duo推理卡,采用48GB LPDDR4X,总带宽 408GB/s,从表观上看是两颗昇腾310的组合产品,单卡最大提供280TOPS INT8 算力。

Atlas 500 A2智能小站,是面向边缘应用的产品。

Atlas 500 A2智能小站

Atlas 800训练服务器,采用了8颗昇腾910(NPU)+4颗鲲鹏920(CPU),广泛应用于深度学习模型开发和训练。

Atlas 800推理服务器,最大可支持8个Atlas 300l推理卡,广泛应用于数据中心侧的AI推理场景。

Atlas 800I A2推理服务器

Atlas 900是Al智算集群,包括了数千颗昇腾芯片,总算力达到256~1024P FLOPS@FP16,相当于50万台PC的计算能力。

Atlas 900智算集群

Atlas 900集群由Atlas 900 PoD集群基础单元组成。每个单元就是一个机柜,搭载超了32颗鲲鹏920,47U高度可最大提供20.4PFLOPS@FP16的算力。机柜采用液冷散热,最大功耗为46KW。

好啦,以上就是关于华为昇腾硬件体系的全部介绍。

欢迎纠错,也欢迎补充更多信息!谢谢!

内容简介

本书围绕昇腾AI处理器开发应用实践目标,不仅系统性地讲述全栈AI 计算技术体系,还深入浅出地介绍工程化的开发方法与技术。

本书首先介绍基础知识,包括人工智能基础、深度学习技术、智能计算技术等;其次介绍AI 处理器基础知识,包括神经网络加速原理、深度学习芯片架构、深度学习软件栈、全栈AI计算技术体系等;再次介绍昇腾AI处理器软硬件架构,包括达芬奇架构、昇腾310/910处理器架构、昇腾开发软件栈与工具链等;最后介绍昇腾AI 处理器开发流程及编程方法。此外,本书还详细介绍昇腾AI 开发实践案例,包括开发环境部署、基础模型开发案例、模型进阶开发探索、辅助工具应用实践等。本书提供配套资源,包括工程示例、源代码、平台配置信息等,旨在为读者提供体系化的实践训练,让读者能够学以致用,快速形成全栈AI开发的系统能力。

本书可作为高等院校计算机、人工智能、云计算、大数据等相关专业的教材,也可作为ICT培训机构智能计算方向的教材,还可作为人工智能领域从业人员的参考书。

参考资料:

1.《昇腾计算产业发展白皮书》,华为&信通院;

2.《昇腾发力铸造国产算力基石》,国投证券;

3.《昇腾万里,力算未来》,华安证券;

4.《华为昇腾:国产 AI 算力“扛旗者”》,民生证券;

5.《华为昇腾服务器研究框架》,浙商证券;

6.《“鲲鹏”展翅,“昇腾”万里》,东莞证券;

7.科技分析师Lennart Heim (@ohlennart) 在X平台发布的分析文章;

8.《华为发布全球算力最强 AI 处理器,达芬奇架构巨无霸芯片昇腾 910 问世!》,新智元;

9.《解读神秘的华为昇腾910》,周博洋,知乎;

10.华为官网、华为云社区。

互动福利

各位读者, 小悠每周将在微信朋友圈进行抽奖送书活动,抽取四位幸运读者送出我们的重点新书。机会难得,不容错过哦!

相关内容

【ETF动向】8月20日华...
证券之星消息,8月20日,华夏国证半导体芯片ETF基金(15999...
2025-08-21 09:07:53
AI算力需求激增助推浪潮信...
2025年8月20日,A股三大指数集体收涨,沪指涨1.04%报37...
2025-08-21 09:07:45
苏州晶方半导体取得芯片封装...
金融界2025年8月21日消息,国家知识产权局信息显示,苏州晶方半...
2025-08-21 09:07:37
向新兴产业要增量 友阿股份...
当前,友阿股份正处于战略转型关键阶段。去年以来,友阿股份乘着新“国...
2025-08-21 09:07:29
芯片ETF龙头获融资买入0...
8月20日,沪深两融数据显示,芯片ETF龙头获融资买入额0.12亿...
2025-08-21 09:07:18
谷歌最强手机芯片 Tens...
IT之家 8 月 21 日消息,基于 GeekBench 6.4....
2025-08-21 09:07:00
美参议员力挺特朗普入股芯片...
凤凰网科技讯 北京时间8月21日,据路透社报道,美国自由派参议员伯...
2025-08-21 09:06:48
永安美电力取得一键顺控微动...
金融界2025年8月21日消息,国家知识产权局信息显示,山东永安美...
2025-08-21 09:06:39
火炬电子取得脉冲模压电容器...
金融界2025年8月21日消息,国家知识产权局信息显示,福建火炬电...
2025-08-21 09:06:30

热门资讯

永安美电力取得一键顺控微动开关... 金融界2025年8月21日消息,国家知识产权局信息显示,山东永安美电力科技有限公司取得一项名为“一键...
深圳IC供应链服务商观察名单 深圳IC采购江湖的生存法则 在华强北摸爬滚打十年,见过太多中小企业在IC采购上栽跟头——要么被山寨货...
39岁浙江大学刘一峰、苏州大学... 中国科学院 视觉中国 资料图 8月20日,中国科学院发布公告称,2025年中国科学院院士增选推荐工作...
上海辰妍通半导体有限公司成立 ... 天眼查App显示,近日,上海辰妍通半导体有限公司成立,法定代表人为夏其娥,注册资本5000万人民币,...
没有补时!国安7-0玉昆,裁判... 直播吧08月20日讯 足协杯半决赛,国安vs玉昆。 比赛常规时间结束后,主裁判没有给补时,直接吹响了...
哪些外国领导人出席九三阅兵?外... 8月20日,外交部发言人毛宁主持例行记者会。 毛宁 资料图。图源:外交部网站 有记者提问,外交部能...
中富电路股价下跌3.34% 盘... 中富电路8月20日收盘报47.46元,较前一交易日下跌1.64元,跌幅3.34%。当日股价波动较大,...
广东“录像厅杀人案”3名凶手被... 1994年5月6日晚,广东省广州市黄埔区某村录像厅,4名年轻男子来询问是否可以夜里包场,女老板何某本...
蓝盾光电股价微跌0.87% 公... 截至2025年8月20日收盘,蓝盾光电股价报27.26元,较前一交易日下跌0.24元,跌幅0.87%...
股市必读:科泰电源(30015... 截至2025年8月20日收盘,科泰电源(300153)报收于49.9元,上涨5.61%,换手率21....