
大模型经过2025年的发展,行业逐渐形成共识:推理需求将以复合倍速增长,行业需要高性能、高性价比的芯片。基于此,1月27日,自商汤集团孵化而生的半导体公司曦望发布第三代推理GPU芯片启望S3,设定将百万token成本打到一分钱的目标。
谈及为何在此时专注推理方向,曦望董事长徐冰表示,转向推理方向是因为行业变了:需求变了,AI从能被训出来发展至能被用起来;场景变了,多模态需求爆发,Agent(智能体)需要高频响应与实时交互,物理AI(Physical AI)也在加速落地;成本结构变了,行业已将推理成本从“元级”压到“分级”,未来AI会像水电一样成为普惠基础设施。
截至目前,曦望发布了三款芯片,分别是定位云边端视觉推理专用的S1、对标英伟达A100的训推一体芯片S2,以及此次的S3。对于未来训推两端投入分配问题,采访中,徐冰对第一财经记者表示,这属于战略定力的问题,如果先将推理做到极致,也能够在商业上形成优势。预计到2030年,推理芯片将占到公司资源分配的80%。
且训推一体芯片也存在一定问题,曦望联席CEO王勇将其总结为三大困境:成本高昂,供应不稳定;能耗惊人;部署运维复杂。未来,合理的算力访存比才是芯片竞争的关键。算力访存比是衡量芯片算力与数据传输能力匹配度的核心指标。
过去芯片行业竞争的核心是“堆算力”,随着推理算力需求爆发,“内存墙”逐渐成为芯片性能的主要瓶颈。计算单元的算力提升速度远快于访存带宽的提升速度,导致大多数芯片的纸面算力无法在实际场景中释放,这一矛盾在推理芯片中尤为突出。为应对该挑战,英伟达创始人黄仁勋提出从单芯片优化升级为系统级协同设计的方案,这也是Vera Rubin平台的核心设计逻辑。
王勇也有类似观察,他对记者表示,现在的大模型公司以DeepSeek为代表,不仅会做大模型,也会牵引框架变化,带动从模型架构到算子开发、推理系统的全链路技术创新,推动框架适配新计算范式与跨硬件部署,试图摆脱对英伟达CUDA生态的依赖。此次曦望也发布了AI算力平台,以自研芯片为底座,与多家大模型进行适配,从系统侧提高芯片利用效率。
炜烨智算董事长兼CEO周韡韡表示,国产芯片定位越来越准确——从最初盲目追求与国际高性能算力的比肩,到追求性能的同时也追求极致成本。国际上,每当百万token的成本降低一半,市场上AI应用数量会显著增长,算力市场的繁荣度也将呈倍数级提升,国产算力正处于一个非常有利的位置。
(本文来自第一财经)