芝能智芯出品
随着生成式AI、多模态模型和边缘智能的不断深入,智能手机正被迫扛起更多计算负载。
为了在保持低功耗的同时支持复杂的AI模型、持续演进的通信协议和日益丰富的人机交互,芯片设计迎来了前所未有的挑战。异构计算、AI专用处理单元、DRAM与存储接口优化、以及面向未来灵活性的架构,正逐步成为高端SoC的关键特征。
我们从SoC架构的演化路径与技术趋势出发,剖析移动端AI在硬件层面所面临的瓶颈与突破。
Part 1
异构架构下的AI重构:
CPU、GPU、NPU的分工协同
近年来,高端智能手机SoC普遍采纳了异构计算架构。这种设计理念并非简单堆叠处理单元,而是基于每种运算任务的特点,精准调配各类专用核心。
在典型的移动SoC中,Arm核心负责系统控制与基础任务,GPU处理图形和部分通用计算,而NPU (神经网络处理器)则专注于AI推理。
生成式AI特别是基于Transformer架构的模型,对矩阵运算的密集度、内存访问模式、带宽要求提出了远高于传统算法的需求。例如,TinyLlama这类轻量模型虽然参数体积较小,但需要高效的张量处理能力,而这正是NPU发挥优势的地方。
面对大型语言模型或多模态模型,其所需的激活函数、注意力机制和向量运算复杂度,已经远超传统AI芯片的设计初衷,促使NPU持续扩展规模、并引入更多可编程特性。
GPU也在朝AI适配方向演化。一些厂商在GPU中引入更专用的数据类型处理单元,例如FP8、INT4等低比特位运算,以优化能效比。
为了进一步压榨图形单元的利用率,部分架构将NPU技术下沉至GPU流水线,实现统一的矢量计算框架。
这种“AI-GPU融合”的趋势,既提升了计算资源的动态调度效率,也降低了芯片面积重复堆叠带来的成本和热设计压力。
关键在于并行架构的能效。在ALU (算术逻辑单元)层面,不同供应商正通过精细设计运算引擎、动态电压调节、多线程流水线优化等手段,压缩每次AI推理的能耗。
Part 2
内存、连接与通信:
SoC的下一个瓶颈
随着模型体积膨胀,SoC芯片已不仅是计算的主场,内存访问路径、数据加载延迟和连接带宽也成为制约AI体验的重要瓶颈。
生成式AI尤其依赖大模型在DRAM中即时调取完整上下文进行推理推断。举例来说,LLM在手机中部署时,不可能全量加载所有参数,通常需要从UFS存储中分段读取,加载至DRAM,随后进行计算,再返回用户。这一来一回的数据搬运,如延迟控制不佳,即便AI模型性能卓越,也难以获得丝滑体验。
这对UFS控制器和SoC的连接路径提出了更高要求。当前正在推进的UFS 4.x规范,不仅关注吞吐速度,更聚焦低功耗读写状态的快速唤醒机制。
因为在AI模型调用中,大量片段式、间歇式的数据读取,极易引起存储控制器频繁唤醒,造成能量浪费。因此控制策略倾向于“就地计算”与“最小唤醒”,即尽量把模型中常用部分缓存至DRAM,只在必要时访问闪存,并尽量使用AI推理引擎内的本地SRAM资源,避免全链路激活。
通信协议的不断演进也带来了巨大的SoC适配挑战。手机集成的通信模组从5G到Wi-Fi 6E、蓝牙5.x,再到UWB与近场通讯 (NFC),每种协议均需独立的射频收发链路与天线配置。
如今高端手机内置天线数量已达六根以上,射频路径之间的干扰、噪声耦合、电源管理协调成为SoC设计中不可忽视的系统工程问题。
这些无线连接不再只是传统的数据传输功能,而是AI决策系统的一部分。例如,某些多模态AI系统会依赖蓝牙耳机的输入、5G实时视频流与摄像头图像进行融合分析。
这样的协同使得通信模块的QoS (服务质量)直接影响AI表现,迫使SoC必须具备动态网络状况感知与AI处理优先级调度能力。
在接口标准层面,MIPI联盟等机构也在推动协议演进以适配AI数据传输场景。
新一代MIPI接口不仅要支持更高带宽,更需支持片上加速器的直接接入,减少数据搬运链路。例如摄像头图像能否通过MIPI接口直接喂给NPU而非CPU中转,成为评估系统架构效率的关键点。
面向AI未来的SoC演进路线图
智能手机的AI之路不再是“是否部署”的问题,而是“如何高效部署”的挑战。SoC厂商面临的不仅是更快的运算需求,而是更灵活、可编程、能自适应新模型的系统架构设计难题。
未来的移动SoC必须具备以下三大核心特性:
◎计算异构化:CPU、GPU、NPU三者分工明确,并通过统一张量编程接口协同运行,适配从传统图像AI到多模态GenAI的广泛任务;
◎内存连接优化:从UFS控制器、DRAM调度到片上缓存架构全面调整,解决高频率、低延迟访问下的功耗爆炸问题;
◎ 标准生态协同:从MIPI到UFS,从AI模型标准到编译工具链,软硬件一体化能力成为SoC竞争的第二战场。
在软硬件协同的加持下,AI已经不仅仅是高端旗舰的象征,而是即将渗透到中端甚至入门手机中的标配能力。如何以最低功耗实现最高性能、如何让AI真正“无感”地融入用户体验,是决定下一代移动设备技术走向的关键。
小结
随着芯片设计工具、模型编译技术与AI推理框架的成熟,SoC设计的灵活性与扩展性将成为AI演进的重要助力。未来的芯片架构,将不再仅为“硬编码AI”而生,而是为“支持尚未诞生的AI”而设计,是智能移动计算新时代的起点。