当前位置: CompoTech China > 业界资讯 >
 

全新 Arm Lumex CSS 平台加速开发周期,实现可扩展的高性能端侧 AI

本文作者:Kinjal Dave       点击: 2025-09-12 13:38
前言:
全新平台紧密集成硬件与软件,不仅加速产品上市时间,同时满足整个生态系统日益增长的端侧 AI 体验需求 作者:Arm 终端事业部产品管理高级总监 Kinjal Dave
 
 
移动设备正逐步演进为由人工智能 (AI) 所驱动的工具,能够适配、预测并提升人们与世界互动的方式。而随着端侧 AI 变得更加先进和成熟,移动芯片所面临的压力也在不断加剧。

加速产品周期(即每新一代旗舰移动设备的推出速度都快于上一代)意味着芯片供应商和 OEM 厂商必须在更紧迫的时间内实现创新,几乎没有出错余地。在面积和散热受限的移动设备尺寸条件下,要实现为保持 AI 性能而采用的先进封装技术,是一项极具挑战的任务。与此同时,向 3 纳米等更小工艺节点的发展也带来了复杂的设计难题。

这正是 Arm 推出集成平台的原因,通过将 Arm CPU 和 GPU IP,与物理实现和部署就绪的软件栈相结合,从而加快产品上市进程,并在最新的先进工艺节点上实现业界领先的性能。而 Arm Lumex 就是Arm 新的专用计算子系统 (Compute Subsystem, CSS) 平台,旨在满足旗舰移动设备和 PC 上持续增长的端侧 AI 体验需求。

为 AI 优先时代重新设计

Lumex 为模块化且高度可配置的平台提供最新的协同设计、协同优化的 Arm 计算 IP 和先进特性:
新的 Armv9.3 C1 CPU 集群:提供领先的每时钟周期指令数 (IPC) 性能,并内建第二代 Arm 可伸缩矩阵扩展 (SME2) 单元,在 CPU 集群上带来响应更迅速的加速 AI 体验。
新的 Arm Mali G1-Ultra:在实现更快的 AI 推理能力的同时,通过新一代的光线追踪功能,带来桌面级别的视觉效果与更丰富的游戏体验。
新的系统 IP 包含 Arm SI L1 系统互连与 Arm MMU L1 系统内存管理单元:旨在消除系统性能瓶颈,以及降低推理密集型和计算密集型工作负载中的延迟。
3 纳米就绪的 CPU 和 GPU 物理实现:专为实现业界领先的功耗、性能与面积 (PPA) 而打造,并加速在芯片上实现旗舰级性能的进程。

  

跨 CPU 和 GPU 技术加速实际场景的 AI 性能

在 CPU 方面,启用 SME2 技术的 Armv9.3 C1 CPU 集群结合了 Arm KleidiAI 对主流框架和运行时库的原生支持,在包括典型机器学习 (ML) 推理、语音及生成式 AI 等在内的广泛 AI 工作负载中,相较于上一代 CPU 集群,在相同条件下实现了显著的速度提升。同时带来了五倍的 AI 性能提升,以及三倍的能效优化。这些基于 SME2 的改进使得用户能在其常用的消费类电子设备上享受更流畅的 AI 交互体验,并获得更长的续航时间。

  

此外,得益于微架构优化和核心间更紧密的集成,Arm C1 CPU 集群在性能与能效方面树立了新标杆,具体表现为:
在六项行业领先性能基准测试中,相较于上一代 CPU 集群,在相同条件下的性能水平,平均提升 30%;
在主流应用(包括游戏和视频流媒体)中,相较于上一代 CPU 集群,在相同条件下平均速度提升了 15%;
在视频播放、社交媒体和网页浏览等日常移动工作负载中,相较于上一代 CPU 集群,在相同条件下的功耗,平均降低 12%;
相较于上一代 Arm Cortex-X925 CPU,Arm C1-Ultra CPU 带来两位数的 IPC 性能提升。

Mali G1-Ultra 进一步提升了 AI 性能与效率,相较于上一代 Arm Immortalis-G925 GPU,其在 AI 和 ML 网络中的推理速度加快了 20%。

在游戏方面,得益于新的 Arm 光线追踪单元 v2 (Ray Tracing Unit v2, RTUv2),Mali G1-Ultra 将光线追踪性能提升了两倍,为移动设备带来了高端桌面级视觉效果;在主流行业基准测试与游戏应用(包括《暗区突围》、《堡垒之夜》、《原神》、《崩坏:星穹铁道》等)中,Mali G1-Ultra 实现了 20% 的图形性能增长。

Lumex 的可扩展系统主干

要支持 AI 优先体验,不能只局限于计算 IP 的迭代,移动系统级芯片 (SoC) 必须在整个互连和内存架构层面持续演进。

正因如此,Arm 推出新的可扩展系统互连,专为满足高要求 AI 和其他计算密集型工作负载的带宽与延迟需求而优化,可确保在 Lumex 上保持性能领先,同时不影响系统响应速度。新的 SI L1 系统互连配备业内先进的,且具有出色面积效率的系统级缓存 (SLC) ,相比标准编译的 RAM,其泄漏功耗降低了 71%,大幅减少了待机功耗。

对于合作伙伴而言,该系统互连技术提供高度灵活的可扩展解决方案,可针对各类手机和消费类电子设备优化 PPA 需求。SI L1 系统互连面向旗舰移动设备,具备完全集成的可选 SLC 并支持 Arm 内存标记扩展 (Memory Tagging Extension, MTE) 特性,可提供一流的安全性;而 Arm NoC S3 片上网络互连则面向注重成本且非一致性的移动系统。

  

除新的互连技术外,Arm 还推出了新一代 Arm MMU L1 系统内存管理单元,该技术可在各类手机及消费类电子设备上实现安全,且成本高效的可扩展虚拟化。

通过物理实现成就业界领先的 PPA

Lumex 提供针对 3 纳米工艺优化、生产就绪的 CPU 和 GPU 实现,已为多家晶圆代工厂所支持,如此一来,Arm 的芯片合作伙伴和 OEM 厂商能够:
将这些实现作为灵活的构建模块,以便专注于 CPU 和 GPU 集群层面的差异化设计;
实现卓越的频率和 PPA;
在向最新 3 纳米工艺节点过渡时,助力确保芯片一次流片成功。

开发者即刻畅享 Lumex 优势

为充分释放 Lumex 性能潜力,开发者需在实际设备上市前提前获取其功能。为此 Arm 推出全新系列的软件与工具,助力开发者即刻着手原型设计、构建 AI 工作负载,以及利用 Lumex CSS 平台的完整 AI 功能。具体包括:
完整的 Android 16 就绪软件栈,涵盖可信固件至应用程序层;
完整且免费的启用 SME2 的 KleidiAI 软件库;
全新的自顶向下的遥测解决方案,用于分析应用性能、识别瓶颈并优化算法。

KleidiAI 在推出的第一年便大获成功,现已集成至所有主流的 AI 框架,并广泛应用于各类应用程序、设备,以及安卓等系统服务。这为接下来开展工作夯实根基,当基于 Lumex 的设备在未来数月上市时,应用程序即刻就能在其 AI 工作负载上实现性能和效率提升。

在图形处理方面,随着未来的安卓版本将支持 RenderDoc,以及通过 Lumex 提供 Vulkan计数器、Streamline 和 Perfetto 等统一可观测性工具,开发者能够实时分析工作负载、调优延迟,并精确平衡电池续航与视觉效果。

 

为新一代移动智能奠定基础

移动计算正迈入一个全新的时代,而智能的构建、扩展与交付方式正在定义这个新时代。随着 AI 成为所有体验的基础,平台必须具备预测、适配、扩展和加速未来发展的能力。

Lumex 正是基于这一未来愿景而设计,让整个生态系统全面受惠。无论是打造、扩展创新设备的 OEM 厂商,还是构建新一代应用的开发者,Lumex 都能助力 Arm 生态系统更轻松地交付差异化的 AI 优先平台与体验——以更智能的性能实现更快速的大规模部署。