当前位置： CompoTech China > 业界资讯 >

全新 Arm Lumex CSS 平台加速开发周期，实现可扩展的高性能端侧 AI

本文作者：Kinjal Dave 点击： 2025-09-12 13:38

前言：

全新平台紧密集成硬件与软件，不仅加速产品上市时间，同时满足整个生态系统日益增长的端侧 AI 体验需求作者：Arm 终端事业部产品管理高级总监 Kinjal Dave

移动设备正逐步演进为由人工智能 (AI) 所驱动的工具，能够适配、预测并提升人们与世界互动的方式。而随着端侧 AI 变得更加先进和成熟，移动芯片所面临的压力也在不断加剧。

加速产品周期（即每新一代旗舰移动设备的推出速度都快于上一代）意味着芯片供应商和 OEM 厂商必须在更紧迫的时间内实现创新，几乎没有出错余地。在面积和散热受限的移动设备尺寸条件下，要实现为保持 AI 性能而采用的先进封装技术，是一项极具挑战的任务。与此同时，向 3 纳米等更小工艺节点的发展也带来了复杂的设计难题。

这正是 Arm 推出集成平台的原因，通过将 Arm CPU 和 GPU IP，与物理实现和部署就绪的软件栈相结合，从而加快产品上市进程，并在最新的先进工艺节点上实现业界领先的性能。而 Arm Lumex 就是Arm 新的专用计算子系统 (Compute Subsystem, CSS) 平台，旨在满足旗舰移动设备和 PC 上持续增长的端侧 AI 体验需求。

为 AI 优先时代重新设计

Lumex 为模块化且高度可配置的平台提供最新的协同设计、协同优化的 Arm 计算 IP 和先进特性：

• 新的 Armv9.3 C1 CPU 集群：提供领先的每时钟周期指令数 (IPC) 性能，并内建第二代 Arm 可伸缩矩阵扩展 (SME2) 单元，在 CPU 集群上带来响应更迅速的加速 AI 体验。

• 新的 Arm Mali G1-Ultra：在实现更快的 AI 推理能力的同时，通过新一代的光线追踪功能，带来桌面级别的视觉效果与更丰富的游戏体验。

• 新的系统 IP 包含 Arm SI L1 系统互连与 Arm MMU L1 系统内存管理单元：旨在消除系统性能瓶颈，以及降低推理密集型和计算密集型工作负载中的延迟。

• 3 纳米就绪的 CPU 和 GPU 物理实现：专为实现业界领先的功耗、性能与面积 (PPA) 而打造，并加速在芯片上实现旗舰级性能的进程。

跨 CPU 和 GPU 技术加速实际场景的 AI 性能

在 CPU 方面，启用 SME2 技术的 Armv9.3 C1 CPU 集群结合了 Arm KleidiAI 对主流框架和运行时库的原生支持，在包括典型机器学习 (ML) 推理、语音及生成式 AI 等在内的广泛 AI 工作负载中，相较于上一代 CPU 集群，在相同条件下实现了显著的速度提升。同时带来了五倍的 AI 性能提升，以及三倍的能效优化。这些基于 SME2 的改进使得用户能在其常用的消费类电子设备上享受更流畅的 AI 交互体验，并获得更长的续航时间。

此外，得益于微架构优化和核心间更紧密的集成，Arm C1 CPU 集群在性能与能效方面树立了新标杆，具体表现为：

• 在六项行业领先性能基准测试中，相较于上一代 CPU 集群，在相同条件下的性能水平，平均提升 30%；

• 在主流应用（包括游戏和视频流媒体）中，相较于上一代 CPU 集群，在相同条件下平均速度提升了 15%；

• 在视频播放、社交媒体和网页浏览等日常移动工作负载中，相较于上一代 CPU 集群，在相同条件下的功耗，平均降低 12%；

• 相较于上一代 Arm Cortex-X925 CPU，Arm C1-Ultra CPU 带来两位数的 IPC 性能提升。

Mali G1-Ultra 进一步提升了 AI 性能与效率，相较于上一代 Arm Immortalis-G925 GPU，其在 AI 和 ML 网络中的推理速度加快了 20%。

在游戏方面，得益于新的 Arm 光线追踪单元 v2 (Ray Tracing Unit v2, RTUv2)，Mali G1-Ultra 将光线追踪性能提升了两倍，为移动设备带来了高端桌面级视觉效果；在主流行业基准测试与游戏应用（包括《暗区突围》、《堡垒之夜》、《原神》、《崩坏：星穹铁道》等）中，Mali G1-Ultra 实现了 20% 的图形性能增长。

Lumex 的可扩展系统主干

要支持 AI 优先体验，不能只局限于计算 IP 的迭代，移动系统级芯片 (SoC) 必须在整个互连和内存架构层面持续演进。

正因如此，Arm 推出新的可扩展系统互连，专为满足高要求 AI 和其他计算密集型工作负载的带宽与延迟需求而优化，可确保在 Lumex 上保持性能领先，同时不影响系统响应速度。新的 SI L1 系统互连配备业内先进的，且具有出色面积效率的系统级缓存 (SLC) ，相比标准编译的 RAM，其泄漏功耗降低了 71%，大幅减少了待机功耗。

对于合作伙伴而言，该系统互连技术提供高度灵活的可扩展解决方案，可针对各类手机和消费类电子设备优化 PPA 需求。SI L1 系统互连面向旗舰移动设备，具备完全集成的可选 SLC 并支持 Arm 内存标记扩展 (Memory Tagging Extension, MTE) 特性，可提供一流的安全性；而 Arm NoC S3 片上网络互连则面向注重成本且非一致性的移动系统。

除新的互连技术外，Arm 还推出了新一代 Arm MMU L1 系统内存管理单元，该技术可在各类手机及消费类电子设备上实现安全，且成本高效的可扩展虚拟化。

通过物理实现成就业界领先的 PPA

Lumex 提供针对 3 纳米工艺优化、生产就绪的 CPU 和 GPU 实现，已为多家晶圆代工厂所支持，如此一来，Arm 的芯片合作伙伴和 OEM 厂商能够：

• 将这些实现作为灵活的构建模块，以便专注于 CPU 和 GPU 集群层面的差异化设计；

• 实现卓越的频率和 PPA；

• 在向最新 3 纳米工艺节点过渡时，助力确保芯片一次流片成功。

开发者即刻畅享 Lumex 优势

为充分释放 Lumex 性能潜力，开发者需在实际设备上市前提前获取其功能。为此 Arm 推出全新系列的软件与工具，助力开发者即刻着手原型设计、构建 AI 工作负载，以及利用 Lumex CSS 平台的完整 AI 功能。具体包括：

• 完整的 Android 16 就绪软件栈，涵盖可信固件至应用程序层；

• 完整且免费的启用 SME2 的 KleidiAI 软件库；

• 全新的自顶向下的遥测解决方案，用于分析应用性能、识别瓶颈并优化算法。

KleidiAI 在推出的第一年便大获成功，现已集成至所有主流的 AI 框架，并广泛应用于各类应用程序、设备，以及安卓等系统服务。这为接下来开展工作夯实根基，当基于 Lumex 的设备在未来数月上市时，应用程序即刻就能在其 AI 工作负载上实现性能和效率提升。

在图形处理方面，随着未来的安卓版本将支持 RenderDoc，以及通过 Lumex 提供 Vulkan计数器、Streamline 和 Perfetto 等统一可观测性工具，开发者能够实时分析工作负载、调优延迟，并精确平衡电池续航与视觉效果。

为新一代移动智能奠定基础

移动计算正迈入一个全新的时代，而智能的构建、扩展与交付方式正在定义这个新时代。随着 AI 成为所有体验的基础，平台必须具备预测、适配、扩展和加速未来发展的能力。

Lumex 正是基于这一未来愿景而设计，让整个生态系统全面受惠。无论是打造、扩展创新设备的 OEM 厂商，还是构建新一代应用的开发者，Lumex 都能助力 Arm 生态系统更轻松地交付差异化的 AI 优先平台与体验——以更智能的性能实现更快速的大规模部署。

本月热点 HOME

栏目热点 HOME