新移动架构来了 ARM改变了什么？

消息来源:baojiabao.com 作者: 发布时间：2024-05-15

报价宝综合消息新移动架构来了 ARM改变了什么？

大家都知道，无论是高通骁龙，还是联发科曦力，亦或是华为海思，这些移动端的CPU都遵循ARM公司的Cortex-A系列架构设计。又是一个6月，按照惯例，ARM公司在旧金山发布了全新的Cortex-A76架构。今天，小编就和大家一起解读号称用2.4GHz即可将现有高通骁龙旗舰CPU845斩于马下的Cortex-A76架构。

数码爱好者们对ARM的架构代号想必已经耳熟能详，但或许并不知道这些架构具体出自谁手。实际上，ARM在全球拥有3家设计团队，分别是位于美国德州的奥斯丁团队、位于法国南部的索菲亚团队以及位于英国大本营的剑桥团队。

这三家团队各有分工，奥斯丁团队负责设计高性能架构，代表作为Cortex A57和Cortex A72；剑桥团队专门设计Cortex A53和Cortex A55等低功耗架构；而索菲亚团队则主打均衡，Cortex A73和Cortex A75便是出自其手。

但是由于穆尔定律在28纳米节点上慢下来，奥斯丁团队在皮质A57和皮质A72体系结构上有两个瓶颈，性能很强，但是功率和热量也令人震惊。从那时起，奥斯丁的球队一直一无所获。就在人们几乎忘记了美国强队的时候，奥斯丁队带回了一个全新的皮质A76。

从设计的角度来看，皮质A76对于ARM来说是至关重要的，ARM是一个全新的微架构，是"第二代奥斯丁家族"的领导者，代表着一个新的开始。ARM称之为"具有PC级性能的移动终端处理器"。

在最近的7nm工艺中，皮质A76有望达到3GHz。与基于10nm的制造和2.8GHz的皮质A75相比，能耗降低了40%，性能提高了35%，机器学习能力提高了4倍。

皮质A76体系结构分析

皮质A76是一个加扰的超标量核。前端为4，后端为13级管道。执行延迟分为11个阶段。ARM正在设计一个"方向预测获取"单元，这意味着分支预测单元将被反馈到提取单元。ARM还率先使用了"混合间接预测单元"，它将预测单元与参考单元分离，并支持内核中模块的独立操作。在操作过程中使用时钟门控更容易省电。

皮层A76分支预测单元由3级BTB（分支目标高速缓存）支持，包括16链路NNOBTB、64链路MIPBTB和6000链路主BTB。在皮质A73和皮质A75中，ARM声称其分支预测单元几乎可以预测所有分支，并且这一新的皮质A76单位似乎比以前更强。

基准单元的运行速度为每时钟周期16字节。分支预测单元的运行速度是参考单元的带宽的两倍，每个周期为32字节，并且可以在12"块"单元之前提供获取队列。这样做的目的是隐藏分支气泡在管道中的分支预测误差是错误的，并避免使参考单元和其余的核心停滞，而手臂被称为皮质A76最多可响应8个分支预测误差每周期最多。

皮层A76的提取单元可以提供多达16个32位指令，并且获取流水线由2个指令对齐和解码周期组成。在指令解码和重命名阶段，皮层A76可以每周期输出4条指令，并输出指令每指令1.06MOPS的宏指令。

以前，皮质A72和皮质A75每周期可吞咽3条指令，而皮质A73仅吞咽2条指令。根据ARM公开的信息，皮质A73的解码带宽的解码是与皮质A72相比优化能量效率，并且随着移动处理器的性能要求的增加，皮质A75已经恢复了每周期3吞吐的设计。皮质A76进一步发展，成为公开版本中最高的解码带宽，但仍低于三星和苹果的定制架构（三星M3每周期6吞咽/苹果A11每7周期）。

在指令重命名阶段，ARM将重命名单元分离，并使用时钟门控来使用整数/ ASIMD /标记操作，每次从A73和A75将重命名和调度从2次缩短到1次循环。根据1.2亩OP指令的比例，将宏指令扩展到微操作，并与皮层A75的6μOPS /周期和皮层A73的4μOPS /周期相比，进行了每周期8 MU OPS的操作。

皮质A76随机排序窗口的大小为128，缓冲区分为指令管理和注册恢复两个结构，称为混合提交系统。由于性能缩放比例仅为1/7，也就是说，缓冲器增加7%只能提高1%的性能，因此ARM不关注增强这部分的设计。

在流水线方面，整数部分由6个问题队列和执行埠组成，总共有3个整数执行流水线，以及1个16个深度问题队列。其中，2个整数流水线可执行简单算术运算，1个可执行乘法，除法和CRC复杂运算。ASIMD/浮点部分包含2条流水线，它们由2个2个深度问题队列服务。

在整数操作中，皮层A76减少了从3个周期的皮层A75到2个周期的增殖和增殖积累延迟，并且总吞吐量保持不变。由于皮质A76有3个整数流水线，简单算术运算的吞吐量比皮质A75的2流水线的吞吐量增加了50%。

2018-06-11 16:32:00