APP下载

冯·诺伊曼架构太低效 来看看替代性AI芯片架构的几种可能

消息来源:baojiabao.com 作者: 发布时间:2026-04-29

报价宝综合消息冯·诺伊曼架构太低效 来看看替代性AI芯片架构的几种可能

《芯片世界观》系列

冯·诺伊曼架构运行人工智能应用相对低效,哪种架构将取代它?

使用现有架构应对机器学习和人工智能问题越来越不切实际了。随着人工智能应用消耗的能量不断攀升,CPU和GPU越来越不堪重任。

几次圆桌会议讨论下来,认为当缺乏传统IP时不存在催生重大变化的最佳机会。大多数设计以渐进的方式而演化,虽然这是一种安全的前进方向,但是并不是最佳的解决方案。当新生事物出现时,人们有机会重新审视事物,并提出比主流技术所建议的更好的方向。最近,一组研究人员就跳出了传统,质疑CMOS是否是构建AI应用程序的最佳基础技术。

IBM纳米电子研究计划(NRI)负责人An Chen发起了这次讨论。“多年来,新兴技术一直是我们研究的主题,其中包括寻找CMOS的替代品,特别是因为它当今所面临的功耗和尺寸问题越来越尖锐。经过多年的研究,我们得出的结论是,我们找不到比CMOS更适合构建逻辑器件的东西。今天,AI成为了许多研究人员关注的焦点,它确实引入了一些新的思维方式和新的设计方法,而且拥有不同的技术和产品。那么新兴的人工智能会让我们有更好的机会寻找出CMOS的替代品吗?”

现在的AI芯片

现在,大多数机器学习和人工智能应用都使用冯诺依曼架构。“内存存储权重系数和数据,CPU负责所有的计算工作,”台湾国立清华大学电气工程系教授张孟凡 (Marvin)解释道。 “很多数据的移动都是通过总线进行的。今天,他们还使用GPU进行包含卷积运算在内的深度学习。这里的一个主要问题在于,它们通常需要创建中间数据来实现推理。数据传输,特别是和片外器件的数据交互会导致能耗升高和增加延迟,这里会形成一个瓶颈。”

冯诺依曼架构的AI芯片

要解决这个瓶颈,需要将运算和内存拉得更近。“架构设计人员早在多年前就提出了‘在内存中计算’这种概念,”张教授说。“现在,有几种SRAM和非易失性存储器(NVM)设计正在试图实现这种概念。如果效果理想,CPU和内存之间将不再需要数据传输,这将节省大量能耗。”

但是我们今天并没有实现在内存中计算。“我们现在的AI 1.0仍在使用冯诺依曼架构,因为并没有可实现内存中计算的成熟器件,”张教授说。“现在唯一的方式是使用3D TSV,以提供高带宽内存(HBM),结合GPU来解决内存带宽问题,但是这种方案并不能真正解决能耗和延迟上的瓶颈。”

单靠在内存中运算就能够解决功耗浪费问题吗? “人脑大约有一千亿个神经元,大约有1015个突触,”台积电副总裁Hsien-Hsin(Sean)Lee说。 “拿IBM的TrueNorth来说吧。TrueNorth是IBM在2014年开发的多核处理器,它有4,096个内核,每个内核有256个可编程模拟神经元。假设我们可以把它扩展,以模仿人脑的运算能力,现在的TrueNorth需要提升五个数量级。我们直接把TrueNorth按照这个数量级进行扩展,它将成为一个功耗为65kW的机器。相比之下,人脑的功耗仅为25W,我们必须把TrueNorth的功耗降低几个数量级才行。”

Lee提供了另外一种看清楚这种机会的方式。“当今世界上能效最高的计算机是日本的Green500,可实现每瓦17Gflops的计算能力,大概对应于每59 picoJ 1 flops。”Green500网站指出,安装在日本RIKEN高级计算和通信中心的ZettaScaler-2.2系统在其858 teraflops Linpack性能测试期间重新测量的能效可以到18.4Gflops/瓦。“Landauer的原理告诉我们,在室温下,每个晶体管的最小开关能量约为2.75 zeptoJ。因此,这里同样是数量级上的差异。59 picoJ的数量级约为10-11,理论最小值约为10-21。这意味着我们还有很大的进步空间。”

将这些计算机和人脑进行比较是否公平呢?“看看人类最近这些年在深度学习领域取得的成功,你将会发现,在人类和机器对决编年史中,机器在过去几年中大部分案例中都取得了成功。”Purdue大学电气和计算机工程学科的杰出教授Kaushik Roy说道。 “1997年,我们制造出深蓝,击败了国际象棋大师Kasperov,2011年,IBM的Watson参加了Jeopardy并赢得冠军,2016年,Alpha Go战胜了李世石Lee Sedol。这些都是人工智能领域的伟大成就。但问题在于,这些机器取胜的成本是多少?这些机器的功率都在200KW到300KW之间,而人类大脑的功耗仅在20W左右。存在如此巨大的能效差距,我们将从何处下手进行创新呢?”

现在大多数机器学习和人工智能应用的核心都是大规模执行一些非常简单的运算。“在一个非常简单的神经网络上,你可以进行加权求和,然后进行阈值操作,”Roy解释说。“你可以在一个crossbar上做这些事情,crossbar可以支持多种不同类型器件,比如旋转设备或阻变式RAM。在这种情况下,我们将得到和每个交叉点相关的输入电压和电导,输出的结果将是这些电压和电导乘积的总和。求和之后,你可以使用类似的器件进行阈值处理。你可以考虑使用一种架构,其中,这些节点连接在一起执行运算。”

神经网络的主要器件

新型内存

大多数潜在架构的研究都围绕着新型非易失性存储器架构进行。“这些架构最重要的特征是什么?”IBM研究院区域经理Geoffrey Burr问道。 “我会把赌注放在非易失性模拟阻变式存储器上,例如相变、忆阻器等。它们可以在单个时间内在完全连接的神经网络层上执行多次乘加运算,这些计算在一系列处理器上需要花费100万个时钟来完成。现在,你可以在数据存放位置使用底层物理架构在模拟域中完成这些运算。这种方式显然会在其用武之地实现大量时间和能量的节约。”

清华大学的张教授也同意这种观点。“PCM、STT正在发展壮大。这几种存储器都是实现在内存中计算的优秀备选方案,它们也可以做一些基本的逻辑运算。有的存储器存在存储时间问题,所以你不能用它做训练,但可以用它们做推理。”

新兴内存技术

但是,也可能没有必要选择这种新型存储器。“人们现在在讨论使用SRAM进行内存中运算,”Lee补充道。“他们正在使用SRAM进行模拟计算,它唯一的缺点就是SRAM有点大,一个bit需要六到八个晶体管。SRAM可行的话,我们就没有必要使用新型存储器技术来执行模拟计算。”

转向模拟计算也意味着计算的准确性并不是最重要的需求。“人工智能的功用是专业化、分类和预测,”他说。“它们所做的是做出决定,当然这可能很难。至于准确性,我们可以容忍一定程度的不准确。我们需要确定哪些计算是容错的,然后你就可以使用一些技术来降低功耗或者加快计算速度。业界自2003年就开始研究概率性CMOS了,这种新型CMOS涉及到降低供电电压,直到可能遇到一些错误为止,一定的错误数量是可以容忍的。人们今天已经在使用近似计算技术,,比如量化。你可以使用8位整型代替32位浮点型数据。模拟计算是我们已经提到过的另外一种可能。”

走出实验室

将技术从实验室转化到主流应用中并非易事。“有时你必须看看别人的替代性技术,”Burr说。“当2D flash技术走投无路了,3D flash看起来也就没那么难了。如果现有技术不断地在这里提升两倍,在那里提升两倍,那也就没模拟计算、在内存中运算什么事了。如果现有技术的改进是微不足道的,模拟计算和在内存中计算就有吸引力了。作为研究人员,我们必须在机会出现时做好准备。”

Burr说,尽管有些晶圆厂已经在验证模拟阻变式内存概念,但它们的目的往往在制造存储器芯片上。“在晶圆厂中,你可以很方便地勾选,比如在metal 3和metal 4层之间加上相变存储器。作为一个研究团队,我们要做的是,让别人相信这样做是有意义的。”

资金往往是个障碍,特别是对于存储器来说,但Burr说情况并非如此。“我们的优势在于,这种新型器件并不是通常的利润很小的存储器产品,相反,它是一种可以与GPU进行竞争的器件。它们的售价是DRAM产品的70倍,因此显然不是内存产品,但其成本却和内存差别不大。当然,这听起来很棒,但是当您要做出10亿美金、20亿美金、100亿美金的决策时,成本和业务场景都必须很清楚,我们必须拥有令人惊艳的硬件原型才能打消决策者的顾虑。”

取代CMOS

在内存中运算固然能够带来令人印象深刻的好处,但是还不够。CMOS之外的其它材料能提供帮助吗?“从低功耗CMOS转到隧道FET时,能耗能够降低1到2个数量级,”Lee说。“3D IC也是另外一种可能性,这种方案可以使用TSV降低线长度,这也能降低功耗和延迟。在数据中心的基础设施中,也是通过移除金属线缆并用光学互联替代来帮助降低功耗和延迟的。”

器件的性能和功耗

虽然转向不同的技术能够得到一些好处,但这些好处的代价可能很高。“取代CMOS将很困难,但是所讨论的一些器件可以帮助CMOS技术实现在内存中运算,”Roy说。“也许在8T单元中,CMOS可以支持在内存中计算,可以以模拟方式在内存中进行点积,那么,我真的能够设计出一个在CMOS上实现同时提升巨大的架构吗?如果做对了,CMOS能够将我的能效提升一百倍甚至几千倍,但是这需要时间。”

很明显,CMOS不会被替代。“新技术不会弯道超车,也不会出现在非CMOS基底上。”Burr总结道。





2018-08-18 20:31:00

相关文章