APP下载

国产百亿亿次超算神威E级揭秘:自研260核申威26010+处理器

消息来源:baojiabao.com 作者: 发布时间:2024-05-10

报价宝综合消息国产百亿亿次超算神威E级揭秘:自研260核申威26010+处理器

今年6月份美国凭借IBM、NVIDIA联合研发的Summit超算成功夺回TOP500超算第一,在过去的5年中TOP500先后被中国的天河2号、神威·太湖之光垄断,分别实现六连冠、四连冠。Summit超算20亿亿次的性能短时间内没可能被超越了,因为中美欧日都在加速研发下一代的百亿亿次超算,其中国内有三套百亿亿次超算——天河3号、神威E级及中科曙光。神威E级的原型机今年已经安装在济南超算中心,已经通过验收,而它使用的处理器也被曝光了,是申威研发的新一代申威26010+众核处理器,是现在太湖之光超算上的申威26010处理器的升级版。

经济日报今天报道了神威E级超算原型机的消息,经济日报记者看到,神威E级原型机放置在一个黑色机柜中,机柜门上镶嵌著“神威E级原型验证系统”字样。“神威E级原型机就好比是一台能够上路的概念车,原型机的成功研制,对E级计算机研制方案和技术路线进行了全面系统验证,为下一步E级计算机的研制成功铺平了道路。”山东省计算中心(国家超级计算济南中心)主任杨美红介绍,神威E级原型机系统主要由硬件、软件和应用三大系统组成。其处理器、网络芯片组、存储和管理系统等核心器件全部为国产化。

这一原型机的系统软件,由完全自主研发的神威睿思操作系统、神威睿智编译器等构建。运算系统全部采用“神威26010+”众核处理器,高速互连网络系统全部采用申威网络交换芯片、申威消息处理芯片,这些关键部件均具备完全自主知识产权。存储和管理系统由申威多核处理器构建,实现对该领域产品的国产化替代。

此前,国家超级计算济南中心已部署有中国首台全部采用国产CPU和系统软件构建的千万亿次计算机—“神威·蓝光”,至今已运行7年。现在神威E级原型机的运算能力达到“神威·蓝光”的3倍,体积仅为后者的九分之一,能耗同比下降75%。

这不是神威E级超算第一次被媒体报道,但这是首次有媒体明确提到神威E级超算的处理器——申威26010+,这个名字跟目前神威·太湖之光上使用的申威26010(SW26010)处理器很相似,有理由相信神威E级超算使用的是升级版的SW26010处理器,架构设计维持之前的4+256核不变,但是规格、性能会大幅提升。

申威处理器是国内的上海江南所研发,上文提到的神威蓝光超算使用的是SW1600处理器,2010年问世,当时使用的是DEC Alpha指令集,而2016年神威·太湖之光首次获得TOP500冠军之后,田纳西大学教授、TOP500创始人Dongarra Jack曾经介绍过SW26010处理器,他的文档中也提到了是Alpha指令集体系,不过后来申威方面表示SW26010的指令集已经是自己开发的申威64。虽然详情还不清楚,不过申威处理器的指令集有点类似龙芯购买MIPS指令集之后自行开发的情况,现在使用的处理器指令集跟最初版本相比已经是魔改了,没多大关系了。

申威26010处理器的主要规格

申威SW26010处理器支持乱序执行,频率1.45GHz,260个核心,整个处理器包括4个MPE(Management Processing Element)管理单元、4个CPE(Computing Processing Element)计算单元及4个MC内存控制器单元组成,其中CPE单元又由8x8阵列的64核心组成,所以总计是260个核心(4x64+4=260)。

这样1个处理器就是1个节点,每个节点8GB DDR3内存,256个节点组成1个超级节点,160个超级节点互联连接,因此总计是40960个节点,10649600个核心,内存容量1.3PB。

申威26010处理器的浮点性能可达3.06TFLOPS,这个性能跟英特尔的14nm工艺72核Xeon Phi加速卡的3TLFOPS性能差不多,而且这两个产品都是MIC众核架构的。

至于经济日报提到的申威26010+处理器,现在还没有详细资料,但从命名上看是升级版的申威26010处理器,后者目前的频率只有1.45GHz,同时支持的还是DDR3内存,虽然没有确切资料提到申威26010的制程工艺,但考虑到研发的时间点及国内的工艺情况,它最多是28nm工艺的,而现在的申威26010处理器显然不可能再使用28nm工艺了,如果使用16/14nm工艺制造,那么处理器频率会大幅提升,比如2.5GHz下性能大概就可以提升60%了。

除了频率 、架构优化之外,神威26010+处理器在缓存、内存等方面也有提升的余地,之前的申威26010在测试中就反映出内存、缓存性能不足的问题,这部分也是改进的重点。

太湖之光超算的性能是12.5亿亿次,Linpack性能是9.3亿亿次,要想变成百亿亿次超算,不是简单提升10倍规模那么简单,因为还要考虑到能效及体积问题,提升性能的关键还是看处理器及网络节点等核心部件。



2018-09-04 21:31:00

相关文章