APP下载

昆仑芯 × 飞桨:共创智能计算“芯”生态

消息来源:baojiabao.com 作者: 发布时间:2024-05-22

报价宝综合消息昆仑芯 × 飞桨:共创智能计算“芯”生态

WAVE SUMMIT 2022 深度学习开发者峰会上周圆满落幕,来自产学研界的专家学者和资深 AI 工程师在七大平行论坛带来了精彩的技术分享。 本次峰会专设【智能硬核生态共创】平行论坛,昆仑芯科技生物计算研发总监郑焕鑫受邀参会,并进行"昆仑芯 × 飞桨:共创智能计算'芯'生态"的主题演讲。

昆仑芯适配百度飞桨等主流框架,支持推理和训练场景,生态建设正在逐渐完备,已在丰富的业务场景落地。作为国内人工智能芯片领域的先行者,昆仑芯科技依托团队多年耕耘芯片和智能计算领域的行业影响力,致力于携手上下游合作伙伴,打造智能计算"芯"生态。

以下内容来自演讲实录:

大家好,我是来自昆仑芯科技的郑焕鑫。

昆仑芯科技是一家 AI 芯片公司,2021 年 4 月完成了独立融资,首轮估值约 130 亿元。公司前身是百度智能芯片及架构部,在实际业务场景中深耕 AI 加速领域已十余年,是一家在体系结构、芯片实现、软件系统和场景应用均有深厚积累的 AI 芯片企业。

昆仑芯科技研发实力雄厚,团队成员拥有全球顶尖学术背景,并提出了 100% 自研的通用 AI 计算处理器核心架构昆仑芯 XPU,研究成果也在 Hot Chips、ISSCC 等国际顶级学术会议中成功发表。

在落地实现上,昆仑芯 1 代在百度搜索引擎、小度等业务中部署超过 2 万片,是国内唯一一款经历过互联网大规模核心算法考验的云端 AI 芯片产品。昆仑芯 2 代采用 7nm 制程,也已于 2021 年 8 月量产。更先进的昆仑芯 3 代、自动驾驶芯片等多个产品均已启动研发。

随着 AI 越来越普及,其依托的算力需求也越来越大。在这个时代背景下,昆仑芯的愿景是"成为划时代,全球领先的智能计算公司",为 AI 发展提供算力赋能。

昆仑芯在 AI 芯片上经历了超过 10 年的发展历程。我们在 2011 年启动 FPGA AI 加速器项目,到 2015 年部署 5000 片,2017 年部署超过 12000 片,是业界最大的量;2017 年发布自研架构昆仑芯 XPU;2018 年启动昆仑芯;2020 年昆仑芯 1 代大规模部署;2021 年昆仑芯 2 代量产。

昆仑芯软硬件架构及两代产品

不同于 GPU 的发展历程,昆仑芯 1 代在 AI 发展相对成熟的时候量产,在设计阶段就更好地理解了 AI 场景,提供了更多的加速计算单元,并且保留了足够的通用计算单元,最终达到了更好的性价比。

这是我们的昆仑芯 XPU 架构:SDNN-软件定义神经网络引擎,是我们自研的核心张量计算单元,用于加速卷积和矩阵乘法;Cluster 为我们的通用计算部件;我们也是国内业界率先支持 GDDR6 的厂商之一;我们的 Shared Memory 片上共享内存,有力保证了计算单元的高并发、低时延访问;提供高达 200GB / s 的片间互联带宽,有效提升了大规模分布式训练中的数据传输效率,减少通讯延时;支持 PCIe 第四代接口,双向带宽可达到 64GB / s。

这是我们的软件架构图:在应用层,我们支持训练、推理以及科学计算;在框架层,除了深度合作的 PaddlePaddle,还支持 TensorFlow,PyTorch 等;我们提供了丰富的 SDK,包括编辑器、图引擎、高性能算子库、高性能通讯库,以及驱动;在环境部署上,我们支持公有云服务、智算中心、智能边缘设备等。

这是我们的产品研发路线,昆仑芯 1 代采用 14nm 工艺,昆仑芯 2 代采用 7nm 工艺,此外我们的昆仑芯 3 代、昆仑芯 4 代都在研发路径中。

昆仑芯 1 代产品包括两种形式,其中 K100 是 K200 的算力一半版本,主要用在边缘端。昆仑芯 2 代产品中,R200 AI 加速卡主要用于推理,支持 INT8 / INT16 / INT32 / FP16 / FP32 等精度,非常值得一提的是昆仑芯 R200 AI 加速卡支持视频编解码能力;R480-X8 AI 加速器组是我们的单机 8 卡训练方案,提供 200GB / s 的片间互联带宽。

概括起来,昆仑芯 2 代有如下特点:

1.通用计算能力显著增强,可灵活支持 AI 算法的演进,提升资源投入效用;

2.硬件虚拟化,提升 AI 算力资源的利用率;

3.高性能分布式 AI 系统,加速 AI 数据并行和模型并行中的高速数据交换。

介绍完硬件参数,我们看看昆仑芯的软件参数。以 R200 AI 加速卡为例,相比较于业界主流产品,典型 AI 负载性能提升 1.5 倍左右,其中 GEMM 矩阵乘法性能为 1.7 倍,BERT 典型自然语言处理性能加速比为 1.4 倍。对 Transformer 类有同样的效果;Yolov3,Yolov5 性能加速 1.3 倍;ResNet50 视觉分类算法加速 1.2 倍。

昆仑芯 AI 算力赋能千行百业

昆仑芯科技前身为百度智能芯片及架构部,天然对互联网 AI 应用有深入了解。以百度搜索场景为例,我们实现了过万片的部署,与飞桨联合优化模型:DeepFM、Wide&Deep。此外,我们在包括百度在内的多家互联网公司上均有不错的落地表现

在智能城市领域,万级别摄像机收集视频流,通过芯片编解码获取图片,对图片进行人脸检索以及比对。该场景主要是以 CV 类算法为主,我们和飞桨联合优化模型包括:ResNet50、MobileNet-v3、Unet、Yolov3-DarkNet53、SSD-ResNet34。

工业质检场景,高清工业相机拍摄零件照片进行质量检测。搭载国产 AI 算力机的质检设备替代人工质检,大大节省了人力,14 个月即可收回成本。同时,"5G+AI + 工业互联网"解决方案大大提高了整厂的智能化水平,帮助企业降低损耗,提升约 10% 的良品率。在这个方向上,我们和飞桨联合开发了 Yolov3-DarkNet53、SSD-ResNet34。

在目前国内前沿的生物计算领域,我们也对基因测序算法 Blast 以及蛋白质折叠预测算法进行了硬件适配,并取得了不错的加速比。

综上,我们在互联网、智慧城市、智慧工业、生物计算、智慧金融、智慧政务、智算中心以及智慧交通等各行业 AI 应用落地场景中均提供了多种解决方案。

总结来看,昆仑芯科技最独特优势在于:在百度搜索引擎、小度等业务中部署超过 2 万片,是国内唯一一款经历了互联网大规模核心算法考验的云端 AI 芯片,产品的可用性、可靠性、稳定性、鲁棒性得到了验证,也证明了团队在芯片架构、软件栈、工程化系统层级的技术实力。此外,昆仑芯灵活支持多个 AI 场景,如视觉、语音、NLP 和推荐等;不仅如此,昆仑芯也支持 HPC、生物计算等算法的加速。

2022-12-19 17:34:43

相关文章