昆仑芯 × 飞桨：共创智能计算“芯”生态

消息来源:baojiabao.com 作者: 发布时间：2024-05-22

报价宝综合消息昆仑芯 × 飞桨：共创智能计算“芯”生态

WAVE SUMMIT 2022 深度学习开发者峰会上周圆满落幕，来自产学研界的专家学者和资深 AI 工程师在七大平行论坛带来了精彩的技术分享。本次峰会专设【智能硬核生态共创】平行论坛，昆仑芯科技生物计算研发总监郑焕鑫受邀参会，并进行"昆仑芯 × 飞桨：共创智能计算'芯'生态"的主题演讲。

昆仑芯适配百度飞桨等主流框架，支持推理和训练场景，生态建设正在逐渐完备，已在丰富的业务场景落地。作为国内人工智能芯片领域的先行者，昆仑芯科技依托团队多年耕耘芯片和智能计算领域的行业影响力，致力于携手上下游合作伙伴，打造智能计算"芯"生态。

以下内容来自演讲实录：

大家好，我是来自昆仑芯科技的郑焕鑫。

昆仑芯科技是一家 AI 芯片公司，2021 年 4 月完成了独立融资，首轮估值约 130 亿元。公司前身是百度智能芯片及架构部，在实际业务场景中深耕 AI 加速领域已十余年，是一家在体系结构、芯片实现、软件系统和场景应用均有深厚积累的 AI 芯片企业。

昆仑芯科技研发实力雄厚，团队成员拥有全球顶尖学术背景，并提出了 100% 自研的通用 AI 计算处理器核心架构昆仑芯 XPU，研究成果也在 Hot Chips、ISSCC 等国际顶级学术会议中成功发表。

在落地实现上，昆仑芯 1 代在百度搜索引擎、小度等业务中部署超过 2 万片，是国内唯一一款经历过互联网大规模核心算法考验的云端 AI 芯片产品。昆仑芯 2 代采用 7nm 制程，也已于 2021 年 8 月量产。更先进的昆仑芯 3 代、自动驾驶芯片等多个产品均已启动研发。

随着 AI 越来越普及，其依托的算力需求也越来越大。在这个时代背景下，昆仑芯的愿景是"成为划时代，全球领先的智能计算公司"，为 AI 发展提供算力赋能。

昆仑芯在 AI 芯片上经历了超过 10 年的发展历程。我们在 2011 年启动 FPGA AI 加速器项目，到 2015 年部署 5000 片，2017 年部署超过 12000 片，是业界最大的量；2017 年发布自研架构昆仑芯 XPU；2018 年启动昆仑芯；2020 年昆仑芯 1 代大规模部署；2021 年昆仑芯 2 代量产。

昆仑芯软硬件架构及两代产品

不同于 GPU 的发展历程，昆仑芯 1 代在 AI 发展相对成熟的时候量产，在设计阶段就更好地理解了 AI 场景，提供了更多的加速计算单元，并且保留了足够的通用计算单元，最终达到了更好的性价比。

这是我们的昆仑芯 XPU 架构：SDNN-软件定义神经网络引擎，是我们自研的核心张量计算单元，用于加速卷积和矩阵乘法；Cluster 为我们的通用计算部件；我们也是国内业界率先支持 GDDR6 的厂商之一；我们的 Shared Memory 片上共享内存，有力保证了计算单元的高并发、低时延访问；提供高达 200GB / s 的片间互联带宽，有效提升了大规模分布式训练中的数据传输效率，减少通讯延时；支持 PCIe 第四代接口，双向带宽可达到 64GB / s。

这是我们的软件架构图：在应用层，我们支持训练、推理以及科学计算；在框架层，除了深度合作的 PaddlePaddle，还支持 TensorFlow，PyTorch 等；我们提供了丰富的 SDK，包括编辑器、图引擎、高性能算子库、高性能通讯库，以及驱动；在环境部署上，我们支持公有云服务、智算中心、智能边缘设备等。

这是我们的产品研发路线，昆仑芯 1 代采用 14nm 工艺，昆仑芯 2 代采用 7nm 工艺，此外我们的昆仑芯 3 代、昆仑芯 4 代都在研发路径中。

昆仑芯 1 代产品包括两种形式，其中 K100 是 K200 的算力一半版本，主要用在边缘端。昆仑芯 2 代产品中，R200 AI 加速卡主要用于推理，支持 INT8 / INT16 / INT32 / FP16 / FP32 等精度，非常值得一提的是昆仑芯 R200 AI 加速卡支持视频编解码能力；R480-X8 AI 加速器组是我们的单机 8 卡训练方案，提供 200GB / s 的片间互联带宽。

概括起来，昆仑芯 2 代有如下特点：

1.通用计算能力显著增强，可灵活支持 AI 算法的演进，提升资源投入效用；

2.硬件虚拟化，提升 AI 算力资源的利用率；

3.高性能分布式 AI 系统，加速 AI 数据并行和模型并行中的高速数据交换。

介绍完硬件参数，我们看看昆仑芯的软件参数。以 R200 AI 加速卡为例，相比较于业界主流产品，典型 AI 负载性能提升 1.5 倍左右，其中 GEMM 矩阵乘法性能为 1.7 倍，BERT 典型自然语言处理性能加速比为 1.4 倍。对 Transformer 类有同样的效果；Yolov3，Yolov5 性能加速 1.3 倍；ResNet50 视觉分类算法加速 1.2 倍。

昆仑芯 AI 算力赋能千行百业

昆仑芯科技前身为百度智能芯片及架构部，天然对互联网 AI 应用有深入了解。以百度搜索场景为例，我们实现了过万片的部署，与飞桨联合优化模型：DeepFM、Wide&Deep。此外，我们在包括百度在内的多家互联网公司上均有不错的落地表现

在智能城市领域，万级别摄像机收集视频流，通过芯片编解码获取图片，对图片进行人脸检索以及比对。该场景主要是以 CV 类算法为主，我们和飞桨联合优化模型包括：ResNet50、MobileNet-v3、Unet、Yolov3-DarkNet53、SSD-ResNet34。

工业质检场景，高清工业相机拍摄零件照片进行质量检测。搭载国产 AI 算力机的质检设备替代人工质检，大大节省了人力，14 个月即可收回成本。同时，"5G+AI + 工业互联网"解决方案大大提高了整厂的智能化水平，帮助企业降低损耗，提升约 10% 的良品率。在这个方向上，我们和飞桨联合开发了 Yolov3-DarkNet53、SSD-ResNet34。

在目前国内前沿的生物计算领域，我们也对基因测序算法 Blast 以及蛋白质折叠预测算法进行了硬件适配，并取得了不错的加速比。

综上，我们在互联网、智慧城市、智慧工业、生物计算、智慧金融、智慧政务、智算中心以及智慧交通等各行业 AI 应用落地场景中均提供了多种解决方案。

总结来看，昆仑芯科技最独特优势在于：在百度搜索引擎、小度等业务中部署超过 2 万片，是国内唯一一款经历了互联网大规模核心算法考验的云端 AI 芯片，产品的可用性、可靠性、稳定性、鲁棒性得到了验证，也证明了团队在芯片架构、软件栈、工程化系统层级的技术实力。此外，昆仑芯灵活支持多个 AI 场景，如视觉、语音、NLP 和推荐等；不仅如此，昆仑芯也支持 HPC、生物计算等算法的加速。

2022-12-19 17:34:43