百度大脑5.0技术干货：详解飞桨五大优势鸿鹄芯片架构细节_训练最新消息

智东西（公众号：zhidxcom）

文 | 心缘

智东西7月8日讯息，近日，2019百度AI开发者大会在北京国家会议中心举行。在上午的主论坛中，百度CTO王海峰带来了软硬一体的AI大生产平台——百度大脑5.0，宣布百度飞桨与华为麒麟芯片深度对接，并发布了智慧语音芯片“鸿鹄”。

在当日下午的百度大脑分论坛中，以深度学习平台飞桨（PaddlePaddle）为代表的百度大脑AI技术和AI架构最新进展得到详实的介绍。

百度CTO王海峰、百度副总裁侯震宇携手一众百度各AI技术部门高管，对智慧语音芯片鸿鹄、百度视觉语义化平台2.0、茶博士等新发布的产品及其背后的AI技术进行更为具体的解读。

一、详解飞桨五大优势

据介绍，百度飞桨（PaddlePaddle）是国内唯一功能完备的开源深度学习平台，自Paddle Fluid v1.0释出以来，飞桨陆续在开发、训练和部署全流程上进行全方面的升级。

而在刚刚过去的百度AI开发者大会上，百度CTO王海峰介绍了飞桨的五大优势。

在此，我们根据百度大脑分论坛的介绍，对这五大优势进行更详细的解读。

1、动态图&静态图：兼顾灵活性与效率

飞桨新增同时为使用者提供动态图和静态图两种机制。

动态图是按著编写命令的顺序去执行，而静态图是先定义网络架构，而后执行，对定义好的图结构进行分析。

因为静态图先进行定义，再执行的时候不需要重新构建计算图，所以执行速度会更快，视讯内存占用更低，在业务部署上线上的具有非常大的优势。

但由于静态图组网和执行阶段是分开，对于新使用者理解起来不太友好，飞桨从最新版本开始，支援动态图模式，所有操作可以立即获得动态结果，而不用等到执行阶段，这使得编写、除错网络的过程变得更加便捷。

使用者可以使用动态图进行除错和训练，然后把训练好的模型转换为静态图的结构，快速上线部署。

对于中国开发者，飞桨提供系统的深度学习技术服务，有非常全面的中文支援。

2、官方模型：覆盖三大主流任务

飞桨提供了70多个官方的、达到工业级应用效果的模型，涵盖视觉、NLP、语音和推荐等AI核心技术领域。

（1）自然语言处理模型库PaddleNLP

PaddleNLP是基于飞桨打造的工业级中文NLP开源工具集，拥有当前业内效果最好的中语义表示模型和基于百亿级大资料训练的预训练模型，支援NLP前沿研究，现已开源多种近期百度在NLP学术领域的工作。

（2）视觉模型库PaddleCV

PaddleCV提供PaddleDetection、PaddleGAN、PaddleVideo三个面向工业应用的CV开源工具集，前两者覆盖主流的检测、GAN演算法。

影象分类库新增9个影象分类模型，截至目前，覆盖10种、超过25个ImageNet预训练模型。

今年4月释出的业界首个视讯识别与定位工具集PaddleVideo，本次持续优化训练速度，部分模型速度优于同类产品的30%，并新增百度自研的视讯动作定位模型C-TCN，这也是2018年ActivityNet夺冠方案，在PaddlePaddle上首次开源。

（3）预训练模型库PaddleHub

飞桨预训练模型管理和迁移学习元件PaddleHub，可一键载入工业级预训练模型，新增释出29个预训练模型，共为使用者提供40+预训练模型，覆盖文字、影象、视讯三大领域八类模型。

PaddleHub提供Fine-tune API，10行程式码即可完成大规模预训练模型的迁移学习。

PaddleHub还引入“模型即软件”的理念，通过Python API或者命令列工具，一行程式码完成预训练模型的预测。

3、大规模分散式训练：超大规模并行深度学习能力

百度产品系统主要面临四类挑战：超大规模稀疏化特征、万亿级模型引数量、百亿级训练资料、终身流式学习。

飞桨同时支援稠密引数和稀疏引数场景的超大规模深度学习并行训练，支援千亿规模引数、数百个节点的高效并行训练。分散式训练的吞吐量和加速比都呈现线性增长。

分散式训练新发布High-level API Fleet，单机转分散式训练成本显著降低；GPU多机多卡效能显著提升，在ResNet50、BERT、ERNIE等模型中4×8 v100配置下相比此前释出的Benchmark提速超过50%。

4、端到端部署：训练到多端推理的无缝对接

开发者在移动端部署深度学习和神经网络技术可能会遇到很多问题，比如安装包大小、执行内存占用大小、推理速度和效果等。

此前4月释出的PaddleSlim支援网络量化、剪枝和蒸馏的组合使用，可以在效果不损失的前提下，将MobileNet模型的体积压缩70%以上。

此次PaddleSlim更是进一步升级，新增基于模拟退火的自动剪枝策略和轻量级模型结构自动搜寻功能Light-NAS，相比MobileNet v2在ImageNet类分类任务上精度无损情况下FLOPS减少17%。

5、服务支援：唯一提供系统化深度学习技术服务

飞桨已实现了API的稳定和向后相容，为使用者提供完善的中英双语使用档案。

同时，飞桨为合作伙伴提供系统的服务体系，还帮助高校和教育伙伴构建完善体系，为开发者提供不同层次的培养体系。

二、语音识别/合成/鸿鹄芯片三点突破

在今年的百度AI开发者大会主论坛上，李彦宏展示了小度DuerOS的全双工特性，即一次唤醒多次互动，并秀出拒绝识别技术，自动判别哪些话是跟小度说的、哪些话是跟别人说的。

除了这些技术亮点外，百度语音技术最近在识别、合成和芯片三方面实现了技术突破。

1、截断注意力模型SMLTA

在大规模线上识别领域，百度语音技术的节奏基本上是每年一个模型上的突破，同时带来线上语音识别准确率的大幅提升。

今年，百度在这一领域的核心突破即是流式多级的截断注意力模型SMLTA。

此前注意力模型在语音上一直无法做到大规模实时线上应用，这是因为传统注意力模型用到语音必须做整句识别，这样一来就很难满足实时的需求。

百度主要做的创新是，先动态将一个完整的语音切分，将整句识别变成一段一段的流式识别，在此基础上使用多级注意力模型，构成其SMLTA技术。

这一技术已经上线百度输入法和小度音箱。SMLTA在输入法有效产品相对准确率提升15%，音箱有效产品相对准确率提升20%。

据介绍，这是国际上首次实现区域性注意力模型超过整句的注意力模型，也是国际上首次实现线上语音大规模部署注意力模型。

2、语音合成技术Meitron

合成方面，针对现阶段面临音库风格迁移、音色模拟和情感拟人的三大挑战，百度推出语音合成技术Meitron，可以将语音中的音色、风格、情感等要素对映到不同的子空间。

Meitron推出一个创新的技术框架，一次性解决上述三类问题，将十几个音库上千小时高质量的录音棚录来的声音，混合在一起用注意力模型进行非监督式训练，用软分类技术，独立输出三个风格的神经网络。

在解码阶段，输入文字后，根据此前训练好的三个网络进行动态特征拼合，灵活组合音色、情绪和说话风格，合成的声音更加个性化。同时降低语言合成门槛，仅需20句话就可以制作一个人的专属声音。

3、鸿鹄智慧语音芯片

百度开发者大会还亮出了一个相当重磅的产品，即百度第一个在智慧语音芯片上的解决方案——鸿鹄。鸿鹄芯片在流片的同时，即实现了量产，开发板也已就绪。

在技术细节方面，为了实现超低功耗、超低成本、超高精度的目标，鸿鹄芯片采用“软件定义芯片”的设计思路，让芯片架构来适应演算法。

由于芯片资源有限，深度学习模型的计算和载入过程高度并行，芯片根据模型不同精度做动态载入，基于线上模型去深度优化。

据介绍，芯片架构是完全为了适应模型计算中的高吞吐率而量身定制。芯片内建2个DSP核，并针对其演算法将快取分为指令快取和资料快取，在此基础上，百度完整开发了其自身的音讯系统。

核心引数方面，鸿鹄采用双核HiFi4架构、2.8M大内存、台积电40nm工艺，平均工作功耗在100mw左右，即可支援远场语音互动核心的阵列讯号处理和语音唤醒能力。

其指令集是针对演算法特别优化的自定义指令集，按照车规级标准打造，在智慧硬件、无人车上都有很多应用空间。

鸿鹄芯片主要实现3个方面的边缘计算能力：

（1）数字阵列讯号处理，远场收音功能，最高支援六路麦克风的阵列，支援回声消除、声源定位、波数形成等功能。

（2）语音唤醒，完全支援自定义唤醒，也支援一些基本场景的预定命令词。

（3）离线语音识别，聚焦AIoT刚性需求，采用模型波束演算法，最少只用到2个麦克，可做到360度无死角收音。

三、视觉语义化平台2.0的两大特性

5G时代，越来越多物理装置将连线到高可靠、低延时的网络空间，这将极大改变人们与环境及装置的互动方式，对视觉技术也提出更高要求。

首先，实时计算需求大增，视讯、3D内容分析等对计算效率有更高要求。其次，多模态互动使得互动更加自然生动，更多物联网装置依赖边缘计算的部署方式，来高效实现云端协同。

为了应对这样的技术确实，百度释出百度视觉语义化平台2.0，主打互动升级和软硬件结合两大特性。

1、智慧互动

第一个重要升级是多模态互动技术，包括人脸/手势/肢体/环境的一体化人机互动系统和大场景物理世界互动系统。

百度在人脸属性相关演算法方面，可以实现精细到面板级的稳定实时跟踪和互动特效，在手势上支援超过21个手指关节点的实时检测跟踪，在肢体上支援超过59点肢体骨骼关键点的实时跟踪检测，还能做到物理环境实时分割、风格化滤镜等等。

这样的一些智慧互动技术，既可以用在C端的AR特效直播、小视讯、特效小程式等娱乐互动，也可以用于B端的人脸识别、情绪识别、疲劳驾驶等智慧车载应用及智慧家居应用。

比如百度刚刚协助奇瑞推出的星途，就是世界上第一款支援人脸识别和支付的智慧车机。

除了跟人和身边物体的互动，百度还研发了更大范围的对整个物理世界的一个互动系统，创新性的将大范围3D视觉定位技术与AR技术结合，将上线虚拟资讯和物理世界精准叠加。这一功能已在百度地图上线。

2、软硬件结合

随着人们对计算效率和资料安全的要求越来越高，软硬件结合变得尤为必要。很多计算开始放在边缘和终端来实现。

百度对视觉语义化平台升级的第二个重要升级就是软硬件结合解决方案，包含飞桨模型压缩共聚合平台PaddleSlim、FaceID多模态人脸识别元件、软硬件一体解决方案AI相机三部分。

近年人脸识别应用如火如荼，将人脸识别系统部署到一个边缘装置时，通过PaddleSlim压缩优化后，其速度可提升9-10倍。

百度的FaceID则更进一步，采用全流程多模态应用领先的量化压缩技术，搭载了百度最强大的人脸识别的演算法和模型，实现了软硬一体、即插即用的AI开发体验，已应用在超过1200多万台装置上。

此外，百度也研发了直接用于终端业务的软硬一体AI相机，将AI演算法整合到智慧硬件中，劲儿研发高效的商用系统。这些系统在3C卖场、品牌店、营业厅、便利店均已得到实际商用。

四、“茶博士”背后的AI能力

在智慧化工程机械方面，百度基于百度领先的阿波罗自动驾驶平台基础上，采用优秀的机械控制技术，推出智慧化工程机械平台，力求打造高效能、低成本的智慧化装备和施工解决方案。

在百度AI开发者大会主论坛中，百度CTO王海峰展示的机械臂“茶博士”不仅能说会道，能精准地完成倒茶工作，还会高阶玩法——茶艺。

而这背后的主要功臣，正是百度服务机器人方案。

首先是语音语义联动技术解析，当使用者提问，系统需要了解请求并生成可能的答案列表，当使用者中断语音，系统需要知道“这”的确切含义，然后向机器人传达正确命令。

其次，基于百度3D视觉，机器人可以对茶杯的位置进行实时检测和位置追踪。

最后，通过高精度运动规划和控制，机械臂可以对工作空间进行碰撞检测，避开障碍物，实时调整位置。

五、释出行业知识图谱平台和智慧创作平台2.0

目前，百度已构建百度大脑·语言与知识技术开放平台，不仅有丰富的基础技术，还形成了包括智慧创作平台在内的翻译开放平台、UNIT平台、知识图谱构建与应用平台共四大应用级平台。

而此次百度大脑分论坛又带来了2个应用级的平台——行业知识图谱和智慧创作平台2.0。

1、行业知识图谱平台

行业知识图谱平台有几个特点。

首先，百度将知识建模、图谱构建、图谱计算到应用全流程，进行了全流程智慧化的处理，使得整个流程非常的平滑和高效。

同时，这个流程中有策略迭代和资料反馈的闭环，能帮助行业的开发者更高效的获取到自己的图谱。

针对更为复杂的行业知识，百度在该平台上推出了可灵活定制知识体系的能力，并推出多角色任务协同的人机结合机制，可以使行业专家、资料专家、技术开发人员、图谱训练师等多角色高效协同。

此外，行业知识图谱平台还具备低成本的启动和跨行业迁移的能力，这些能力均已在百度AI开放平台的知识图谱专区开放。

2、智慧创作平台2.0

今年4月全面开放的智慧创作平台1.0，截至目前已产生10万以上的文章。

全新的智慧创作平台2.0带来三个新的特性：实时热点关联丰富素材，全面的创作辅助能力，领先的多模生成技术。

智慧创作平台2.0在创作过程中提供丰富元件，包括组稿、纠错、文字润色、素材推荐等元件，在创作结束后还能进行自动稽核、文字分类和标签提取等功能。

此前智慧创作平台1.0集成了百度通用知识图谱，2.0进一步推出了热点发现、热词分析、事件脉络等素材，可以进行热词的全网热度趋势的关联分析，还能通过事件脉络能够把握住整个事件的演变状态。

另外，智慧创作平台2.0将于10月份进行一个邀测测试的功能是多模态自动创作，能对视讯进行语义理解，在再过文字生成的技术顺利程度稿件，加上知识图谱的辅助让它丰富化，加上图片的引入最后生成一篇图文并茂的作品。

反过来，对图文内容也可以进行摘要，通过语音生成、视讯检索、视讯获取等技术，生成很好的视讯内容。

六、更高效的自动化建模，AutoDL3.0释出

新一代神经网络模型面临建模成本高的挑战，而自主AI可以帮助工程师设计网络，自动进行网络引数调优，而不需要从头训练网络。

论坛上，百度正式释出自动化建模技术AutoDL 3.0，从设计、迁移和适配三方面进行全面升级，降低建模成本、提高建模效率，减少对大资料和人工的依赖，目前已通过飞桨正式开源。

首先是设计能力，当用生成模型做风格迁移时，AutoDL 3.0可以将生成一幅图片的时间，从传统的六十几秒，缩短到零点几秒，几乎做到实时，而且质量进一步提高。

其次是迁移学习，AutoDL 3.0通过一个网络训练一次，得到多个模型，然后将这些模型通过整合学习的方法组合起来，能够更好的支援迁移。

第三是模型适配问题，百度做了一个三维滤波器，可以对语音、影象、目标检测、自动搜寻等模型进行压缩，而模型准确率几乎保持不变。

除了支援百度外部应用外，AutoDL也对百度新闻流等内部应用提供相应的支援。

七、百度新一代AI计算架构

在百度AI开发者大会的百度大脑分论坛上，百度副总裁侯震宇分享了在AI时代，百度新一代AI计算架构是如何思考的。

侯震宇表示，支援现代化的AI的计算架构会对资源、计算、储存、网络等计算机体系架构上的几大核心，都带来了非常大的新挑战。

AI时代，计算与连线无处不在，对此百度提供一个从底层芯片到上层框架，软硬一体的、端到端的全栈式AI大基础设施配套。

侯震宇认为，面对即将到来的AI+5G时代，计算将无处不在。真正的计算会发生在装置（Device）、边缘（Edge）和云（Cloud）中。

不同场景对计算基本单元有不同要求，这些不同要求需要有不同的设计，因此在芯片设计领域，D-E-C（DSA-Domain Specific Architecture）会是接下来需要重点研究的问题。

与此同时，包括芯片之间、系统之间、装置之间的互相连线，将帮助不同场景中的计算连线在一起，产生更大的计算力。

在基础设施层面，百度整个AI计算丛集能提供百万级TOPS的AI算力。芯片之上，百度有自研的软硬一体的GPUBOX、X-MAN服务器。

在软件层面，百度对I/O、通讯层等都做了大量的优化，进一步提升资源利用率，缩短训练时间。

再往上是丛集侧的Auto Compiler，以及被百度称之为“AI时代的操作系统”的百度深度学习框架飞桨，全面升级支援D-E-C计算。

另外在互联方面，百度有大量业界成熟的方案，在内部也在积极的投入一些标准的制定，可以使我们计算的部分和大的储存部分来解耦，百度内网还建立了大型的面向大资料处理的储存池。

百度的整个资料中心内部的基础网络架构，扩充套件性非常强，拥有大量储存资源和计算资源，能做到让储存和计算真正的分离，同时确保储存和计算之间的访问高速通畅。

结语：全维度升级推进AI落地

百度大脑5.0通过AI演算法、计算架构和应用场景的融合创新，成为软硬一体AI大生产平台。而百度开发者大会主论坛及分论坛上分享的各种AI技术，仅仅是百度大脑技术的冰山一角。

据介绍，百度大脑持续开放赋能，迄今为止已经开放210余项领先的AI技术能力，平台的呼叫次数同比增长108%，定制化平台模型的数量都在飞速增长，平台上的开发者数量已经达到了130万。

从基础开发能力到软硬件一体解决方案，小到个人、家庭的工作生活常用软硬件，大到工业质检和城市管理，百度大脑所提供的AI技术正在渗透到越来越多的业务场景，和各行业的开发者协同，加速产业智慧化落地程式。

百度大脑5.0技术干货：详解飞桨五大优势 鸿鹄芯片架构细节_训练

品牌选车

百度大脑5.0技术干货：详解飞桨五大优势鸿鹄芯片架构细节_训练