【旧金山直击】Intel发表专为边缘运算设计的新一代VPU，每瓦的推论运算效能比Nvidia TX2高6.2倍最新消息

Intel IoT部门副总裁Jonathan Ballon表示，Intel发展AI推论用处理器的优势在于：CPU搭配加速卡的组合（比单用GPU的效能更佳）、软件平台的工具集以及系统整合商的资源，能创造出一个完整的AI生态系，让客户直接在其中找到合作伙伴，更容易进行大规模产品部署。

图片来源:

摄影/翁芊儒

Intel今天在旧金山举办年度AI Summit活动上，揭露AI生态系最新布局。除了发表新一代的Movidius视觉运算处理器（VPU）Keem Bay，要抢进边缘运算的市场，也在VPU搭配的软件工具集OpenVINO中，新增了DevCloud硬件部署测试平台，企业能直接从云端上传训练好的模型，来测试出最适合该模型的硬件设施，此外，Intel也宣布成立Edge AI NanoDegree线上课程，来培育AI领域中的边缘运算人才。

VPU（Vision Processing Unit）是Intel 2016年并购Movidius后，所推出的影像分析专用处理器。继2016年推出首款VPU Myriad 2、2017年推出VPU Myriad X后，新发表的VPU Keem Bay是专攻IoT边缘运算所设计的第三代VPU，能处理的资料已经不局限于影像识别，连语音、社群媒体中的用户行为等边缘端的非结构化资料，都能用Keem Bay来进行推论（Inference）。

Intel副总裁暨AI产品部总经理Naveen Rao表示，Keem Bay的推论效能为同类产品Nvidia TX2的4倍，也是华为Ascend 310的1.25倍，不过，还是比不上Nvidia另一款旗舰产品Xavier，但在同样的表现下，Keem Bay的功耗只有30瓦，约为Xavier的五分之一，“功耗会是关键，虽然高效能运算很重要，但企业也很在意能源的耗费。”

在固定功耗下的效能表现上，Naveen Rao更宣称，Keem Bay的效能足足是Nvidia TX2的6.2倍，处理器每平方毫米的每秒效能表现，Keem Bay更能达到Nvidia TX2的8.7倍，不过，这不是业界惯用的整体效能指标，另外，“搭配OpenVINO软件来最佳化模型，还可以提高5成效能，而且我们还会继续优化软件堆叠架构。”他宣称。

Intel如何增加推论效能、降低功耗？Intel IoT部门副总裁Jonathan Ballon表示，关鉴是，用VPU搭配CPU执行运算时，在CPU的部分，Intel利用了64位元内存带宽（memory bandwidth）来加快资料传输，同时也改良指令集来提高推论效率，而且，为了达到工作负载平衡，还利用CPU来执行平行运算，自动将推论工作转移到加速卡上，更有效地利用运算资源。

而在软件层面也采取了不少优化措施，Keem Bay可结合OpenVINO工具集来优化AI模型。VPU的编译器可支援TensorFlow、Pytorch、MXNet、Keras、Caffe、ONNX等深度学习框架，也能透过模型优化器（model optimizer），在不影响辨识准确度的前提下，来压缩庞大的神经网络，减少运算资源的消耗。

比如医疗影像辨识平台AIRX就用OpenVINO来优化AI模型，将影像处理延迟情形，从2.86降至0.66秒，Intel指出，这意味着，系统能在相同时间内标注更多的病灶影像，来加速影像辨识的流程。

AIRX用OpenVINO来优化模型后，影像处理延迟情形从2.86降至0.66秒，快了4.37倍。

Intel预计在2020上半年正式推出Keem Bay，Jonathan Ballon没有正面揭露未来定价，不过，他以GPU作为比价对象说：“Keem Bay的价格将会是GPU的一部分而已（a small fraction of the price of a comparable GPU）。”再加上发表会上公布的图表数据，不难发现，Intel处处以Nvidia为竞争对手。

Intel推出硬件部署测试平台DevCloud，方便企业测试算法可搭配的硬件

除了硬件VPU处理器的发表， Intel今天也发布了一个硬件部署测试平台DevCloud，这也是OpenVINO的新功能。这个平台可供用户上传算法，并选择不同的处理器来测试软硬件搭配的效能，来找到最合适部署的硬件。“DevCloud已进行Beta版测试长达数个月，已经有2,700多家企业试用。”Jonathan Ballon表示。

这个平台分为两步骤的测试，第一步，企业得先上传算法并选择硬件处理器，包括CPU、FPGA、VPU等边缘运算用的推论芯片，初步选定硬件类别后，即可在云端执行推论，并得到推论的速度与成效数据；接着，重复测试几次并选定了要使用的硬件类型后，就能更进一步选择处理器型号、要搭配哪种加速卡、batch-size与执行绪的数量等，来进行更精确的测试。

在OpenVINO工具集中，除了具备模型最佳化的功能（model optimizer），也新增了边缘运算硬件部署最佳化的功能（Edge AI Optimizer）。

第一步初步测试，可自行上传算法并选择硬件处理器类别进行测试。

第二步进阶测试，能更进一步选择处理器型号、要搭配哪种加速卡、batch-size与执行绪的数量等，来进行更精确的测试。

测试完成后，下一步骤就是部署。Jonathan Ballon表示，边缘运算的应用不是只要建构一个解决方案，而是需要大规模的将软件部署到边缘端产品中，而Intel的优势在于其CPU搭配加速卡的组合，“效能比只用GPU高很多，”再加上软件平台的工具以及系统整合商的资源，能创造出一个完整的AI生态系。

要发展生态系，Intel长期以来也提供开发者许多学习资源来培育AI人才。2016年底，Intel因应AI趋势来袭而成立了Nervana AI学院，以Intel AI相关软硬件为教材来提供线上课程。“不过，以往我们有关AI的教育和培训都针对云端开发人员，现在我们也要培训开发人员在边缘端应用AI。”Jonathan Ballon表示，Intel宣布成立具有Udacity学位的Edge AI NanoDegree线上课程，来因应边缘运算兴起的趋势，也释出奖学金来鼓励女性参加。