Nvidia以软件定义切入边缘运算应用最新消息

以GPU加速技术见长的Nvidia，在10月下半举行的世界行动通讯大会期间，进一步说明边缘运算平台EGX发展策略，当中将以GPU单板电脑与服务器为基础，运用软件定义的方式支援人工智能、物联网与5G应用，同时也宣布与红帽、微软、爱立信等厂商合作，携手打造从边缘到云的创新技术架构。（摄影／李宗翰）

身为GPU供应商之一的Nvidia，致力于影像处理与游戏体验的强化，在企业IT领域，他们也陆续支援桌面虚拟化、人工智能、物联网、高效能运算（HPC）、云端服务的应用技术，到了今年，他们更是积极布局电信产业与边缘运算（Edge Computing）的发展策略，并接连释出相关消息。

以GPU运算设备与服务器，结合软件堆叠架构，建构边缘运算平台

举例来说，在1月底，他们在台召开Nvidia AI电信产业应用媒体说明会，预告他们借由GPU与人工智能技术，协助电信业从既有的4G宽频移动网络跨越到5G，能够在业务转型的过程当中，运用虚拟化网络功能服务（VNF）、软件定义网络（SDN）的技术，支援多种网络应用，像是一般消费者的互联网连线、产业应用系统、多媒体与娱乐，以及自动化设备。

到了5月底举行的台北国际电脑展，Nvidia突然宣布推出名为EGX的边缘运算加速运算平台，当中的硬件部分，囊括了多种GPU整合运算设备，像是Jetson Nano单板电脑、Drive AGX Pegasus车用电脑、采用Nvidia T4推论加速卡的服务器，而在搭配的软件环境上，他们推出堆叠架构Edge Stack，包含GPU驱动程式、CUDA-X程式库、CUDA的Kubernetes插件、CUDA的容器执行元件（container runtime），以及多种容器化AI框架与应用程序（Nvidia容器映像登录服务NGC）。

为了进一步突显Nvidia边缘运算策略的前瞻性，他们参加了10月底举行的世界行动通讯大会─洛杉矶站（MWC Los Angeles），将EGX定调为边缘超级运算平台（Edge Supercomputing Platform），并且基于EGX服务器、EGX软件堆叠架构、CUDA-X系列应用软件加速程式库的组合，现场展示多种结合人工智能与物联网的应用场景，同时也正式宣布投入5G vRAN（虚拟无线电接取网络）的发展。

EGX平台的架构全貌

Nvidia在今年MWC Los Angeles大会期间，揭露了EGX平台的全貌，当中可区分为4个层级：底层的硬件设备是EGX服务器，上层的软件依序是EGX Stack、应用程序框架与软件开发套件、Nvidia提供的容器映像与其他独立软件开发商的产品。摄影／李宗翰

该公司创办人暨首席执行官黄仁勋表示，他们已经与多家硬件服务器业者、系统软件厂商，以及零售、制造等产业，展开密切合作，合力打造专攻边缘运算的超级电脑平台EGX。同时，他也宣布与红帽、微软、爱立信（Ericsson）等厂商，企图透过软件定义的高效能运算技术，积极支援5G网络服务的管理，以及新兴AI服务的扩展。

在边缘运算架构下，提供超级电脑等级效能与丰富的软件支援

EGX平台的4种运算设备

在边缘运算的硬件设备应用上，Nvidia定义了4种不同运算能力的电脑与服务器，从体型最小的Jetson Nano单板电脑、Drive AGX Pegasus车用电脑、采用Nvidia T4推论加速卡的服务器，以及多台搭配Nvidia T4的服务器群组。摄影／李宗翰

在物联网、人工智能的应用浪潮之下，生活中的许多物品都开始历经连网化、智慧化的革命，像是机器人、自动驾驶车，逐渐开始普及，黄仁勋认为，我们正处于图形处理、高效能运算、人工智能应用的交叉路口，而在深层神经网络技术兴起之后，掀起了一连串的人工智能进化。而在多样的使用情境中，即便是位于网络边缘的各种装置，仍需要就近搭配强大的运算能力来进行处理，而非只能仰赖距离遥远的企业资料中心或是公有云服务，于是，这类位于边缘的高效能运算装置应运而生。

而Nvidia在今年中推出的EGX平台，已经先擘画了运算量由小至大的产品搭配蓝图，对应的效能范围分别是0.5 TOPS、320 TOPS、520 TOPS、1万TOPS，已经可以涵盖到超级电脑的运算等级，或许是这个原因，Nvidia在此次MWC Los Angels大会，对于这样的架构，给出了新的名称“EGX Edge Supercomputing Platform”。

根据Nvidia目前最新的规划，这套边缘超级电脑平台的硬件，主要有两项配备，那就是内建Tensor Core的Nvidia GPU加速卡（T4、Tesla V100、RTX系列），以及具备200GbE连线能力的Mellanox Smart NIC网络卡（ConnectX-6 Dx、BlueField-2），能让服务器具备强大的AI运算能力，以及支援NVMe/TCP与RDMA的网络连线方式，同时，也能够充分应用于云端原生环境与AI软件堆叠。

软件的部分，则由EGX Stack作为底层平台，当中包含了容器、Kubernetes、网络、储存、资安、云端物联网（Cloud IoT）等技术。而在EGX Stack的上层，可支援CUDA-X系列的程式库；在更上一层的位置，则是能够支援光线追踪、多媒体处理、扩增实境／虚拟实境、人工智能等应用。

与软件、云、电信平台业者展开合作

EGX平台的厂商生态系

由Nvidia主导的EGX平台，串连了不同类型的IT厂商，在底层的部分，众多服务器供应商是主力，也有大型云端服务业者与系统软件商。摄影／李宗翰

为了跨入5G领域，Nvidia在此次MWC Los Angeles大会上，除了进一步阐释他们的EGX平台策略，以及响应的多家服务器业者，还特别与几家分属不同领域的厂商宣布合作。

红帽

首先宣布进一步合作的对象是红帽，希望能够为GPU与AI运算的需求，建构电信等级的云端原生软件堆叠架构。

根据Nvidia官方新闻稿与部落格所揭露的最新消息，双方将会扩大合作，为电信产业提供高效能、软件定义化的5G无线基础架构，而且执行在红帽发展已久的容器服务平台OpenShift Container Platform，让业者可以在这之上，自动执行应用程序的部署、规模扩展与管理，以便他们能够在软件定义的行动通讯边缘设备上，来调度指挥与管理5G无线接取网络（RAN）的使用。

为了让5G业者能够更顺利转移到云端原生基础架构的环境，并且充分因应边缘设备上的AI应用需求，Nvidia也特别推出了一套专用的软件开发套件，名为Aerial，能让电信业者建立完全虚拟化的5G RAN网络，在达到高度可程式化、延展性与能源使用效率的目的之余，也能协助这些公司提供新的AI服务，跨入智慧城市、智慧工厂、扩增实境／虚拟实境，以及云端游戏。

Aerial之所以能够为电信基础架构提供更高的运作效能，有几个关键。首先，是可善用Mellanox网络卡直接存取GPU内存（GPUDirect），而能透过低延迟的资料路径传输5G封包；其次是提供支援GPU加速的5G实体层讯号处理引擎，系统能够将所有需要处理的资料放置在GPU高效能内存当中。

而这样的软件处理机制，都是在Kubernetes的基础架构之上执行，有了与红帽的合作，业者就能在该公司提供的企业级Kubernetes容器服务平台，运用Aerial来进行虚拟化5G RAN环境的管理与自动化作业，同时，也能启用容器化的网络功能与各式边缘运算服务，并且依照工作负载的规模变化，来进行随需部署与管理。

关于边缘运算应用领域的合作，在Nvidia今年5月底首度提出EGX平台之际，就已经先宣布与红帽结盟的消息，双方合作的主要面向是企业级的应用，由Nvidia发展的Edge Stack软件堆叠架构，将会整合到红帽的OpenShift，并且进行最佳化调校。

当时Nvidia表示，该公司旗下全系列AI运算技术，将会整合红帽OpenShift、Edge Stack，以及Mellanox的SmartNIC与网络交换器，以及Cisco的运算、网络、储存与资安技术，让大型企业以安全、快速的方式，部署企业级AI基础架构，并以“On-Prem AI Cloud-in-a-Box”来称呼这套解决方案。

微软

在人工智能整合边缘运算的应用上，Nvidia此次活动第二个宣布合作的对象是微软，旗下云端服务Azure将与Nvidia EGX平台紧密整合，推动从边缘到云（edge-to-cloud）的人工智能运算。

举例来说，微软Azure IoT Edge、Azure Machine Learning等云端服务，以及最新推出的Azure Data Box Edge整合应用设备（当中采用Nvidia T4），都能以最佳化的方式，支援执行在EGX平台的Nvidia Metropolis这套影像分析应用程序框架。相对地，市面上许多通过Nvidia认证的GPU服务器，在执行Azure IoT Edge与Azure Machine Learning的执行，也能提供最佳化支援。

爱立信

若要推动5G网络的GPU加速应用，与相关的平台业者合作势在必行，Nvidia在MWC Los Angeles大会这类电信业特别关注的活动，宣布与爱立信技术合作，让电信业者建立高效能、高效率与完整的虚拟化5G网络，而能提升讯号处理速度，并且促进新型人工智能与物联网服务的推出。

基于这样的协同合作，可结合爱立信对于RAN网络领域的专业，以及Nvidia擅长的GPU加速平台、人工智能与超级电脑技术，双方希望能在建构虚拟化无线接取网络解决方案的过程中，克服成本、规模、能源效率的挑战，为其找到商业化的可行作法，提供建置弹性，同时，也期盼能够协助有志推动扩增实境、虚拟实境与游戏等新型业务的业者，缩短相关服务上市时间。

以软件定义扩大GPU应用层面，横跨边缘、云与产业

在过往Nvidia的发展上，绝大多数人仅注意到他们推出的GPU加速技术，若论及提供的软件服务内容，似乎只是硬件产品的附庸，例如，操作系统驱动程式、系统辅助操作工具，很少人知道他们提供的开发者工具与软件开发套件，并不仅止于影像内容的设计，这几年以来，已经延伸到平行运算处理、高效能运算、深度学习与人工智能，物联网，以及不同产业专属的应用。

在企业IT领域，早先我们对于Nvidia的印象，主要是他们与服务器虚拟化平台厂商，持续保持合作，像是Citrix、VMware、微软、Nutanix、Red Hat，这几年以来，Nvidia积极支援机器学习的开放源代码软件，透过NGC容器映像登录服务，免费提供GPU最佳化的软件容器，随后又以此延伸到高效能运算。

此外，对于容器架构与Kubernetes平台的支援，Nvidia也陆续提供。例如，在前几年推出的AI整合应用设备DGX-1、DGX-2当中，实际导入他们整合的软件堆叠架构DGX Software Stack，里面搭配的就是Docker容器引擎，以及Nvidia Container Runtime for Docker执行元件，让系统上层得以使用容器化软件映像，快速建置各种深度学习应用。而关于Kubernetes的支援，也从去年10月起，Nvidia与软件系统平台供应商红帽加强合作，确保企业级Linux操作系统与容器服务平台，皆能以最佳化的组态支援Nvidia的GPU与AI技术。

在产业应用上，Nvidia支援的范围也不断扩大，从影像处理相关的绘图设计，以及电影、动画、游戏，延伸到其他领域。例如，2017年3月，针对智慧城市的视讯监控应用，提供AI影像分析平台Metropolis；2018年3月，他们宣布推出Isaac SDK的开发工具包，希望能促进自主机器人（Autonomous Machines）的发展与部署；同年9月，Nvidia针对医疗照护场景推出Clara平台，主打医疗影像的应用，后续也延伸到基因体学（Genomics）的研究。

到了今年，Nvidia凭借著过去的努力，再加上当前IT趋势也走向横跨边缘运算到云端服务的架构，他们也抓紧这样的时机，让边缘运算平台EGX一步步浮上台面──先是在5月底的台北国际电脑展期间，宣布符合这个应用概念的单板电脑与服务器，以及合作的软硬件厂商；到了10月的MWC Los Angeles大会，可能没人料到，Nvidia会在这里阐述更完整的边缘运算策略，以及他们的5G应用支援，然而，更出乎意外的部分，更在于他们已初步集其大成，并且宣布以软件定义的边缘与云端技术、拉拢更多厂商合作，以及公布实际应用案例，来解释EGX平台何以适用于几个众所关注的热门场域，像是5G虚拟化网络功能、智慧城市、延伸实境。

值得注意的是，“软件定义”一词，向来是服务器虚拟化与超融合基础架构厂商最常强调的概念，如今却成为EGX平台能够发展起来的最佳注脚，无怪乎Nvidia创办人暨首席执行官黄仁勋在MWC Los Angeles大会的演讲当中，屡屡提及“软件定义”对他们的启发。

他也特别以苹果智能手机iPhone成功的典范，说明软件定义的成效。如同许多人所认知的，iPhone之所以成功，正是因为它充分应用了这个概念，而Nvidia也期盼以iPhone为师，在这一波万物智能化革命（Smart Everything）的浪潮下，让EGX这套边缘运算平台能够在市场上大放异彩！

【云端原生】EGX能否承载所有应用的重大关键：软件堆叠

【EGX Stack的演进】右图是Nvidia在上半年发表EGX加速运算平台时，所展示的软件堆叠Edge Stack，至于左图的架构，则是他们在MWC Los Angeles大会宣布的EGX平台边缘超级运算平台，所提出的软件堆叠EGX Stack，最大的差别在于引进了GPU Operator的机制，而将原本居于较底层位置执行的Nvidia驱动程式、Container Runtime等元件，提升到Kubernetes之上执行。摄影／李宗翰

由Nvidia提出的边缘运算平台EGX，若要普遍应用各种领域，软件层面能否提供丰富而完整的支援，将是关键。而在他们第一波揭露的EGX平台策略当中，搭配的软件堆叠称为Edge Stack，而根据Nvidia最近发布的新消息，这个环节改名为EGX Stack。

若从组成架构来比较，Nvidia对于EGX Stack的整体样貌，有了更详细的描绘，而且调整部分软件元件执行位置。

举例来说，Edge Stack着重在软件层的区隔，分成4个部分：Nvidia驱动程式、Kubernetes、CUDA-X系列程式库、NGC容器映像登录服务，至于硬件服务器，并没有具体描述；而EGX Stack则是分为软件与硬件，前者的配置也和Edge Stack不同，分为Linux版本、容器引擎、Kubernetes、GPU Operator。

从组成方式来看，Edge Stack的架构，类似Nvidia另一套提供DGX系列整合设备的软件堆叠DGX Software Stack，从底层到上层，同样是操作系统、驱动程式、容器引擎／Kubernetes、应用软件的配置。但到了EGX Stack，则是操作系统、容器引擎／Kubernetes，原本的驱动程式、Container Runtime，以及Kubernetes装置插件、GPU监控，都整合到GPU Operator，而且是执行在Kubernetes平台上，而不像Edge Stack执行在Kubernetes平台之中或之下。

GPU Operator的发展脉络

其实，关于Nvidia与红帽近期的密切合作，可追溯至2018年10月，当时宣布了4项消息，其中，有一项是关于OpenShift容器服务平台，此时正式支援Nvidia DGX-1，Kubernetes社群也开发出装置外挂（Device plug-ins）的功能，支援硬件加速器的应用，为OpenShift能够使用GPU提供了执行基础；最后，由于OpenShift支援GPU加速，因此，也能够在这套容器服务平台上，部署NGC云端服务所提供的软件容器映像，快速建置多种整合GPU最佳化组态的机器学习框架，像是TensorFlow、Caffe2、PyTorch、MXNe，因此，用户可以在DGX-1当中执行的OpenShift丛集环境，运用NGC提供的容器映像来设立人工智能、高效能运算的应用系统。

在今年5月初举行的Red Hat Summit大会上，红帽接续宣布更多Nvidia运算平台通过RHEL的硬件认证，像是Nvidia另一款更高阶的AI整合应用设备DGX-2，以及由众多服务器厂商搭配Nvidia T4而成的系统，并且预告双方将会发展出一套共通参考架构，让OpenShift也能善用Kubernetes的Operator简化维运机制，自动执行GPU相关的日常管理作业流程，而这个方法称为GPU Operator。

Nvidia以软件定义切入边缘运算应用

品牌选车