APP下载

Nvidia以软件定义切入边缘运算应用

消息来源:baojiabao.com 作者: 发布时间:2024-04-27

报价宝综合消息Nvidia以软件定义切入边缘运算应用

以GPU加速技术见长的Nvidia,在10月下半举行的世界行动通讯大会期间,进一步说明边缘运算平台EGX发展策略,当中将以GPU单板电脑与服务器为基础,运用软件定义的方式支援人工智能、物联网与5G应用,同时也宣布与红帽、微软、爱立信等厂商合作,携手打造从边缘到云的创新技术架构。(摄影/李宗翰)

身为GPU供应商之一的Nvidia,致力于影像处理与游戏体验的强化,在企业IT领域,他们也陆续支援桌面虚拟化、人工智能、物联网、高效能运算(HPC)、云端服务的应用技术,到了今年,他们更是积极布局电信产业与边缘运算(Edge Computing)的发展策略,并接连释出相关消息。

以GPU运算设备与服务器,结合软件堆叠架构,建构边缘运算平台

举例来说,在1月底,他们在台召开Nvidia AI电信产业应用媒体说明会,预告他们借由GPU与人工智能技术,协助电信业从既有的4G宽频移动网络跨越到5G,能够在业务转型的过程当中,运用虚拟化网络功能服务(VNF)、软件定义网络(SDN)的技术,支援多种网络应用,像是一般消费者的互联网连线、产业应用系统、多媒体与娱乐,以及自动化设备。

到了5月底举行的台北国际电脑展,Nvidia突然宣布推出名为EGX的边缘运算加速运算平台,当中的硬件部分,囊括了多种GPU整合运算设备,像是Jetson Nano单板电脑、Drive AGX Pegasus车用电脑、采用Nvidia T4推论加速卡的服务器,而在搭配的软件环境上,他们推出堆叠架构Edge Stack,包含GPU驱动程式、CUDA-X程式库、CUDA的Kubernetes插件、CUDA的容器执行元件(container runtime),以及多种容器化AI框架与应用程序(Nvidia容器映像登录服务NGC)。

为了进一步突显Nvidia边缘运算策略的前瞻性,他们参加了10月底举行的世界行动通讯大会─洛杉矶站(MWC Los Angeles),将EGX定调为边缘超级运算平台(Edge Supercomputing Platform),并且基于EGX服务器、EGX软件堆叠架构、CUDA-X系列应用软件加速程式库的组合,现场展示多种结合人工智能与物联网的应用场景,同时也正式宣布投入5G vRAN(虚拟无线电接取网络)的发展。

EGX平台的架构全貌

Nvidia在今年MWC Los Angeles大会期间,揭露了EGX平台的全貌,当中可区分为4个层级:底层的硬件设备是EGX服务器,上层的软件依序是EGX Stack、应用程序框架与软件开发套件、Nvidia提供的容器映像与其他独立软件开发商的产品。摄影/李宗翰

该公司创办人暨首席执行官黄仁勋表示,他们已经与多家硬件服务器业者、系统软件厂商,以及零售、制造等产业,展开密切合作,合力打造专攻边缘运算的超级电脑平台EGX。同时,他也宣布与红帽、微软、爱立信(Ericsson)等厂商,企图透过软件定义的高效能运算技术,积极支援5G网络服务的管理,以及新兴AI服务的扩展。

在边缘运算架构下,提供超级电脑等级效能与丰富的软件支援

EGX平台的4种运算设备

在边缘运算的硬件设备应用上,Nvidia定义了4种不同运算能力的电脑与服务器,从体型最小的Jetson Nano单板电脑、Drive AGX Pegasus车用电脑、采用Nvidia T4推论加速卡的服务器,以及多台搭配Nvidia T4的服务器群组。摄影/李宗翰

在物联网、人工智能的应用浪潮之下,生活中的许多物品都开始历经连网化、智慧化的革命,像是机器人、自动驾驶车,逐渐开始普及,黄仁勋认为,我们正处于图形处理、高效能运算、人工智能应用的交叉路口,而在深层神经网络技术兴起之后,掀起了一连串的人工智能进化。而在多样的使用情境中,即便是位于网络边缘的各种装置,仍需要就近搭配强大的运算能力来进行处理,而非只能仰赖距离遥远的企业资料中心或是公有云服务,于是,这类位于边缘的高效能运算装置应运而生。

而Nvidia在今年中推出的EGX平台,已经先擘画了运算量由小至大的产品搭配蓝图,对应的效能范围分别是0.5 TOPS、320 TOPS、520 TOPS、1万TOPS,已经可以涵盖到超级电脑的运算等级,或许是这个原因,Nvidia在此次MWC Los Angels大会,对于这样的架构,给出了新的名称“EGX Edge Supercomputing Platform”。

根据Nvidia目前最新的规划,这套边缘超级电脑平台的硬件,主要有两项配备,那就是内建Tensor Core的Nvidia GPU加速卡(T4、Tesla V100、RTX系列),以及具备200GbE连线能力的Mellanox Smart NIC网络卡(ConnectX-6 Dx、BlueField-2),能让服务器具备强大的AI运算能力,以及支援NVMe/TCP与RDMA的网络连线方式,同时,也能够充分应用于云端原生环境与AI软件堆叠。

软件的部分,则由EGX Stack作为底层平台,当中包含了容器、Kubernetes、网络、储存、资安、云端物联网(Cloud IoT)等技术。而在EGX Stack的上层,可支援CUDA-X系列的程式库;在更上一层的位置,则是能够支援光线追踪、多媒体处理、扩增实境/虚拟实境、人工智能等应用。

与软件、云、电信平台业者展开合作

EGX平台的厂商生态系

由Nvidia主导的EGX平台,串连了不同类型的IT厂商,在底层的部分,众多服务器供应商是主力,也有大型云端服务业者与系统软件商。摄影/李宗翰

为了跨入5G领域,Nvidia在此次MWC Los Angeles大会上,除了进一步阐释他们的EGX平台策略,以及响应的多家服务器业者,还特别与几家分属不同领域的厂商宣布合作。

红帽

首先宣布进一步合作的对象是红帽,希望能够为GPU与AI运算的需求,建构电信等级的云端原生软件堆叠架构。

根据Nvidia官方新闻稿与部落格所揭露的最新消息,双方将会扩大合作,为电信产业提供高效能、软件定义化的5G无线基础架构,而且执行在红帽发展已久的容器服务平台OpenShift Container Platform,让业者可以在这之上,自动执行应用程序的部署、规模扩展与管理,以便他们能够在软件定义的行动通讯边缘设备上,来调度指挥与管理5G无线接取网络(RAN)的使用。

为了让5G业者能够更顺利转移到云端原生基础架构的环境,并且充分因应边缘设备上的AI应用需求,Nvidia也特别推出了一套专用的软件开发套件,名为Aerial,能让电信业者建立完全虚拟化的5G RAN网络,在达到高度可程式化、延展性与能源使用效率的目的之余,也能协助这些公司提供新的AI服务,跨入智慧城市、智慧工厂、扩增实境/虚拟实境,以及云端游戏。

Aerial之所以能够为电信基础架构提供更高的运作效能,有几个关键。首先,是可善用Mellanox网络卡直接存取GPU内存(GPUDirect),而能透过低延迟的资料路径传输5G封包;其次是提供支援GPU加速的5G实体层讯号处理引擎,系统能够将所有需要处理的资料放置在GPU高效能内存当中。

而这样的软件处理机制,都是在Kubernetes的基础架构之上执行,有了与红帽的合作,业者就能在该公司提供的企业级Kubernetes容器服务平台,运用Aerial来进行虚拟化5G RAN环境的管理与自动化作业,同时,也能启用容器化的网络功能与各式边缘运算服务,并且依照工作负载的规模变化,来进行随需部署与管理。

关于边缘运算应用领域的合作,在Nvidia今年5月底首度提出EGX平台之际,就已经先宣布与红帽结盟的消息,双方合作的主要面向是企业级的应用,由Nvidia发展的Edge Stack软件堆叠架构,将会整合到红帽的OpenShift,并且进行最佳化调校。

当时Nvidia表示,该公司旗下全系列AI运算技术,将会整合红帽OpenShift、Edge Stack,以及Mellanox的SmartNIC与网络交换器,以及Cisco的运算、网络、储存与资安技术,让大型企业以安全、快速的方式,部署企业级AI基础架构,并以“On-Prem AI Cloud-in-a-Box”来称呼这套解决方案。

微软

在人工智能整合边缘运算的应用上,Nvidia此次活动第二个宣布合作的对象是微软,旗下云端服务Azure将与Nvidia EGX平台紧密整合,推动从边缘到云(edge-to-cloud)的人工智能运算。

举例来说,微软Azure IoT Edge、Azure Machine Learning等云端服务,以及最新推出的Azure Data Box Edge整合应用设备(当中采用Nvidia T4),都能以最佳化的方式,支援执行在EGX平台的Nvidia Metropolis这套影像分析应用程序框架。相对地,市面上许多通过Nvidia认证的GPU服务器,在执行Azure IoT Edge与Azure Machine Learning的执行,也能提供最佳化支援。

爱立信

若要推动5G网络的GPU加速应用,与相关的平台业者合作势在必行,Nvidia在MWC Los Angeles大会这类电信业特别关注的活动,宣布与爱立信技术合作,让电信业者建立高效能、高效率与完整的虚拟化5G网络,而能提升讯号处理速度,并且促进新型人工智能与物联网服务的推出。

基于这样的协同合作,可结合爱立信对于RAN网络领域的专业,以及Nvidia擅长的GPU加速平台、人工智能与超级电脑技术,双方希望能在建构虚拟化无线接取网络解决方案的过程中,克服成本、规模、能源效率的挑战,为其找到商业化的可行作法,提供建置弹性,同时,也期盼能够协助有志推动扩增实境、虚拟实境与游戏等新型业务的业者,缩短相关服务上市时间。

以软件定义扩大GPU应用层面,横跨边缘、云与产业

在过往Nvidia的发展上,绝大多数人仅注意到他们推出的GPU加速技术,若论及提供的软件服务内容,似乎只是硬件产品的附庸,例如,操作系统驱动程式、系统辅助操作工具,很少人知道他们提供的开发者工具与软件开发套件,并不仅止于影像内容的设计,这几年以来,已经延伸到平行运算处理、高效能运算、深度学习与人工智能,物联网,以及不同产业专属的应用。

在企业IT领域,早先我们对于Nvidia的印象,主要是他们与服务器虚拟化平台厂商,持续保持合作,像是Citrix、VMware、微软、Nutanix、Red Hat,这几年以来,Nvidia积极支援机器学习的开放源代码软件,透过NGC容器映像登录服务,免费提供GPU最佳化的软件容器,随后又以此延伸到高效能运算。

此外,对于容器架构与Kubernetes平台的支援,Nvidia也陆续提供。例如,在前几年推出的AI整合应用设备DGX-1、DGX-2当中,实际导入他们整合的软件堆叠架构DGX Software Stack,里面搭配的就是Docker容器引擎,以及Nvidia Container Runtime for Docker执行元件,让系统上层得以使用容器化软件映像,快速建置各种深度学习应用。而关于Kubernetes的支援,也从去年10月起,Nvidia与软件系统平台供应商红帽加强合作,确保企业级Linux操作系统与容器服务平台,皆能以最佳化的组态支援Nvidia的GPU与AI技术。

在产业应用上,Nvidia支援的范围也不断扩大,从影像处理相关的绘图设计,以及电影、动画、游戏,延伸到其他领域。例如,2017年3月,针对智慧城市的视讯监控应用,提供AI影像分析平台Metropolis;2018年3月,他们宣布推出Isaac SDK的开发工具包,希望能促进自主机器人(Autonomous Machines)的发展与部署;同年9月,Nvidia针对医疗照护场景推出Clara平台,主打医疗影像的应用,后续也延伸到基因体学(Genomics)的研究。

到了今年,Nvidia凭借著过去的努力,再加上当前IT趋势也走向横跨边缘运算到云端服务的架构,他们也抓紧这样的时机,让边缘运算平台EGX一步步浮上台面──先是在5月底的台北国际电脑展期间,宣布符合这个应用概念的单板电脑与服务器,以及合作的软硬件厂商;到了10月的MWC Los Angeles大会,可能没人料到,Nvidia会在这里阐述更完整的边缘运算策略,以及他们的5G应用支援,然而,更出乎意外的部分,更在于他们已初步集其大成,并且宣布以软件定义的边缘与云端技术、拉拢更多厂商合作,以及公布实际应用案例,来解释EGX平台何以适用于几个众所关注的热门场域,像是5G虚拟化网络功能、智慧城市、延伸实境。

值得注意的是,“软件定义”一词,向来是服务器虚拟化与超融合基础架构厂商最常强调的概念,如今却成为EGX平台能够发展起来的最佳注脚,无怪乎Nvidia创办人暨首席执行官黄仁勋在MWC Los Angeles大会的演讲当中,屡屡提及“软件定义”对他们的启发。

他也特别以苹果智能手机iPhone成功的典范,说明软件定义的成效。如同许多人所认知的,iPhone之所以成功,正是因为它充分应用了这个概念,而Nvidia也期盼以iPhone为师,在这一波万物智能化革命(Smart Everything)的浪潮下,让EGX这套边缘运算平台能够在市场上大放异彩!

【云端原生】EGX能否承载所有应用的重大关键:软件堆叠

【EGX Stack的演进】右图是Nvidia在上半年发表EGX加速运算平台时,所展示的软件堆叠Edge Stack,至于左图的架构,则是他们在MWC Los Angeles大会宣布的EGX平台边缘超级运算平台,所提出的软件堆叠EGX Stack,最大的差别在于引进了GPU Operator的机制,而将原本居于较底层位置执行的Nvidia驱动程式、Container Runtime等元件,提升到Kubernetes之上执行。摄影/李宗翰

由Nvidia提出的边缘运算平台EGX,若要普遍应用各种领域,软件层面能否提供丰富而完整的支援,将是关键。而在他们第一波揭露的EGX平台策略当中,搭配的软件堆叠称为Edge Stack,而根据Nvidia最近发布的新消息,这个环节改名为EGX Stack。

若从组成架构来比较,Nvidia对于EGX Stack的整体样貌,有了更详细的描绘,而且调整部分软件元件执行位置。

举例来说,Edge Stack着重在软件层的区隔,分成4个部分:Nvidia驱动程式、Kubernetes、CUDA-X系列程式库、NGC容器映像登录服务,至于硬件服务器,并没有具体描述;而EGX Stack则是分为软件与硬件,前者的配置也和Edge Stack不同,分为Linux版本、容器引擎、Kubernetes、GPU Operator。

从组成方式来看,Edge Stack的架构,类似Nvidia另一套提供DGX系列整合设备的软件堆叠DGX Software Stack,从底层到上层,同样是操作系统、驱动程式、容器引擎/Kubernetes、应用软件的配置。但到了EGX Stack,则是操作系统、容器引擎/Kubernetes,原本的驱动程式、Container Runtime,以及Kubernetes装置插件、GPU监控,都整合到GPU Operator,而且是执行在Kubernetes平台上,而不像Edge Stack执行在Kubernetes平台之中或之下。

GPU Operator的发展脉络

其实,关于Nvidia与红帽近期的密切合作,可追溯至2018年10月,当时宣布了4项消息,其中,有一项是关于OpenShift容器服务平台,此时正式支援Nvidia DGX-1,Kubernetes社群也开发出装置外挂(Device plug-ins)的功能,支援硬件加速器的应用,为OpenShift能够使用GPU提供了执行基础;最后,由于OpenShift支援GPU加速,因此,也能够在这套容器服务平台上,部署NGC云端服务所提供的软件容器映像,快速建置多种整合GPU最佳化组态的机器学习框架,像是TensorFlow、Caffe2、PyTorch、MXNe,因此,用户可以在DGX-1当中执行的OpenShift丛集环境,运用NGC提供的容器映像来设立人工智能、高效能运算的应用系统。

在今年5月初举行的Red Hat Summit大会上,红帽接续宣布更多Nvidia运算平台通过RHEL的硬件认证,像是Nvidia另一款更高阶的AI整合应用设备DGX-2,以及由众多服务器厂商搭配Nvidia T4而成的系统,并且预告双方将会发展出一套共通参考架构,让OpenShift也能善用Kubernetes的Operator简化维运机制,自动执行GPU相关的日常管理作业流程,而这个方法称为GPU Operator。

2019-11-07 09:53:00

相关文章