APP下载

端点学习应用将改变传统运算模式ARM认为云端协同运算将转向端点就完成前期运算

消息来源:baojiabao.com 作者: 发布时间:2024-05-14

报价宝综合消息端点学习应用将改变传统运算模式ARM认为云端协同运算将转向端点就完成前期运算

装置端的学习加速应用与5G连网技术发展没有绝对关连,而是在装置端的对于运算效率、隐私安全与贴身使用等需求成长下,进而从过往仰赖云端协同运算情况开始转向在装置端即可以学习加速完成前期运算,同时配合云端服务完成更大规模的数据运算应用,借此缩减从装置端到云端之间协同运算的延迟现象。

针对稍早针对装置端学习应用需求所打造的Project Trillium设计平台,ARM机器学习事业群总经理Jem Davies在此次MWC 2018接受访谈时表示,装置端的学习运算将会是未来发展趋势,应用层面更从物联网、手机等小型装置,大至自动驾驶车辆、机器人,或是数据中心与智慧城市等大型规模“设备”,预期将可借由深度学习方式优化数据传输、降低延迟,进而从中获取建置成本优化与安全提升等优势。

就ARM日前宣布推出的Project Trillium设计平台,主要基于ARM ML架构设计的处理器能有更快的机器学习效率,同时也能借由基于ARM OD架构设计的处理器更快感知辨识物件变化,例如精准判断人脸以外的动作、手势,甚至身上配戴物件,再透过名为ARM NN的软件串接诸如TensorFlow、Caffe或Android NN等学习框架,并且利用硬件运算效能加速学习效果。

而不同之前借由CPU、GPU协同作业达成机器学习效率,借由Project Trillium设计平台的学习数据吞吐量几乎可达2-4倍以上,其中更可透过1080p@60fps画面形式捕捉影像,进而让终端装置可以学习正确辨识人脸,甚至进一步学习判断表情变化、手势等肢体动作,或是配合识别人脸以外的装饰物。

根据Jem Davies说明,基于ARM ML架构设计的处理器最高可在行动装置上产生4.6TFLOPS运算量,或是以3TFLOPS相对更具效率方式运作,并且能比一般数字信号处理元件提供快上80倍的处理速度,同时基于ARM OD架构设计的处理器更可对应工业等级物件识别效果。

同时,在Project Trillium设计平台中,若开发者希望借由既有硬件与软件框架打造端点学习运算模式,ARM也同样提供相关技术解决方案,意味在ARM的看法里,无论是借由独立学习算子件达成加速效果,或是借由既有CPU、GPU等元件,搭配软件学习框架运作方式,其实都能是不错的端点运算学习应用模式,最主要还是看实际应用层面,毕竟不同使用情境依然有最佳合适学习应用模式。

例如需要更快即时识别速度的话,搭配专属学习加速处理元件可能会是较好作法,而若是需要依据不同使用情况弹性变动运算模式的话,借由既有CPU、GPU等元件,配合学习框架以FPGA可程化指令集架构运作,反而能有更大运算优势。

ARM机器学习事业群总经理Jem Davies

装置端学习应用将驱动全新运算模式

以目前来看,包含华为、苹果等厂商均采用专属学习算子件辅助加速,借此缩减传统运算时所产生迟滞现象,同时联发科稍早揭晓的Helio P60也在影像识别应用加上专属APU独立算子件,借此对应速度更快的人脸识别成效。

而Qualcomm等厂商则认为透过专属学习算子件加速的设计虽然重要,但考量要让绝大多数的硬件设计都能维持在相同架构模式运作,采用独立算子件辅助加速的作法势必会在软硬件版本更新时面临局限,进而造成应用服务无法正常相容,或是无法达成效率最佳化,甚至可能造成产品设计时的额外成本增加,因此认为透过既有硬件配合软件运算方式,借此达成相近或更高的学习加速效果会是更符合效益作法。

但从ARM的角度来看,虽然市场提出不同作法,但基本上都是源自旗下合作厂商,因此本身也会针对此类需求提出更便利的设计应用参考方案,让更多合作伙伴能借由此类设计平台快速打造应用产品,或是进一步调整创造全新技术,本身主要还是在此发展中扮演技术供应端角色。

Jem Davies认为,装置端的学习加速应用与5G连网技术发展没有绝对关连,而是在装置端的对于运算效率、隐私安全与贴身使用等需求成长下,进而从过往仰赖云端协同运算情况开始转向在装置端即可以学习加速完成前期运算,同时配合云端服务完成更大规模的数据运算应用,借此缩减从装置端到云端之间协同运算的延迟现象。

同时,Jem Davies也预期装置端的学习加速应用将改变传统运算模式,不仅涵盖目前ARM现行擅长的行动装置、监控设备或更多物联网应用市场,未来也可能进一步改变PC装置使用模式。

2018-05-13 20:33:00

相关文章