
由于要执行大型Transformer模型存在诸多挑战,包括多层架构可能会消耗大量的内存和GPU计算时间,因此微软采用开源的ONNX Runtime,来解决大型Transformer模型在生产环境中的限制,因此得以在Visual Studio和Visual Studio Code提供整行程式码完成功能。
GPT-2和GPT-3等大规模Transformer模型是好用的自我监督Transformer语言模型,可用于翻译、问答、摘要和文字生成等自然语言处理任务,而微软移植这些模型,开发了GPT-C模型,以深度学习来支援IntelliCode的程式码完成功能,在Visual Studio和Visual Studio Code中,提供整行程式码完成建议。
将GPT-C模型部署在云端有诸多限制
微软为了满足大型Transformer模型计算能力的需求,一开始的目标是利用Azure机器学习服务,以及GPU虚拟机器丛集,部署生产环境用GPT-C模型,不过,这样的作法却遇到了一些挑战,首先是要将模型部署在云端上,就必须将用户的程式码,经过网络传输以进行推理,但是这样的方式增加了暴露敏感资料的风险。
而且当断开网络连接或是离线模式下,就无法继续提供程式码建议,这个限制要求开发人员在工作期间,必须保持互联网连接,对于在互联网连接条件不好的地区工作的人,可能不是一个好办法。
另外,典型的语言模型目标是要使用集束搜寻(Beam Search)解码算法来搜寻最佳解,而GPT-C也不例外,但这种情境却会产生很大的内存开销,导致较高的延迟和服务成本,官方提到,一个12层的生成Transformer模型,需要使用374 MB内存,每次推理呼叫需要使用约80毫秒的GPU时间,当所有用户的运算都集中到云端上运算,过于庞大的资源消耗使得这个方法不切实际。
采用ONNX Runtime在客户端高效执行GPT-C
由于上述原因,微软放弃在云端上部署模型的念头,而改使用ONNX Runtime来解决执行GPT-C模型的问题。ONNX(Open Neural Network Exchange)以及ONNX Runtime在加速和简化Transformer模型,扮演重要的角色,ONNX是一种机器学习模型的开发标准格式,使用诸如PyTorch与TensorFlow等各种框架训练的模型,可以简单地转换为ONNX格式。
而ONNX Runtime则是以ONNX标准为基础开发,是一种最佳化推理引擎,可在不同的硬件和操作系统上,高效率执行ONNX模型,由于ONNX框架的互通性,ONNX Runtime提高了模型训练到推理的开发效率,透过各种最佳化技术,ONNX Runtime能够跨硬件平台,以最佳效能执行各种模型。
要以低成本提供IntelliCode程式码完成体验,微软决定要直接在客户端部署GPT-C模型,也就是说,GPT-C模型模型要能够高效率地在CPU上运作,并且支援广泛的客户端装置。微软提到,他们把GPT-C模型放到ONNX Runtime上执行,可以明显减少原本要用到的370 MB内存,最终仅需要80 MB。
ONNX Runtime最佳化Transformer模型执行
ONNX Runtime支援Transformer最佳化,跟PyTorch比起来,在CPU上可处理大序列长度,并且达到超过2倍效能加速。PyTorch提供了内建的ONNX汇出程式,可以将PyTorch模型汇出为ONNX,微软提到,最重要的是,ONNX Runtime拥有GPT2转换工具,因此GPT-C Transformer模型可以简单地从PyTorch转换到ONNX。
除了使用ONNX Runtime来缩减运算资源外,集束搜寻也是部署的重要部分,该模组会评分并且排名ONNX Runtime模型推理步骤中的张量输出,当评分和排名完成后,模型会从集束搜寻模组中撷取张量输出,并执行另一轮的推理。一开始,微软的集束搜寻模组是以C#和Typescript程式语言实作,但由于这类程式语言效能很低,导致GPT-C推理回应时间表现不佳,每次完成推理都需要CPU时间1秒钟。
为了要提高客户端执行GPT-C模型的效能,微软扩展GPT2转换工具,以支援GPT-2模型原生一步(One-step)集束搜寻,在微软改进了训练和部署GPT-2模型后,使得具有原生一步集束搜寻功能的GPT-2模型,可以在ONNX Runtime上获得完全的硬件加速。
微软测试了经最佳化后的GPT-C ONNX模型,在CPU和GPU上的效能,使用英特尔Core i7-8650U CPU执行模型,与初始客户端GPT-C相比,效能提高了4倍,每次推理约为300毫秒,而在GPU上,使用Nvidia V100-PCIE-16GB GPU以及FP16配置,ONNX Runtime在内存效率和效能都有明显提升,与PyTorch相比分别达5倍和4倍。
相关文章
YouTube更新违反规定政策,提升惩处透明度和一致性2023-12-31 14:00:52
传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作2023-12-27 18:34:43
刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人2023-09-26 21:55:08
WebOS新系统:Palm Pre手机最新款高价登港2023-06-23 15:39:14
帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应2023-06-22 09:36:10
蔚来全系产品降价3万 取消免费换电 换一次电池180元2023-06-12 17:27:49
电商平台三巨头开打最大规模折扣 价格战再次打响2023-03-05 18:58:40
爱立信节省成本裁员四千人 爱立信全球员工总数五分之一2023-02-24 22:27:29
蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭2023-02-23 16:18:14
联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出2023-02-18 12:45:25
蓝色光标2022营收亏损18亿 客户预算减少明显2023-02-18 12:40:08
三星工厂或将80%生产转至越南 因本地劳动力成本上升2023-02-17 23:09:16
香港八达通卡如何激活?没用失效过期余额怎么办2023-02-17 18:34:51
中兴通讯被曝将裁员20% 称只裁国外的2023-02-17 18:33:26
苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出2023-02-17 16:57:22
突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌2023-02-16 14:31:19
三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?2023-02-14 00:53:17
Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要2023-02-14 00:32:08
谷歌google计划重返进入中国市场?但结果可能令你失望2023-02-13 16:57:15
Zoom紧急裁员1300人 佔员工总数15%2023-02-08 14:59:11
最新资讯
炒港股要补交多少税?我也接到催交补税特别行动的电话了2025-07-23 17:36:43
淘宝天猫仅退款属于诈骗吗?淘宝天猫开始部分取消仅退款2024-10-01 13:01:28
哈啰app借钱|哈啰借钱app下载安装免费小小上当和电话骚扰2024-10-01 11:22:38
白嫖党|山西大同大学学生网购申请“仅退款”被拒骂客服一小时2024-09-27 09:10:44
北大数学教授袁新意《姜萍事件的疑点分析》点评姜萍板书 阿里巴巴竞赛受质疑2024-06-28 10:07:40
手机
中国11月手机出货量增34% 5G手机出货量2709.2万部2023-12-28 19:27:57
荣耀发布新一代旗舰荣耀Magic5系列,新款上市价格分期0首付3999元起2023-03-06 16:12:32
美国商务部指违禁,长江存储被美国拜登制裁名单面临停工裁员2023-02-17 18:41:53
苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌2023-02-02 17:33:27
香港去哪买三星手机回来吗? 买香港便宜售价手机市场地点和网站2023-02-02 11:03:11
数码
华为5G芯片正式亮相:预示华为将发首款5G手机2023-08-31 13:22:33
腾讯传计划放弃虚拟现实VR硬件计划2023-02-17 23:32:30
三星手机份额大跌!三星手机中国市场份额变化国内仅剩3%2023-02-01 17:06:15
三星手机份额大跌在中国没市场了!国内市场占有率仅剩1%国外比苹果销量高2023-02-01 16:59:53
vivo发布2022 vivoNEX手机极简易浏览器下载:简洁流畅无广告!2022-12-02 17:29:30
科技
B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假 浮夸不能只罚酒三杯2023-02-17 18:46:15