APP下载

IBM发表机器学习瘦身术,让大型深度学习训练模型精简95%,连在手机上都能跑

消息来源:baojiabao.com 作者: 发布时间:2024-04-25

报价宝综合消息IBM发表机器学习瘦身术,让大型深度学习训练模型精简95%,连在手机上都能跑

(下图)Net-Trim可以修剪掉类神经网络中超过93%无用的神经元,大幅缩小庞大的训练模型。左图为修剪前,右图为修剪后。

图片来源: 

IBM

IBM研究所研究员Nam Nguyen在2017年NIPS会议发表论文,揭露研究中的人工智能最佳化框架Net-Trim,以分层凸集架构( Layer-wise convex scheme)来修剪精简预先训练的深度类神经网络模型,解决大型机器训练模型在嵌入式系统运作资源短缺的问题。

随着技术的发展,从影像辨识到语言翻译,深度学习逐渐成为人工智能应用程序的首选,而为了增加结果精确度,开发者使用更多的资料以及更多层的深度学习网络,以期得到更好的结果,然而越庞大的训练模型意味着需要更多的运算资源,不过对于运算资源有限的嵌入式系统来说,如果这些庞大的预训练模型无法在上头运行,那也是徒劳。

Nam Nguyen与其团队开发的Net-Trim,能够在不牺牲精确度的情况下降低机器学习训练模型复杂度。其中一个工作便是移除冗赘的权重值,让网络变的稀疏。常见的方法便是使用L1正规法(L1 regularization),但是这个方法在深度学习无用武之地,部分原因是因为跟深度学习相关的公式为高度非凸性。

Net-trim能找到每一层网络中最稀疏的一组权重,并维持输出与起始训练的回应值一致。使用L1松弛(L1 relaxation),由于整流器线性单元活化是分段线性的,因此允许透过解决凸程式来搜寻。

训练资料在类神经网络一层一层的往下传递,Net-trim在结果输出与前置预算网络的回应值一致的前提,每一层以最佳化架构提升权重稀疏度。Net-Trim其中一项优点便是能使用凸公式(Convex formulation),能够适用各种标准凸优化。

而Net-Trim于其他修剪方法不同之处在于,Net-Trim方式是数学可证的,在学习网络修剪前与修剪后维持相似效率。另外,与其他使用阈值修剪的方法相比,Net-Trim在第一次修剪完后,不需要再花其他多重再训练的步骤。而且受惠于Net-Trim后处理阶段的特性,Net-Trim可以搭配各种最新的类神经网络,再缩小模型大小之余,还能增进模型的稳定度以及预测精准度。

Net-Trim是第一个有效能保证的修剪架构。Net-Trim可以让前置预算可追踪,凸公式可以推导出再训练的模型与起始模型的距离理论值。Net-Trim使用MNIST资料集,可以无损分类精准度的修剪掉超过95%的资料量,以模型大小相比,100MB可以缩减成5MB,这样的成果非常有利于在行动装置上使用。

2018-01-09 11:25:00

相关文章