APP下载

2021加速转型9大趋势(六)加速AI生命周期循环,MLOps将成企业AI落地规模化的关键一步

消息来源:baojiabao.com 作者: 发布时间:2026-05-25

报价宝综合消息2021加速转型9大趋势(六)加速AI生命周期循环,MLOps将成企业AI落地规模化的关键一步

MLOps也就是ML+Dev+Ops的概念,在ML阶段,需要运用不同资料设计初始模型;在开发(Dev)阶段,需要进行模型开发与测试,并持续整合、部署上线;在维运阶段(Ops)则需要持续交付,并透过监控系统来获得品质回馈。图片来源/Neal Analytics

根据iThome在2020年初所做的企业AI成熟度调查,台湾已经拥抱AI的企业中,约有一半的AI采用者,还在摸索走出试验阶段,但也有五分之一的企业开始扩大采用AI,或是要培养数据驱动的决策文化,来深化AI应用。随着越来越多企业AI先行者走到扩大采用的阶段,开发AI不再问Why或How,如何提升AI开发的速度与品质,成为企业面临的新挑战。

为了加速AI模型开发,市面上早已出现许多AutoML工具,来实现AI开发各阶段的自动化,不只能减少重复性的开发任务,还能简化AI开发流程。不过,随着模型进入持续交付、模型监控与迭代更新的阶段,要串起整个模型从开发到维运的生命周期循环,光靠自动化还不够,更需要AI团队与IT团队紧密协作,来加速AI应用落地。

国外近两年兴起了一股“MLOps”风潮,取自ML结合DevOps的意涵,提倡ML开发也应该纳入DevOps文化,让AI团队内的分工合作以及与IT工程师之间的协作都更紧密,要达到这个目标,就需要建立一套标准化且自动化的AI开发流程,建立起系统性AI协作新方法。

MLOps之所以受到重视,源自企业用过去开发方法来扩大AI应用规模时,开始面临瓶颈。Google云端AI平台的产品经理Nate Keating就指出,当前企业的AI开发流程,不仅耗时,还高度仰赖手动操作,且因开发过程的知识经验,通常只限该专案开发者能理解,导致开发流程难以被他人复制,或重复利用到新专案中。在这个情况下,AI开发也容易出错,比如发生训练与部署阶段模型表现不一的问题,出现错误后,更难以除错或找出问题所在。

Deloitte在一份报告中点出,AI团队通常仰赖少数或资深资料科学家来开发模型,但老手的开发经验会与个人求学背景、喜好相关联,导致这些高度手动、自行定义的开发流程难被复制或扩张,尽管这些流程很聪明,但弹性不大,还会限缩AI开发的创造力。

这些挑战,使得DevOps方法开始走进资料科学家和资料工程师的视野,Deloitte更指出,透过MLOps塑造的标准化、自动化开发流程,能让AI开发从过去自成一格的特制化开发方式(Exceptionalism),走向快速扩张且有效率的专业化开发(Professionalism)。

除了AI开发本身遇到的阶段性瓶颈,来势汹汹的COVID-19疫情,更进一步凸显了MLOps的重要性。

台湾AI学校校长孔祥重,就在2020年的台湾AI年会上指出,尽管AI能在疫情中派上用场,但在部分应用中,AI开发速度仍跟不上需求的变化,最主要的原因,正是AI开发的工作流太长,尤其在前期资料取得与后期模型部署的环节,通常耗费许多时间,AI团队必须将更多手动流程自动化、最佳化,才能加速模型上线。

不只如此,COVID-19也加剧了AI维运的挑战。Deloitte指出,COVID-19流行期间出现的“新常态”,导致许多供应链需求预测AI过去所依赖的数据和假设,几乎在一夜之间不堪使用,在AI模型更新频率不足的情况下,模型表现就会快速劣化。导入MLOps的企业,已经有一套标准化的AI维运流程,透过滚动搜集企业与用户资料,随时追踪模型表现,就能在必要时重新训练模型。

MLOps如何促成ML端与工程端人员协作?

顾名思义,MLOps是一种结合了ML、Dev、Ops的协作方法。若以阶段任务来解释,在ML阶段,需要运用不同资料来设计初始模型;在开发阶段,需要进行模型开发与测试,并持续整合、部署上线;在维运阶段,则需要持续交付模型,并透过监控系统来获得品质回馈。

对于MLOps的定义,Google则有更直白的解读。Nate Keating描述,企业要落地一个AI应用,需做的事情远比训练一个模型多更多,甚至可以说,整个ML开发系统只有非常少部分的程式码,是训练模型所使用,在这之外,还需要执行非常多的技术与流程,“而这些流程的整合与管理,就称为MLOps。”

Nate Keating更将结合了MLOps的AI开发流程,比拟为生产线(Assembly Line),因为生产线的原理,正是透过一连串标准化的技术与流程,来进行持续且高品质的生产与交付。

Google也大致描绘了这条ML开发的端到端生产线,来说明ML端的开发者与工程端IT人员在各开发环节中的协作任务。首先在模型试验与发展阶段,资料分析人员会进行资料处理、开发模型的任务,IT人员则需同步将程式码存到对应的储存位置,来管理资料来源;接着,ML工程师会运用CI/CD的方法,将这些试验得到的模型部署到合适的环境中,并建立起模型训练工作流,IT人员则需要将每一段过程的半成品(Artifacts)妥善储存到对应位置,以便未来有需要时重新检视。

在训练模型的阶段,ML开发者会以一段时间为单位来重复训练模型,或是由新搜集的资料来触发模型重新训练,这个阶段,IT人员需要把不同版本的模型及其执行结果存下来,提供模型部署时使用;进入模型部署的CI/CD阶段,ML工程师会经过一连串测试、阶段式模型管理的流程,来确保模型能交付上线,IT人员也需要管理硬件基础设施资源,来确保模型上线后能确实执行。

最后,在模型实际投入生产后,会由IT维运人员存下模型执行过程中的Log,并由ML端监控模型表现是否劣化或漂移(Model Drift),一旦发现问题,就必须回到先前的步骤来重新训练、测试、部署模型。

Nate Keating指出,这个端到端AI开发流程的工作量非常大,光是在试验阶段,就可能需要数以千计的实验次数,来找出合适的模型,在测试阶段也可能要执行数十种模型才能交付上线。因此,透过设定完整的MLOps工作流与一个集中式ML储存数据库,来管理关键步骤与处理后的ML训练半成品,才能让AI团队、IT团队与资料治理团队,拥有系统性的纪录,来进行分析、稽核或追踪无数的自动化ML流程或步骤。

MLOps吹进台湾,助企业规模化落地AI

看见MLOps兴起的趋势,公有云大厂也从2019年开始接连发布了MLOps解决方案,比如微软就在2019年的Build大会上,宣布了Azure ML服务中的MLOps功能,Google也在2020年发布了云端AI平台Pipelines,AWS则提出了MLOps框架,不只要让开发者能透过平台工具快速建立ML工作流,更着力于ML生命周期的管理与监控,来加速ML产品化。

IDC在2020年发布的全球AI采用度调查也发现,根据受调查的2,000多位IT或相关主管回复,仍有约有28%的专案因缺乏专家、生产数据与整合的开发环境,最终以失败收尾。IDC因此鼓吹,企业必须拥抱MLOps,才能更大规模的实现AI。

Deloitte更在2021年趋势预测报告中指出,透过一连串自动化且标准化的开发与维运准则,MLOps能加速AI开发流程,进而扩大企业AI的应用规模,促成AI开发的工业化(Industrialized AI)。

不只在国外引发关注,台湾也有金融业者及抢攻零售电商市场的企业,开始采用MLOps来加速发展AI。玉山银行就在2020年表示,已经运用MLOps协作方法,让数据模型或新上线的服务,都能即时、弹性回应使用者需求,而这个协作文化,更打破了AI团队既有的职务内容框架,让开发者能从产品端反过来思考ML应用。

Line台湾也采用了自家总部以MLOps打造的ML协作平台,平台中整合了从模型开发、训练、部署上线到维运监控等各阶段的常用开发工具,让资料端与工程端人员能运用平台有效协作,快速开发或迭代AI模型。比如说,过去需要工程人员协助建立起ML工作流,但现在,透过平台整合的工作流编辑工具,ML开发者能直接透过视觉化拖拉设定的方式,将工作流的每个步骤串连起来,降低与工程人员的协作成本。

MLOps这股企业AI开发新风潮已经吹进台湾,台湾开始出现积极导入MLOps的AI领先企业,要透过一套系统性AI协作新方法,加速朝向规模化落地AI的目标迈进。

2021-01-04 10:49:00

相关文章