APP下载

【强化资料治理,今年聚焦MLOps人机协作】不惜发动29年最大组织改造,玉山要打造一条鞭资料治理流程

消息来源:baojiabao.com 作者: 发布时间:2024-05-13

报价宝综合消息【强化资料治理,今年聚焦MLOps人机协作】不惜发动29年最大组织改造,玉山要打造一条鞭资料治理流程

今年初,玉山金控振奋地宣布成立法人金融事业总处和个人金融事业总处,来聚焦跨境、数位、风险管理三大策略和ESG永续发展。玉山银行董事长黄男州更揭露,大个金将整合玉山的通路、客群和产品部门,甚至是数位金融处,来共同创造客户价值。

这是玉山29年来最大规模的组织改造。但玉山没明说的是,这也是他们实践资料治理的关键一步。

AI内化引爆资料治理需求,转核也是关键推力

为何一个资料治理,能让玉山如此劳师动众?

这是因为,AI已融入玉山的重点服务面,资料管理需求应势而起。早在2006年,玉山成立资料科学团队CRV,来分析顾客风险价值大数据,2019年更进化为智能金融处(简称智金处),以内部AI供应商之姿,开发各种横跨金控的AI专案。他们自行建置两套关键平台:AI研发云和机器学习服务平台(即MLaaS平台),一方面孕育新AI服务,一方面提供成熟AI模型给业管单位使用,至今营运了50、60个AI专案。

当AI内化到这种程度,资料处理就越发关键。玉山金控科技长张智星举例,智金处和业管单位常遇到这类问题:“信用卡盗刷侦测模型何时要更新?需要哪些资料?是原始资料还是加值资料?这些资料来自同个部门,还是跨部门?”甚至,“模型的训练、测试、上线和监控,是否符合金管会要求?”这些考验,都需要一个专责团队和资料治理框架,来梳理资料处理流程才能解决。

而去年完成的核心系统大转换,也是玉山推动资料治理的关键。当时,玉山转换核心系统,以微服务架构、中台架构和服务API化为目标,要加速服务反应,也要降低资料交换门槛。那段期间,团队就已意识到资料治理的不足,比如,他们能整理出原始资料、加值型资料,却难以定义两种资料的保管人;又或是加值型资料的字段产生,未有明确规范,间接影响使用加值资料训练的AI模型。

跨金控资料治理小组诞生,仿母子法制定三阶资料治理规范

因此,去年8月完成核心系统转换后,玉山一鼓作气成立资料治理小组,正面迎战这些问题。张智星以科技长身份担任小组召集人,成员横跨全金控,包括AI推手智金处和各事业部代表,以每月一次的会议,来讨论资料治理议题,如资料可取性、资料权限和资料上下游管控等。资料治理小组的目标,是要理出一致的资料变动因应措施,来“一条鞭作业!”

为实现目标,他们首先制定资料治理规范。规范分为三阶,第一阶是资料治理政策,也就是大方向、大原则,说明资料治理的目的和管辖范围,比如原则预设各部门要共享资料,除重大考量外,都要能提供资料给需求单位取用。

第二阶是作业要点,来解释资料品质、资料权责和资料分级,第三阶则是作业说明。

张智星表示,这些规范犹如母子法,明定每个阶层的所属权限。他认为,资料治理扩大到全玉山的最简单方法,“就是邀集各部门加入小组,共同制定一、二阶规范。”

定义角色分级,组改推动资料共享

除了制定规范,玉山也引进角色分级概念。进一步来说,角色分级可分为资料拥有者、资料保管者和资料使用者,其中,资料拥有者必须负全责让资料保持在最干净的状态,而资料使用者,必须知道从何取得资料、了解资料限制,比如哪些资料能产出稳定正确的结果、哪些无法产出,或是哪类资料有所缺失、需要补值。

至于资料保管者,张智星特别注重“加值资料保管者”。因为,这类保管者必须具备原始资料的领域知识,而且要注记加值公式、写好诠释资料(Metadata),包括原始资料改变时,加值资料重新计算的方法,作为后续模型更新的参考依据。

不论跨部门与否,这些分级定义了各种角色的职责,但张智星认为,资料治理小组还有个资料共享的挑战。举例来说,不同部门一旦牵涉到特定资料,比如顾客的理财金额或房贷款项,就得跨单位协调、取得资料。

“如何帮他们协调、共用资料,也是资料治理小组的任务。”张智星进一步解释,玉山推动29年来最大组织改造,不只要让整体组织架构更明确、更自然,还有一个关键原因是,要整合KPI相互竞争的单位,打破资料共享藩篱。

定义资料分级,AI专案执行前该进行资料上下游分析

不只角色要分级,资料也需要分级。玉山治理小组将资料分为公开共用、协定共用和不能共用三种,同时按属性,进一步将资料分为原始资料、加值型资料,以及解释加值型资料的诠释资料。

这些分级很重要,因为每一类都可能牵一发动全身。张智星比喻,资料处理就像一条河,“原始资料一改变,下游加值资料就会受到冲击,”如同河流的上下游,上游资料受到污染,下游便难以幸免,无法制造出稳定的AI模型。

也因此,资料治理应涵盖AI专案执行前的资料来源分析,厘清所需的资料种类、来源部门,甚至考量部门间有无冲突,来确保资料能顺利取得。再来是AI模型的更新条件和频率,资料治理小组得思考模型多久更新一次、更新资料取自原始资料还是加值资料,“若是加值资料,如何根据原始资料改变而更新?有无诠释资料说明?多久更新一次?”

举例来说,个人5年平均收入的模型或像票据手写辨识模型,因变化不大,一年之中适时更新即可。但信用卡盗刷侦测模型一周就得更新一次,“因为采用加值资料,再加上疫情影响、消费行为不断改变,这些因素都得考虑进去,”他说。

不只如此,设定模型更新频率时,也得考量更新方法,比如批次计算、即时运算,甚至要检核加值资料的时效性和正确性。他总结,资料治理工作不外乎资料上下游分析,“往上是血缘分析,往下是冲击分析,”如此才能确保资料品质。随着资料治理逐渐到位,玉山今年还要力推MLOps,更着重模型上线后的表现监控。他们希望建立一套模型重新训练、上下架的标准流程,利用回馈资料及时校正模型。

2021-08-19 10:45:00

相关文章