【强化资料治理，今年聚焦MLOps人机协作】不惜发动29年最大组织改造，玉山要打造一条鞭资料治理流程最新消息

今年初，玉山金控振奋地宣布成立法人金融事业总处和个人金融事业总处，来聚焦跨境、数位、风险管理三大策略和ESG永续发展。玉山银行董事长黄男州更揭露，大个金将整合玉山的通路、客群和产品部门，甚至是数位金融处，来共同创造客户价值。

这是玉山29年来最大规模的组织改造。但玉山没明说的是，这也是他们实践资料治理的关键一步。

AI内化引爆资料治理需求，转核也是关键推力

为何一个资料治理，能让玉山如此劳师动众？

这是因为，AI已融入玉山的重点服务面，资料管理需求应势而起。早在2006年，玉山成立资料科学团队CRV，来分析顾客风险价值大数据，2019年更进化为智能金融处（简称智金处），以内部AI供应商之姿，开发各种横跨金控的AI专案。他们自行建置两套关键平台：AI研发云和机器学习服务平台（即MLaaS平台），一方面孕育新AI服务，一方面提供成熟AI模型给业管单位使用，至今营运了50、60个AI专案。

当AI内化到这种程度，资料处理就越发关键。玉山金控科技长张智星举例，智金处和业管单位常遇到这类问题：“信用卡盗刷侦测模型何时要更新？需要哪些资料？是原始资料还是加值资料？这些资料来自同个部门，还是跨部门？”甚至，“模型的训练、测试、上线和监控，是否符合金管会要求？”这些考验，都需要一个专责团队和资料治理框架，来梳理资料处理流程才能解决。

而去年完成的核心系统大转换，也是玉山推动资料治理的关键。当时，玉山转换核心系统，以微服务架构、中台架构和服务API化为目标，要加速服务反应，也要降低资料交换门槛。那段期间，团队就已意识到资料治理的不足，比如，他们能整理出原始资料、加值型资料，却难以定义两种资料的保管人；又或是加值型资料的字段产生，未有明确规范，间接影响使用加值资料训练的AI模型。

跨金控资料治理小组诞生，仿母子法制定三阶资料治理规范

因此，去年8月完成核心系统转换后，玉山一鼓作气成立资料治理小组，正面迎战这些问题。张智星以科技长身份担任小组召集人，成员横跨全金控，包括AI推手智金处和各事业部代表，以每月一次的会议，来讨论资料治理议题，如资料可取性、资料权限和资料上下游管控等。资料治理小组的目标，是要理出一致的资料变动因应措施，来“一条鞭作业！”

为实现目标，他们首先制定资料治理规范。规范分为三阶，第一阶是资料治理政策，也就是大方向、大原则，说明资料治理的目的和管辖范围，比如原则预设各部门要共享资料，除重大考量外，都要能提供资料给需求单位取用。

第二阶是作业要点，来解释资料品质、资料权责和资料分级，第三阶则是作业说明。

张智星表示，这些规范犹如母子法，明定每个阶层的所属权限。他认为，资料治理扩大到全玉山的最简单方法，“就是邀集各部门加入小组，共同制定一、二阶规范。”

定义角色分级，组改推动资料共享

除了制定规范，玉山也引进角色分级概念。进一步来说，角色分级可分为资料拥有者、资料保管者和资料使用者，其中，资料拥有者必须负全责让资料保持在最干净的状态，而资料使用者，必须知道从何取得资料、了解资料限制，比如哪些资料能产出稳定正确的结果、哪些无法产出，或是哪类资料有所缺失、需要补值。

至于资料保管者，张智星特别注重“加值资料保管者”。因为，这类保管者必须具备原始资料的领域知识，而且要注记加值公式、写好诠释资料（Metadata），包括原始资料改变时，加值资料重新计算的方法，作为后续模型更新的参考依据。

不论跨部门与否，这些分级定义了各种角色的职责，但张智星认为，资料治理小组还有个资料共享的挑战。举例来说，不同部门一旦牵涉到特定资料，比如顾客的理财金额或房贷款项，就得跨单位协调、取得资料。

“如何帮他们协调、共用资料，也是资料治理小组的任务。”张智星进一步解释，玉山推动29年来最大组织改造，不只要让整体组织架构更明确、更自然，还有一个关键原因是，要整合KPI相互竞争的单位，打破资料共享藩篱。

定义资料分级，AI专案执行前该进行资料上下游分析

不只角色要分级，资料也需要分级。玉山治理小组将资料分为公开共用、协定共用和不能共用三种，同时按属性，进一步将资料分为原始资料、加值型资料，以及解释加值型资料的诠释资料。

这些分级很重要，因为每一类都可能牵一发动全身。张智星比喻，资料处理就像一条河，“原始资料一改变，下游加值资料就会受到冲击，”如同河流的上下游，上游资料受到污染，下游便难以幸免，无法制造出稳定的AI模型。

也因此，资料治理应涵盖AI专案执行前的资料来源分析，厘清所需的资料种类、来源部门，甚至考量部门间有无冲突，来确保资料能顺利取得。再来是AI模型的更新条件和频率，资料治理小组得思考模型多久更新一次、更新资料取自原始资料还是加值资料，“若是加值资料，如何根据原始资料改变而更新？有无诠释资料说明？多久更新一次？”

举例来说，个人5年平均收入的模型或像票据手写辨识模型，因变化不大，一年之中适时更新即可。但信用卡盗刷侦测模型一周就得更新一次，“因为采用加值资料，再加上疫情影响、消费行为不断改变，这些因素都得考虑进去，”他说。

不只如此，设定模型更新频率时，也得考量更新方法，比如批次计算、即时运算，甚至要检核加值资料的时效性和正确性。他总结，资料治理工作不外乎资料上下游分析，“往上是血缘分析，往下是冲击分析，”如此才能确保资料品质。随着资料治理逐渐到位，玉山今年还要力推MLOps，更着重模型上线后的表现监控。他们希望建立一套模型重新训练、上下架的标准流程，利用回馈资料及时校正模型。

【强化资料治理，今年聚焦MLOps人机协作】不惜发动29年最大组织改造，玉山要打造一条鞭资料治理流程

品牌选车