如何提高AI模型需要的高品质数据,若水揭露标注师工作的秘诀

发布于2019-05-27 04:50:53

导读: 若水AI数据服务事业部协理简季婕表示,企业通常着重在AI算法的开发,但数据的整理与标记也同等重要。图片来源: 摄影/翁芊儒“大家都知道数据(data)很重
导读: 若水培训身障者组成专业数据标注团队,要透过资料清整与精准的数据标注,进而让AI模型有效学习、提升效能。

若水AI数据服务事业部协理简季婕表示,企业通常着重在AI算法的开发,但数据的整理与标记也同等重要。

图片来源: 

摄影/翁芊儒

“大家都知道数据(data)很重要,但如何处理数据更重要,它会加值AI模型的养成。”若水AI数据服务事业部协理简季婕在一场活动上,揭露自家新创团队的数据处理策略,包括如何从大量原始的资料筛选出可用的资料并进行标注,以及实际标注时运用的工具与流程。

简季婕说明,虽然原始资料量(raw data)越多越好,但真正关键的挑战是搜集到可用的资料,举无人车针对路况做出反应的模型为例,一般正常路况的资料量多、好搜集,但真正训练模型做出反应的车祸资料,反而较难取得。因此,在数据的搜集阶段有两项重点,一是要搜集到足够全面的资料(Variety),包括静态、动态、不同环境的资料,二是要搜集到不同复杂程度得资料(Complexity),无论是阴暗光线、雨水、被标注物件的数量或大小都会让情境变复杂。

在搜集足够的资料后,下一个挑战则是如何将庞杂的数据收敛为可用来训练的资料。首先,必须要分类,大致可分为三类,根据搜集到的影像,去判断欲标注的物件是否完整、清楚,不完整或模糊的影像先归一类;第二类,则是将背景不够干净、有噪声,或可能导致辨识错误的图像筛选出来;第三,则是筛选后所剩下的清晰、干净、高分辨率的资料,同时也是较适合拿来训练模型的资料。

举例来说,某品牌精华液拥有大量图像资料,此时可依照上述步骤先将瓶身拍摄不完整或模糊的图像筛选出来归类,接着再将附有包装纸、配饰、或人也入镜的图像资料筛选出并归类,最后剩下的就是背景干净、只留精华液瓶罐的资料。简季婕表示,模型可以透过第三类的资料学习物件特征,再反过来用第二类甚至第一类的资料加深学习难度,来强化模型的辨识能力。

在数据整理与筛选的阶段,若水也采取半自动化的方式让数据清整更有效率。简季婕表示,根据每个专案的需求,会使用不同的智慧工具来做快筛,包括物件追踪(Object Tracking)、特征分析(Feature Analysis)、人脸辨识(Face Recognition)等,逐步将不合适的资料筛除,从低品质资料筛到高品质资料的过程,也会有部分人力进场来做更精确判读。

除了将数据分类,要取得高品质的标注资料也有三个步骤,包括精准的定义(Definition)、执行(Execution)、以及回馈(Feedback)。简季婕说明,首先要精准定义出资料标注的原则,这时候领域知识(domain knowledge)就很重要;再来是根据定义去处理与标注数据,过程越精准稳定,相对的模型就会有较好表现;最后是即时的回馈,AI工程师将标注后的数据拿来训练模型,训练结果即时反馈给数据标注师,使其可以针对标注过程做调整,形成良性循环。

简季婕也举出实际应用的案例来说明。要训练辨识铁锈的模型,首先要定义铁锈是什么?铁锈的颜色、质地、形状都需要专家来协助定义,才不会与光影、青苔和污渍搞混,否则将影响模型表现;定义完成后,将资料交由专业数据标注师处理,不经由AI工程师或工读生来标记;在回馈的部分,针对模型表现的结果改善标记方式,进而提升模型辨识的精准度。

因此,若水的成员不仅包括AI工程师来开发资料清整的工具、由身障者组成的专业资料标注师、协助定义标注原则的资料科学家,也与外部专家合作,在客户对于领域知识不够熟悉时,透过咨询让资料可以被更精确的标注与使用。

若水在资料标注的过程,培养身障者作为数据标注师,让身障者透过远距沟通的形式就能在家工作。培训的内容主要为基础标注训练,不只要看的准、标得准,还要培养标注师的对资料的敏感度,目的要降低人为标注的认知落差,通常需要大量的训练才能胜任,而标注师也需花时间熟悉远距沟通的工作模式,因此培训时间通常要一个月或更久。

在培训过程,每位标注师会熟悉一种标注工具、以及该工具实际应用的场景。主要常用的六大标注工具,包括方框标注、关键点标注、分类标注、像素切割标注、多边形标注以及析线标注,分别对应不同类型的资料,例如关键点标注适用于动态影像的标注、分类标注适用于大量数据的快筛、工业影像常用像素切割标注法等。