APP下载

如何提高AI模型需要的高品质数据,若水揭露标注师工作的秘诀

2019-05-23 15:02

若水AI数据服务事业部协理简季婕表示,企业通常着重在AI算法的开发,但数据的整理与标记也同等重要。

图片来源: 

摄影/翁芊儒

“大家都知道数据(data)很重要,但如何处理数据更重要,它会加值AI模型的养成。”若水AI数据服务事业部协理简季婕在一场活动上,揭露自家新创团队的数据处理策略,包括如何从大量原始的资料筛选出可用的资料并进行标注,以及实际标注时运用的工具与流程。

简季婕说明,虽然原始资料量(raw data)越多越好,但真正关键的挑战是搜集到可用的资料,举无人车针对路况做出反应的模型为例,一般正常路况的资料量多、好搜集,但真正训练模型做出反应的车祸资料,反而较难取得。因此,在数据的搜集阶段有两项重点,一是要搜集到足够全面的资料(Variety),包括静态、动态、不同环境的资料,二是要搜集到不同复杂程度得资料(Complexity),无论是阴暗光线、雨水、被标注物件的数量或大小都会让情境变复杂。

在搜集足够的资料后,下一个挑战则是如何将庞杂的数据收敛为可用来训练的资料。首先,必须要分类,大致可分为三类,根据搜集到的影像,去判断欲标注的物件是否完整、清楚,不完整或模糊的影像先归一类;第二类,则是将背景不够干净、有噪声,或可能导致辨识错误的图像筛选出来;第三,则是筛选后所剩下的清晰、干净、高分辨率的资料,同时也是较适合拿来训练模型的资料。

举例来说,某品牌精华液拥有大量图像资料,此时可依照上述步骤先将瓶身拍摄不完整或模糊的图像筛选出来归类,接着再将附有包装纸、配饰、或人也入镜的图像资料筛选出并归类,最后剩下的就是背景干净、只留精华液瓶罐的资料。简季婕表示,模型可以透过第三类的资料学习物件特征,再反过来用第二类甚至第一类的资料加深学习难度,来强化模型的辨识能力。

在数据整理与筛选的阶段,若水也采取半自动化的方式让数据清整更有效率。简季婕表示,根据每个专案的需求,会使用不同的智慧工具来做快筛,包括物件追踪(Object Tracking)、特征分析(Feature Analysis)、人脸辨识(Face Recognition)等,逐步将不合适的资料筛除,从低品质资料筛到高品质资料的过程,也会有部分人力进场来做更精确判读。

除了将数据分类,要取得高品质的标注资料也有三个步骤,包括精准的定义(Definition)、执行(Execution)、以及回馈(Feedback)。简季婕说明,首先要精准定义出资料标注的原则,这时候领域知识(domain knowledge)就很重要;再来是根据定义去处理与标注数据,过程越精准稳定,相对的模型就会有较好表现;最后是即时的回馈,AI工程师将标注后的数据拿来训练模型,训练结果即时反馈给数据标注师,使其可以针对标注过程做调整,形成良性循环。

简季婕也举出实际应用的案例来说明。要训练辨识铁锈的模型,首先要定义铁锈是什么?铁锈的颜色、质地、形状都需要专家来协助定义,才不会与光影、青苔和污渍搞混,否则将影响模型表现;定义完成后,将资料交由专业数据标注师处理,不经由AI工程师或工读生来标记;在回馈的部分,针对模型表现的结果改善标记方式,进而提升模型辨识的精准度。

因此,若水的成员不仅包括AI工程师来开发资料清整的工具、由身障者组成的专业资料标注师、协助定义标注原则的资料科学家,也与外部专家合作,在客户对于领域知识不够熟悉时,透过咨询让资料可以被更精确的标注与使用。

若水在资料标注的过程,培养身障者作为数据标注师,让身障者透过远距沟通的形式就能在家工作。培训的内容主要为基础标注训练,不只要看的准、标得准,还要培养标注师的对资料的敏感度,目的要降低人为标注的认知落差,通常需要大量的训练才能胜任,而标注师也需花时间熟悉远距沟通的工作模式,因此培训时间通常要一个月或更久。

在培训过程,每位标注师会熟悉一种标注工具、以及该工具实际应用的场景。主要常用的六大标注工具,包括方框标注、关键点标注、分类标注、像素切割标注、多边形标注以及析线标注,分别对应不同类型的资料,例如关键点标注适用于动态影像的标注、分类标注适用于大量数据的快筛、工业影像常用像素切割标注法等。

相关文章

最新资讯

  • 电影票走订阅模式碰壁,MoviePass已经关门大吉了
    2019-09-16 22:49
  • 如何落实产业AI化?德国靠24个研发中心助中小型企业转型
    2019-09-16 22:49
  • 欢太科技有限公司:5G将会为我们带来什么?
    2019-09-16 17:52
  • 拍照比“剪刀手”泄露指纹信息?业内专家辟谣
    2019-09-16 17:52
  • Google改变搜寻算法,提升媒体原创报导的排名
    2019-09-16 20:49

手机

  • OPPO Reno 2 实机动眼看 台湾最快十月中上市
    2019-09-16 16:48
  • 平价 S855 旗舰机小米 9T Pro 动手玩 依旧是高性价比手机代表
    2019-09-16 14:46
  • 2019 iPhone 新机及苹果周边推荐大汇整 小编推荐不踩雷大清单 绝对能让你的手机焕然一新 快看看你想要什么 我们通通送要送出去
    2019-09-16 12:46
  • 外媒一次收到了21张 Google Pixel 4 XL 的泄密照 却找不到长焦镜头的证据
    2019-09-15 15:48
  • Pixel 4宣传影片带来的不止是夜拍功能改进、还宣称你可以星空夜拍
    2019-09-15 09:51

数码

  • 小米全面屏电视Pro官宣:更全面的全面屏,9月2…
    2019-09-16 21:59
  • 荣耀Play 3参数价格配置亮点介绍 支持4800万硬件直出
    2019-09-16 14:47
  • 华为Mate 30 RS保时捷设计渲染图曝光
    2019-09-16 15:52
  • 9月19日德国慕尼黑见!华为智慧屏发布会全新预…
    2019-09-16 15:52
  • 高通骁龙X50 5G基带连接性能出色 发热与4G无差异
    2019-09-16 16:54

科技

  • 汇顶科技回应专利被宣告无效:正积极申请行政诉讼
    2019-09-16 19:46
  • 拍照比剪刀手真的会泄露指纹信息吗?业内专家九滴水微博辟谣
    2019-09-16 19:46
  • 原安波福副总裁韦峻青加入滴滴自动驾驶公司任CTO
    2019-09-16 19:46
  • 亲爱的你手台塌了是什么梗和意思 亲爱的你手台塌了出自哪里
    2019-09-16 19:46
  • 任正非称华为6G研究领先世界 或在十年后投入使用
    2019-09-16 19:46