APP下载

国产影像标记平台LabelHub要用AI评分模型,快速找出标记品质不佳的标记师

消息来源:baojiabao.com 作者: 发布时间:2024-05-10

报价宝综合消息国产影像标记平台LabelHub要用AI评分模型,快速找出标记品质不佳的标记师

木刻思研究团队训练出能辨识8种肺部病征的AI预标记模型,能内建到LabelHub平台提供医院专案使用。

图片来源: 

图/木刻思提供

三年前,木刻思团队一次制造业Tensorflow教育训练中,只是随手开发了一套类似于小画家的阳春版影像标注工具,来辅助上课对象的影像标记之用,却意外大受对方欢迎,甚至有意购买这套工具软件,这让木刻思首席执行官张家齐发现了一个台湾资料标注平台的市场机会。

花了一年多研发,木刻思在2018年推出一套资料预标注平台LabelHub,可提供标注资料与影像辨识模型训练,连台积电都采用来训练厂区工安机器人。张家齐表示,下一步正在开发一套可以分辨标记师品质的评分机制,可以用来改善影像资料标记的方法,希望能锁定制造业厂区安全、产线瑕疵辨识或医疗影像疾病检测等。

比如说,台积电在去年台湾最大半导体展中,展出这项厂区工安机器人的成效,可用来侦测厂区异常,加强厂区工安。木刻思采取半监督式学习(Semi-supervised learning)的训练方式,透过两张相同场景、但其中的物件摆放位置不同的资料,比如正常照片与异常照片对比,异常照片中可能有梯子、三角锥倒下、不明物件掉落等,直接给定哪一张照片正常、哪一张异常,让模型透过比对,来学习异常情境可能的样态,并由客户进一步标记出异常照片中的物件,来定义其异常原因。

此外,木刻思团队也以国外开源的胸腔X光片资料,运用LableHub平台研发了一个可以辨识八种肺部病征的影像辨识模型,辨识率达82-83%。张家齐表示,若客户有需求,会将模型内建到平台中供客户使用,只要以台湾在地化影像训练后,就能使用于临床上协助医生诊断。木刻思目前也与五个医院专案在洽谈合作。

LabelHub平台利用国外影像数据库训练出来的肺部病征标记模型,可同时辨识8种肺部病征,准确率约8成。

木刻思研发评分机制,要找出标记品质不佳的影像与标记者

一般训练AI模型时,需要使用大量标记过的影像来训练,但是因为,标记影像量动辄数十万或百万张,多半会由多位标志师依据一套判断规则分工标记,全部标记完后,再由一个人复查(通常专案经理PM),找出符合标准的那一批影像(称为Ground Truth版资料),再用这批资料来训练AI模型。

为此,木刻思也正在开发一套评分机制,要来辅助客户训练模型时,标记影像辨识效果复查的过程。张家齐举例,制造业常会有高达100万张的影像,可以用来优化瑕疵检测模型,若有3个标注师来标记成果,可以得到人工标记的300万张影像。此时,需要PM根据1组3张影像中,选出最符合要求或标准的正确答案(ground truth),也就是说,PM须要检视300万张图片才能选出每一组图片的Ground Truth版本,再以此来训练模型。

LabelHub平台评分机制则采取抽样的方式,从前述100万组人工标注影像中,抽样取出1000组、共3000张影像,由专案经理找出每组三张中,最符合标准的那一张。LabelHub平台评分机制会用其余两张影像与符合标准的那一张,比较标记位置的差距,来建立一个衡量标记品质的AI评分模型,差距越大分数越低,差距越小分数就越高。最后,再用这个AI评分模型,来对其他99.9万组已标记影像进行评分,找出其中最符合标准的那一套Ground Truth影像作为训练用的资料。

“AI标注的准确率越来越高,直到比所有标记人员强的时候,反而是人可能会标错,所以我们有第二套评分机制,让人与AI互评。”张家齐表示,初期模型标记功能还不强,需要透过人工复查与评分机制不断优化,但当模型辨识精准度与效率都超越人类时,就需要转换为另一套评分机制,让AI也能对不同标记人员的表现评分,也就是双向互评功能,目前已完成功能开发,正在进行最后测试阶段,张家齐表示,年底前会优先释出对影像标记成果的评分机制。

不过,张家齐表示,这套评分机制主要用途是找出资料标记有误,或是标记表现不佳的标记者,来协助专案管理者更有效率的挑出标记正确的资料,因此适用于标记者较多的场景,比如医院的标记成本高,通常只由1-2位医生负责标记,就不太适用。

LabelHub五大管理功能,让用户快速标注影像与训练模型

LabelHub也推出5大管理功能,包括人员权限、原始资料、标记成果、模型版本与运算资源的管理,来提高模型训练过程的专案管理。基本的权限管理可分成资料标记人员、IT维运人员、AI工程师、系统管理者等,各有不同的操作界面和权限。资料来源则可支援存放在公有云、私有云、混合云,或Hadoop平台的储存空间;此外也内建Kubernetes工具,直接可以监测运算资源的温度、内存用量等,执行模型训练任务时,可支援GPU和支援Google的TPU芯片。

在影像标记机制上,提供方框和涂色两种标注工具,内建了上述的评分机制,可分类按作业流程来检视;使用者也能自行设定模型版本控管的储存机制,比如迭代100个Epoch储存一版,但只限于使用LabelHub平台训练的模型。

LabelHub平台使用者界面,可以看到左侧能管理使用者权限、专案管理、工作管理、储存空间管理等功能,而运算资源管理则在另一个平台界面中。

目前,木刻思主要顾客是医院专案,国内有5个专案在进行,LabelHub内建了胸腔X光影像辨识模型,还有牙齿X光、视网膜光学断层扫描仪(OCT)的初步影像辨识模型,这三者都需要再优化来提高精准度,才能用于临床诊断。未来,3D医疗影像系统的应用愈趋普及,木刻思则正在开发3D医疗影像的标记机制,预计在今年底,可支援CT与MRI影像的标记。

而木刻思目前正在募资,准备将LabelHub平台从公司拆分出去独立成一家公司。张家齐坦言,市场变化快,影像标记平台的竞争已经越来越激烈了,就算是比较早推出的LabelHub也得抓紧时间,持续改版才行。

2019-08-13 12:45:00

相关文章