APP下载

Google前中国研究院院长:用迁移学习辅助医疗诊断辨识,小数据也能训练出精准ML模型

消息来源:baojiabao.com 作者: 发布时间:2024-05-18

报价宝综合消息Google前中国研究院院长:用迁移学习辅助医疗诊断辨识,小数据也能训练出精准ML模型

HTC健康医疗事业部总经理张智威从在2006年就加入Google研究院,随后还担任了Google中国研究院院长,在人工智能的领域已经投入多年,张智威已经回来台湾5~6年,但是因为较低调,鲜少人知道他其实已经回台湾一段时间。

他指出,类神经网络从1980年代就诞生了,10年前就有一篇MoGo的论文,预测了电脑下围棋会赢过人类,果真AlphaGo在今年初打败人类世界围棋冠军,他认为,资料量的规模和运算能力的成长,是AI近来兴起的关键。

不过,云端计算的能力在2008年就已经商业化,大数据也在2006年就开始兴起,像是Google好几年前就拥有庞大的数据库,成为世界第一大的搜索引擎,但是当时Google为何没有用AI?他的答案是:“当时并没有用AI的急迫性!”

当时Google搜索引擎的网页评分系统和广告推荐都并不需要用AI,就能提供给使用者的准确的结果,再加上,其实搜寻的结果和广告推荐都没有真实的数值(Ground Truth),因此,就连Google拥有丰富的数据和运算能力,也没有采用深度学习的模型。

现在,AI技术较成熟,他用一张实测的图显示,5种不同的算法,针对不同资料量来训练时,数据越多,算法的准确率就越高,因此,他表示,如果数据够多,就选择便宜的算法较佳,但若是数据不够多,不管是多厉害的论文发表的算法,其实效果都不彰。“大量资料是必要的,没有资料就没办法做AI!”张智威直言,AI系统的准确度,仰赖训练的资料量。

他将眼光放向台湾其中一项强项,那就是医疗,他认为医疗诊断需要更好的典范转移,他举例自己过去看诊的过程,发现自己心脏不适后,到医院挂号等待,终于轮到自己看诊时,医生却只有5分钟的时间可以看诊,在5分钟的时间内也无法确诊,要另外安排其他的相关检验检查,检验完毕后再回来看诊,确诊后医生开药给病患回家吃,来来回回就耗费了好几天,如果下次又感受到身体不适,又得重复一样的流程,他认为,医疗的诊断还可以有更有效率的流程。

他指出,未来医院不再需要集中在城市的某些地方,而是一个分散的系统,分散在一个地区的各地,让民众到达医疗机构变得方便,而医院不再需要非常完整且精密的医疗仪器,而是一个病人与医生的互动场所,因为许多病患的医疗资讯收集工作,可以在平时就完成。

他举出,应该要有设备能够平时追踪病患的健康状态,将这些平时的资料存放在云端,健康系统发现病患身体状况可能有问题时,可以传送警示给病患,建议病患到医院检查,而医生也因为有更多足够的数据,就能够更容易确诊病患的问题,病患的身体状况也能得到更好的照顾。

“台湾的优势是医疗,但是最后的关键还是需要数据!”张智威直言,没有数据,预测系统是做不来的,他以HTC研究与健康医疗部门所开发的医疗诊断检测设备来解说AI在医疗上的应用,医疗诊断检测设备包含验血验尿诊断、呼吸诊断、光学诊断、生命特征诊断,以及问诊。

验血验尿诊断可侦测糖尿病、贫血、肺炎、白细胞增多症和尿道感染,而呼吸诊断则是可以侦测阻塞性肺炎疾病,光学诊断能够侦测中耳炎和黑色素瘤,生命特征诊断即是心律不整、高血压等疾病。

他指出,医生的问诊就是缩减病患需要做的检查和潜在症状可能性的过程,透过最少的问题,定义出最准确的诊断猜测,现在有些网站提供病患自行搜寻症状,系统经过分析后再给予使用者可能疾病结果,但是,他表示,这样的使用者体验不够友善。

张智威试想如何将AlphaGo成功的经验,移转到到医疗诊断系统上,他透过增强学习,让代理人(Agent)询问病患病症,根据病患回复的病症给予病患预测的状态,并用报酬的机制,答对给予奖励,判断错误或是问太问题就扣分,不断的训练。

他比较了AI在围棋与医疗诊断的差别,首先围棋的棋谱可能性是有限的集合,而人类身体的状况有无限种可能,再者,围棋的输出是二元结果,只有输和赢两种,但是人体的疾病大约有800种,最后围棋可以出其不意,探索新的下棋法,但是医疗诊断必须遵循用药指示,不能轻易尝试新方法。

有鉴于医疗诊断和围棋的差异,张智威将人体用阶层式分层,将身体的分成不同部分,主代理人选择一个身体部分的代理人问诊,需要考虑的包含病患医疗资料、身体的部位和疾病的好发时间,最后,达成大约7.24个问题,就可以完成问诊。

光学诊断的部分,他以中耳炎的判读为例,用CNN 和DNN算法辨识,但是因为训练样本不足,只有1,000多个图像样本,导致算法的准确率大约只有75%,于是,团队开始想办法,在网络上找了各式各样的影像,不是只局限于耳道的影像,并将这些网络上找来的图片分类,透过CNN模型,将原本的图片和处理后的图片比对,当输入一张图片到CNN模型时,就会产生相对应的编号和辨识结果,像是中耳炎的图片可能对应到柳丁或是拉花咖啡,他表示,这样对应的关系,就是将某个领域的知识转移到不同的领域上,也就是所谓的迁移学习,因此,透过这些与中耳炎无关的影像,最后辨识的模型准确率高达90%以上。

不过,他也认为,目前AI都还只是擅长辨识物件,AI只学习到了人脑的额叶(Frontal Lobe)运作,离真正的AI还很远。

他表示,现在很多企业都还在鼓励年轻人开发App,但是他指出,现在App如果不收费,只靠广告赚钱的话,至少要有15亿的使用者下载App 才有办法赚钱,而台湾根本没有这么大的人口市场。台湾的AI人才很多,重点是要有开发AI应用的动机,他也建议,网络上有许多开源的AI课程,有兴趣往AI发展的开发人员都可以多多利用。

2018-01-10 18:25:00

相关文章