APP下载

台湾人工智能学校第一期秀成果,有肠病毒疫情预测、台股中短期预测以及植物品种辨识

消息来源:baojiabao.com 作者: 发布时间:2024-05-20

报价宝综合消息台湾人工智能学校第一期秀成果,有肠病毒疫情预测、台股中短期预测以及植物品种辨识

台湾人工智能学校第一期结业典礼暨成果展示,内容多样,涵盖股市预测、房价预测、疾病预测、植物影品种辨识,以及影像叙述自动生成。

图片来源: 

摄影/王若朴

台湾人工智能学校第一期于4月28日结业,当天除了结业典礼外,还包括了技术领域班这三个月以来的学习成果发表。各组别出心裁,有将AI运用到便民服务的,比如预测未来四周的肠病毒疫情局势,和自动生成肠病毒周报的速讯写稿机器人,给民众和专业人士阅读。另外一些学员也发挥创意,将AI用于不同领域,像是台股中短期预测、结合地理环境资讯来进行房价预测,以及用影像识别来辨识植物品种(如艳紫荆、洋紫荆和羊蹄甲),另外还有精准度高的影像叙述自动生成系统(Image Caption)。

首先展示的主题,是对未来四周肠病毒感染趋势的预测。有鉴于肠病毒对于家中有小孩的父母、学校老师和医生都影响重大,这组组员就想建立一个可以准确预测肠病毒未来四周趋势的模型,来服务大众。他们运用了疾病管制署的资料,取用了台北市的肠病毒急诊与门诊资料加总来分析,将2008年至2016年的肠病毒急、门诊资料当作训练资料集,并以2017年的肠病毒急、门诊资料作为测试集,来检测预测模型的准确度。该组分别以XGBoost模型和LSTM模型,针对四周做出4种相对应的模型来训练、预测。在没有加入任何特征之前,第一周的两个模型预测结果都十分准确,但第二、三、四周就有所差异,LSTM模型也有所偏移。因此组员回顾疾病管制署资料,把感染人次、气候温度、人口数、空污资料和是否放假等7种特征,加到训练模型中。测试结果显示,第一周表现依然良好,第二、三、四周的XGBoost模型也有改善,LSTM模型也修正了偏移现象。

另一个与肠病毒相关的主题,则是自动写出肠病毒疫情周报的速讯写稿机器人。肠病毒疫情周报由疾管署提供,范围涵盖了国内外疫情摘要、社区病毒监测、重症监测和停课监测等,内有各式图表和统计图,公开给专业人士和一般大众阅读。由于肠病毒每年都会发生,这组组员希望能透过文章自动生成的速讯写稿机器人,将肠病毒资讯更快地传播出去。为此,他们使用了疾病管制署的肠病毒疫情周报资料(自2010年至今,共209篇),以及肠病毒社区检验、监测摘要、门诊资料等共8个cvs档案,来训练可自动撰写肠病毒周报和数值的系统。也由于他们希望机器写的文章,读起来要像人写的一样自然,因此在评估方法方面,他们就透过人工检验、与过去周报比较,并且修正。而用来训练的模型,则为混合型,包含了Char-RNN、LSTM加上Attention机制,以及法则式模型(Rule-based model),将文章中的每一段用一个模型来训练。组员说,虽然系统最终产生的文章,数值没办法摆在正确位置,而且需要人工审核,但疾管署人员看了之后,表示他们只需要30秒到1分钟来审核,其实已经节省不少时间。

除了将AI用在与台湾息息相关的肠病毒防治,这次成果发表还有其他有趣的应用,像是台股中短期走势的预测。这组学员运用了2006年至2015年的台股资料、训练出一个长短期记忆神经网络(LSTM)模型,来预测2015年到2016年的台股盘势。该预测模型由6个LSTM网络堆叠而成,小组成员也做了几项预处理(像是修正标签等),加入技术面、基本面和筹码面等共450项特征(feature),使模型的预测更加精准。

另一项应用,则是以地理环境资料来预测房价。组员从过去房屋成交的案件中,撇开房屋本身条件(比如坪数、屋龄、设备等),来寻找、归纳出影响房价的地理空间因子,像是生活便利程度(便利商店的有无、数量和距离等),以及房屋所在的位置(是否为精华区、重划区,或是与交通设施站的距离等)。而他们所使用的资料,主要由成功大学测量及空间资讯学系提供。取得房屋交易资料后,组员先将房屋门牌号码进行座标定位,再来观察地理空间因素,排除一些不相关因素如亲属间交易后,取3万笔资料作为训练素材。在特征选取方面,则包含行政区、便利商店、学区等,加进算法中,来预测房价。不过,由于当天介绍时间有限,有些重点还没有机会完整揭露。

AI不只运用在预测上,其中一组组员还应用来辨识植物,也就是植物品种:艳紫荆、洋紫荆和羊蹄甲的辨识。他们希望透过这项辨识技术,让对植物有兴趣的民众,带着手机就可以认识大自然。在辨识方面,这组组员表示,虽然花相似度低、是最容易辨识的主体,但由于艳紫荆、洋紫荆和羊蹄甲并非全年开花,所以组员还是以这三种植物的叶子作为辨识主体。除了使用疾病管制署提供的资料,他们也亲自到台湾各地取样拍照。当中也遇到了些困难,像是嫁接的植物、上下部为不同品种;而4月正好是羊蹄甲花季,所以拍照取样时,背景有花,而洋紫荆正好非花季,这样的差异,就会影响模型辨识率,模型会认为有花的是羊蹄甲,而为了让模型把重点放在叶子上,资料集因此设为两个部分,第一是Public Set(Pure)纯叶子辨识,准确率可达95%,另一个是Private Set (Noise),准确率为85%。另外,组员表示,该辨识技术已经上线,民众可以网络版和App版使用。该组也将继续扩大辨识物种,让植物识别的品种更丰富。

另外一个登场的是,影像叙述自动生成。这项技术,除了使用痞客邦提供的资料,也运用了COCO资料集的8万多笔照片资料,另外还包括组员提供的大量生活照等。而用来训练的模型,则是Show, Attend and Tell。组员表示,Attend加强了系统识别的能力,比如颜色识别(Color Attend);在现场示范中,一张影像如果拿掉Color Attend,对影像的颜色叙述就消失了。而在使用部分,使用者只要将照片上传到http://104.199.193.55/galleries,系统就会自动生成影像文字叙述。这组组员也当场对着大家照了张相,上传后自动产生的文字叙述为“一群人在国际会议厅的观众席上”(如下图),高准确度也赢得大家掌声。

除了这些,成果发表也还有其他应用,像是3D细胞语义分割、台湾动物声音辨识、新闻标题产生器、文章自动标签生成、人与物的互动辨识,以及AOI瑕疵检测和影像多元瑕疵检测等。

2018-05-01 18:31:00

相关文章