台湾人工智能学校第一期秀成果，有肠病毒疫情预测、台股中短期预测以及植物品种辨识最新消息

台湾人工智能学校第一期结业典礼暨成果展示，内容多样，涵盖股市预测、房价预测、疾病预测、植物影品种辨识，以及影像叙述自动生成。

图片来源:

摄影／王若朴

台湾人工智能学校第一期于4月28日结业，当天除了结业典礼外，还包括了技术领域班这三个月以来的学习成果发表。各组别出心裁，有将AI运用到便民服务的，比如预测未来四周的肠病毒疫情局势，和自动生成肠病毒周报的速讯写稿机器人，给民众和专业人士阅读。另外一些学员也发挥创意，将AI用于不同领域，像是台股中短期预测、结合地理环境资讯来进行房价预测，以及用影像识别来辨识植物品种（如艳紫荆、洋紫荆和羊蹄甲），另外还有精准度高的影像叙述自动生成系统（Image Caption）。

首先展示的主题，是对未来四周肠病毒感染趋势的预测。有鉴于肠病毒对于家中有小孩的父母、学校老师和医生都影响重大，这组组员就想建立一个可以准确预测肠病毒未来四周趋势的模型，来服务大众。他们运用了疾病管制署的资料，取用了台北市的肠病毒急诊与门诊资料加总来分析，将2008年至2016年的肠病毒急、门诊资料当作训练资料集，并以2017年的肠病毒急、门诊资料作为测试集，来检测预测模型的准确度。该组分别以XGBoost模型和LSTM模型，针对四周做出4种相对应的模型来训练、预测。在没有加入任何特征之前，第一周的两个模型预测结果都十分准确，但第二、三、四周就有所差异，LSTM模型也有所偏移。因此组员回顾疾病管制署资料，把感染人次、气候温度、人口数、空污资料和是否放假等7种特征，加到训练模型中。测试结果显示，第一周表现依然良好，第二、三、四周的XGBoost模型也有改善，LSTM模型也修正了偏移现象。

另一个与肠病毒相关的主题，则是自动写出肠病毒疫情周报的速讯写稿机器人。肠病毒疫情周报由疾管署提供，范围涵盖了国内外疫情摘要、社区病毒监测、重症监测和停课监测等，内有各式图表和统计图，公开给专业人士和一般大众阅读。由于肠病毒每年都会发生，这组组员希望能透过文章自动生成的速讯写稿机器人，将肠病毒资讯更快地传播出去。为此，他们使用了疾病管制署的肠病毒疫情周报资料（自2010年至今，共209篇），以及肠病毒社区检验、监测摘要、门诊资料等共8个cvs档案，来训练可自动撰写肠病毒周报和数值的系统。也由于他们希望机器写的文章，读起来要像人写的一样自然，因此在评估方法方面，他们就透过人工检验、与过去周报比较，并且修正。而用来训练的模型，则为混合型，包含了Char-RNN、LSTM加上Attention机制，以及法则式模型（Rule-based model），将文章中的每一段用一个模型来训练。组员说，虽然系统最终产生的文章，数值没办法摆在正确位置，而且需要人工审核，但疾管署人员看了之后，表示他们只需要30秒到1分钟来审核，其实已经节省不少时间。

除了将AI用在与台湾息息相关的肠病毒防治，这次成果发表还有其他有趣的应用，像是台股中短期走势的预测。这组学员运用了2006年至2015年的台股资料、训练出一个长短期记忆神经网络（LSTM）模型，来预测2015年到2016年的台股盘势。该预测模型由6个LSTM网络堆叠而成，小组成员也做了几项预处理（像是修正标签等），加入技术面、基本面和筹码面等共450项特征（feature），使模型的预测更加精准。

另一项应用，则是以地理环境资料来预测房价。组员从过去房屋成交的案件中，撇开房屋本身条件（比如坪数、屋龄、设备等），来寻找、归纳出影响房价的地理空间因子，像是生活便利程度（便利商店的有无、数量和距离等），以及房屋所在的位置（是否为精华区、重划区，或是与交通设施站的距离等）。而他们所使用的资料，主要由成功大学测量及空间资讯学系提供。取得房屋交易资料后，组员先将房屋门牌号码进行座标定位，再来观察地理空间因素，排除一些不相关因素如亲属间交易后，取3万笔资料作为训练素材。在特征选取方面，则包含行政区、便利商店、学区等，加进算法中，来预测房价。不过，由于当天介绍时间有限，有些重点还没有机会完整揭露。

AI不只运用在预测上，其中一组组员还应用来辨识植物，也就是植物品种：艳紫荆、洋紫荆和羊蹄甲的辨识。他们希望透过这项辨识技术，让对植物有兴趣的民众，带着手机就可以认识大自然。在辨识方面，这组组员表示，虽然花相似度低、是最容易辨识的主体，但由于艳紫荆、洋紫荆和羊蹄甲并非全年开花，所以组员还是以这三种植物的叶子作为辨识主体。除了使用疾病管制署提供的资料，他们也亲自到台湾各地取样拍照。当中也遇到了些困难，像是嫁接的植物、上下部为不同品种；而4月正好是羊蹄甲花季，所以拍照取样时，背景有花，而洋紫荆正好非花季，这样的差异，就会影响模型辨识率，模型会认为有花的是羊蹄甲，而为了让模型把重点放在叶子上，资料集因此设为两个部分，第一是Public Set（Pure）纯叶子辨识，准确率可达95％，另一个是Private Set （Noise），准确率为85％。另外，组员表示，该辨识技术已经上线，民众可以网络版和App版使用。该组也将继续扩大辨识物种，让植物识别的品种更丰富。

另外一个登场的是，影像叙述自动生成。这项技术，除了使用痞客邦提供的资料，也运用了COCO资料集的8万多笔照片资料，另外还包括组员提供的大量生活照等。而用来训练的模型，则是Show, Attend and Tell。组员表示，Attend加强了系统识别的能力，比如颜色识别（Color Attend）；在现场示范中，一张影像如果拿掉Color Attend，对影像的颜色叙述就消失了。而在使用部分，使用者只要将照片上传到http://104.199.193.55/galleries，系统就会自动生成影像文字叙述。这组组员也当场对着大家照了张相，上传后自动产生的文字叙述为“一群人在国际会议厅的观众席上”（如下图），高准确度也赢得大家掌声。

除了这些，成果发表也还有其他应用，像是3D细胞语义分割、台湾动物声音辨识、新闻标题产生器、文章自动标签生成、人与物的互动辨识，以及AOI瑕疵检测和影像多元瑕疵检测等。