APP下载

Google用电脑视觉技术助视障也能独自路跑

消息来源:baojiabao.com 作者: 发布时间:2026-02-19

报价宝综合消息Google用电脑视觉技术助视障也能独自路跑

Google和导盲犬学校Guiding Eyes for the Blind公司合作,发布了一个无障碍研究专案Project Guideline,该专案使用机器学习技术,引导视障者在有标线的马路上独自慢跑。Guideline系统需要用户使用特别订制的腰带配挂行动装置,搭配骨传导耳机,并且只能跑在有油漆或是贴有胶带的路径上。

Guideline的核心技术是装置上分割模型,该模型会使用行动装置影格作为输入,并将影格中的每个画素分割为标线或是非标线(下图),官方提到,这个简单的遮罩会应用到每一个影格中,供Guideline应用程序可以不需位置资料,就能够预测跑步者相对于路径上标线的位置。使用模型的预测资料,应用程序会向跑步者发送音讯,指引他们保持在直线上,一旦跑步者远离标线太多,系统也会透过声音警告跑步者。

在不可预测的环境中,要引导视障者跑步存在许多挑战,Google提到,系统必须具备足够的准确性、系统效能,还要有许多训练资料。由于视障者的行动能力受到限制,在马路上跑步存在危险性,机器学习模型要足够精确且通用,才能确保跑步者在不同位置,和各种环境条件的安全性。

除了用户的安全问题,系统效能还必须至少每秒处理15影格,才能对跑步者提供即时回馈,当跑步的路径没有资料服务就只能离线运作,且装置执行时间必须至少3小时,不能耗尽手机电池。Google提到,为了训练分割模型,需要用到大量包含标线的道路行进影片,而且为了使模型更加通用,资料多样性和丰富度都相当重要,必须要收集一天中不同时间、光照、天气条件和拍摄位置的影片。

由于要满足延迟和功耗要求,研究人员选择在DeepLabv3框架上建构标线分割模型,并且利用MobilenetV3-Small作为主干。考量到行动装置的处理速度,研究人员将摄影镜头影片画素下降到513x513,作为DeepLab分割模型的输入,且为了要进一步加速DeepLab模型在装置上的执行速度,研究人员决定略过最后的升采样层,直接输出65x65画素的预测遮罩,作为后处理的输入。借由在两阶段最佳化输入分辨率,研究人员得以改进分割模型执行,并且加速后处理。

收集训练资料是Project Guideline专案困难之处,研究人员解释(下图),训练资料之所以无法使用公开资料集的道路训练影像,是因为这些资料集都是在车顶安装摄影镜头,并且车辆驾驶在标线中间所拍摄的影片,这与Project Guideline专案需求差距甚远,该专案需要的训练资料,是要在人的腰间挂上摄影机,并且直线前进的影片。

现有的公开资料集都帮不上忙,因此研究人员只好重头开始创建资料集,以人工收集资料的方法,在道路上手动铺设胶带,拍摄在不同时间和天气条件下,行走于标线周围的影片,研究人员也建立自定义渲染工作管线,以合成的方式快速产出各种条件的训练资料。

端到端系统使用深度学习函式库Tensorflow Lite和机器学习工具ML Kit,可在Pixel装置上快速执行,Pixel 4 XL上达到29+ FPS,而在Pixel 5上则达到20+ FPS,分割模型在Pixel 4 XL延迟为6毫秒,Pixel 5则为12毫秒,模型的影格成功率达到99.5%,平均交并比(mIOU)则有93%。

Guiding Eyes for the Blind首席执行官Thomas Panek作为Project Guideline测试者,只使用了一副骨传导耳机和执行Guideline技术的移动电话,在无辅助的情况下,成功在纽约中央公园慢跑5公里。Google提到,现在该专案仍处于探索阶段,他们仍持续改善该系统,除了要收集更多的使用者回馈资料外,也要改进分割模型使其更加通用强健。

2021-05-22 20:01:00

相关文章