APP下载

Google更新无障碍应用Voice Access,现能以AI辨识App内图标

消息来源:baojiabao.com 作者: 发布时间:2026-05-23

报价宝综合消息Google更新无障碍应用Voice Access,现能以AI辨识App内图标

Google新开发IconNet视觉物体侦测模型,用来强化其无障碍应用程序Voice Access辨识图标的能力,进而改进行动应用程序的可存取性。Voice Access是一个Android上的应用程序,可让使用者以口语命令来自由控制装置,过去Voice Access需要仰赖屏幕上使用者界面元素的无障碍标签来运作,但是在许多应用中,像是图像或是图标,并非总能提供适当的无障碍标签,如此也就降低了Voice Access的可用性。

为了解决这个问题,Voice Access必须要能够借由侦测屏幕上的画素,来自动辨识图标,而非仅仰赖无障碍标签,因此Google开发了IconNet,这是一个以视觉为基础的物体侦测模型,该模型可以使用与应用程序低层架构无关的方法,自动侦测屏幕上的图标,目前这项功能已经加入到最新的Voice Access应用程序中。

IconNet仅透过使用者界面屏幕截图,就可以侦测31种不同的图标类型,接下来还会扩充至70多种,为了要让IconNet在装置上顺畅运作,IconNet经过最佳化使其适用于行动环境,模型被设计成小巧且快速的形式。

装置上使用者界面元素侦测器,为了能够在多种效能的手机上执行,因此需要具有低推理延迟的特性,Voice Access需要使用标签来回应用户的话语,因此推理时间必须很短,在Pixel 3A上要小于150毫秒才行,而且模型大型不能超过10 MB。

Google提到,从技术的角度来看,侦测应用程序屏幕上的图标,问题类似典型的物体侦测,因为模型可以透过位置和大小,来标记各个元素,但从另一方来说却又是完全不同的问题,图标通常为小物体,具有相对简单的几何形状和颜色,应用程序的画面跟自然图像有很大的不同,更加结构化和几何化。

IconNet采用先进的CenterNet架构,该架构可以从输入的图像中撷取特征,并且预测适当的包围框中心与大小,研究人员提到,CenterNet特别适合用来侦测图标,因为使用者界面元素由简单且对称的几何图形构成,比自然图像更容易辨识中心。

研究人员收集了超过70万张屏幕截图来训练模型,并且使用启发式和辅助模型,来强化模型辨识稀有图标的能力,进而简化了资料收集的工作,而且Google还对屏幕截图使用资料增强技术,强化模型辨识少见图标的能力。

研究人员使用传统的物件侦测指标来量测模型效能,将IconNet与其他模型MobileNetEdgeTPU和SSD MobileNet v2相比,在固定延迟时间的条件下,IconNet辨识能力明显较高。Google会持续改进IconNet,增加支援的使用者界面元素,并且扩充IconNet,要透过辨识图标的功能,来区分外观相似的图标。

2021-01-29 19:53:00

相关文章