Google更新无障碍应用Voice Access，现能以AI辨识App内图标最新消息

Google更新无障碍应用Voice Access，现能以AI辨识App内图标

消息来源:baojiabao.com 作者: 发布时间：2026-05-23

报价宝综合消息Google更新无障碍应用Voice Access，现能以AI辨识App内图标

Google新开发IconNet视觉物体侦测模型，用来强化其无障碍应用程序Voice Access辨识图标的能力，进而改进行动应用程序的可存取性。Voice Access是一个Android上的应用程序，可让使用者以口语命令来自由控制装置，过去Voice Access需要仰赖屏幕上使用者界面元素的无障碍标签来运作，但是在许多应用中，像是图像或是图标，并非总能提供适当的无障碍标签，如此也就降低了Voice Access的可用性。

为了解决这个问题，Voice Access必须要能够借由侦测屏幕上的画素，来自动辨识图标，而非仅仰赖无障碍标签，因此Google开发了IconNet，这是一个以视觉为基础的物体侦测模型，该模型可以使用与应用程序低层架构无关的方法，自动侦测屏幕上的图标，目前这项功能已经加入到最新的Voice Access应用程序中。

IconNet仅透过使用者界面屏幕截图，就可以侦测31种不同的图标类型，接下来还会扩充至70多种，为了要让IconNet在装置上顺畅运作，IconNet经过最佳化使其适用于行动环境，模型被设计成小巧且快速的形式。

装置上使用者界面元素侦测器，为了能够在多种效能的手机上执行，因此需要具有低推理延迟的特性，Voice Access需要使用标签来回应用户的话语，因此推理时间必须很短，在Pixel 3A上要小于150毫秒才行，而且模型大型不能超过10 MB。

Google提到，从技术的角度来看，侦测应用程序屏幕上的图标，问题类似典型的物体侦测，因为模型可以透过位置和大小，来标记各个元素，但从另一方来说却又是完全不同的问题，图标通常为小物体，具有相对简单的几何形状和颜色，应用程序的画面跟自然图像有很大的不同，更加结构化和几何化。

IconNet采用先进的CenterNet架构，该架构可以从输入的图像中撷取特征，并且预测适当的包围框中心与大小，研究人员提到，CenterNet特别适合用来侦测图标，因为使用者界面元素由简单且对称的几何图形构成，比自然图像更容易辨识中心。

研究人员收集了超过70万张屏幕截图来训练模型，并且使用启发式和辅助模型，来强化模型辨识稀有图标的能力，进而简化了资料收集的工作，而且Google还对屏幕截图使用资料增强技术，强化模型辨识少见图标的能力。

研究人员使用传统的物件侦测指标来量测模型效能，将IconNet与其他模型MobileNetEdgeTPU和SSD MobileNet v2相比，在固定延迟时间的条件下，IconNet辨识能力明显较高。Google会持续改进IconNet，增加支援的使用者界面元素，并且扩充IconNet，要透过辨识图标的功能，来区分外观相似的图标。

2021-01-29 19:53:00

Google更新无障碍应用Voice Access，现能以AI辨识App内图标

品牌选车