APP下载

脸书更新照片替代文字生成模型,现可描述超过1,200种概念

消息来源:baojiabao.com 作者: 发布时间:2026-05-23

报价宝综合消息脸书更新照片替代文字生成模型,现可描述超过1,200种概念

脸书改善其无障碍浏览体验,让视觉障碍的使用者,能够更容易地理解照片内容,其最新自动替代文字(Automatic Alternative Text,AAT)技术,能够侦测和辨识的概念扩大10倍,因此可以对更多类型的照片加上描述,而且描述也多了许多细节,能够提供相对位置,还有主要和次要物体等额外资讯。

屏幕阅读器可以使用合成语音,念出脸书上图片的替代文字,让视觉障碍者理解图片的内容,但是有许多照片并没有被加上替代文字,所以为了解决这个问题,脸书在2016年引入AAT技术,使用物体辨识功能按需求生成照片描述,改善视觉障碍理解图片的能力。

新的AAT拥有非常先进的技术,可以生成包含相对位置资讯等额外描述,生成的资讯不再只是照片中可能有5个人,而是照片中心有两个人,其他三人分散于边缘,这暗示著中间两人是照片的焦点,脸书还举例,过去照片描述可能简单地以一栋房子和一座山,来描述风景优美的照片,而新AAT技术能够强调山和房子的相对大小,来强调山才是照片中的主体。

过去脸书使用监督式学习方法,用数百万个样本来训练深度卷积神经网络,让AAT模型可以辨识常见的100个概念,诸如树、山和室外等。但为了要扩大可辨识物件的数量,并且完善AAT模型的描述方式,脸书放弃使用需要人工标记资料的完全监督式学习,脸书提到,虽然这个方法可以提供高精确度结果,但是标记资料耗费大量的人力资源,而这也是原始AAT模型只能辨识100种物体的原因,这是一个无法扩展的方法。

而最新的AAT技术使用了一个强大的模型,该模型是以数十亿张Instagram公开照片,和Hashtag组成的弱监督资料训练而成,脸书对其进行了微调,从所有地理位置采样训练用照片,并且使用多种语言的主题标签,同时脸书还评估了性别、肤色和年龄来评估概念,使得模型更加准确,也在文化等各方面更具包容性,像是模型会尽可能以各地的传统服饰,来辨识婚礼,而不是只有穿着白色婚纱才是婚礼照片。

现在AAT模型可以辨识1,200多种概念,是2016年版本的10倍多,即便AAT模型仅会提供高阈值的结果,但是仍存在一定的误差,因此脸书会在每个描述的开头,都加上“可能”字样,并且忽略AAT模型无法可靠辨识的概念。

新的AAT模型还能提供细节,除了预设的简洁描述之外,用户可以选择取用具有更多细节的描述,包括照片中元素的数量,以及新增一些预设描述未提及的元素,而且详细说明也会包括简单的位置讯息,包括上下左右等,而对于物体的突出程度,也会以主要、次要和附属等词汇,来描述图片元素的重要性。

2021-01-22 12:50:00

相关文章