脸书更新照片替代文字生成模型，现可描述超过1,200种概念最新消息

脸书更新照片替代文字生成模型，现可描述超过1,200种概念

消息来源:baojiabao.com 作者: 发布时间：2026-05-23

报价宝综合消息脸书更新照片替代文字生成模型，现可描述超过1,200种概念

脸书改善其无障碍浏览体验，让视觉障碍的使用者，能够更容易地理解照片内容，其最新自动替代文字（Automatic Alternative Text，AAT）技术，能够侦测和辨识的概念扩大10倍，因此可以对更多类型的照片加上描述，而且描述也多了许多细节，能够提供相对位置，还有主要和次要物体等额外资讯。

屏幕阅读器可以使用合成语音，念出脸书上图片的替代文字，让视觉障碍者理解图片的内容，但是有许多照片并没有被加上替代文字，所以为了解决这个问题，脸书在2016年引入AAT技术，使用物体辨识功能按需求生成照片描述，改善视觉障碍理解图片的能力。

新的AAT拥有非常先进的技术，可以生成包含相对位置资讯等额外描述，生成的资讯不再只是照片中可能有5个人，而是照片中心有两个人，其他三人分散于边缘，这暗示著中间两人是照片的焦点，脸书还举例，过去照片描述可能简单地以一栋房子和一座山，来描述风景优美的照片，而新AAT技术能够强调山和房子的相对大小，来强调山才是照片中的主体。

过去脸书使用监督式学习方法，用数百万个样本来训练深度卷积神经网络，让AAT模型可以辨识常见的100个概念，诸如树、山和室外等。但为了要扩大可辨识物件的数量，并且完善AAT模型的描述方式，脸书放弃使用需要人工标记资料的完全监督式学习，脸书提到，虽然这个方法可以提供高精确度结果，但是标记资料耗费大量的人力资源，而这也是原始AAT模型只能辨识100种物体的原因，这是一个无法扩展的方法。

而最新的AAT技术使用了一个强大的模型，该模型是以数十亿张Instagram公开照片，和Hashtag组成的弱监督资料训练而成，脸书对其进行了微调，从所有地理位置采样训练用照片，并且使用多种语言的主题标签，同时脸书还评估了性别、肤色和年龄来评估概念，使得模型更加准确，也在文化等各方面更具包容性，像是模型会尽可能以各地的传统服饰，来辨识婚礼，而不是只有穿着白色婚纱才是婚礼照片。

现在AAT模型可以辨识1,200多种概念，是2016年版本的10倍多，即便AAT模型仅会提供高阈值的结果，但是仍存在一定的误差，因此脸书会在每个描述的开头，都加上“可能”字样，并且忽略AAT模型无法可靠辨识的概念。

新的AAT模型还能提供细节，除了预设的简洁描述之外，用户可以选择取用具有更多细节的描述，包括照片中元素的数量，以及新增一些预设描述未提及的元素，而且详细说明也会包括简单的位置讯息，包括上下左右等，而对于物体的突出程度，也会以主要、次要和附属等词汇，来描述图片元素的重要性。

2021-01-22 12:50:00