APP下载

Google释出目前最大型的图文资料集WIT

消息来源:baojiabao.com 作者: 发布时间:2024-05-17

报价宝综合消息Google释出目前最大型的图文资料集WIT

Google推出了以维基百科为基础的大型多模态资料集WIT,借由撷取维基百科中相关联的文字段落,以及维基媒体图像所组成,这些资料经过严格的筛选过滤,仅收集高品质的图像文字集。WIT资料集内含3,750万笔图文样本,包括了108种语言,和1,150张独特的图像。

研究人员提到,多模态视觉语言模型,仰赖丰富的训练资料集,来对图像和文字之间的关系进行建模,而在过去,这些资料集必须透过手动,替图像加上标题,或是使用爬虫撷取网页图片的替代文字,作为注解。

虽然人工制作的资料集品质较高,但是也因为需要大量的手动注解工作,因此限制了可以产生的资料量,相反的,虽然自动方法可以产生更大的资料集,但是需要以启发式方法,仔细过滤内容,来确保资料品质,以及模型的效能。而且当前的资料集还有另一个缺点,便是欠缺非英文的样本。

为此,Google研究人员制作了WIT资料集,提供一个包含多种内容的高品质、大型且多语言资料集。WIT是目前最大的公开图文范例资料集,其涵盖的语言比任何资料集还要多10倍,更重要的是,WIT和每个图像只有一个标题的典型多模态资料集不同,WIT中的图像注解为段落甚至是章节等级的上下文资讯。

研究人员提到,WIT的目标是要在不牺牲品质和覆盖率的情况下,创建大量资料集,而由于目前维基百科是世界上最大的线上百科全书,因此他们决定使用维基百科来创建资料集。研究人员选择包含图片的维基百科页面,并且撷取图像周围的文字,删除像是预设填充文字等,来确保资料的品质,研究人员也筛选图像,确保图像在一定尺寸以上,还排除仇恨言论,使其适用于各种研究上。

研究人员邀请人类编辑,来对WIT进行评估,在图文搭配上获得98%的满意度。由于维基百科涵盖广泛的概念,因此WIT评估资料集也可当作是具有挑战性的模型基准,研究人员表示,WIT资料集可以让其他研究人员,建构更好的多模态多语言模型,最终改善用于现实世界视觉语言任务的机器学习模型。

2021-09-23 23:46:00

相关文章