
Google发布了一个称为ToTTo的资料集,由开放领域的表格到文字(Table-To-Text)生成资料组成,包含来源的表格资料,以及总结表格资料的句子配对,另外,还有可用来评估模型幻觉(Hallucination)的文字生成任务。ToTTo拥有121,000个训练样本,以及7,500个用于开发和测试的样本,Google提到,由于其标注的高精确性,该资料集很适合用来作为,高精确文字生成研究的基准。
在过去几年,自然语言生成研究已经有巨大的进步,但Google提到,尽管神经系统已经可以产生顺畅流利的文字,但是仍然会产生可理解,但是并非忠于(Faithful)来源资料的文字,这种情况被称之为幻觉,Google举例,像是神经基准模型总结比利时足球运动员Constant Vanden Stock,在维基百科的条目资讯框,总会错误总结Constant Vanden Stock是位美国花式溜冰运动员。模型产生幻觉的可能性,使得有高准确性要求的应用,无法使用自然语言生成系统。
透过评估生成的文字是否忠实呈现来源内容,可以缓解这个问题,不过这个评估过程有其困难性,幸运的是,诸如表格等结构化来源内容的评估,通常会比较容易,而且结构化资料,还可以用来测试模型在因果以及数字的推断能力。
但Google表示,现有的大规模结构化资料集通常存在噪声,也就是参照的句子,无法完全由表格资料推断出来,进而使得在模型开发中,难以量测幻觉。
因此Google制作了ToTTo资料集,除了包含表格到文字资料对之外,还添加一系列受控的生成任务,该任务会提供维基百科表格,以及一组选定的资料格,作为生成总结这些资料格句子的材料,这些任务存在多种挑战,包括数值推论、开放领域词汇以及多样的表格结构等。
ToTTo资料集使用了一种特别的资料标注方法,以产生没有噪声的资料集,Google提到,要从表格资料中,获得自然又干净的目标句子,是一件困难的工作,诸如Wikibio和RotoWire之类的资料集,其配对表格和文字的过程,总会出现许多噪声,而这让研究人员难以区分,究竟幻觉是由资料噪声造成的,还是模型本身缺陷造成的。
而且即便注释者从头开始撰写句子,也会因为要忠于表格资料,而使得最后结果缺乏结构和样式的多样性,为了解决这些问题,ToTTo使用新颖的资料注释策略,Google要求注释者分阶段修改现有维基百科的句子,而这个方式让句子既干净又自然,且还能包含有趣且多变化的语言特性。
Google使用目前最先进的三个模型,产生了一些基准结果,实验结果显示,BERT-to-BERT模型在BLEU与PARENT两个指标,表现的比Pointer Generator和Puduppully et al. 2019模型更好,但这3个模型,在研究人员另外准备的挑战子集上,效能表现皆不好,Google表示,因为挑战子集饱含领域外样本,对于3个模型都更具挑战性。
但这些结果并不足以评估文字生成系统的幻觉,为了更好地了解幻觉,研究人员假设内容上的不一致,都是幻觉造成,并手动评估最佳表现基准,以确定句子忠于来源表格内容的程度,而结果显示,BERT-to-BERT较人类专家,多出约20%的幻觉。
基准测试显示,即便是现在最先进的模型,也难以解决幻觉、数值推论以及稀有主题等问题,而且即便模型输出正确,但是资讯也不如参考资讯丰富。透过提供这些基准测试,Google说明ToTTo是可用于建模研究,并且发展模型评估指标的资料集。
相关文章
YouTube更新违反规定政策,提升惩处透明度和一致性2023-12-31 14:00:52
传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作2023-12-27 18:34:43
刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人2023-09-26 21:55:08
WebOS新系统:Palm Pre手机最新款高价登港2023-06-23 15:39:14
帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应2023-06-22 09:36:10
蔚来全系产品降价3万 取消免费换电 换一次电池180元2023-06-12 17:27:49
电商平台三巨头开打最大规模折扣 价格战再次打响2023-03-05 18:58:40
爱立信节省成本裁员四千人 爱立信全球员工总数五分之一2023-02-24 22:27:29
蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭2023-02-23 16:18:14
联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出2023-02-18 12:45:25
蓝色光标2022营收亏损18亿 客户预算减少明显2023-02-18 12:40:08
三星工厂或将80%生产转至越南 因本地劳动力成本上升2023-02-17 23:09:16
香港八达通卡如何激活?没用失效过期余额怎么办2023-02-17 18:34:51
中兴通讯被曝将裁员20% 称只裁国外的2023-02-17 18:33:26
苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出2023-02-17 16:57:22
突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌2023-02-16 14:31:19
三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?2023-02-14 00:53:17
Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要2023-02-14 00:32:08
谷歌google计划重返进入中国市场?但结果可能令你失望2023-02-13 16:57:15
Zoom紧急裁员1300人 佔员工总数15%2023-02-08 14:59:11
最新资讯
炒港股要补交多少税?我也接到催交补税特别行动的电话了2025-07-23 17:36:43
淘宝天猫仅退款属于诈骗吗?淘宝天猫开始部分取消仅退款2024-10-01 13:01:28
哈啰app借钱|哈啰借钱app下载安装免费小小上当和电话骚扰2024-10-01 11:22:38
白嫖党|山西大同大学学生网购申请“仅退款”被拒骂客服一小时2024-09-27 09:10:44
北大数学教授袁新意《姜萍事件的疑点分析》点评姜萍板书 阿里巴巴竞赛受质疑2024-06-28 10:07:40
手机
中国11月手机出货量增34% 5G手机出货量2709.2万部2023-12-28 19:27:57
荣耀发布新一代旗舰荣耀Magic5系列,新款上市价格分期0首付3999元起2023-03-06 16:12:32
美国商务部指违禁,长江存储被美国拜登制裁名单面临停工裁员2023-02-17 18:41:53
苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌2023-02-02 17:33:27
香港去哪买三星手机回来吗? 买香港便宜售价手机市场地点和网站2023-02-02 11:03:11
数码
华为5G芯片正式亮相:预示华为将发首款5G手机2023-08-31 13:22:33
腾讯传计划放弃虚拟现实VR硬件计划2023-02-17 23:32:30
三星手机份额大跌!三星手机中国市场份额变化国内仅剩3%2023-02-01 17:06:15
三星手机份额大跌在中国没市场了!国内市场占有率仅剩1%国外比苹果销量高2023-02-01 16:59:53
vivo发布2022 vivoNEX手机极简易浏览器下载:简洁流畅无广告!2022-12-02 17:29:30
科技
B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假 浮夸不能只罚酒三杯2023-02-17 18:46:15