APP下载

Google发布可解决机器翻译性别偏见的资料集

消息来源:baojiabao.com 作者: 发布时间:2024-05-16

报价宝综合消息Google发布可解决机器翻译性别偏见的资料集

Google为了改善常见机器翻译错误,并且促进全球在像是性别偏见等翻译偏见上的研究,现在发布了Translated Wikipedia Biographies资料集,供研究人员来评估翻译模型的性别偏见。

神经机器翻译的进展,实现了更加自然和顺畅的翻译,但是这些翻译也反应了社会的偏见,以及存在训练资料中的刻板印象,因此Google根据自家的人工智能原则,研究降低机器翻译性别偏见的方法。

过去的研究领域,一直在使用附近的句子,或是段落上下文,来提高判断性别的准确性。Google提到,由于传统神经机器翻译单独翻译每个句子,每个单独的句子却未必有明确的性别讯息,因此也就难以在翻译每一句话时,因此能使用正确的性别,机器翻译要能超越单个句子,而这需要有新的度量标准,以及具有上下文相关错误的资料集。

改善性别相关的翻译错误,存在一定的挑战性,因为不只需要选择正确的代名词,而且前后文还必须具有性别一致性,Google提到,性别偏见在常见翻译错误中是特别敏感的议题,因为这些与性别相关词,可能直接代表人们的自我认同。

为了要促进解决上下文翻译常见错误的研究,Google创建了Translated Wikipedia Biographies资料集,该资料集的目标是要透过建立一个基准,使得研究人员得以改进机器学习系统中,代词和性别相关的翻译,借由基准来评估和测量模型更改前后翻译的准确性。

会选择维基传记(Wikipedia Biographies),研究人员解释,是因为这些文章品质很好,具有地域多样性且包含多个句子,更重要的是,以第三人称描述主角,因此会包含大量代词,而维基传记的翻译,就可能存在大量与性别相关的常见翻译错误。

这个Translated Wikipedia Bigraphies资料集,要用来分析机器翻译中常见的性别错误,资料集中的每个实例,都代表一个人、一个乐团或是一个运动队伍,在传记中,人会被确认性别,而团队则被认为是无性别,每个实例都会由9到15个经翻译的句子组成,这些句子以主角为中心展开。这些句子原本以英文编写,Google请专业翻译将其翻译为西班牙语和德语。

Translated Wikipedia Bigraphies资料集是Google选择一组跨地域和性别,但具有相同代表性的实例组成,他们根据职业和所从事的活动,从维基百科中撷取了传记,为求公平性,职业选择是根据维基百科的统计资料选出9个职业,这些职业代表了一系列对于性别关联的刻板映像,另外,为了降低地理上的偏见,研究人员也根据地理多样性,在每个地区至少选出一名实例。

研究人员提到,虽然性别非二元,也就是说性别不是只有男性和女性的分类,但目前这个研究专注于让男性和女性实体具有平等的代表性。根据职业、地区和性别三种属性的组合,在美国7大地理区域中,每个职业至少有男性和女性两个性别实例的传记,最后研究人员还加入12个没有性别的实例,包括摇滚乐团和体育队伍。

这个新资料集提供了一种评估机器翻译性别偏见的方法,资料集中每个实例都代表一个已知性别的主角,因此可以计算与该主角相关的性别翻译准确性。研究人员提到,这个性别资料集使得他们上下文翻译模型的性别错误下降了67%。

而资料集里中性别的实体让研究人员,能够发现过度使用男性或是女性代名词,来指称无性别实例的状况,同时资料集也提供了模型在处理跨职业和地理区域实例性别的效能,研究人员发现在翻译西班牙文居里夫人传记时,Translated Wikipedia Bigraphies资料集使得机器翻译所使用的代名词从He改为She。

Google提到,这个资料集是他们目前在性别偏见和机器翻译上的研究,但并未涵盖整个相关的问题,也不是要找出解决性别偏见的最佳方法,而是透过发表目前的成果,来推进全球机器翻译在偏见上的研究。

2021-06-28 10:02:00

相关文章