脸书用非监督式学习，让AI在半小时内学会转换歌手声音最新消息

脸书用非监督式学习，让AI在半小时内学会转换歌手声音

消息来源:baojiabao.com 作者: 发布时间：2024-04-25

报价宝综合消息脸书用非监督式学习，让AI在半小时内学会转换歌手声音

脸书AI研究院和以色列特拉维夫大学联合发表一篇论文，该研究开发出一套能够直接从一位歌手转换到另一位歌手声音的深度学习模型，且该神经网络没有透过任何文本或是音符来协助转换的工作，而是直接转换语音，更特别的是，该模型为非监督式，没有任何歌词、语音资料、音符，或是歌手之间的配对样本资料进行协助，也就是模型能够从未分类、未标注的资料中，实现转换声音的任务。

论文中指出，该模型能够在5～30分钟内学习如何在不同的歌手声音中转换，该神经网络针对所有的歌手，都是利用单一的CNN编译器和WaveNet解码器，再透过分类器依据潜在的代表值代表未知的歌手，每个歌手都用一个向量值来表示，为了解决相对较少的资料集问题，研究团队提出一项新的资料增强和训练方式。

研究人员解释，他们的方法是建立在Google开发的自动编译器WaveNet上，从语音录音的波形生成模型，并利用反向翻译（backtranslation），反向翻译涉及将一个资料样本转译成目标样本，在该研究中，就是将一个歌手的声音转换成另一个，AI模型的训练则是分为两个阶段，第一个阶段是针对每个歌手个别使用损失函数softmax ，接着，新歌手的样本则是由混合向量而得，为了增强训练资料集，研究团队将语音片段的讯号反著播放，并微妙地转换相位（phase），借由这两种方式增加4倍资料集的大小，第一个方式是为了创造能够辨识同一个歌手的数据，第二种资料增强方式则是创造了不易察觉但是可感知的全新讯号。

在实验中，研究团队用了两个公开的资料集，分别是史丹佛的数位语料资料DAMP和新加坡国立大学的歌唱和对话语料集NUS-48E，其中包含了多个歌手对歌曲的演译，研究团队在第一个资料集中随机挑选了5位歌手，每位歌手都有10首歌的音档，第二个资料集则是包含12位歌手，而每一位歌手都有4首歌的音档，研究团队将所有的资料都用来训练模型。

最后，再由人工针对生成声音和目标声音的相似度进行评分，分数从1～5分，并且也用自动测试的分类系统来评估样本的品质，最终评分的平均分数为4分，研究团队期望这项成果未来能够运用在背景音乐的转换上，透过非监督式的方式来完成转换，不需要在前处理的步骤中，用监督式的方式进行语音分离技术。

2019-04-17 13:26:00