Meta发布通用语音Voicebox,可合成6种语言，支持多种语音功能

2023年6月21日 09:49

Meta AI最近发布了一款名为Voicebox的通用语音生成AI模型，该模型具有突出的性能，并且可以合成六种语言的语音，支持多种语音功能。本文将介绍Voicebox的特点和应用领域，并探讨了语音生成技术的潜在滥用风险。

一、Meta 发布语音生成 AI 模型 Voicebox
最近，Meta AI在生成式AI语音模型领域取得了重大突破，发布了一款名为Voicebox的通用语音生成AI模型。这个模型具有突出的性能，并且无需专门训练即可适应多种语音生成任务。Meta AI的研究人员分享了多个音频样本和一篇详细介绍他们方法和成果的研究论文。

Voicebox类似于图像和文本生成系统，可以创建多种样式的输出。不同之处在于，Voicebox不是生成图片或文本，而是直接生成高质量的音频片段。该模型可以合成六种语言的语音，包括英语、法语、西班牙语、德语、波兰语和葡萄牙语，并且可以执行噪声去除、内容编辑、风格转换和多样化样本生成等任务。

在Voicebox发布之前，生成式AI语音模型需要经过精心准备的训练数据，并接受特定任务的训练。Voicebox采用了一种新方法，可以直接从原始音频和随附的转录结果中进行学习。与只能根据给定音频片段续写结尾的自回归模型不同，Voicebox可以修改给定样本中的任意部分。

Voicebox具有出色的性能，可以执行各种任务，包括以下几个方面：

1.结合上下文的文本到语音合成：
通过使用仅两秒长的输入音频样本，Voicebox可以匹配样本的音频风格，并根据此生成文本到语音的输出。这个功能将有望为无法说话的人提供语音支持，或者帮助游戏中的NPC和虚拟助手快速生成对话语音。

2.跨语言风格转换：
给定一段语音样本和英语、法语、德语、西班牙语、波兰语或葡萄牙语的文本，Voicebox可以生成对应语言的朗读音频。这种能力令人兴奋，未来可以帮助母语不同的人们以自然真实的方式进行交流。

3.语音降噪与编辑：
Voicebox通过上下文学习具备强大的语音生成能力，可以无缝编辑音频中的片段。它可以重新合成被噪声干扰的语音部分，或者替换错误的词，而无需重新录制整段语音。用户可以找到语音中被噪声（如狗叫声）干扰的原始片段，剪切出来，并指示模型重新生成。将来，这种能力还可以用于音频的清洗和编辑，使用起来与目前流行的图像编辑工具一样简单便捷。

4.多样化语音采样：
通过使用多样化的真实数据进行训练，Voicebox可以生成与真实对话高度吻合的六种语言对话音频。这个功能将来可以用于生成合成数据，以提高语音助手模型的训练效果。研究结果显示，基于Voicebox生成的合成语音训练的语音识别模型在性能上几乎与使用真实语音的模型相当，错误率降低了1%。与以往的文本到语音模型相比，使用合成语音数据进行训练的错误率降低了45%至70%。

Voicebox的发布标志着生成式AI研究在音频领域迈出了重要的一步。具备任务泛化能力的可扩展生成式AI模型已经在文本、图像和视频生成等方面引起了人们对跨任务应用潜力的浓厚兴趣。Meta AI希望在音频领域也能掀起同样的潮流，并继续深入挖掘和探索，关注其他研究人员如何在Voicebox的基础上寻求新的突破。

Voicebox的问世将为语音生成领域带来更多可能性，为语音技术的发展和应用创造新的机会。随着AI技术的不断进步，我们有理由期待语音生成能力的进一步突破和创新，为人们的日常生活和工作带来更多便利和可能性。

二、Flow Matching 技术背后的 Voicebox

目前，现有的语音合成工具存在一个主要限制，就是只能通过专门任务配备的数据进行训练。这些数据往往单调而干净，数量也相对有限且难以获取，因此导致输出结果也变得单调。

为了克服这个问题，Meta AI 的研究人员开发了一项名为 Voicebox 的技术，它基于 Flow Matching 技术，是 Meta 在非自回归生成模型领域的最新突破。Voicebox 能够准确地捕捉到文本到语音之间高度不确定的映射关系。非确定性映射是非常关键的，因为它使得 Voicebox 能够从各种语音数据中学习，而无需对各种变化要素进行详细标注。换句话说，Voicebox 能够在更加多样化和规模更大的数据上进行训练。

与目前最先进的英语模型 VALL-E 相比，Voicebox 在可懂度（即单词错误率）和音频相似度方面表现更强。在单词错误率方面，VALL-E 的错误率为 5.9%，而 Voicebox 仅为 1.9%。在音频相似度方面，VALL-E 的得分为 0.580，而 Voicebox 达到了 0.681。此外，Voicebox 的速度还比 VALL-E 快了 20 倍。在跨语言风格迁移方面，Voicebox 也优于领先的模型 YourTTS。Voicebox 能够将平均单词错误率从 10.9% 降低至 5.2%，并将音频相似度从 0.335 提高至 0.481。

为了训练 Voicebox，研究人员使用了超过 5 万小时的语音录音数据，以及来自英语、法语、西班牙语、德语、波兰语和葡萄牙语的公共有声读物转录。经过训练，Voicebox 可以根据给定的前后语音和片段转录数据来预测语音片段。它还可以根据上下文自动补全语音，这使得它可以应用于其他语音生成任务，包括在无需重新生成整个输入的情况下生成音频的中间部分。

三、关注语音生成的滥用风险

尽管Voicebox拥有许多令人兴奋的用例，但Meta AI公司也意识到其存在潜在的滥用风险，因此他们决定暂不公开Voicebox模型或代码。Meta AI在社交平台上公开表示：“与其他强大的人工智能创新技术一样，我们认为这项技术也可能会被滥用，造成意外伤害。”

作为首个能够成功执行任务的多功能、高效泛化模型，Meta AI坚信Voicebox将开创生成式AI语音模型的新时代。然而，与其他强大的AI创新成果一样，这项技术同样可能因误用而引发意外危害。为了应对语音生成带来的滥用风险，Meta AI也正在构建一款高效分类器，用于区分由Voicebox生成的音频和真实语音，以缓解未来可能出现的各种风险。这一举措显示了Meta AI对滥用风险的关注和对技术发展的责任心。

四、总结

随着Meta AI发布Voicebox模型，语音生成领域迎来了新的可能性。Voicebox的出现标志着生成式AI研究在音频领域的重要进展，为语音技术的发展和应用创造了新的机会。然而，我们也要意识到语音生成技术的滥用风险，Meta AI对此表示关注，并采取了相应的措施来应对。随着AI技术的不断进步，我们期待语音生成能力的进一步突破和创新，为人们的生活和工作带来更多便利和可能性，同时也需要明智地使用和监管这项技术，确保其正面效果的同时减少潜在风险的出现。