导读 亚马逊的研究人员推出了迄今为止最大的文本转语音模型,该模型将具有增强的质量,使其能够更好地表达复杂的句子。该模型BASETTS(文本转语音...
亚马逊的研究人员推出了迄今为止最大的文本转语音模型,该模型将具有增强的质量,使其能够更好地表达复杂的句子。
该模型BASETTS(文本转语音)代表具有紧急能力的大自适应流式TTS,可以为更加人性化的交互奠定基础。
根据这项研究,对TTS模型进行广泛的训练似乎可以提高可靠性和通用性,就像我们在人工智能中使用大型语言模型(LLM)时看到的那样。
文本转语音模型已经过公共领域100,000小时语音数据的训练,这使得该工具具有“最先进的自然度”。主要是英语,也使用一些德语、荷兰语和西班牙语数据。
此外,研究人员发现,即使使用10,000小时的语音训练TTS模型,也能提高更自然地表达复杂句子的能力。
BASE-large拥有9.8亿个参数,被认为是有史以来最大的文本转语音模型。该团队还训练了较小的模型,分别有4亿和1.5亿个参数以及10,000和1,000小时的语音,以便比较结果。
亚马逊团队将BASETTS描述为“能够通过几秒钟的参考音频模仿说话者特征的高保真模型”,他们认识到需要进行更多研究,但也承认其潜力。
研究人员关注的一些关键领域是复合名词、情感、外来词、副语言、标点符号、问题和句法复杂性——示例可以在专门的网页上找到。
随着革命性的人工智能成为2023年大部分时间的焦点,2024年类似的文本到语音的突破可能会继续将曾经的未来技术带到大众手中,但研究团队的谨慎态度确实凸显了在安全和隐私担忧。