GoogleDeepMind发布了一款用于生成视频配乐的全新AI工具。除了使用文本提示生成音频外,DeepMind的工具还会考虑视频的内容。
DeepMind表示,通过结合两者,用户可以使用该工具创建具有“戏剧配乐、逼真的音效或与视频角色和基调相匹配的对话”的场景。你可以在DeepMind的网站上看到一些示例——听起来相当不错。
对于一段汽车驶过赛博朋克风格城市景观的视频,谷歌使用提示“汽车打滑、汽车发动机节流、美妙的电子音乐”来生成音频。您可以看到打滑的声音如何与汽车的运动相匹配。另一个示例使用提示“水下脉动的水母、海洋生物、海洋”创建水下音景。
尽管用户可以添加文字提示,但DeepMind表示这是可选的。用户也不需要将生成的音频与适当的场景一丝不苟地匹配。据DeepMind称,该工具还可以为视频生成“无限”数量的配乐,让用户可以想出无穷无尽的音频选项。
这可能有助于它从其他AI工具中脱颖而出,例如ElevenLabs的音效生成器,它使用文本提示来生成音频。它还可以让音频与DeepMind的Veo和Sora等工具的AI生成的视频更容易配对(后者计划最终整合音频)。
DeepMind表示,它利用视频、音频和注释来训练其AI工具,这些注释包含“声音的详细描述和口头对话的记录”。这使得视频到音频生成器能够将音频事件与视觉场景进行匹配。
该工具仍存在一些局限性。例如,DeepMind正在尝试提高其将嘴唇运动与对话同步的能力,正如您在这段黏土动画家庭视频中看到的那样。DeepMind还指出,其视频转音频系统依赖于视频质量,因此任何粗糙或扭曲的内容“都可能导致音频质量明显下降”。
DeepMind的工具目前还不能普遍使用,因为它仍需经过“严格的安全评估和测试”。当它可用时,它的音频输出将包括Google的SynthID水印,以标记它是由AI生成的。