OpenAI开辟了新天地,这家人工智能巨头推出了其第一个名为Sora的文本到视频模型,能够创建令人震惊的真实内容。
我们一直想知道该公司何时最终会发布自己的视频引擎,因为从StabilityAI到Google等许多竞争对手都已经先发制人了。也许OpenAI希望在正式发布之前把事情做好。按照这个速度,其产品的质量可能会超越同时代的产品。
根据官方页面,OpenAISora可以通过单个文本提示生成“现实且富有想象力的场景”;与其他文本到视频的人工智能模型非常相似。该发动机的不同之处在于其背后的技术。
内容逼真
OpenAI声称其人工智能可以理解人和物体“如何存在于物理世界中”。这使得Sora能够创建包含多人、不同类型的运动、面部表情、纹理和具有大量细节的物体的场景。生成的视频缺乏其他人工智能内容中看到的塑料外观或噩梦般的形式——大部分情况下,稍后会详细介绍。
Sora也是多模块的。据报道,用户将能够上传静态图像作为视频的基础。图片内的内容将变得生动,并且非常注重小细节。它甚至可以使用预先存在的视频“并扩展它或填充丢失的帧”。
您可以在OpenAI网站和X(该平台以前称为Twitter)上找到示例剪辑。我们最喜欢的一个是一群小狗在雪地里玩耍。如果你仔细观察,你会发现它们的皮毛和鼻子上的雪都栩栩如生。另一个精彩的片段展示了一只维多利亚冠鸽像一只真正的鸟一样在周围摆动。
正在进行的工作
尽管这两个视频令人印象深刻,但Sora并不完美。OpenAI承认其“模型存在弱点”。它可能很难模拟物体的物理特性,混淆左右,以及误解“因果关系的实例”。你可以让人工智能角色咬一块饼干,但饼干没有咬痕。
它也会犯很多奇怪的错误。其中一个更有趣的事故是一群考古学家挖出了一张大纸,然后它变成了一把椅子,最后变成了一块皱巴巴的塑料。人工智能似乎在言语方面也有困难。“Otter”被错误地拼写为“Oter”,“LandRover”现在被拼写为“Danover”。
展望未来,该公司将与其“红队成员”合作,他们是一群行业专家,“评估关键领域的危害或风险”。他们希望确保Sora不会生成虚假信息、仇恨内容或有任何偏见。此外,OpenAI将实施一个文本分类器来拒绝违反其政策的提示。其中包括请求色情内容、暴力视频和名人肖像等的输入。
目前还没有关于Sora何时正式推出的消息。我们联系了有关该版本的信息。这个故事稍后会更新。与此同时,请查看TechRadar的2024年最佳AI视频编辑器列表。