近日,OpenAI最新发布视频生成模型——Sora。
作为一款人工智能视频模型,Sora能够通过简单的文本命令创建出高度逼真、包含复杂背景和多角度镜头的视频。这是继文本、图像之后,OpenAI将先进的AI技术拓展到视频领域的一次重大创举。
基于Spacetime Patch(时空Patch)技术和Diffusion Transformer(DiT,或扩散型 Transformer)架构两项核心技术的突破,Sora拥有了如此令人惊叹的颠覆性能力,并且该技术还能让Sora在更多的数据上进行训练,输出质量也从而得到大幅提高。
Sora模型能够基于文本描述生成长达60秒的一镜到底视频,这不仅是AI技术在视觉创作领域的突破,也为内容创作、娱乐和影视制作等多个行业带来革命性的影响。
业内专业人士分析,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年,OpenAI利用它的大语言模型优势,让Sora实现对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。
过去,视频编辑软件仅能在二维平面上操作图像元素,视频被视为一系列静态画面的组合,并不具备对现实世界深层次知识的理解。然而,Sora模型的出现标志着一种变革,它不仅能生成视频内容,还能够像人类一样理解物体间的交互关系和物理规律。