华轩集团

Sora的推出引起业内轩然大波

近日，OpenAI最新发布视频生成模型——Sora。

作为一款人工智能视频模型，Sora能够通过简单的文本命令创建出高度逼真、包含复杂背景和多角度镜头的视频。这是继文本、图像之后，OpenAI将先进的AI技术拓展到视频领域的一次重大创举。

基于Spacetime Patch（时空Patch）技术和Diffusion Transformer（DiT，或扩散型 Transformer）架构两项核心技术的突破，Sora拥有了如此令人惊叹的颠覆性能力，并且该技术还能让Sora在更多的数据上进行训练，输出质量也从而得到大幅提高。

Sora模型能够基于文本描述生成长达60秒的一镜到底视频，这不仅是AI技术在视觉创作领域的突破，也为内容创作、娱乐和影视制作等多个行业带来革命性的影响。

业内专业人士分析，Sora的诞生意味着AGI（通用人工智能）实现可能从10年缩短至一两年，OpenAI利用它的大语言模型优势，让Sora实现对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出2D的范围模拟真实的物理世界。

过去，视频编辑软件仅能在二维平面上操作图像元素，视频被视为一系列静态画面的组合，并不具备对现实世界深层次知识的理解。然而，Sora模型的出现标志着一种变革，它不仅能生成视频内容，还能够像人类一样理解物体间的交互关系和物理规律。

Sora能推动诸多领域发展

Sora生成高质量视频的基础，是大模型对物理规律等世界知识的理解。

研报指出，Sora模型将极大地推动AI多模态领域的发展，特别是在AI创作和相关领域带来深刻的变革。与此同时，Sora对计算能力基础设施的需求预示着对高性能计算资源的迫切需求将进一步增加。

这种大模型技术还有望迁移到自动驾驶、具身智能等领域。目前的自动驾驶技术解决方案过于强调感知层面，而人在驾车时还需要认知层面的知识。拥有这方面知识、能模拟物理世界的大模型在这一领域有很大的应用潜力。

颠覆式创新，还是炒作过度？

业内也有通信专家持有不同意见，认为媒体对于Sora的炒作过度，并质疑其市场潜力，表示AGI（通用人工智能）的安全性、数据隐私和伦理问题也是需要解决的关键问题，现如今Sora还无法处理超出其训练范围的任务。

对于行业是否因此迎来颠覆式创新，从业人士认为，如果Sora的文本到视频转换技术继续进步，普通人可能只需在家中撰写文本，就能独立完成高质量的影视作品或游戏内容。这样一来，整个影视行业、游戏行业乃至所有图像内容相关行业都可能面临重大变革。

Sora震撼发布：AI技术颠覆视觉创作，业内热议其潜力与挑战