OpenAI 的 Sora 是什么?其工作原理、示例、功能

推荐指数

本文最后由 Demo Marco 更新于 2025-02-22. 如有资源已失效,请留言反馈,将会及时处理。 【推荐:不翻墙访问被墙网站方法 | 自用高速专线机场 | 高速CN2线路 | 高质量家宽住宅IP

“OpenAI 12 天”活动第三天发布了一个令人兴奋的公告:Sora AI现已推出。

到目前为止,这种文本转视频生成 AI 模型看起来非常令人印象深刻,为许多行业带来了巨大的潜力。在这里,我们探索 OpenAI 的 Sora 是什么、它是如何工作的、一些潜在的用例以及未来的发展方向。

Sora 是什么?

Sora是 OpenAI 的文本转视频生成 AI 模型。这意味着你编写一个文本提示,它会创建一个与提示描述相匹配的视频。以下是来自 OpenAI 网站的一个例子:

提示:一位时尚女性走在东京的街道上,街道上到处都是温暖的霓虹灯和动画城市标识。她穿着黑色皮夹克、红色长裙和黑色靴子,手拿黑色手提包。她戴着太阳镜,涂着红色口红。她自信而随意地走着。街道潮湿而反光,五颜六色的灯光营造出镜面效果。许多行人走来走去。

Sora 功能

Sora 有一些功能可以让我们更好地控制视频生成过程。让我们逐一探索。

混音

重混功能允许用户通过改变视频组件来重新构想现有视频,而不会丢失原始视频的精髓。无论是更改颜色、替换背景还是调整视觉元素,重混功能都提供了一种灵活的方式来尝试视频的外观。

此功能非常适合希望更新旧内容、根据特定主题定制视频或为品牌目的探索变体的创作者。

例如,请考虑以下两个视频:

  1. 原始视频:“打开通往图书馆的大门”
  2. 混音视频:“把图书馆变成宇宙飞船”

重新切割

重新剪辑功能可让创作者精确定位并隔离视频中最有影响力的帧,并将它们向任一方向延伸以构建完整的场景。此工具非常适合增强关键时刻、吸引人们对特定视觉效果的注意或确保场景之间的流畅性。通过专注于最强的帧,重新剪辑有助于完善叙事过程,同时让创作者更好地控制节奏和重点。

环形

循环功能可轻松创建无缝重复的视频片段。此工具非常适合背景视觉效果、音乐视频或催眠动画,可确保循环之间的过渡流畅自然。它允许创作者延长迷人时刻的持续时间或保持一致的节奏,以便连续播放视频。

下面,我们看到一朵花不断地绽放和闭合,形成一个无缝的循环,过渡过程中没有明显的断点:

故事板

故事板功能使创作者能够在时间线上的指定帧点生成特定镜头,从而精确控制视觉叙事。例如,使用 OpenAI 的演示,您可以为以下镜头序列制作故事板:

  1. 帧 0-114:“一片广阔的红色景观,远处有一艘停靠的宇宙飞船。”
  2. 帧 114-324:“从宇宙飞船内部向外看,一位太空牛仔站在画面中央。”
  3. 帧 324-440:“针织布面罩框住宇航员眼睛的详细特写视图。”

混合

混合功能可让您组合不同的视频或风格元素来创建新的构图。通过混合素材、颜色或艺术方法,它支持制作出独特而新鲜的视觉效果。这种方法非常适合实验性项目、混搭或探索非传统想法的创意故事。

下面,我们看到的是融合了两个视频的视频:

  1. 雪花飘落的视频
  2. 花瓣掉落的视频

样式预设

风格预设提供了一组可应用于视频的预定义美学模板。这些预设让您可以更轻松地实现特定外观,无论是电影风格、活力俏皮风格还是专业风格。

例如,黑色电影预设如下所示:

Sora 如何工作?

与DALL·E 3StableDiffusionMidjourney等文本转图像生成 AI 模型一样,Sora 是一种扩散模型。这意味着它从由静态噪声组成的视频的每一帧开始,并使用机器学习将图像逐渐转换为类似于提示中的描述的内容。

解决时间一致性

Sora 的一个创新点是它同时考虑多个视频帧,这解决了物体在视野内和视野外移动时保持一致的问题。在下面的视频中,请注意袋鼠的手多次移出镜头,当它返回时,手看起来与之前一样。

提示:一只卡通袋鼠在跳迪斯科舞。

结合扩散模型和变压器模型

Sora 将扩散模型与变压器架构相结合,就像 GPT 所采用的一样。

在结合这两种模型类型时,Jack Qiao指出,“扩散模型擅长生成低级纹理,但在全局构图方面较差,而 transformer 模型则存在相反的问题。”也就是说,你需要一个类似 GPT 的 transformer 模型来确定视频帧的高级布局,并使用扩散模型来创建细节。

在一篇关于 Sora 实现的技术文章中,OpenAI 提供了这种组合如何工作的高级描述。在扩散模型中,图像被分解成更小的矩形“块”。对于视频,这些块是三维的,因为它们会随着时间而持续存在。块可以被认为是大型语言模型中的“token”的等价物:它们不是句子的组成部分,而是一组图像的组成部分。模型的转换器部分组织块,模型的扩散部分为每个块生成内容。

这种混合架构的另一个特点是,为了使视频生成在计算上可行,创建补丁的过程使用了降维步骤,这样就不需要对每一帧的每个像素进行计算。

通过重新添加字幕提高视频保真度

为了忠实地捕捉用户提示的本质,Sora 使用了一种在 DALL·E 3 中也可用的重新字幕技术。这意味着在制作任何视频之前,GPT 会用于重写用户提示以包含更多细节。本质上,这是一种自动提示工程。

OpenAI Sora 有多好?

从目前提供的示例可以看出,Sora 似乎是一款令人印象深刻的工具,而我们只是触及了其可能性的皮毛。例如,查看下面的剪辑,它提供了与电影制作人和艺术家合作时可能实现的功能的示例:

这部短片就像是一部真正的电影预告片,其中展示了一系列不同的镜头、角度和概念,从而创造出相当无缝的视频。

然而,OpenAI 团队成员展示的其他示例则不那么令人信服(尽管仍然令人印象深刻)。看看下面这对夫妇在海滩上的视频(该视频是使用之前的 Sora 模型生成的,我们计划在获得更新的 Sora 版本后重新生成它):

提示:逼真的视频,人们在海滩上放松,然后一条鲨鱼在中途跳出水面,让所有人大吃一惊。

虽然它显然击中了提示的主要节奏,但这并不是一个特别令人信服的场景,并且它完全落入了恐怖谷理论。男人的三只手、以令人难以置信的规模分成多个部分的鲨鱼、女人的驱魔人式头部旋转和喊叫——这一切都有点可怕。

很可能就像生成图像一样,会有一定程度的改进提示和做出让步——它不会每次都创造出完美的东西。

话虽如此,让我们将上面的视频与使用 Runway 的 Gen-2 模型使用完全相同的提示创建的示例进行比较:

如您所见,它并没有特别把握提示的上下文,鲨鱼的位置很奇怪,而且有些人的形象相当畸形和无定形。相比之下,OpenAI 的 Sora 在场景创建方面比 Runway Gen-2 做得好得多。

最近看到的另一个令人印象深刻的 Sora 用例是一位导演使用 Sora制作音乐视频:

这可以说是 Sora 最完整的应用示例之一,它展示了 Sora 作为未来工具的巨大潜力。它很有趣(也有点迷幻),捕捉到了一种贯穿始终的独特氛围。

然而,这一创作也有一些注意事项:

  • 导演为一部 4 分钟的视频制作了 6 小时的剪辑(在 H100 GPU 上使用了 46 小时的渲染时间)
  • 示例提示大约有 1,400 个字,非常详细和具体
  • 导演仍然需要使用后期效果并清理一些过渡(在某些地方仍然感觉不自然)

因此,我们确实感觉像是消费者使用这种工具的一种方式,但考虑到 Sora 可供艺术家和创意人员试用的时间很短,其进展相当令人吃惊。

Sora 的局限性是什么?

本节概述了 Sora 先前版本的一些限制。值得检查新版本是否解决了这些问题。一旦我们获得新版本的访问权限,我们将更新此部分。

Sora 对物理学没有内在的理解,因此“现实世界”的物理规则可能并不总是得到遵守。一个例子是模型不理解因果关系。例如,在下面的篮球架爆炸的视频中,篮球架爆炸后,篮网似乎恢复了原状。

提示:篮球穿过篮筐然后爆炸。

同样,物体的空间位置也可能不自然地移动。在下面这段狼崽的视频中,动物自发出现,狼的位置有时会重叠。

提示:五只灰狼幼崽在一条偏僻的碎石路上嬉戏追逐,周围是草地。幼崽们奔跑跳跃,互相追逐,互相咬咬,嬉戏玩耍。

Sora 的用例

Sora 可用于从头开始创建视频或延长现有视频以使其更长。它还可以填充视频中缺失的帧。

就像文本转图像生成 AI 工具让无需图像编辑技术专业知识即可轻松创建图像一样,Sora 承诺让无需图像编辑经验即可轻松创建视频。以下是一些关键用例。

社交媒体

Sora 可用于为 TikTok、Instagram Reels 和 YouTube Shorts 等社交媒体平台制作短视频。难以或不可能拍摄的内容尤其适合。例如,这个 2056 年拉各斯的场景在技术上很难拍摄用于社交帖子,但使用 Sora 很容易制作。

提示:一段精美的自制视频,展现了 2056 年尼日利亚拉各斯的人们。用手机相机拍摄。

广告和营销

制作广告、宣传视频和产品演示通常成本高昂。Sora 等文本转视频 AI 工具有望让这一过程便宜得多。在以下示例中,想要推广加州大苏尔地区的旅游局可以租用无人机从空中拍摄该地点,也可以使用 AI,从而节省时间和金钱。

提示:无人机拍摄的海浪冲击大苏尔加雷角海滩崎岖悬崖的景象。蓝色海水拍打着白色的波浪,落日的金色光芒照亮了岩石海岸。远处有一座灯塔所在的小岛,绿色灌木丛覆盖着悬崖的边缘。从公路到海滩的陡峭落差令人叹为观止,悬崖的边缘突出在海面上。这一景观捕捉到了海岸的原始之美和太平洋海岸公路崎岖的景观。

原型设计和概念可视化

即使最终产品未使用 AI 视频,它也有助于快速展示创意。电影制作人可以在拍摄之前使用 AI 制作场景模型,设计师可以在制造产品之前制作产品视频。在以下示例中,一家玩具公司可以在大规模生产新海盗船玩具之前生成 AI 模型。

提示:两艘海盗船在咖啡杯中航行并互相搏斗的逼真特写视频。

合成数据生成

合成数据通常用于因隐私或可行性问题而无法使用真实数据的情况。对于数字数据,常见的用例是财务数据和个人身份信息。对这些数据集的访问必须受到严格控制,但您可以创建具有类似属性的合成数据以向公众开放。

合成视频数据的一个用途是训练计算机视觉系统。正如我在 2022 年所写的那样,美国空军使用合成数据来提高其无人机计算机视觉系统的性能,以便在夜间和恶劣天气下检测建筑物和车辆。Sora 等工具使这一过程更便宜,也更易于更广泛的受众使用。

Sora 的风险

该产品是新产品,因此风险尚未完全描述,但可能与文本转图像模型的风险类似。

有害内容的产生

如果没有防护措施,Sora 就可以生成令人反感或不适当的内容,包括包含暴力、血腥、色情内容、对群体的贬损描述和其他仇恨图像的视频,以及宣传或美化非法活动的视频。

构成不适当内容的内容因用户(考虑使用 Sora 的儿童与成人)和视频生成的背景(关于烟花危险的视频警告很容易以教育的方式变成血腥)而异。

错误信息和虚假信息

根据 OpenAI 分享的示例视频,Sora 的优势之一是能够创建现实生活中不可能存在的奇幻场景。这种优势还使制作“深度伪造”视频成为可能,将真实的人或情况改变为不真实的东西。

当这些内容被当作真相呈现时,无论是无意(错误信息)还是故意(虚假信息),都可能导致问题。

正如 DigiDiplomacy 首席人工智能治理与道德官 Eske Montoya Martinez van Egerschot所写,“人工智能正在重塑竞选策略、选民参与度以及选举诚信的本质。”

人工智能制作的政客或政客对手的虚假视频具有“策略性地传播虚假叙述、骚扰合法消息来源,旨在破坏人们对公共机构的信心、激起对不同国家和不同群体的敌意”的能力。

今年是台湾、印度、美国等多国举行重要选举的一年,这一举措产生了广泛的影响。

偏见和刻板印象

生成式人工智能模型的输出高度依赖于训练数据。这意味着训练数据中的文化偏见或刻板印象可能会导致生成的视频中出现同样的问题。正如 Joy Buolamwini 在DataFramed 的“为算法正义而战”一集中所讨论的那样,图像中的偏见可能会对招聘和警务产生严重后果。

我如何访问 Sora?

要访问 Sora,请访问sora.com。在撰写本文时,Sora 已在除欧洲大部分地区和英国以外的世界大部分地区提供服务。

访问 Sora 需要订阅 ChatGPT Plus 或ChatGPT Pro。这两个层级都为用户提供了探索 Sora 高级视频生成工具的能力,但在功能和限制方面存在关键差异

特征

ChatGPT Plus

ChatGPT Pro

价格20 美元/月每月200美元
视频世代最多 50 个优先视频(1,000 个积分)最多 500 个优先视频(10,000 个积分)+ 无限量轻松视频
分辨率和持续时间最高 720p,时长 5 秒最高 1080p,时长 20 秒
并发生成05
水印下载带水印下载无水印

Sora 的替代品有哪些?

Sora 有几种备受关注的替代品,允许用户使用文本创建视频内容。这些包括:

  • Runway-Gen-3。OpenAI Sora 最受关注的替代品是Runway Gen-3。与 Sora 一样,这是一款文本转视频的生成 AI,目前可在网络和移动设备上使用。
  • Lumiere。谷歌最近宣布了Lumiere,它目前可作为PyTorch 深度学习 Python 框架的扩展使用。
  • 制作视频。Meta于 2022 年宣布推出Make-a-Video;同样,此功能可通过 PyTorch扩展获得。

此外还有几家规模较小的竞争对手:

  • Pictory简化了文本到视频内容的转换,并通过其视频生成工具瞄准内容营销人员和教育工作者。
  • Kapwing提供了一个用于通过文本制作视频的在线平台,强调社交媒体营销人员和业余创作者的易用性。
  • Synthesia专注于通过文本创建人工智能视频演示,为商业和教育目的提供可定制的化身视频。
  • HeyGen 旨在简化产品和内容营销、销售推广和教育的视频制作。
  • Steve AI提供了一个 AI 平台,可以生成从提示到视频、从脚本到视频、从音频到视频的视频和动画。
  • Elai 专注于电子学习和企业培训,提供将教学内容轻松转化为信息视频的解决方案

型号/平台

开发商/公司

平台可用性

目标受众

主要特点

第三代跑道跑道网络、移动广泛(通用)高调的文字转视频AI,用户友好
卢米埃尔谷歌PyTorch 扩展开发人员、研究人员面向 PyTorch 用户的高级文本转视频生成
制作视频PyTorch 扩展创作者、研究人员从文本生成高质量视频
画图画图网页内容营销人员、教育工作者简化文本到视频的转换,实现引人入胜的叙述
卡普温卡普温网页社交媒体营销人员、业余创作者文本视频创作平台
合成合成网页企业、教育工作者由人工智能驱动的文本视频演示
嘿基恩嘿基恩网页营销人员、教育工作者用于销售和营销的视频生成
史蒂夫·艾史蒂夫·艾网页企业、个人为各种应用程序创建视频和动画
艾莱艾莱网页电子学习、企业培训将教学内容转化为视频

OpenAI Sora 对未来意味着什么?

毫无疑问,Sora 具有开创性的意义。同样明显的是,这种生成模型的潜力巨大。Sora 对人工智能行业和世界有何影响?当然,我们只能做出有根据的猜测。但是,以下是 Sora 可能改变事物的一些方式,无论是好是坏。

OpenAI Sora 的短期影响

首先,让我们来看看 Sora 向公众(可能分阶段)推出后可能带来的直接、短期影响。

快速取胜

在上一节中,我们已经探讨了 Sora 的一些潜在用例。如果 Sora 向公众发布,其中许多用例可能会很快得到采用。这可能包括:

  • 社交媒体和广告短视频的激增。预计 X(以前称为 Twitter)、TikTok、LinkedIn 和其他平台上的创作者将使用 Sora 制作来提高其内容质量。
  • 采用 Sora 进行原型设计。无论是展示新产品还是展示拟议的架构开发,Sora 都可能成为推销创意的常用工具。
  • 改进数据叙事。文本转视频生成式人工智能可以为我们提供更生动的数据可视化、更好的模型模拟以及探索和呈现数据的交互方式。话虽如此,看看 Sora 在这些类型的提示上的表现将非常重要。
  • 更好的学习资源。有了 Sora 这样的工具,学习材料可以得到极大改善。复杂的概念可以变得生动有趣,而视觉学习者则有机会获得更好的学习辅助工具。

风险雷区

当然,正如我们之前强调的那样,这种技术带来了一系列潜在的负面影响,我们必须加以防范。以下是我们必须警惕的一些风险:

  • 错误信息和虚假信息的传播。总的来说,我们必须更加谨慎地对待我们消费的内容,我们需要更好的工具来识别那些被制造或操纵的内容。这在选举年尤为重要。
  • 版权侵权。我们需要注意我们的图像和肖像是如何被使用的。可能需要立法和控制来防止我们的个人数据以我们未同意的方式被使用。这场争论很可能首先在粉丝开始根据他们最喜欢的电影系列制作视频时展开——话虽如此,这里的个人风险也很大。
  • 监管和道德挑战。生成式人工智能的进步已经让监管机构难以跟上,而 Sora 可能会加剧这一问题。我们必须引导适当和公平地使用 Sora,而不会影响个人自由或扼杀创新。
  • 对技术的依赖。对于许多人来说,像 Sora 这样的工具可能被视为捷径,而不是助手。人们可能将其视为创造力的替代品,这可能会对许多行业及其从业人员产生影响。

生成视频成为下一个竞争前沿

我们已经提到了 Sora 的几个替代方案,但我们可以预计,到 2024 年及以后,这个名单将大幅增加。正如我们在 ChatGPT 中看到的那样,争夺位置的替代方案越来越多,市场上有许多项目在开源 LLM上进行迭代。

Sora 很可能成为继续推动生成式人工智能领域创新和竞争的工具。无论是通过特定用途的微调模型,还是直接竞争的专有技术,该行业的许多大公司都可能希望在文本转视频领域分一杯羹。

OpenAI Sora 的长期影响

随着 OpenAI 的 Sora 公开发布后尘埃落定,我们将开始看到其长期前景。随着各行各业的专业人士开始使用这款工具,Sora 必将出现一些改变游戏规则的用途。让我们推测一下其中一些可能是什么:

可以解锁高价值用例

Sora(或类似工具)有可能成为多个行业的主流:

  • 高级内容创作。我们可以将 Sora 视为加速 VR 和 AR、视频游戏甚至电视和电影等传统娱乐等领域制作的工具。即使它不直接用于创建此类媒体,它也可以帮助制作原型和故事板创意。
  • 个性化娱乐。当然,我们可以看到 Sora 专门为用户创建和策划内容的例子。根据个人品味和喜好量身定制的互动和响应式媒体可能会出现。
  • 个性化教育。这种高度个性化的内容同样可以在教育领域找到用武之地,帮助学生以最适合自己需求的方式学习。
  • 实时视频编辑。视频内容可以实时编辑或重新制作,以适应不同的观众,并根据观众的喜好或反馈调整音调、复杂性甚至叙事等方面。

物理世界和数字世界之间的界限开始模糊

我们已经讨论过虚拟现实 (VR) 和增强现实 (AR),但 Sora 结合这些媒介后,有可能彻底改变我们与数字内容的互动方式。如果 Sora 的未来版本能够在几秒钟内生成高质量的虚拟世界,并利用生成文本和音频将看似真实的虚拟角色填充其中,那么这将引发一个严肃的问题:未来在数字世界中导航意味着什么。

结束语

OpenAI 的 Sora 模型有望在生成视频的质量上实现飞跃。公开发布备受期待,其在各个领域的潜在应用备受期待。

常见问题解答

Sora 可以向公众开放吗?

是的。 在撰写本文时,Sora 已在除欧洲大部分地区和英国以外的世界大部分地区可用。

我如何访问 Sora?

要访问 Sora,请访问sora.com。在撰写本文时,Sora 已在除欧洲大部分地区和英国以外的世界大部分地区提供服务。

Sora AI 免费吗?

不可以。 访问 Sora 需要订阅 ChatGPT Plus 或ChatGPT Pro

Sora AI 如何工作?

Sora 是一个扩散模型。这意味着它从由静态噪声组成的视频的每一帧开始,并使用机器学习将图像逐渐转换为类似于提示中的描述的内容。

Sora 视频可以长多长?

对于 ChatGPT Pro 用户,Sora 视频最长可达 20 秒;对于 ChatGPT Plus 用户,Sora 视频最长可达 5 秒。

Sora 视频的最大分辨率是多少?

OpenAI 的 Sora 模型可以生成最大分辨率为 1080p(1920×1080 像素)的视频。ChatGPT Plus 订阅用户最大可以创建分辨率为 720p 的视频,而 ChatGPT Pro 用户最大可以创建分辨率为 1080p 的视频。

什么是 Sora Turbo?

Sora Turbo 是 OpenAI 的 Sora 最先进的版本。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

You May Also Like