什么是 OpenAI 的 Sora Diffusion Transformer（DiT）？

管理员 6 月 30, 2024 403 0

OpenAI Sora 重返舞台，并携其首部委托制作的音乐视频《Washed Out – The Hardest Part》引起轰动。这一令人惊叹的创作由 55 个独立片段拼接而成，每个片段均由 Sora 自己生成。

好吧，相信吧！早在 2024 年 2 月，OpenAI 的Sora就风靡全球，展示了其通过简单的文本提示制作高清视频的惊人能力。这项新技术在生成式人工智能领域处于领先地位，由一种名为扩散变换器 (DiT) 的强大架构提供支持。在这篇博客中，让我们深入探讨 Sora 背后的这项神奇技术——DiT。

扩散变压器 (DiT) = 扩散 + 变压器

Sora 的核心是扩散变换器 (DiT) 架构，这是一种新颖的生成建模方法。DiT 结合了扩散模型和变换器的优势，在图像生成方面取得了显著的效果。让我们分解一下 DiT 的关键组件：

扩散模型是一类生成模型，可以学习逐渐去除嘈杂的输入信号中的噪声，从而生成干净的输出。在图像生成方面，扩散模型从一张嘈杂的图像开始，通过逐步去除噪声来迭代细化它，直到出现清晰连贯的图像。此过程可以生成高度详细且逼真的图像。

Transformer是一种神经网络架构，彻底改变了自然语言处理任务。它们擅长捕捉长距离依赖关系并理解数据序列中的上下文。在 Sora 中，Transformer 用于处理和理解作为输入提供的文本描述，使模型能够生成准确反映给定提示的图像。

扩散变换器 (DiT) 架构无缝集成了扩散模型和变换器，以充分利用它们各自的优势。变换器组件处理文本输入并生成一个潜在表示，以捕捉描述的语义含义。然后，该潜在表示用于指导扩散过程，确保生成的图像与提供的文本对齐。

Sora 已在庞大的图像文本对数据集上进行训练，使其能够学习视觉和文本信息之间的复杂关系。在训练期间，DiT 模型经过训练以最小化生成的输出与基本事实之间的差异。扩散过程应用于隐藏状态，去噪网络学习估计和消除增加的噪声。该模型使用最大似然估计和对抗训练技术的组合进行训练。

在推理时，模型从随机噪声开始，并使用经过训练的去噪网络迭代地对隐藏状态进行去噪。然后，去噪后的隐藏状态通过解码层生成最终的输出标记。

假设我们必须使用文本提示和一系列扩散步骤来生成视频。

以下是对上述情况的简化分解：

视频被分成称为块的小方块（想象一个覆盖在视频上的网格）。在这种情况下，每个块覆盖空间和时间上的 4 个连续像素（水平方向 2 个像素，垂直方向 2 个像素，考虑多帧）。

条件反射有助于模型生成与提示相关的视频。
- 提示“sora is sky”被转换成文本嵌入向量（数字表示）。
- 扩散步骤（t）也被编码为二进制向量。
- 这些被组合成一个单一的向量。
该组合向量用于估计“比例”和“移位”值（也是可调整的参数）。
最后，将估计的尺度和偏移应用于噪声潜在特征，从而创建“条件性”噪声潜在特征。这会注入来自提示的信息，以指导模型生成包含“天空”中的“sora”的视频。

- 经过条件处理的噪声潜在值被输入到 Transformer 模块中，这是一个强大的深度学习架构。
  - Transformer 使用一种称为“自我注意力”的技术来识别数据中最重要的关系。
  - 然后利用这种注意力来强调条件噪声潜在中的相关信息。
  - 最后，逐点前馈网络进一步处理数据以提取更多特征。

ChatGPT中文网页版

该模型根据条件噪声潜伏期来预测原始噪声是什么。
预测噪声和实际噪声（地面实况）之间的差异被计算为损失。
该损失通过反向传播来调整模型中的权重和偏差（红色边框），使其更好地预测噪声并最终生成逼真的视频。
- 值得注意的是，视觉编码器和解码器的权重和偏差（蓝色边框）在此训练步骤中保持不变。这些都是预先训练过的，可以高效地提取和生成特征。

Diffusion Transformer 架构为 OpenAI 的 Sora 语言模型带来了多项好处：

提高表现力：通过将隐藏状态视为连续扩散过程，DiT 允许 Sora 学习更具表现力和灵活性的输入数据表示。这使 Sora 能够捕捉细微差别并生成更连贯且与上下文相关的输出。
增强泛化能力：扩散过程有助于 Sora 更好地泛化至未见数据。通过学习对隐藏状态进行去噪，Sora 可以更有效地处理嘈杂和不完整的输入。
增强鲁棒性：DiT 的去噪能力使 Sora 对干扰和对抗攻击更具鲁棒性。即使存在噪声或对抗性示例，该模型也可以生成稳定一致的输出。
可扩展性：DiT 架构具有高度可扩展性，可以应用于 Sora 等大规模语言模型。它允许在海量数据集上进行高效的训练和推理。

DiT 是人工智能视频生成领域的一次重大飞跃。虽然 OpenAI 仍未透露 Sora 的全部细节，但所展示的功能表明这项技术前景光明。DiT 有可能彻底改变各个领域，从电影制作和动画到视频游戏开发甚至教育。随着研究的进展，我们可以期待在 DiT 的帮助下生成更加令人印象深刻和细致入微的视频。

好啦，今天就到这里，如果你也想在体验ChatGPT4.0

具有GPT4对话、DALL·E3绘画、GPT4V看图助手。

可以点击下方红色链接进行使用。