什么是 OpenAI 的 Sora Diffusion Transformer(DiT)?
OpenAI Sora 重返舞台,并携其首部委托制作的音乐视频《Washed Out – The Hardest Part》引起轰动。这一令人惊叹的创作由 55 个独立片段拼接而成,每个片段均由 Sora 自己生成。
好吧,相信吧!早在 2024 年 2 月,OpenAI 的Sora就风靡全球,展示了其通过简单的文本提示制作高清视频的惊人能力。这项新技术在生成式人工智能领域处于领先地位,由一种名为扩散变换器 (DiT) 的强大架构提供支持。在这篇博客中,让我们深入探讨 Sora 背后的这项神奇技术——DiT。
扩散变压器 (DiT) = 扩散 + 变压器
Sora 的核心是扩散变换器 (DiT) 架构,这是一种新颖的生成建模方法。DiT 结合了扩散模型和变换器的优势,在图像生成方面取得了显著的效果。让我们分解一下 DiT 的关键组件:
扩散模型
扩散模型是一类生成模型,可以学习逐渐去除嘈杂的输入信号中的噪声,从而生成干净的输出。在图像生成方面,扩散模型从一张嘈杂的图像开始,通过逐步去除噪声来迭代细化它,直到出现清晰连贯的图像。此过程可以生成高度详细且逼真的图像。
变压器
Transformer是一种神经网络架构,彻底改变了自然语言处理任务。它们擅长捕捉长距离依赖关系并理解数据序列中的上下文。在 Sora 中,Transformer 用于处理和理解作为输入提供的文本描述,使模型能够生成准确反映给定提示的图像。
扩散模型与 Transformer 的集成
扩散变换器 (DiT) 架构无缝集成了扩散模型和变换器,以充分利用它们各自的优势。变换器组件处理文本输入并生成一个潜在表示,以捕捉描述的语义含义。然后,该潜在表示用于指导扩散过程,确保生成的图像与提供的文本对齐。
Sora 已在庞大的图像文本对数据集上进行训练,使其能够学习视觉和文本信息之间的复杂关系。在训练期间,DiT 模型经过训练以最小化生成的输出与基本事实之间的差异。扩散过程应用于隐藏状态,去噪网络学习估计和消除增加的噪声。该模型使用最大似然估计和对抗训练技术的组合进行训练。
在推理时,模型从随机噪声开始,并使用经过训练的去噪网络迭代地对隐藏状态进行去噪。然后,去噪后的隐藏状态通过解码层生成最终的输出标记。
DiT 在 Sora 中如何运作?
假设我们必须使用文本提示和一系列扩散步骤来生成视频。
以下是对上述情况的简化分解:
1. 设置舞台
- 我们有一个视频片段作为输入。
- 我们还有一个描述视频内容的提示,在本例中为“sora is sky”。
- 我们正处于训练过程的特定扩散步骤(t = 3)。
2.准备数据
- 视频被分成称为块的小方块(想象一个覆盖在视频上的网格)。在这种情况下,每个块覆盖空间和时间上的 4 个连续像素(水平方向 2 个像素,垂直方向 2 个像素,考虑多帧)。
3.特征提取(理解视频)
- 每个块都由视觉编码器(显示为黄色框)处理。可以将其视为从图像数据中提取关键特征。
- 编码器使用权重和偏差(可调参数)以及 ReLU 激活函数将原始像素值转换为称为潜在向量(显示为绿色框)的低维表示。这降低了复杂性并实现了更好的噪声处理。
4. 添加噪声(训练模型)
- 根据当前扩散步骤 (t),有意将噪声添加到潜在特征中。步骤越高,噪声越少。
- 这类似于语言模型的训练方式,即从句子中删除单词并要求其预测缺失的单词。通过添加噪音,模型学会删除噪音并恢复原始信息。
5-7. 调节噪声数据(指导模型)
- 条件反射有助于模型生成与提示相关的视频。
- 提示“sora is sky”被转换成文本嵌入向量(数字表示)。
- 扩散步骤(t)也被编码为二进制向量。
- 这些被组合成一个单一的向量。
- 该组合向量用于估计“比例”和“移位”值(也是可调整的参数)。
- 最后,将估计的尺度和偏移应用于噪声潜在特征,从而创建“条件性”噪声潜在特征。这会注入来自提示的信息,以指导模型生成包含“天空”中的“sora”的视频。
8-10. 细化条件噪声(重点关注重要特征)
-
- 经过条件处理的噪声潜在值被输入到 Transformer 模块中,这是一个强大的深度学习架构。
- Transformer 使用一种称为“自我注意力”的技术来识别数据中最重要的关系。
- 然后利用这种注意力来强调条件噪声潜在中的相关信息。
- 最后,逐点前馈网络进一步处理数据以提取更多特征。
- 经过条件处理的噪声潜在值被输入到 Transformer 模块中,这是一个强大的深度学习架构。
ChatGPT中文网页版
11.训练(微调模型)
- 该模型根据条件噪声潜伏期来预测原始噪声是什么。
- 预测噪声和实际噪声(地面实况)之间的差异被计算为损失。
- 该损失通过反向传播来调整模型中的权重和偏差(红色边框),使其更好地预测噪声并最终生成逼真的视频。
- 值得注意的是,视觉编码器和解码器的权重和偏差(蓝色边框)在此训练步骤中保持不变。这些都是预先训练过的,可以高效地提取和生成特征。
12-14. 生成视频(收益)
- 一旦训练完成,该模型就可以用于生成。
- 从条件噪声潜在值中减去预测噪声,以获得无噪声潜在值。
- 该潜在表示经过视觉解码器(另一个黄色框),从而逆转了编码器的操作。
- 解码器输出一系列补丁。
- 最后,将这些补丁重新排列回原始视频格式,我们就得到了最终生成的视频内容。
Sora 中的 DiT 优势
Diffusion Transformer 架构为 OpenAI 的 Sora 语言模型带来了多项好处:
- 提高表现力:通过将隐藏状态视为连续扩散过程,DiT 允许 Sora 学习更具表现力和灵活性的输入数据表示。这使 Sora 能够捕捉细微差别并生成更连贯且与上下文相关的输出。
- 增强泛化能力:扩散过程有助于 Sora 更好地泛化至未见数据。通过学习对隐藏状态进行去噪,Sora 可以更有效地处理嘈杂和不完整的输入。
- 增强鲁棒性:DiT 的去噪能力使 Sora 对干扰和对抗攻击更具鲁棒性。即使存在噪声或对抗性示例,该模型也可以生成稳定一致的输出。
- 可扩展性:DiT 架构具有高度可扩展性,可以应用于 Sora 等大规模语言模型。它允许在海量数据集上进行高效的训练和推理。
结论
DiT 是人工智能视频生成领域的一次重大飞跃。虽然 OpenAI 仍未透露 Sora 的全部细节,但所展示的功能表明这项技术前景光明。DiT 有可能彻底改变各个领域,从电影制作和动画到视频游戏开发甚至教育。随着研究的进展,我们可以期待在 DiT 的帮助下生成更加令人印象深刻和细致入微的视频。
好啦,今天就到这里,如果你也想在体验ChatGPT4.0
具有GPT4对话、DALL·E3绘画、GPT4V看图助手。
可以点击下方红色链接进行使用。