这篇论文被他简写为DiffTranformer,不过不是Sora底层架构的那个Diffusion Transformer,而是不久前来自微软的Differencial Transformer。 论文中介绍,整体思路 ...
ViT核心作者Lucas Beyer,长文分析了一篇改进Transformer架构的论文,引起推荐围观。 他前不久从谷歌跳槽到OpenAI,这次是在飞机上阅读论文并写下了分析。
据介绍,Ruyi 是一个基于 DiT 架构的图生视频模型,它由两部分构成: 一个 Casual VAE 模块负责视频数据的压缩和解压 一个 Diffusion Transformer 负责压缩 ...
Sora uses a hybrid approach combining diffusion modeling and transformer networks. The process begins with random noise, akin to static on a TV, which is gradually refined into detailed video frames.