热搜词:

纯自回归图像生成模型开源来了,复旦联手字节seed共同捍卫自回归

基于 Transformer 的自回归架构在语言建模上取得了显著成功,但在图像生成领域,扩散模型凭借强大的生成质量和可控性占据了主导地位。

虽然一些早期工作如 Parti、LlamaGen,尝试用更强的视觉 tokenizer 和 Transformer 架构来提升自回归生成的效果,但他们论文中的结果表明,只有更多的参数量才能让自回归模型勉强和扩散模型 " 掰掰手腕 "。

这也让越来越多的研究者质疑自回归视觉生成是否是一条可行、值得探索的路径。通常来说,大家认为自回归视觉生成模型的不足集中:

1. 离散的 token 必然带来更多的信息损失:当下改进视觉 tokenizer 也是一个备受关注的方向,最新的方法无论是离散或连续都可以取得非常好的重建效果(至少不会制约生成模型),因此相信这一点不会是制约两条路线的核心原因;

2。 视觉 token 序列往往较长、因此很难建模 token 间的关系:对于一个 512 分辨率的图像来说,16 倍压缩比的 tokenizer 意味着视觉 token 序列的长度是 1024。对于采用因果掩码(causal mask)的自回归模型来说,建模这么长的序列无疑是很有挑战性的;

3. 下一个 token 预测的效率太低:相比于扩散模型或 MaskGIT 那样一步出整图或多个 token,自回归模型串行预测 token 的方式在生成速度方面存在明显劣势。

近些时间,也有一些工作如 VAR 和 MAR 尝试重新定义视觉里自回归的形式,比如下一个尺度预测、或用连续 token 做自回归。这些方法在 ImageNet 这样的学术数据集上取得了不错的效果,但是也潜在地破坏了视觉模态和语言模型的对齐性。

带着好奇的心态,来自复旦视觉与学习实验室和字节 Seed 的研究者们希望 " 验一验 " 自回归视觉生成模型的能力,他们保持 "Next-token prediction" 这样简洁优美的形式,而通过优化训练和推理过程来探究自回归视觉生成是否可以像扩散模型一样取得不错的文生图效果。

不依赖外挂文本编码器的自回归模型

先说结论!这篇工作有三点惊艳的发现:

在0.5B 的参数规模下,纯自回归模型可以生成 1024 分辨率的高质量图像,且在常用文生图基准上取得了非常有竞争力的结果,例如在 GenEval 上取得了 0.59, 是 1B 以内模型的 SOTA;

通过" 预训练 - 有监督微调 - 强化学习 "这样的三阶段训练,模型可以生成出具有很高美学性的图像,且有监督微调(SFT)和基于 GRPO 的强化学习可以持续提升模型的指令跟随能力以及生成效果;

当用 vLLM 进行部署时,0.5B 的模型可以在14 秒以内生成 1024 分辨率的图像。

性能比较

本文提出的 SimpleAR 在 GenEval 和 DPG 上都取得了不错的结果,其中0.5B 模型显著超越了 SDv2.1 和 LlamaGen。

值得一提的是,扩散模型和 Infinity 这类方法都依赖于外挂的文本编码器,如 Infinity 使用了 3B 的 FlanT5-XL, 而本文提出的自回归模型则将文本(prompt)编码和视觉生成集成在了一个 decoder-only 的 Transformer 里,不仅可以更好地学习跨模态对齐,也能更加高效地利用参数。

1.5B 模型的性能距离 Infinity 还有差距,但本文相信这主要是由数据规模导致的,当用更多的高质量数据训练时,模型的性能还可以被进一步提升。此外,本文选择了 Cosmos 作为视觉 tokenizer,其在重建低分辨率图像和人脸等细节上十分有限,因此生成能力还有充分被改进的空间。

本文还首次在文生图上成功应用了 GRPO 进行后训练,结果表明:利用 CLIP 这样非常简单的 reward 函数,也依然可以观察到非常有潜力的 reward 曲线、并在 GenEval 上了取得了显著的性能提升:

最后是关于效率问题。本文首先尝试了用 vLLM 将模型部署到 A100 上,结果表明其可以显著地提升模型的推理速度:仅需 13.55 秒就能生成 1024 分辨率的高质量图像,这显著缩小了和扩散模型的差距,并由于可以使用 KV Cache 技术而相比于 MaskGIT 更有优势。本文也实现了推断采样,其可以有效降低 2 倍的自回归推理步数。尽管由于不能使用 KV Cache,单纯的步数减少不能直接带来推理时间的降低,但这为高效自回归视觉生成提供了一些崭新的思路。

可视化结果

几点思考

顾名思义,SimpleAR 只是团队关于自回归视觉生成的一次简单尝试,但从中可以看到自回归模型相较于扩散模型的几点优势:

1. 将文本和视觉 token 摆上平等的地位,更好地支持不同模态之间的联合建模学习,从而有利于构建原生的多模态理解和生成模型;

2. 与现有支持语言模型后训练和推理加速的技术兼容性高:通过强化学习可以显著提升模型的文本跟随能力和生成效果、通过 vLLM 可以有效降低模型的推理时间;

本文训练及测试代码以及模型权重均已开源,希望鼓励更多的人参与到自回归视觉生成的探索中。

论文链接:

https://arxiv.org/abs/2504.11455

代码地址:

https://github.com/wdrink/SimpleAR

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

学术投稿请于工作日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点亮星标

科技前沿进展每日见