文献导读: Multimodal learning with next-token prediction for large multimodal models(Nature)

作者:魏阳时间:2026-04-29点击数:

一直以来,多模态模型的发展大致沿着两条路线前进:生成侧依赖扩散模型,理解侧依赖“视觉编码器 + 大语言模型”的组合式架构。前者擅长图像和视频生成,后者擅长看图问答、视觉指令理解,但两条路线各自为战,也意味着多模态智能始终缺少一个真正统一的训练范式。作者提出的核心问题很直接:既然语言模型可以靠 next-token prediction 取得突破,那么图像、视频乃至动作,是否也能被统一到同一种 token 预测框架中?

来自北京智源人工智能研究院、清华大学和北京大学等机构的研究团队,在 Nature 发表论文《Multimodal learning with next-token prediction for large multimodal models》,提出 Emu3。它不再依赖扩散模型,也不再采用“外接视觉编码器再接 LLM”的常见做法,而是将图像、视频、文本和动作统一离散化为 token 序列,直接用一个 decoder-only Transformer 从头训练。结果表明,这种看似“极简”的路线,已经能够同时覆盖理解与生成,并在图像生成、视觉语言理解和视频生成三类任务上达到与专用强模型相当的水平。

01 研究背景:多模态统一建模为何始终困难

过去几年,文本领域的统一范式已经非常清晰:把一切都写成序列,然后预测下一个 token。但在多模态领域,情况并不一样。图像生成长期由扩散模型主导,视觉理解则更多依赖 CLIP 编码器与大语言模型拼接而成的组合式系统。也就是说,尽管“统一智能”一直是目标,但现实中的多模态模型,往往仍是多个子系统的拼装,而不是一个真正端到端、同目标、同架构的统一模型。

Emu3 这篇工作的价值,就在于它直接挑战了这种默认前提。作者希望证明:多模态学习未必需要为不同模态分别设计复杂机制,也未必必须依赖扩散生成或视觉编码器预训练。只要能把不同模态都转成离散 token,并交给统一的自回归模型处理,那么 next-token prediction 本身就可能成为多模态学习的底层通用范式。

02 方法方案:把图像、视频、文本和动作都改写成“同一种语言”

Emu3 的整体思路非常统一。它首先用视觉 tokenizer 将图像和视频压缩成离散 token,再把文本、视觉 token 乃至机器人动作 token 按顺序拼接成一个长序列,最后交给同一个 decoder-only Transformer 来做 next-token prediction。如图1所示,作者明确展示了这种统一流程:图像、文本、视频、动作先分别 token 化,再进入同一个自回归预测器,最后再 detokenize 回原始模态。

图 1 Emu3统一多模态框架

在具体实现上,作者训练了一个统一视觉 tokenizer,可以把 512×512 图像,或 4 帧 512×512 视频,编码成 4096 个离散 token,码本大小为 32768;其时间维压缩比为 4×,空间维压缩比为 8×8,并且可适用于不同时间长度和分辨率。也就是说,Emu3 的关键不是“把视觉塞进语言模型”,而是先把视觉真正转写为可被语言模型原生处理的 token 形式。

模型主体则延续了成熟 LLM 的 decoder-only 设计,只是在嵌入层扩展到可容纳视觉 token。预训练阶段,作者将图像、视频及其描述文本组织成类似“文档流”的统一序列,并用单一交叉熵目标训练;为了避免视觉 token 数量过多主导优化,还专门降低了视觉 token 的相对损失权重。后训练阶段,生成侧使用高质量数据进行 quality fine-tuning,并引入 DPO 做偏好对齐;理解侧则采用 image-to-text 训练加视觉指令微调两阶段流程。

03 核心发现:一个 next-token 目标,真的能统一感知与生成

图 2 跨多模态任务的定性可视化结果

1.统一范式并没有牺牲性能,反而逼近了专用强模型:

论文最核心的结果在于:Emu3 只用 next-token prediction 训练,却在三类代表性任务上都做到了强竞争力。表 1 显示,在图像生成上,Emu3 的得分为 70.0,高于 SD-1.5 的 59.3 和 SDXL 的 66.9;在视觉语言理解上,Emu3 为 62.1,略高于 LLaVA-1.6 的 61.8;在视频生成上,Emu3 的 VBench 得分为 81.0,也高于 Open-Sora-1.2 的 79.8。换句话说,它不是在某一个子任务上“勉强可用”,而是在生成与理解两端同时达到强模型区间。

表 1 跨多模态任务的评估

2.它不仅能生图,还能原生做视频、交错生成和动作建模

Emu3 并不局限于“图像 + 文本”这种传统多模态设置。论文展示了文本到图像、文本到视频、视频未来帧预测、视觉语言理解、图文交错生成,以及视觉—语言—动作联合建模等多种能力。其中尤其值得注意的是视频生成:不同于 Sora 这类从噪声开始逐步去噪的扩散式路线,Emu3 是纯因果地逐 token 生成视频,还能根据已有视频上下文去延展未来内容。这说明它的统一序列建模能力,已经开始从静态感知走向时序世界建模。

3.多模态 next-token 训练还表现出清晰的缩放规律:

作者进一步分析发现,Emu3 在文本到图像、图像到文本和文本到视频等任务上,都呈现出稳定的 scaling law。论文给出的结果显示,三类任务共享一致的数据缩放指数 β=0.55;其中 T2I 和 I2T 的模型缩放指数为 α=0.25,T2V 更陡一些,为 α=0.35。更重要的是,这些拟合结果误差很低,说明统一多模态 next-token 训练并不是“碰巧有效”,而是已经表现出可预测、可扩展的系统性规律。

图 3 Emu3在多模态任务中的尺度定律

4.一些过去被视为“必须”的设计,可能并非必须:

作者还做了架构对比实验。在公平设置下,next-token 的 decoder-only 路线在图像生成任务上收敛速度持续快于扩散模型;在视觉理解任务中,当去掉 CLIP 和 LLM 的预训练优势后,decoder-only 方案与 encoder + LLM 组合式架构的学习效率也基本相当。这一点很关键,因为它说明过去很多关于“扩散更适合生成”“视觉编码器拼接更适合理解”的结论,可能有相当一部分来自预训练先验,而不一定来自架构本身。

图 4 Emu3与扩散模型、encoder+LLM组合式架构的对比结果

04 理论意义:从“多模块拼装”走向“原生统一模型”

这篇论文最重要的意义,不只是又做出了一个强模型,而是在方法论层面重新回答了“多模态模型应该怎么做”这个问题。过去的主流思路,是分别为图像、视频、语言、动作设计不同模块,再通过桥接、适配器或对齐机制将它们接起来;Emu3 则反过来主张,先把不同模态都还原成 token,再让同一个自回归模型去学习统一分布。

这种变化意味着,多模态学习的研究重点,可能会从“怎么拼得更巧”转向“怎么 token 化得更好、怎么用统一目标学得更稳”。一旦这条路线成立,那么视觉理解、视觉生成、视频建模、交错内容生成乃至具身动作预测,都有可能被纳入同一个训练和推理框架。这对于构建真正原生的多模态大模型,是一次非常明确的范式推进。

05 未来展望:通向原生多模态助手、世界模型与具身智能

作者在论文中明确提出,next-token prediction 不应只被视为语言模型的成功经验,而应被看作更一般的多模态基础范式。因为一旦训练与推理都回到 token 层,系统在扩展性、部署效率和统一性上都会获得明显优势。论文还提出了“token-centric multimodal infrastructure”的设想:未来甚至可以在边缘设备先完成多模态 token 化,只把 token ID 传到服务器侧进行统一推理和训练,从而降低原始图像、视频传输成本。

更进一步看,Emu3 展示的未来帧预测、图文交错生成和机器人操作建模,已经让它不再只是一个“会看图和会出图”的模型,而开始接近更广义的原生多模态助手、世界模型甚至具身智能底座。至少从这篇工作来看,多模态统一建模未必一定要依赖越来越复杂的异构系统,回到更简单、更一致的 token 预测路线,反而可能是一条更可扩展的方向。

结语

总体而言,这篇 Nature 论文最有冲击力的地方,在于它用一个非常“语言模型式”的问题,重新整理了多模态学习的技术版图:如果文本可以被统一为 token 序列,那么图像、视频和动作为什么不行?Emu3 给出的答案是,可以,而且不仅能做,还能做得很强。它并没有靠额外拼接扩散模型或视觉编码器取胜,而是用统一 token 化、统一 decoder-only 架构和统一 next-token 目标,证明了多模态感知与生成有机会被收敛到同一种范式之下。

如果说过去的大模型统一发生在语言域,那么 Emu3 这项工作,展示的正是统一范式向视觉、视频乃至动作域外扩的一种可能路径。它不一定已经是终点,但很可能代表了下一阶段多模态大模型的重要方向。

原文

Multimodal learning with next-token prediction for large multimodal models

Emu3代码

https://github.com/baaivision/Emu3?tab=readme-ov-file

实验室地址:湖北省武汉市华中科技大学机械科学与工程学院东楼B317  

邮政编码:430074 联系电话:15171466275  

电子邮箱: 819068551@qq.com  

版权所有:2017_AMI_WEBSITE HUST