文献导读: Multimodal learning with next-token prediction for large multimodal models（Nature）-华中科技大学先进制造与智能实验室

首页 > 信息中心 > 论文推荐 > 正文

文献导读: Multimodal learning with next-token prediction for large multimodal models（Nature）

作者：魏阳时间：2026-04-29点击数：

一直以来，多模态模型的发展大致沿着两条路线前进：生成侧依赖扩散模型，理解侧依赖“视觉编码器 + 大语言模型”的组合式架构。前者擅长图像和视频生成，后者擅长看图问答、视觉指令理解，但两条路线各自为战，也意味着多模态智能始终缺少一个真正统一的训练范式。作者提出的核心问题很直接：既然语言模型可以靠 next-token prediction 取得突破，那么图像、视频乃至动作，是否也能被统一到同一种 token 预测框架中？

来自北京智源人工智能研究院、清华大学和北京大学等机构的研究团队，在 Nature 发表论文《Multimodal learning with next-token prediction for large multimodal models》，提出 Emu3。它不再依赖扩散模型，也不再采用“外接视觉编码器再接 LLM”的常见做法，而是将图像、视频、文本和动作统一离散化为 token 序列，直接用一个 decoder-only Transformer 从头训练。结果表明，这种看似“极简”的路线，已经能够同时覆盖理解与生成，并在图像生成、视觉语言理解和视频生成三类任务上达到与专用强模型相当的水平。

01 研究背景：多模态统一建模为何始终困难

过去几年，文本领域的统一范式已经非常清晰：把一切都写成序列，然后预测下一个 token。但在多模态领域，情况并不一样。图像生成长期由扩散模型主导，视觉理解则更多依赖 CLIP 编码器与大语言模型拼接而成的组合式系统。也就是说，尽管“统一智能”一直是目标，但现实中的多模态模型，往往仍是多个子系统的拼装，而不是一个真正端到端、同目标、同架构的统一模型。

Emu3 这篇工作的价值，就在于它直接挑战了这种默认前提。作者希望证明：多模态学习未必需要为不同模态分别设计复杂机制，也未必必须依赖扩散生成或视觉编码器预训练。只要能把不同模态都转成离散 token，并交给统一的自回归模型处理，那么 next-token prediction 本身就可能成为多模态学习的底层通用范式。

02 方法方案：把图像、视频、文本和动作都改写成“同一种语言”

Emu3 的整体思路非常统一。它首先用视觉 tokenizer 将图像和视频压缩成离散 token，再把文本、视觉 token 乃至机器人动作 token 按顺序拼接成一个长序列，最后交给同一个 decoder-only Transformer 来做 next-token prediction。如图1所示，作者明确展示了这种统一流程：图像、文本、视频、动作先分别 token 化，再进入同一个自回归预测器，最后再 detokenize 回原始模态。

图 1 Emu3统一多模态框架

在具体实现上，作者训练了一个统一视觉 tokenizer，可以把 512×512 图像，或 4 帧 512×512 视频，编码成 4096 个离散 token，码本大小为 32768；其时间维压缩比为 4×，空间维压缩比为 8×8，并且可适用于不同时间长度和分辨率。也就是说，Emu3 的关键不是“把视觉塞进语言模型”，而是先把视觉真正转写为可被语言模型原生处理的 token 形式。

模型主体则延续了成熟 LLM 的 decoder-only 设计，只是在嵌入层扩展到可容纳视觉 token。预训练阶段，作者将图像、视频及其描述文本组织成类似“文档流”的统一序列，并用单一交叉熵目标训练；为了避免视觉 token 数量过多主导优化，还专门降低了视觉 token 的相对损失权重。后训练阶段，生成侧使用高质量数据进行 quality fine-tuning，并引入 DPO 做偏好对齐；理解侧则采用 image-to-text 训练加视觉指令微调两阶段流程。

03 核心发现：一个 next-token 目标，真的能统一感知与生成

图 2 跨多模态任务的定性可视化结果

1.统一范式并没有牺牲性能，反而逼近了专用强模型：

论文最核心的结果在于：Emu3 只用 next-token prediction 训练，却在三类代表性任务上都做到了强竞争力。表 1 显示，在图像生成上，Emu3 的得分为 70.0，高于 SD-1.5 的 59.3 和 SDXL 的 66.9；在视觉语言理解上，Emu3 为 62.1，略高于 LLaVA-1.6 的 61.8；在视频生成上，Emu3 的 VBench 得分为 81.0，也高于 Open-Sora-1.2 的 79.8。换句话说，它不是在某一个子任务上“勉强可用”，而是在生成与理解两端同时达到强模型区间。

表 1 跨多模态任务的评估

2.它不仅能生图，还能原生做视频、交错生成和动作建模：

Emu3 并不局限于“图像 + 文本”这种传统多模态设置。论文展示了文本到图像、文本到视频、视频未来帧预测、视觉语言理解、图文交错生成，以及视觉—语言—动作联合建模等多种能力。其中尤其值得注意的是视频生成：不同于 Sora 这类从噪声开始逐步去噪的扩散式路线，Emu3 是纯因果地逐 token 生成视频，还能根据已有视频上下文去延展未来内容。这说明它的统一序列建模能力，已经开始从静态感知走向时序世界建模。

3.多模态 next-token 训练还表现出清晰的缩放规律：

作者进一步分析发现，Emu3 在文本到图像、图像到文本和文本到视频等任务上，都呈现出稳定的 scaling law。论文给出的结果显示，三类任务共享一致的数据缩放指数 β=0.55；其中 T2I 和 I2T 的模型缩放指数为 α=0.25，T2V 更陡一些，为 α=0.35。更重要的是，这些拟合结果误差很低，说明统一多模态 next-token 训练并不是“碰巧有效”，而是已经表现出可预测、可扩展的系统性规律。

图 3 Emu3在多模态任务中的尺度定律

4.一些过去被视为“必须”的设计，可能并非必须：

作者还做了架构对比实验。在公平设置下，next-token 的 decoder-only 路线在图像生成任务上收敛速度持续快于扩散模型；在视觉理解任务中，当去掉 CLIP 和 LLM 的预训练优势后，decoder-only 方案与 encoder + LLM 组合式架构的学习效率也基本相当。这一点很关键，因为它说明过去很多关于“扩散更适合生成”“视觉编码器拼接更适合理解”的结论，可能有相当一部分来自预训练先验，而不一定来自架构本身。

图 4 Emu3与扩散模型、encoder+LLM组合式架构的对比结果

04 理论意义：从“多模块拼装”走向“原生统一模型”

这篇论文最重要的意义，不只是又做出了一个强模型，而是在方法论层面重新回答了“多模态模型应该怎么做”这个问题。过去的主流思路，是分别为图像、视频、语言、动作设计不同模块，再通过桥接、适配器或对齐机制将它们接起来；Emu3 则反过来主张，先把不同模态都还原成 token，再让同一个自回归模型去学习统一分布。

这种变化意味着，多模态学习的研究重点，可能会从“怎么拼得更巧”转向“怎么 token 化得更好、怎么用统一目标学得更稳”。一旦这条路线成立，那么视觉理解、视觉生成、视频建模、交错内容生成乃至具身动作预测，都有可能被纳入同一个训练和推理框架。这对于构建真正原生的多模态大模型，是一次非常明确的范式推进。

05 未来展望：通向原生多模态助手、世界模型与具身智能

作者在论文中明确提出，next-token prediction 不应只被视为语言模型的成功经验，而应被看作更一般的多模态基础范式。因为一旦训练与推理都回到 token 层，系统在扩展性、部署效率和统一性上都会获得明显优势。论文还提出了“token-centric multimodal infrastructure”的设想：未来甚至可以在边缘设备先完成多模态 token 化，只把 token ID 传到服务器侧进行统一推理和训练，从而降低原始图像、视频传输成本。

更进一步看，Emu3 展示的未来帧预测、图文交错生成和机器人操作建模，已经让它不再只是一个“会看图和会出图”的模型，而开始接近更广义的原生多模态助手、世界模型甚至具身智能底座。至少从这篇工作来看，多模态统一建模未必一定要依赖越来越复杂的异构系统，回到更简单、更一致的 token 预测路线，反而可能是一条更可扩展的方向。

结语

总体而言，这篇 Nature 论文最有冲击力的地方，在于它用一个非常“语言模型式”的问题，重新整理了多模态学习的技术版图：如果文本可以被统一为 token 序列，那么图像、视频和动作为什么不行？Emu3 给出的答案是，可以，而且不仅能做，还能做得很强。它并没有靠额外拼接扩散模型或视觉编码器取胜，而是用统一 token 化、统一 decoder-only 架构和统一 next-token 目标，证明了多模态感知与生成有机会被收敛到同一种范式之下。

如果说过去的大模型统一发生在语言域，那么 Emu3 这项工作，展示的正是统一范式向视觉、视频乃至动作域外扩的一种可能路径。它不一定已经是终点，但很可能代表了下一阶段多模态大模型的重要方向。

原文

Multimodal learning with next-token prediction for large multimodal models

Emu3代码

https://github.com/baaivision/Emu3?tab=readme-ov-file

上一条：文献导读：基于可溯源多智能体系统的罕见病辅助诊断框架（Nature）下一条：文献导读：Nonreciprocal field theory for decision-making in multi-agent control systems