Nature 2026 | Emu3: 采用下一词预测的大规模多模态模型的多模态学习
随着多模态大模型的发展,如何在统一框架下同时建模文本、图像和视频,并兼顾理解与生成能力,成为人工智能研究中的关键问题。现有方法大多依赖扩散模型或视觉编码器与语言模型的组合式设计,结构复杂且难以统一扩展。发表在Nature的这项研究提出了Emu3,一种完全基于下一词预测的大规模多模态模型,将不同模态统一映射到离散词元空间中,并通过单一仅解码器Transformer进行端到端训练。实验结果表明,这一简洁的训练目标不仅能够在图像生成、视频生成和视觉-语言理解等任务上达到成熟任务专用模型的性能水平,还自然支持视频时序预测、多模态交错生成以及机器人操作中的视觉-语言-动作建模。该工作系统揭示了统一多模态学习的尺度规律,展示了下一词预测在多模态场景中的可扩展性与通用性,为构建统一的多模态智能系统提供了新的研究范式。

获取详情及资源:
- 📄 论文: https://doi.org/10.1038/s41586-025-10041-x
- 💻 代码: https://github.com/baaivision/Emu3
- 🤗 抱脸: https://huggingface.co/collections/BAAI/emu3
0 摘要
开发一种能够在文本、图像和视频等多种模态之间进行学习并生成内容的统一算法,一直是人工智能领域的基础性挑战。尽管下一词预测推动了大型语言模型的重大进展,但这一范式向多模态领域的扩展仍然十分有限,当前图像和视频生成主要仍由扩散模型主导,而多模态理解与生成任务中也普遍采用将视觉编码器与语言模型相结合的组合式框架。该研究提出了Emu3,一个完全基于下一词预测进行训练的多模态模型家族。Emu3在感知与生成两类任务上均达到了成熟任务专用模型的性能水平,在效果上可与旗舰级系统相当,同时不再依赖扩散模型或组合式架构。该模型还展示了连贯且高保真的视频生成能力,支持视觉与语言交错生成,并能够用于机器人操作中的视觉-语言-动作建模。通过将多模态学习统一为词元级预测问题,Emu3为大规模多模态建模奠定了稳健基础,并为实现统一的多模态智能提供了一条具有前景的路径。
1 引言
自AlexNet出现以来,深度学习通过将特征学习统一到深度神经网络中,取代了依赖启发式规则的手工特征设计。随后,Transformer和GPT-3在大规模序列学习方面进一步取得突破,推动了自然语言处理等结构化任务的统一建模。然而,涵盖图像、视频和文本等多种模态的多模态学习长期以来仍然是碎片化的,通常依赖基于扩散的生成模型,或包含大量人工设计的视觉-语言组合式流水线。
该工作表明,仅依靠简单的下一词预测目标,就可以在大规模条件下实现多模态学习的统一,并在性能上与长期以来的任务专用系统相竞争。下一词预测已经彻底改变了语言模型领域,催生了ChatGPT等重要突破,并引发了关于通用人工智能早期迹象的讨论。但在多模态学习中,这一简单目标是否同样适用一直存在不确定性,此前几乎没有证据表明它能够跨模态扩展,同时兼顾强大的感知能力和高保真生成能力。
在多模态模型领域,视觉生成主要由结构复杂的扩散模型主导,而视觉-语言感知任务则多采用将CLIP编码器与大型语言模型结合的组合式方法。尽管已有一些尝试希望统一生成与感知,例如Emu和Chameleon,但这些方法要么仍然依赖将语言模型与扩散模型连接,要么在生成或感知性能上无法达到针对单一任务优化的方法水平。这引出了一个核心科学问题:是否可以仅依靠一个统一的下一词预测框架,作为通用的多模态学习基础?
该研究提出了Emu3,一组完全基于下一词预测的全新多模态模型,彻底摆脱了扩散模型和组合式架构的依赖。该方法将图像、文本和视频统一映射到离散表示空间中,并在混合的多模态序列上从零开始联合训练单一Transformer模型。实验结果表明,单一的下一词预测目标即可同时支持具有竞争力的生成与理解能力,并且能够自然扩展到机器人操作以及多模态交错生成等场景,所有能力都集中在一个统一架构中。
同时,该工作通过大量消融实验和系统分析,揭示了多模态学习的尺度规律、统一词元化的效率以及仅解码器架构的有效性。Emu3在生成与感知两类任务上均达到了成熟任务专用模型的水平,在文本到图像生成任务中可与扩散模型相当,在视觉-语言理解任务中也能与结合CLIP和大型语言模型的组合式方法竞争。
此外,Emu3还具备视频生成能力。不同于Sora通过从噪声出发的扩散过程来合成视频,Emu3以纯因果的方式,通过自回归预测视频序列中的下一个词元来生成视频。模型能够在一定程度上模拟物理世界中的环境、人类和动物行为,在给定上下文视频的情况下,可以对视频进行延展并预测接下来将发生的内容。在用户文本提示的引导下,Emu3能够生成符合描述的高保真视频,并在文本到视频生成任务中与其他视频扩散模型展开竞争。
除标准生成任务外,Emu3还支持视觉-语言交错生成,甚至能够进行用于机器人操作的视觉-语言-动作建模,进一步体现了下一词预测框架的通用性。该工作对关键技术和模型进行了开源,以促进相关方向的后续研究,其中包括一个稳健的视觉词元器,用于将图像和视频转换为离散词元表示。作者还通过大规模消融实验系统研究了多项设计选择,例如词元器码本大小、初始化策略、多模态dropout以及损失权重设置,从而全面分析了多模态自回归模型的训练动态。
研究结果还展示了下一词预测框架的高度灵活性,例如可以将直接偏好优化方法自然应用于自回归视觉生成任务,以实现与人类偏好的对齐。整体而言,这些结果有力证明了下一词预测可以作为一种强大的多模态建模范式,其能力不仅局限于语言模型,而且能够在多模态任务中实现稳定扩展并取得优异性能。通过简化复杂的模型设计并专注于词元层面的统一建模,该框架在训练和推理阶段都展现出显著的可扩展潜力。作者认为,这项工作确立了下一词预测作为统一多模态学习的稳健通用框架,为原生多模态助手、世界模型以及具身人工智能的发展打开了新的可能性。

图1 | Emu3 框架。 Emu3首先将图像、文本、视频和动作等多模态数据词元化为离散词元,随后按照顺序将这些词元串联起来,并通过Transformer解码器在大规模条件下执行统一的下一词预测。该框架还被自然地推广到机器人操作场景,将视觉、语言和动作统一视为单一的词元序列进行建模。
图5 | 词元器的重建样例以及统一视频词元器与独立图像词元器的对比。a,原始视频和图像与其重建结果。视频分辨率为540×960,以30 fps采样8帧,图像分辨率为512×512。b,在相同分辨率下,视频词元器使用少四倍的潜在词元数量即可实现相当的重建质量。当将图像词元器下采样至相同的总词元数量时,其重建质量明显下降。细节请放大查看。图像来源于Pexels。
2 Emu3 架构与训练
该研究提出了一种统一的仅解码器框架,将语言、图像和视频统一建模为单一的离散词元序列,并通过下一词预测目标进行端到端训练。图1展示了整体框架。该方法由五个紧密耦合的组成部分构成:大规模混合多模态训练数据集;将图像和视频片段转换为紧凑离散词元序列的统一词元器,即视觉词元器;基于Transformer的仅解码器架构,在保持标准仅解码器设计的前提下扩展语言模型的嵌入空间以接纳视觉词元;包含大规模多模态预训练与高质量后训练的两阶段优化流程,用于对齐任务格式与人类偏好;以及支持无分类器引导、低延迟和高吞吐的高效推理后端,用于自回归多模态生成。
2.1 视觉词元器
研究中训练了一个统一的视觉词元器,能够将一个4×512×512的视频片段或一张512×512的图像编码为4096个离散词元,词表规模为32768。该词元器在时间维度上实现了4倍压缩,在空间维度上实现了8×8压缩,并且可适用于任意时间和空间分辨率。在SBER-MoVQGAN架构的基础上,在编码器和解码器模块中引入了两个带有三维卷积核的时间残差层,用于执行时间下采样并增强视频词元化能力。

图2 | 多样化多模态任务的定性可视化结果。 展示了文本到图像生成、文本到视频生成、未来预测、视觉-语言理解、图文交错生成以及具身操作等任务的代表性定性结果。具身操作中的第一张图像转载自参考文献48,遵循CC BY 4.0许可。
2.2 架构
Emu3在整体架构上沿用了Llama-2等成熟大型语言模型的设计,主要改动在于扩展嵌入层以支持离散视觉词元,其余部分遵循标准的仅解码器设计选择。为提升训练稳定性,模型采用了0.1的dropout率。方法部分中的“Architecture design”给出了详细的结构说明及与多种架构变体的对比。通过与基于编码器的视觉-语言架构以及扩散模型基线进行比较,研究发现,在不依赖任何预训练视觉或语言组件的情况下,仅解码器词元预测架构即可达到依赖强单模态先验的传统流水线的性能水平,从而提供了一种更加统一且通用的设计。这一结果挑战了组合式或扩散模型在多模态学习中天然占优的普遍认知。
2.3 预训练
在预训练阶段,首先构建了统一的多模态数据格式,使Emu3能够在单一自回归框架中同时处理文本、图像和视频。与至少依赖一个外部文本编码器的扩散模型不同,Emu3可以自然且直接地接收文本上下文,从而实现多模态数据的原生联合建模。所有图像和视频在保持纵横比的前提下被缩放至目标尺度,随后通过视觉词元器转换为离散视觉词元。这些词元与自然语言描述以及分辨率等元数据进行组合,对于视频还包括帧率和时长信息。通过一小组特殊词元对文本片段、视觉片段以及行分隔和帧分隔等结构边界进行标记,从而形成一种文档式序列,将异构多模态输入标准化为适用于下一词预测的单一词元流。
同时,还引入了描述位于视觉内容之后的数据变体,而非始终置于其前。这种双向排列方式促使模型在统一设置下同时学习从语言到视觉以及从视觉到语言的映射关系。由于所有信息均被完全词元化,Emu3可以使用单一的下一词预测目标和标准交叉熵损失进行端到端训练。为在不同模态之间保持学习平衡,研究中适当降低了视觉词元的相对损失权重,以避免大量视觉词元在优化过程中占据主导地位。预训练阶段采用了较长的上下文长度以支持视频数据处理,并结合张量并行、上下文并行和数据并行等策略进行训练,在充分利用计算资源的同时确保完整图像不会在打包过程中被切分。扩展数据表1详细列出了训练流水线的配置,包括各阶段设置、并行策略、损失权重、优化参数和训练步数,训练计算量见补充表7。

图3 | 以词元为中心的多模态基础设施,以及与扩散模型和编码器加语言模型组合式范式的架构对比。 a,多模态数据的词元化可以直接在边缘设备上完成,仅将生成的离散词元ID传输至大规模服务器,用于统一的多模态训练与推理。b,在图像生成任务中,比较潜变量扩散范式与下一词预测范式时,GenEval总体得分随训练样本数量变化的关系。c,在图像理解任务中,当语言模型从零开始训练时,文本词元的验证损失随训练样本数量变化的情况,对比仅解码器范式与编码器加语言模型的组合式范式,并进一步区分是否采用CLIP初始化。Init.表示初始化。
2.4 后训练
在完成预训练后,研究针对视觉生成任务开展了后训练以提升生成质量。首先利用高质量数据进行质量微调,模型仍采用下一词预测任务和标准交叉熵损失进行训练,但监督仅作用于视觉词元。在该阶段中,数据分辨率从512像素提升至720像素以进一步改善生成效果,并在训练末期采用学习率线性退火至零的策略。此外,引入了直接偏好优化方法以增强模型与人类偏好的对齐能力,通过人类偏好数据提升自回归多模态生成任务的表现,此时模型同时最小化DPO损失与下一词预测的交叉熵损失。
对于视觉-语言理解任务,预训练模型还经历了两阶段后训练流程。第一阶段为图像到文本训练,将图像理解数据与纯文本数据联合使用,并在纯文本预测时忽略视觉词元相关损失,所有图像在保持纵横比的前提下被缩放至约512×512分辨率。第二阶段进行视觉指令微调,从视觉问答数据中采样子集以增强模型的视觉指令遵循能力。分辨率低于512×512或高于1024×1024的图像分别被缩放至下限或上限,其余图像保持原始分辨率。图2展示了模型在多种多模态任务上的定性可视化结果。
2.5 推理
Emu3的多模态推理框架继承了现有大型语言模型基础设施的诸多优势,并构建于FlagScale之上,该系统是在vLLM基础上开发的多模态服务框架。FlagScale扩展了推理后端以支持自回归多模态生成中的无分类器引导,具体做法是在动态批处理流程中同时输入条件提示和负向提示。该CFG感知扩展几乎不引入额外开销,同时保持了vLLM原有的低延迟和高吞吐特性。
此外,研究还在图3a中提出了一种以词元为中心的多模态基础设施设想,该方案高效且易于扩展,展示了多模态词元预测框架在大规模真实部署中的可行性与可扩展性。在这一框架中,数据词元化直接在边缘设备上完成,仅将离散词元ID传输至大规模服务器用于统一的多模态训练与推理。由于词元ID相较于原始图像或视频数据更加紧凑,该方法能够显著提升整体效率。
表1 | 多模态任务评测结果。

3 评测
3.1 主要结果
研究发现,一致的尺度规律是支撑大规模统一多模态学习的核心原则。受Chinchilla尺度定律的启发,分析表明,在统一的下一词预测框架下进行联合训练时,文本到图像、图像到文本以及文本到视频等多种任务遵循相同的尺度行为。验证损失
所有任务在数据尺度上的指数一致,为
图像生成、视觉-语言理解以及视频生成的主要结果汇总于表1,并列出了成熟的任务专用模型系列作为参考。在文本到图像生成方面,通过人工评测和多种自动化指标在多个基准数据集上对Emu3进行了评估,结果显示其性能可与当前最先进的扩散模型相当。补充图14给出了生成图像示例,表明Emu3能够支持灵活的分辨率和纵横比,并适应多种风格。在视频生成方面,Emu3原生支持以24 fps生成5秒视频,并可通过自回归方式进一步扩展。补充图15展示了视频生成的定性结果,从生成视频的前3秒中抽取6帧进行展示。基于VBench工具包的定量评测结果表明,Emu3在视频生成性能上与其他视频扩散模型具有高度竞争力。
Emu3还可以通过预测未来帧对视频进行延展。图2给出了视频延展的定性示例,其中2秒、24 fps的视频被词元化为离散视觉词元作为上下文,模型随后以相同形式预测接下来的2秒内容,并通过反词元化生成未来视频。这些示例表明,仅使用下一词预测即可实现时间维度上的视频延展,包括对人类和动物动作、与真实世界的交互以及三维动画变化的预测。通过这种方式不断延长视频长度,模型还能够迭代生成超过其上下文长度的视频序列。
在视觉-语言理解方面,研究在多个公开基准上对方法进行了评测。扩展数据表4给出了主要结果,并对两类方法进行了比较:一类是使用预训练CLIP视觉编码器的编码器方法,另一类是不依赖预训练编码器的无编码器方法。作为一种纯无编码器方法,Emu3在多个基准上达到了同类方法的性能水平,且不依赖专用的预训练语言模型或CLIP,体现了其在多模态理解方面的内在能力和潜在优势。

图4 | Emu3在多模态任务上的尺度规律。 a,文本到图像、图像到文本以及文本到视频三项任务的验证损失曲面,以模型规模和训练词元数量为自变量进行展示,三项任务均表现出清晰的幂律尺度行为。b,基于拟合得到的尺度规律,对7B参数规模的Emu3模型在文本到图像、图像到文本和文本到视频任务上的验证损失进行预测,并与实际观测结果进行对比。预测值与实测性能高度一致,验证了所学习尺度关系的外推能力。MAE表示平均绝对误差,MAPE表示平均绝对百分比误差。
3.2 消融实验
为评估统一视频词元器的有效性,研究在UCF-101数据集上比较了其视频重建性能与图像词元器的表现,后者采用参数规模为270M的SBER-MoVQ模型。每个视频随机抽取16个连续帧进行实验。在相同输入分辨率下,统一视频词元器在使用四倍更少词元的情况下,实现了可比的重建Fréchet视频距离和峰值信噪比。当两种方法使用相同数量的潜在词元时,统一视频词元器在性能上显著优于独立图像词元器,尤其是在rFVD指标上,体现了其高效性与有效性。图5给出了定性对比结果,即使使用更少的潜在词元,视频词元器仍能保持与图像词元器相当的重建质量,在匹配词元数量的下采样条件下还能保留更多细节。
研究还将下一词预测范式与扩散模型以及编码器加语言模型的组合式范式进行了架构层面的比较。为确保公平性,在OpenImages数据集上,分别训练了一个15亿参数的扩散Transformer模型和一个15亿参数的仅解码器Transformer模型,训练设置保持一致。结果显示,在相同训练样本数下,下一词预测模型收敛速度更快,表明其作为视觉生成框架在数据效率上的潜力。进一步比较了三种模型规模和训练样本数相近的视觉-语言架构,包括离散词元的仅解码器模型以及两种不同视觉编码器的晚期融合编码器-解码器变体,且均未使用预训练语言模型初始化。结果表明,在从零开始训练的条件下,编码器架构的优势明显减弱,仅解码器的下一词预测模型能够取得相当性能,对编码器加语言模型在多模态理解中天然占优的观点提出了挑战。更多关于训练方案的消融实验见补充材料3.2.3节。
由于多模态数据分布多样,大规模统一多模态学习对训练方案高度敏感,不恰当的设置容易导致训练崩溃。实验发现,较小的dropout率对于稳定收敛至关重要,缺失该设置时训练会发生失败。对视觉词元和文本词元损失进行合理加权有助于避免任务偏置并提升泛化能力。主要实验中未采用预训练语言模型初始化,以避免强先验并更清晰地评估从零开始的下一词预测能力。尽管预训练初始化能够加快早期收敛,但在长期性能上优势有限。这些结果表明,Emu3无需依赖预训练语言先验也能够有效扩展,支持其作为通用统一多模态学习器的潜力。
3.3 扩展应用
该框架被进一步应用于机器人操作任务,通过将Emu3迁移为视觉-语言-动作模型,在性能上可与RT-1和RoboVLMs等专用方法竞争。语言、视觉观测和动作被表示为交错的离散词元,统一置于自回归序列中,从而在单一下一词预测目标下自然对齐指令理解、视觉预测与动作预测。动作采用FAST词元器进行编码,实现了对连续控制信号的高效压缩。扩展数据表5给出了仿真环境中的实验结果,在CALVIN基准上的评测表明,该方法在长时序操作任务中达到了成熟模型的性能水平。与探索后训练策略的相关工作不同,该方法直接对视觉、语言和动作进行离散编码,未使用视频后训练,凸显了下一词预测框架从感知与生成到具身决策的通用扩展能力。
此外,Emu3还被扩展至图文交错生成任务,在单一输出序列中同时生成结构化文本步骤及其对应的示意图像。得益于框架的灵活性与通用性,模型可以通过端到端微调直接进行自回归多模态序列生成。扩展数据图1展示了相关结果,即使在仅使用有限交错图文数据进行基础微调的情况下,模型也表现出较强的生成潜力,表明统一多模态生成的下一词预测范式具有良好的可扩展性。
为进一步验证方法的灵活性,研究还评估了多种替代词元预测顺序,包括对角、分块光栅以及螺旋向内顺序。基于预训练Emu3模型,对每种顺序在50B词元上采用相同训练方案进行微调,结果显示,基于预训练初始化的模型显著优于从零开始训练的模型。值得注意的是,螺旋向内顺序与区域补全任务高度契合,无需额外任务微调即可实现零样本图像修复。这些结果表明,通过大规模光栅顺序训练获得的预训练先验可以有效迁移到新的词元顺序设置中,进一步凸显了该方法的鲁棒性和通用适应能力。

图5 | 词元器的重建样例,以及统一视频词元器与独立图像词元器的对比。 a,原始视频和图像及其重建结果。视频分辨率为540×960,以30 fps采样8帧,图像分辨率为512×512。b,在相同分辨率下,视频词元器使用少四倍的潜在词元数量即可实现相当的重建效果。当将图像词元器下采样至相同的总词元数量时,其重建质量出现明显下降。细节请放大查看。图像来源于Pexels。
4 相关工作
近年来,视觉-语言建模的进展大量依赖于预训练图像编码器,例如CLIP,以获得具有良好泛化性的表示,并将其与大型语言模型结合,构建强大的视觉-语言模型。BLIP-2和LLaVA等方法通过在大规模图文对和指令跟随数据上进行训练,取得了优异性能。进一步的提升来自于精心构建的数据集以及更有效的训练策略。尽管也有一些模型尝试将图像patch直接输入语言模型,但在整体性能上仍难以与当前最先进的视觉-语言模型竞争。该研究表明,Emu3作为一种仅解码器模型,完全基于下一词预测进行训练,同样能够达到这些基于编码器系统的性能水平。
在图像和视频生成领域,近年来的主要突破来自扩散模型,其通过迭代去噪实现高分辨率合成。Stable Diffusion系列的开源进一步推动了该方向的大量研究。自回归方法通过逐词元预测图像内容,并被扩展到视频生成场景中,但这些方法要么在性能上难以匹敌扩散模型,要么依赖级联或组合式设计。该研究中的Emu3则仅使用单一Transformer解码器,展示了强大的图像和视频生成能力,并对关键技术进行了开源,以支持后续研究与发展。
此前已有一些工作尝试统一视觉理解与生成,在图像和文本数据上探索不同的生成目标。Emu和Emu2提出了一种统一的自回归目标,通过回归视觉嵌入或分类文本词元来预测下一个多模态元素。Chameleon在混合图像与文本数据上训练了基于词元的自回归模型。其他研究也探索了统一多模态模型,但这些方法要么主要关注分割等传统视觉任务,要么在视频生成、图像生成和视觉-语言理解等通用多模态任务上的性能仍难以接近成熟的任务专用架构。近期也有一些模型报告了较强结果,但其研究范围和方法与该研究存在显著差异,例如采用混合扩散专家架构且不支持视频,或仍处于封闭状态缺乏公开实现。相比之下,Emu3表明,在不依赖组合式方法的情况下,跨图像、视频、动作和文本的下一词预测即可达到成熟模型的性能水平,展示了该范式在内容生成、多模态理解和机器人操作等场景中的可扩展性、有效性和通用性。
5 结论、局限性与未来工作
Emu3展示了仅依靠下一词预测即可在大规模条件下统一多模态学习。通过将文本、图像和视频离散化到共享的词元空间中,并训练单一的仅解码器Transformer模型,Emu3在感知与生成任务上均达到了成熟任务专用模型的性能水平,在效果上可与旗舰系统相当,同时不再需要扩散模型或组合式架构。所得尺度规律表明,该方法在不同模态下具有可预测的效率,验证了下一词预测可以作为多模态序列建模的通用基础。
尽管结果令人鼓舞,该方法仍存在若干局限。首先,推理阶段仍有加速空间,当前采用的是较为朴素的解码策略,未来可引入更先进的并行解码方法。其次,现有词元器设计在压缩率与重建保真度之间存在权衡,仍可通过新的量化方法或扩大码本规模进一步优化,以提升下游任务的效率与效果。再次,多模态数据集的多样性和质量,尤其是面向长时序视频场景的数据,仍不足以覆盖真实世界的复杂性。尽管这些问题值得深入研究,但已超出该研究讨论范围。
未来值得探索的方向包括,面向超长多模态上下文的高效架构设计,提升词元器表达能力,以及构建更加稳健且贴近现实的评测基准。统一的下一词建模为构建融合感知、语言与动作的世界模型提供了一条有前景的路径,有望将语言推理扎根于视觉和具身经验之中,从而实现更通用的理解、创造与控制能力。该框架被认为是迈向可扩展、统一多模态智能的重要一步。