论文精读—BAGEL：更聪明的统一理解与生成模型

type

Post

status

Published

date

Dec 12, 2025

slug

Paper_3

summary

1.Intro

多数统一模型采用外部diffusion方案：语言模型生成语义条件，再交由独立扩散模块生成图像。这种设计训练快、收敛稳，但BAGEL团队直接否定了它。他们的理由比较直白：“这种压缩将LLM上下文压入少量潜在token，引入了理解与生成模块间的显式瓶颈，可能导致长上下文多模态推理中的重大信息损失”。BAGEL用FlexAttention实现广义因果注意力机制，在交错生成多图场景中，前一张图的噪声VAE token被mask，干净的VAE token和ViT token需全程保留为后续生成提供条件。现有的外部diffusion根本无法支持这种细粒度的token级交互。

"This introduces an explicit bottleneck between understanding and generation modules, risking substantial information loss—particularly in long-context multimodal reasoning.”

文章提出了Mixture-of-Transformers（MoT）架构：复制整个Transformer创建生成专家，原始参数作为理解专家，两者通过共享自注意力交互。在1.5B规模的消融实验中，MoT在生成任务上的MSE损失不仅收敛最快，最终值也显著低于稠密模型和MoE变体。这里的结果其实指向一个合理猜想：理解与生成可能天然指向参数空间的不同区域，文本预测偏好离散符号推理，而图像生成需要连续空间建模。强行共享全部参数反而制造了优化冲突。

2.Methods

传统多模态训练依赖成对的图像-文本数据，BAGEL团队从视频和网页中提取了4500万条交错序列。以视频为例：BAGEL不是简单抽取帧+全局描述，而是用蒸馏后的小型VLM生成帧间变化描述——“镜头推近，强调黑色汽车的前格栅和大灯”、“焦点转向粉色汽车，捕捉其前侧更多细节”。这种时序接地的监督信号迫使模型学习视觉动态的连续性。

我在复现类似数据pipe时有遇到过类似的困惑，直接用BLIP-2生成帧描述会导致大量冗余（“一辆车”、“还是那辆车”）。BAGEL的解决方案很巧妙，限制caption长度在30 token内，且只描述变化。同时BAGEL发现视频数据天然提供像素级、概念级、时序级和物理连续性信号。

3.Results

一般认为，模型能力会随训练规模平滑提升。但是BAGEL的能力有一个比较明显的阶段性，基础理解与高保真生成最先收敛（约0.18T-0.68T tokens），基础编辑能力随后出现（2.64T tokens达85%性能），而需要复杂推理的智能编辑直到3.61T tokens才爆发式增长。在3.5T tokens前，模型面对“将甜甜圈材质变为铝箔”这类指令时，往往只做微弱调整或直接复制输入图像；越过临界点后，它突然能生成具有金属反光、褶皱物理特性的铝箔结构。

"Different capabilities emerge at different stages—understanding and generation abilities emerge first, basic editing follows, and intelligent editing emerges last, reflecting the increasing complexity of these tasks.”