type
Post
status
Published
date
Dec 12, 2025
slug
Paper_3
summary
tags
LLMs
category
LLMs
icon
password
❄️
下雪了,冲冲冲
今天带来的是字节Seed的一篇文章,比较吸引我的是论文提出的端到端的统一理解与生成能力,所以花时间整理分析一下大佬的作品。论文原文链接:https://arxiv.org/pdf/2505.14683
notion image

1.Intro

多数统一模型采用外部diffusion方案:语言模型生成语义条件,再交由独立扩散模块生成图像。这种设计训练快、收敛稳,但BAGEL团队直接否定了它。他们的理由比较直白:“这种压缩将LLM上下文压入少量潜在token,引入了理解与生成模块间的显式瓶颈,可能导致长上下文多模态推理中的重大信息损失”。BAGEL用FlexAttention实现广义因果注意力机制,在交错生成多图场景中,前一张图的噪声VAE token被mask,干净的VAE token和ViT token需全程保留为后续生成提供条件。现有的外部diffusion根本无法支持这种细粒度的token级交互。
notion image
"This introduces an explicit bottleneck between understanding and generation modules, risking substantial information loss—particularly in long-context multimodal reasoning.”
文章提出了Mixture-of-Transformers(MoT)架构:复制整个Transformer创建生成专家,原始参数作为理解专家,两者通过共享自注意力交互。在1.5B规模的消融实验中,MoT在生成任务上的MSE损失不仅收敛最快,最终值也显著低于稠密模型和MoE变体。这里的结果其实指向一个合理猜想:理解与生成可能天然指向参数空间的不同区域,文本预测偏好离散符号推理,而图像生成需要连续空间建模。强行共享全部参数反而制造了优化冲突。

2.Methods

传统多模态训练依赖成对的图像-文本数据,BAGEL团队从视频和网页中提取了4500万条交错序列。以视频为例:BAGEL不是简单抽取帧+全局描述,而是用蒸馏后的小型VLM生成帧间变化描述——“镜头推近,强调黑色汽车的前格栅和大灯”、“焦点转向粉色汽车,捕捉其前侧更多细节”。这种时序接地的监督信号迫使模型学习视觉动态的连续性。
我在复现类似数据pipe时有遇到过类似的困惑,直接用BLIP-2生成帧描述会导致大量冗余(“一辆车”、“还是那辆车”)。BAGEL的解决方案很巧妙,限制caption长度在30 token内,且只描述变化。同时BAGEL发现视频数据天然提供像素级、概念级、时序级和物理连续性信号。
notion image

3.Results

一般认为,模型能力会随训练规模平滑提升。但是BAGEL的能力有一个比较明显的阶段性,基础理解与高保真生成最先收敛(约0.18T-0.68T tokens),基础编辑能力随后出现(2.64T tokens达85%性能),而需要复杂推理的智能编辑直到3.61T tokens才爆发式增长。在3.5T tokens前,模型面对“将甜甜圈材质变为铝箔”这类指令时,往往只做微弱调整或直接复制输入图像;越过临界点后,它突然能生成具有金属反光、褶皱物理特性的铝箔结构。
"Different capabilities emerge at different stages—understanding and generation abilities emerge first, basic editing follows, and intelligent editing emerges last, reflecting the increasing complexity of these tasks.”
notion image