作者:Xin He, Longhui Wei等
解读:AI生成未来

背景与动机
当前多模态大模型已经成为大模型领域最为重要的研究热点,尤其是随着OpenAI的GPT-4O展现出极强的多模交互生成能力,以及谷歌GEMINI依靠原生多模架构打了一场漂亮的大模型翻身仗,如何构建多模态统一架构已经成为2025年多模态大模型领域最为关心的课题。
尽管构建多模态统一架构已经成为了业界几乎所有大模型研究者的共识,但是如何构建多模态统一架构的路线目前仍然未收敛,比如1)直接利用开源的理解或生成专家模型然后中间设计桥接器来构建多模交互能力,典型代表工作比如UniWorldV1, Metaquery, OminiGen2等; 2)架构统一并进行端到端原生训练以激发多模能力,但其理解与生成任务优化目标不同。代表工作如字节的BAGEL,Mogao以及Deepseek的JanusFlow 3) 追求完美统一,优化目标一致,比如EMU系列和D-DiT。但无论哪种路线,围绕大家心中最为关键的一个问题就是,多模态统一架构所训练激发的能力到底能不能超过单独的多模态理解或者多模态生成模型,从而证明多模态统一架构所具备的优势?华为近期发布的高效多模态统一架构EMMA就给出了相关答案,是可以的!
先上结果
我们先来看结果,一句话总结:EMMA以4B MOE规模的大小在多模态理解、生成、编辑等榜单上力压当前各种7B大小的统一架构模型,远超BAGEL

再来看看与单独的专家模型对比。比如在多模态理解常常测评的11个榜单上,EMMA-4B模型要比Qwen3-VL-4B取得更好的结果。

同时,在图像生成GenEval榜单上EMMA也获得了超高的分数。

具体方法和实验细节
我们来看看EMMA到底通过什么方案来取得这么好的效果呢? 核心方案:
高效压缩,平衡理解与生成Token;采用32x高效压缩的生成编码器,使得与理解分支一致,保证理解与生成的token平衡,这个近期Meta的统一架构工作TUNA也提及到理解与生成token平衡。因此,1K分辨率的图像理解和生成编码器都会编码成1024个视觉token。
Token Channel-wise拼接,降低视觉Token数;理解token 和生成token 直接通道拼接而不是token 数拼接,这样在做信息融合的时候避免token爆炸,有利于多模交互场景;
采用共享及解耦网络机制;在原生多模知识共享(这点大家可以参考对照生成需要REPA loss)的同时满足任务特异性建模(理解语义建模,生成需要语义和高频信息建模)
理解编码器siglip2改成专家混合架构mixpert,以应对多样的输入图像类型。
其整体架构图和训练细节如下。 基于上述方案,EMMA在满足高效的同时(例如编辑任务降低5倍视觉token)达到SOTA性能,相较于BAGEL7B有大幅提升。同时相较于Qwen3-VL-4B进行了对比在11个理解榜单取得了相当甚至更优的结果


可视化结果
最后我们再来看一些具体的可视化结果


是不是EMMA的生成能力相当能打?
总结
EMMA通过高效的编码器设计融合策略和网络结构语义共享及高层任务解耦机制,能够高效地完成原生多模态统一架构训练,最终配合上高质量的数据工程和训练方案EMMA能够在多模态理解、生成及编辑等榜单上大幅超过BAGEL。相较于理解SOTA模型Qwen3-VL-4B以及Qwen-Image也能展现出具备竞争力的结果。EMMA进一步揭示了原生多模态统一架构的潜力,也证明了原生多模态统一架构是能够超越专有模型的,为后续多模态统一架构研究奠定坚实的基础。
参考文献
[1] EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture
原文标题 : 原生多模态统一架构比不过单模态专家模型?华为团队出品的EMMA “Say No”