• 最近访问:
发表于 2025-12-10 17:53:40 股吧网页版
原生多模态统一架构比不过单模态专家模型?华为团队出品的EMMA “Say No”
来源:OFweek

  作者:Xin He, Longhui Wei等

  解读:AI生成未来

  背景与动机

  当前多模态大模型已经成为大模型领域最为重要的研究热点,尤其是随着OpenAI的GPT-4O展现出极强的多模交互生成能力,以及谷歌GEMINI依靠原生多模架构打了一场漂亮的大模型翻身仗,如何构建多模态统一架构已经成为2025年多模态大模型领域最为关心的课题。

  尽管构建多模态统一架构已经成为了业界几乎所有大模型研究者的共识,但是如何构建多模态统一架构的路线目前仍然未收敛,比如1)直接利用开源的理解或生成专家模型然后中间设计桥接器来构建多模交互能力,典型代表工作比如UniWorldV1, Metaquery, OminiGen2等; 2)架构统一并进行端到端原生训练以激发多模能力,但其理解与生成任务优化目标不同。代表工作如字节的BAGEL,Mogao以及Deepseek的JanusFlow 3) 追求完美统一,优化目标一致,比如EMU系列和D-DiT。但无论哪种路线,围绕大家心中最为关键的一个问题就是,多模态统一架构所训练激发的能力到底能不能超过单独的多模态理解或者多模态生成模型,从而证明多模态统一架构所具备的优势?华为近期发布的高效多模态统一架构EMMA就给出了相关答案,是可以的!

  先上结果

  我们先来看结果,一句话总结:EMMA以4B MOE规模的大小在多模态理解、生成、编辑等榜单上力压当前各种7B大小的统一架构模型,远超BAGEL

  再来看看与单独的专家模型对比。比如在多模态理解常常测评的11个榜单上,EMMA-4B模型要比Qwen3-VL-4B取得更好的结果。

  同时,在图像生成GenEval榜单上EMMA也获得了超高的分数。

  具体方法和实验细节

  我们来看看EMMA到底通过什么方案来取得这么好的效果呢? 核心方案:

  高效压缩,平衡理解与生成Token;采用32x高效压缩的生成编码器,使得与理解分支一致,保证理解与生成的token平衡,这个近期Meta的统一架构工作TUNA也提及到理解与生成token平衡。因此,1K分辨率的图像理解和生成编码器都会编码成1024个视觉token。

  Token Channel-wise拼接,降低视觉Token数;理解token 和生成token 直接通道拼接而不是token 数拼接,这样在做信息融合的时候避免token爆炸,有利于多模交互场景;

  采用共享及解耦网络机制;在原生多模知识共享(这点大家可以参考对照生成需要REPA loss)的同时满足任务特异性建模(理解语义建模,生成需要语义和高频信息建模)

  理解编码器siglip2改成专家混合架构mixpert,以应对多样的输入图像类型。

  其整体架构图和训练细节如下。 基于上述方案,EMMA在满足高效的同时(例如编辑任务降低5倍视觉token)达到SOTA性能,相较于BAGEL7B有大幅提升。同时相较于Qwen3-VL-4B进行了对比在11个理解榜单取得了相当甚至更优的结果

  可视化结果

  最后我们再来看一些具体的可视化结果

  是不是EMMA的生成能力相当能打?

  总结

  EMMA通过高效的编码器设计融合策略和网络结构语义共享及高层任务解耦机制,能够高效地完成原生多模态统一架构训练,最终配合上高质量的数据工程和训练方案EMMA能够在多模态理解、生成及编辑等榜单上大幅超过BAGEL。相较于理解SOTA模型Qwen3-VL-4B以及Qwen-Image也能展现出具备竞争力的结果。EMMA进一步揭示了原生多模态统一架构的潜力,也证明了原生多模态统一架构是能够超越专有模型的,为后续多模态统一架构研究奠定坚实的基础。

  参考文献

  [1] EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

  原文标题 : 原生多模态统一架构比不过单模态专家模型?华为团队出品的EMMA “Say No”

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500