蚂蚁与人大联合发布行业首个原生MoE扩散语言模型将于近期开源_阿里巴巴(usbaba)股吧

股吧首页 > 阿里巴巴吧 > 正文

最近访问：

阿里巴巴吧

返回阿里巴巴吧>>

- 重要股东股权质押数据全览

阿里巴巴资讯

发表于 2025-09-13 00:28:31 股吧网页版

蚂蚁与人大联合发布行业首个原生MoE扩散语言模型将于近期开源

来源：上海证券报·中国证券网作者：宋薇萍

　　上证报中国证券网讯（记者宋薇萍）2025Inclusion·外滩大会期间，蚂蚁集团与中国人民大学昨日在上海联合发布业界首个原生MoE架构的扩散语言模型（dLLM）“LLaDA-MoE”。模型将在近期完全开源，以推动全球AI社区在dLLM上的技术发展。

　　据介绍，这款新模型通过非自回归的掩码扩散机制，首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能（如上下文学习、指令遵循、代码和数学推理等），挑战了“语言模型必须自回归”的主流认知。

　　实现数据显示，LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型，接近或超越了自回归模型Qwen2.5-3B-Instruct，仅激活1.4B参数即可实现等效3B稠密模型的性能。

　　“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性，意味我们在把dLLM训扩到更大规模的路上又往前走了一步。”蚂蚁集团通用人工智能研究中心主任，西湖大学特聘研究员、西湖心辰创始人蓝振忠在发布现场表示。

　　中国人民大学高瓴人工智能学院副教授李崇轩介绍，“两年过去，AI大模型能力突飞猛进，但存在一些问题始终没有得到本质上的解决。究其原因，这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的，从前往后依次生成下一个token。这导致它们难以捕获tokens之间的双向依赖关系。”

　　面对这些问题，一些研究者选择另辟蹊径，将目光投向并行解码的扩散语言模型。然而，现有dLLM均基于稠密架构，难以复刻ARM中MoE的“参数扩展、计算高效”优势。在这样的行业背景下，蚂蚁和人大联合研究团队，首次在MoE架构上推出了原生的扩散语言模型LLaDA-MoE。

　　蓝振忠还表示，“我们将于近期向全球完全开源模型权重和自研推理框架，与社区共同推动AGI新一轮突破。”

　　蓝振忠介绍，除模型权重外，蚂蚁还将同步开源针对dLLM并行特性深度优化的推理引擎。相比NVIDIA官方 fast-dLLM，该引擎实现了显著加速。相关代码与技术报告将于近期在GitHub及Hugging Face社区同步发布。

　　蓝振忠还透露，蚂蚁将持续投入包括基于dLLM的AGI领域，下一阶段将联合学界和全球AI社区共同推动AGI新的突破。“自回归不是终点，扩散模型同样可以成为通向AGI的主干道。”蓝振忠如是说。

（文章来源：上海证券报·中国证券网） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》