• 最近访问:
发表于 2025-09-12 13:37:10 股吧网页版
训练成本大降超九成!阿里开源下一代基础模型架构 引入混合注意力机制
来源:澎湃新闻

K图 BABA_0

K图 09988_0

  阿里开源全新架构Qwen3-Next,80B参数新模型只需激活3B即可实现旗舰性能。

  9月12日,阿里通义发布下一代基础模型架构Qwen3-Next和基于新架构的模型Qwen3-Next-80B-A3B,包含两个版本:更擅长理解和执行指令的指令(Insctruct)模型,以及更擅长多步推理和深度思考的推理(Thinking)模型。

  据介绍,相比Qwen3的MoE(混合专家)模型结构,Qwen3-Next进行了以下核心改进:混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多token预测机制(简称MTP,Multiple-Token Prediction)。

  在核心技术方面,新模型采用全球首创混合架构,75%用Gated DeltaNet(线性注意力),25%用原创Gated Attention(门控注意力),总参数80B只需激活3B,就可以在性能上媲美Qwen3旗舰版235B模型,算力利用率约为3.7%,帮助用户“极致省钱”。

  在训练成本方面,Qwen3-Next模型较今年4月发布的密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上。新模型在Qwen3预训练数据的子集15T tokens上进行预训练,仅需Qwen3-32B所用GPU计算资源的9.3%,便能训练出性能更好的Qwen3-Next-Base基座模型,大幅提升了训练效率。

  阿里通义团队指出,高稀疏MoE架构是Qwen3-Next面向下一代模型的最新探索。当前,MoE是主流大模型都采用的架构,通过激活大参数中的小部分专家完成推理任务。此前,Qwen3系列的MoE专家激活比约为1比16,而Qwen3-Next通过更精密的高稀疏MoE架构设计,实现了1比50的极致激活比,创下业界新高。

  在性能表现方面,Qwen3-Next指令模型的性能表现与参数规模更大的Qwen3-235B-A22B-Instruct-2507持平,思维模型表现优于谷歌闭源模型Gemini-2.5-Flash-Thinking。

  Qwen3-Next-80B-A3B-Instruct指令模型性能评测图。来源:阿里通义

  目前,新模型已在魔搭社区和HuggingFace开源,开发者也可通过Qwen Chat免费体验,或直接调用阿里云百炼平台提供的API服务。

  关于Qwen3-Next模型值得注意的创新点,Pine AI联合创始人、首席科学家李博杰对澎湃新闻记者表示,Qwen3-Next采用了混合注意力机制和高稀疏MoE架构,从而大幅提升效率;除了这两大创新点以外,Qwen3-Next还在预训练时采用了多Token预测技术MTP(Mutiple-Token Prediction),模型推理速度大幅提升。

  李博杰表示,虽然以上三种技术创新在学界已有研究,但阿里证明了其在工业界的实用性,同时还保持了开源:“Qwen3-Next第一次证明了这些技术能够放在一起共同运作,并且能够在实际的业务场景中展现出很好的能力表现。从评测结果和模型架构来看,Qwen3-Next已经达到了谷歌Geimini 2.5 flash的水平。”

  近期,阿里通义动作频频,包括推出超万亿参数的Qwen3-Max-Preview、文生图及编辑模型Qwen-Image-edit、语音识别模型Qwen3-ASR-Flash等。全球AI开源社区HuggingFace的最新数据显示,通义千问Qwen衍生模型数已超17万,稳坐全球第一开源模型。

  9月1日,国际权威市场调研机构沙利文(Frost&Sullivan)发布了最新的《中国GenAI市场洞察:企业级大模型调用全景研究,2025》,报告显示,中国企业级大模型调用呈爆发式增长,2025年上半年日均调用量较2024年底实现363%的增长,目前超10万亿Tokens。其中,阿里通义占比17.7%位列第一,是中国企业选择最多的大模型。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500