• 最近访问:
发表于 2026-04-23 21:25:40 股吧网页版
腾讯姚顺雨:混元迈出重建大模型第一步
来源:第一财经 作者:郑栩彤

  前OpenAI研究员姚顺雨交出加入腾讯后的第一份答卷。

  4月23日,腾讯混元发布Hy3 preview语言模型并将该模型开源。姚顺雨说,这是混元大模型重建的第一步。

  去年12月,他入职腾讯后出任“CEO/总裁办公室”首席AI科学家。今年2月,腾讯混元重建了预训练和强化学习的基础设施,两个月后,Hy3 preview终于面世。

  上月,腾讯高管已在业绩发布会上预告该模型,并给予颇高评价,称这是一次混元模型的重大升级。此次Hy3 preview则公布了一些参数。这是一个快慢思考融合的混合专家模型,总参数 295B,激活参数21B,最大支持256K上下文长度。

  从定位看,Hy3 preview主推Agent能力、上下文学习能力、复杂推理能力和代码能力。从基准测试得分看,该模型的能力仍与Gemini-3.1-Pro、GPT-5.4 xhigh有差距,但在部分基准测试中得分接近或高于国内的大模型Kimi-K2.5和GLM-5。

  上下文学习和指令遵循能力方面,Hy3 preview在AdvancedIF(复杂指令遵循)和AALCR(长上下文推理)基准测试中得分低于Gemini-3.1-Pro、GPT-5.4 xhigh,但超过Kimi-K2.5和GLM-5,Long Bench v2(长上下文推理)测试得分高于Kimi-2.5。在腾讯混元提出的两个针对上下文学习能力的CL-bench和CL-bench-Life基准测试中,Hy3 preview得分低于两个海外模型,但高于Kimi-K2.5和GLM-5。

  复杂推理能力方面,Hy3 preview在FrontierScience-Olympiad(专家级科学推理)和IMOAnswerBench(数学推理)基准测试中得分超过Kimi-K2.5和GLM-5,低于两个海外模型。在GPQA Diamond(博士级科学问题)基准测试中,Hy3 preview得分超过Kimi-K2.5,低于其他三个模型。在全国中学生生物学联赛(CHSBO 2025)中,Hy3 preview得分最高。

  代码与智能体能力方面,Hy3 preview在SWE-Bench Verified(解决现实世界软件问题)、Terminal-Bench 2.0(智能体端到端执行)、BrowseComp(互联网上定位关联信息)基准测试中,得分都低于Claude-Opus-4.6和GLM-5,Terminal-Bench 2.0得分超过Kimi-K2.5。Hy3 preview在WildClawBench(智能体真实落地能力)、Claw Eval(真实世界任务中的智能体能力)测试中的得分超过Kimi-K2.5,低于GLM-5和Claude-Opus-4.6。在针对真实开发场景表现的混元内部测评集中,Hy3 preview得分超过Kimi-K2.5。

  从一些基准测试得分可以看到,相比上一代的Hy2,Hy3 preview与头部模型之间的差距有所缩小。

  姚顺雨表示,希望通过开源和发布获得来自开源社区和用户的真实反馈,帮助混元提升Hy3正式版的实用性。混元也在继续扩大预训练和强化学习规模,提升模型的智能上限,并通过与腾讯众多产品的协同设计,提升模型在真实场景中的综合表现,并开始探索特色模型能力。

  今年1月,姚顺雨在入职腾讯后的首次公开亮相中,也提到模型智能水平的重要性。姚顺雨称,To C和To B市场的底层逻辑已经不同。To C市场的大部分用户在大部分时间不需要极强的智能,但在To B领域,智能越高代表生产力越高、溢价空间越大,企业级市场对模型能力的付费意愿已呈现极端的头部效应。

  姚顺雨表示,在编程等高频且严肃的生产力场景中,较弱模型产生的错误需要人工耗费大量精力去排查,隐性成本远超模型差价,因此To B市场正走向分化,强模型和弱模型的差距将更明显。而在To C市场,姚顺雨还表示,单纯的模型参数竞赛已不是全部,未来的核心竞争力在于对语境(Context)的捕捉。

  姚顺雨当时还谈到模型“刷榜”,称国内对刷榜或数字看得更重,Anthropic Claude在编程或软件工程榜单上的排行不是最高的,但行业都知道它最好。据了解,腾讯混元此前已确立了模型追求实用性的原则,其中就包括评测真实性,要求主动跳出易被“刷榜”的公开榜单并通过自建题目等方式评估和改进模型能力。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500