6月5日,在腾讯云AI产业大会上,腾讯集团高级执行副总裁汤道生与腾讯首席AI科学家姚顺雨进行了一场近一小时的公开对谈。
这是腾讯高调加入AI大战以来一次少见的表达,也是腾讯首次较为完整对外阐释其对“AI下半场”的理解。
过去三年,中国大模型行业经历了一场激烈而漫长的竞赛。从参数规模、训练算力到榜单排名,行业曾一度将注意力集中在模型能力本身。但随着基础模型逐渐趋同,一个越来越现实的问题是,当模型背后的技术方法论不再是最重要门槛后,什么才是真正决定AI能力及价值的关键因素?
姚顺雨将这一阶段称为“AI下半场”。
在他看来,过去行业的核心任务是寻找解决问题的方法,而今天,更困难的事情正在变成寻找值得解决的问题。预训练与后训练的发展,让大模型逐渐成为一种通用能力,像一把可以敲击各种钉子的“万能锤子”。当方法论趋于成熟,真正重要的便不再只是模型本身,而是场景、产品、环境以及用户上下文。
这也是他最终选择加入腾讯的重要原因之一。姚顺雨认为,AI下半场寻找好的问题变得更加困难,而腾讯拥有的大量产品场景,以及由此产生的海量Context,可以提供“好问题”。
“环境是非常重要的,如果没有好的环境,Agent没有办法做各种事情。”在姚顺雨看来,大模型竞争正在从能力竞争转向环境竞争。模型需要工具、记忆和上下文,而拥有微信、腾讯云、企业服务、内容生态和大量用户行为场景的腾讯,天然具备训练和验证Agent的重要土壤。
组织文化也在对谈中被姚顺雨重点提及。他认为,一个真正面向AGI的组织,需要同时具备基础模型研发能力、产品落地能力以及前沿探索能力,而这三者之间的协同建立在坦诚和信任之上。对于一个高度不确定的技术周期而言,低ego、长期主义以及允许试错的文化,远比短期指标更加重要。
过去一年,关于腾讯AI布局最常见的外界评价之一是“慢”。相比率先发布ChatGPT竞品的创业公司,或高调押注基础模型的互联网巨头,腾讯显得相对克制。无论是混元模型还是元宝产品,都并未以最激进的姿态参与早期竞赛。
对此,汤道生在对谈中给出了一次相对直接的回应。他并不否认外界对腾讯有更高期待,但认为AI并非一场百米冲刺,而是一场持续十年以上的马拉松。腾讯拥有极其复杂的业务体系,不同赛道有不同节奏。有些业务需要快速跟进,有些则需要更长时间探索方向。
更重要的是,随着AI进入Agent时代,竞争焦点正在发生变化。上一阶段比拼的是模型参数和训练能力,下一阶段将更注重场景密度、上下文质量以及产品协同能力。腾讯的优势正来自过去二十余年在社交、内容、游戏、企业服务等领域积累的大量真实场景。
“我们正在长跑中,也请各位多给我们提醒,给我们建议,也多用我们的产品来给我们正向的反馈。”汤道生表达说。
从元宝、Workbuddy、CodeBuddy到企业智能体,腾讯试图构建一套由模型、工具、产品和场景共同组成的生态网络。从这个角度看来,比起一个爆款应用,腾讯现阶段或许更希望模型能力通过不同产品不断获得反馈和回流,而产品又通过模型获得新的交互方式和服务能力,形成持续强化的循环。
这场对谈展现了腾讯对于下一阶段AI竞争的核心判断,对于仍处在快速演进与激烈竞争中的中国AI产业而言,这同样是所谓下半场值得关注的信号。
以下为本场对话实录,界面新闻略作编辑:
汤道生:非常欢迎顺雨。
姚顺雨:大家好。我平时都在海淀区,很少来朝阳区,很高兴能来这儿。
汤道生:今天我们两个对话是一个比较新的形态,希望能给大家带去惊喜。顺雨,你加入腾讯前,我记得我问过你:为什么在AI“下半场”会选择腾讯?你认为下半场最重要的是什么?
姚顺雨:我先解释下什么叫“下半场”,这个概念是我去年在博客里提出来的。我觉得在去年之前,AI发展的重点是寻找好的方法去解决问题。但最近方法论已经非常成熟了,寻找“问题”反而变得更加困难。
以前我们发明AlphaGo这种方法是用来下棋的,为了翻译做专门的模型。但有了预训练和后训练之后,我们像是有了一个“万能锤子”,可以砸任何钉子。这就变成了一个通用方法论,反而如何寻找好的场景、好的问题去解决变得更关键。
我加入腾讯的一大原因就是这里有很多好问题、很多产品。一方面,好的产品能决定模型在什么地方产生价值;另一方面,环境(Environment)和上下文(Context)非常重要。如果没有点外卖的工具,Agent就点不了外卖;如果你不知道用户或企业在干什么,你就没有竞争壁垒。腾讯在最原始的输入和Context上有极强的优势。
但最重要的原因是文化。我第一次和你以及其他老板聊天时,印象最深的就是大家非常诚实。哪里做得好,哪里不好,非常直白。腾讯是一个基于信任(Trust)而非单纯基于指标(Metric)运转的公司,这种低ego、务实和长期主义,对构建一个AGI组织至关重要。
我认为AI下半场最核心的是在中国建立一个长期的、均衡的“三角形”组织:
Foundation(基础):把预训练和后训练做得非常扎实,这需要充足的资源和正确做事的方式。
产品:真正为人和社会产生价值,这需要极好的产品感。
Frontier(前沿):探索新的研究范式。目前国内的前沿探索还不够,我希望能把这种探索精神注入组织。
汤道生:你提到的务实氛围也是客户常给我们的反馈。AI赛道是长跑,我们要实事求是地面对长处和短处。这是一个多维度的竞赛,模型在进步,产品形态也在演进,未来非常可期。
你刚提到产品提供环境和上下文,在内部我们常提“Co-Design(协同设计)”,即如何把模型与丰富的产品(如元宝、AI搜索、CodeBuddy等)紧密结合。对于这种Co-Design的协作方式,你是怎么思考的?
姚顺雨:我觉得有三点:
第一,模型本身要过硬。预训练是产品无关的(agnostic),它提供泛化能力,其进步能带动所有下游任务。而后训练的关键是设立正确的Eval(评测)。国内有个倾向是喜欢刷榜,但更重要的是基于真实应用构造真实的评测。
第二,意识到“实用性”价值大于刷榜价值。我们和各产品深度Co-Design,关键在于建立信任。怎么用好产品数据、做好回流、优化细节,这需要大量磨合。
第三,LLM时代与过去最本质的区别是“泛化性”。以前做翻译只需翻译数据,现在即便做个编程Agent,也需要极强的聊天、搜索和指令遵循能力。这种复杂的“数据分类学”需要很好的品味(Taste)。
在这种体系下,协作的优势会放大。比如我们和元宝Co-Design产生的聊天和搜索能力,可以迁移到ima或Workbuddy上。不同产品提供的数据在体系内相互泛化,形成网络效应。
汤道生:确实,外部榜单也是一种Eval,那我们内部评测跟外部榜单的具体区别在哪?
姚顺雨:榜单有参考价值,但容易过拟合。基于真实数据的研发更有帮助:首先,它能发现模型的底线问题。我们发Preview模型的一个主因就是获取真实反馈,修复榜单发现不了的问题。
其次,能更深地了解真实的提示词分布(Prompt distribution)。榜单题目通常描述精确且完整,但现实场景中,用户的提问往往很模糊、只有一两句话,且会不停追问。这些场景能启发我们如何优化训练。甚至我们能从中获得灵感,推进一些目前还不存在的评测领域。
汤道生:记得早期做元宝时,我们碰到过多轮遵循的问题,用户迭代Prompt的方式确实跟榜单差异很大。
姚顺雨:你问了我这么多,我也想问你一个。我记得第一次聊时,你讲了很多过去的经历,从QQ空间、QQ秀到QQ音乐,再到云和现在的元宝。你做过to C、to B,远古时代的也有,最近AI时代的产品也有。你做产品的第一性原理是什么?哪些经验是不变的?哪些变了?
汤道生:核心逻辑没变:产品必须满足用户需求,解决痛点,创造价值,用户才会买单。无论是PC、移动互联网还是产业互联网,底层逻辑都是一样的。
但AI时代确实带来了很多不同。首先是范式的变化:以前做产品是“功能导向”,像提供“预制菜”,用户在菜单里选。而AI时代是开放式服务,交互通常是自然语言,产品方预判不了用户会问什么。这就要求利用模型理解需求,通过逻辑推理去调用工具。
其次是流程的变化。以前是瀑布式开发,有清晰的功能描述和测试。现在大模型能生成代码,工程师更多在做架构设计和定期指导。测试也必须“左移”,要更前置地考虑Eval环境、开放式答案的对齐(Alignment)以及用户偏好的风格。现在的产品开发对综合能力要求更高了。
姚顺雨:变难了。
汤道生:是变难了。大家都在说混元3(Hy3)Preview是你在腾讯的首秀,它具体做了哪些改变?
姚顺雨:其实没什么秘密。做大模型从某种程度说很“平实”(Trivial),关键是把基础设施(Infrastructure)和数据做好。
我们重建了基础设施,包括预训练和强化学习。
极大改变了数据和Eval,重新定义更真实的问题,提升数据质量和分类深度。
很多决策(如招人、节奏、各种取舍)没有清晰公式,靠的是“品味驱动”。
我也好奇,你对Co-Design是怎么看的?哪些事该模型做,哪些该产品做?
汤道生:这两年Co-Design一直在变,主要是随模型能力的升级而变。最深的感受是“对齐”很难。产品想解决某个方向的问题,模型怎么配合?数据怎么标注?颗粒度多细?什么是好的奖惩?
如果产品认为的好体验与模型的Eval指标不一致,大家做出来的东西就会冲突。Co-Design需要让不同角色对开放式问题有高度共识。如果对齐没做好,产品的行为就会不可预测,甚至因为训练过程被混淆而产生随机性。
姚顺雨:我觉得最难的是建立信任。模型人的目标是“能力越强越好”,产品人的目标是“用户需求满足就好”,天然存在不一致,所以同理心很重要。
在做元宝时,有个细节:当时我们的预训练还没准备好,但我派了后训练最强的骨干去帮元宝团队。当时有些算法同学不理解,但我认为维护好元宝的DAU对后续模型迭代至关重要。这种“换位思考”的动作让产品团队意识到,模型同学是真的在为产品着想。这种信任对于后来混元3 Preview在元宝上的成功上线起到了关键作用。
汤道生:换个话题。你是ReAct架构的提出者,博士研究也是围绕语言智能体(Language Agent)展开的。你几年前的一些观点,到今天兑现了吗?比如哪些?
姚顺雨:那天我挺感慨的,重新读了自己的博士论文。那是2019年,标题叫《从 Next Token Prediction 到数字自动化的语言智能体》。
汤道生:已经是7年前了。
姚顺雨:当时其实就是GPT-2时代。那时候它产生的对话还不连贯,甚至有很多毛刺,很难想象它能改变世界。当时大家研究比较保守,比如问“中国首都在哪”,模型能预测出“北京”,大家就觉得很有趣了。
但我当时的想象力比较“狂野”。我觉得GPT吐Token的机制虽然极简,但非常通用。我当时觉得它能把世界上所有的事情都自动化(Digital Automation),现在看,甚至可能是数字与物理世界的双重自动化。
我博士期间主要做了两部分工作:一是建立Agent的方法论,怎么把一个“预测机器”变成“自动化机器”,最重要的就是你提到的ReAct。我记得2022年7月的一个晚上,我第一次把模型和手写的维基百科 API 连在一起,它第一次实现了基于网页的多轮交互回答。那一刻就像微弱的灯泡突然亮了,我意识到这在未来5到10年会改变世界,只是没想到它来得这么快。
另一部分工作是定义“数字自动化”的任务,比如 WebShop、SWE-bench(编程任务)。现在看,外部Agent和Coding Agent确实是技术最重要的两个分支。我博士论文结尾写的Future Work包含:为Agent训练模型、稳健部署、科学发现以及帮助人类。我很幸运,现在确实是在做当时列下的这些方向。
汤道生:太厉害了,这些方向都一一在行业中推进。不过技术的发展往往超乎预期,现在的智能体需要消耗大量Token。对于混元下一代模型的研发,你的侧重点是什么?哪些地方比较重要?
姚顺雨:毫无疑问,Agent和Coding能力已经像预训练一样,是必须要做好的基础。我认为 Coding Agent 非常本质,因为它某种程度上是“图灵完备”的——当你能控制文件系统和容器时,你就成了一个完整的系统。
我们做的方法有几个特点:
体系全面化:要把Coding做好,不能只靠Coding数据,还需要聊天、推理等各种数据,因为大模型的核心是泛化性。
产品回流:如何利用好线上真实场景的回流数据,这需要深度的Co-Design经验。
想象力:除了技术演进,还需要去做一些具有探索性、不确定性的工作,寻找下一个范式。
汤道生:从产品侧看,大家现在都有“Token 焦虑”,成本在爆发式增长。很多客户和同事都在盯着积分和Token消耗。有什么办法能让模型在完成任务时,Token使用效率更高?
姚顺雨:在中国讨论性价比,大家常关注模型架构,但其实这是一个复杂体系。
首先,性能(Performance)才是最大的性价比。很多人发现用最强的模型反而更省钱,因为它一次就能把事情做对,省去了重复调用和人的精力。
其次是健壮性(Robustness),尤其是简单任务。如果能用一个更小的模型,在大部分任务上比肩大模型的性能且极度稳健,在中国会更有价值。
我也很好奇,你是什么时候意识到 Agent 是一个新的产品机会?现在的认知是什么?你觉得目前制约好用 Agent 的瓶颈在哪里?
汤道生:针对不同场景,Agent的产品形态不同。设计的核心是发挥好模型能力。随着模型迭代,Agent 的工作其实在“简化”:我们更多是给模型提供工具(Skills)、记忆(Memory)以及用户的偏好(Preference)作为上下文。
所以瓶颈在于,我们要理解在特定场景下,哪些信息是相关的、重要的。要把这些Context提取出来与模型配合好,让它在需要的时候有信息可用,从而发挥出推理能力。
姚顺雨:最近我们推出的Workbuddy口碑不错,背后很多小团队在快速迭代。我想问,相对于传统产品研发,这种Agent时代的研发模式和组织管理发生了什么变化?
汤道生:我最近在观察Workbuddy的组织架构,它非常扁平,和过去差异很大。更多是3到5人的小团队,围绕某一个领域攻坚,里面有大量的试验。
这种组织形态必须包容试错。因为大部分试验拿不到正向反馈,但必须通过大量试验,才能提炼出对用户流程有真正帮助的路径。
另外,角色的界限在模糊。工程师不再只负责写代码(因为可以交给 AI),他们更像是有想法的Leader,驱动多个Coding Agent去完成研发。同时,工程师也要前置地参与评测和对齐工作。
汤道生:我也想问一个大家讨论比较多的问题。很多人说腾讯“慢”,在AI上没及时抓住机会。你觉得我们真的慢了吗?下半场到底是什么?
姚顺雨:这个问题其实该我问你(笑)。我觉得这取决于两个判断:
第一,AI是短期游戏还是长期游戏?硅谷有人觉得一两年内AI就会取代所有工作,要赶快赚钱退休。但我们的判断是:AI 刚开始,下半场也刚开始。ChatGPT或Claude不会是唯一的超级 App,未来会有源源不断的新机会。
第二,这是线性游戏还是多元游戏?虽然现在大家都在做预训练、做Coding Agent,看起来有一条主线。但我认为未来会变得更多元。多模态、具身智能才刚刚发生。
从这个角度看,如果下半场刚开始,就不存在“完了”这一说。走弯路是正常的,更重要的是能不能诚实面对反馈、保持耐心。
汤道生:大家对腾讯提更高要求,我们非常欢迎。腾讯是一个业态非常复杂的公司,在不同赛道有不同的节奏。有的地方快,有的地方在探索。
正如你所说,这是一场马拉松。腾讯的优势在于丰富的场景。AI需要Context,而腾讯过去多年在各赛道的积累,能为模型提供最有价值的上下文。
今年初我们对Agent热潮的反应其实很快。像Workbuddy这种产品,其实也是从几年前做CodeBuddy慢慢演进来的。我们发现非程序员也有强需求,于是快速应对。现在很多客户对我们产品的组合非常有期待。
由于时间关系,对谈就到这里。感谢顺雨的分享。