人工智能未来技术发展方向是什么?如何实现通用人工智能(AGI)?今天下午举行的2025世界人工智能大会(WAIC)科学前沿全体会议上,2024年图灵奖得主、美国阿尔伯塔大学计算机科学系教授理查德·萨顿以连线方式做了主旨演讲,认为人工智能应从“数据时代”迈向“体验时代”,借鉴婴儿学习方式,通过体验外部世界获得越来越多的知识和能力,最终产生通用人工智能体,即具有高效的学习和泛化能力,能根据所处的复杂动态环境自主提出并完成任务,且符合人类情感和伦理观念。
萨顿与安德鲁·巴托分享了2024年图灵奖,他们是强化学习的奠基人。强化学习是一种机器学习方法,让智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行行动,并根据行动的结果接收反馈,即奖励。这些奖励信号指导智能体调整其策略,以获得最大化的长期累积奖励。人类和宠物的很多学习可看作强化学习,答对问题、成功完成任务后就能获得奖励。
在萨顿看来,与环境交互的强化学习在人工智能未来发展中,仍将扮演重要角色。近年来,虽然遵循规模化法则(Scaling Law)的大模型发展神速,但用于训练大模型的数据已几乎耗尽,人工智能发展的“数据时代”可能会在不久的将来落幕。
2025世界人工智能大会(WAIC)科学前沿全体会议今天下午在上海举行。
那么,下一个时代是什么呢?萨顿认为是“体验时代”。他在演讲中引用了人工智能奠基人艾伦·图灵在1947年说的一句话:“我们想要的是一台能够从经验中学习的机器。”所谓体验,就是从经验中学习,这是人类的一种重要学习模式。
萨顿向与会专家展示了一段婴儿在地上玩耍的视频。“注意看,婴儿是如何为自己创造数据的。他与玩具互动,从中学习,玩腻了就会玩下一个玩具。这个过程中产生的数据不是静态的,而是由婴儿行为定制的动态数据。”他指出,这种动态数据与训练大模型的静态数据集截然不同,它们由好奇心驱动的探索行为产生,通过眼睛、耳朵和四肢进入学习者身体。
如何让人工智能像婴儿那样,学习动态数据?一方面,要加快发展具身智能,让拥有眼睛、耳朵和四肢的机器人与外部世界交互,获得数据集以外的知识和能力。另一方面,要充分发挥强化学习的潜能,研发更好的强化学习算法,使智能体可以像人类那样持续学习,消除人工神经网络的“灾难性遗忘”缺陷。
在具身智能领域,上海科研团队已有新的突破。科学前沿全体会议上,上海人工智能实验室青年科学家庞江淼发布了“书生”具身全栈引擎(Intern-Robotics)。

上海人工智能实验室发布“与书生共创”系列成果。
通过构建虚拟仿真建模、虚实数据贯通、训测一体化等技术体系,这套具身智能引擎实现了多项创新突破:一脑多形,开发一套模型,就能适配10余种机器人形态;虚实贯通,融合真机实采与虚拟合成数据,数据采集成本与前代方案相比大幅降低;训测一体,提供全任务工具链,让用户一键启动模型训练,快速部署具身大脑。
上海人工智能实验室同步启动了“具身智能光合计划”,以实验室平台为支撑,赋能机器人实训场、机器人企业和开发者社区,推动数字智能向物理智能迈进。目前,已有智元机器人、宇树科技、银河通用、国地共建人形机器人创新中心等15家企业加入这项计划。