就在上个月,此前任教于美国加州大学圣地亚哥分校的苏昊正式加入复旦,在人工智能学界引发关注。
5月27日,这位新加盟的复旦大学浩清特聘教授、通用物理智能研究院首任院长,在复旦大学校庆科学报告会上,首次面向全校师生作科学报告。苏昊作为ImageNet(注:全球超大规模图像数据集,是深度学习与计算机视觉发展的关键基石)的核心贡献者之一、具身智能领域的共同奠基人,其论文目前被引约15万次,在具身智能领域位居全球学者最前列,华人学者中排名第一。这场以“物理智能:从感知到交互”为主题的报告,是这位领军科学家回国后首次公开完整阐述他的学术蓝图。
【“物理智能”极其稀有】
“过去30年,科学界投入了大量精力让机器看和读得更明白——识别人脸、理解文字、生成图像,但它真的理解这个世界吗?推一下桌上的杯子,它知道会发生什么吗?如果用两倍的力再推一次,大模型能预判杯子的运动轨迹有何不同吗?”报告伊始,苏昊用一个朴素的问题引发观众思考。
他回顾了自己从2008年出国至今的研究历程,“18年间只做了一件事——让机器理解物理世界。”从早期的2D图像感知,转向3D形状理解,再到开发可交互的物理仿真平台,他逐渐认识到,要走向通用人工智能,必须把“看”和“做”统一在同一个框架、同一个闭环里。为此,他与多所大学和企业的前沿实验室一道,推动了具身智能的学科定义与社区凝聚。
正是基于这些探索,一条规律浮出水面:机器人实现简单的物体操作技能时,瓶颈在于视觉感知;而复杂操作技能的真正卡点,在于物理理解。
究竟什么是物理理解?苏昊用了一个人人都经历过的场景来解释——搬纸箱。伸手之前,你的大脑已经开始判断:这个箱子有多重?箱子结实吗?这些判断在零点几秒内就完成了,你甚至没有意识到。
“这种能力不是从书本上学到的,而是在无数次触碰、抓握、跌打中打磨出来的。”苏昊说,即使是目前最先进的AI面对同样的场景还是做不到,它可以识别出纸箱,却无法知道拿起来是什么感觉,“物理理解的本质不是看到了什么,而是给定一个动作,预测它将带来的物理后果。”
他借用认知科学的框架,将智能分为四个层级:感知智能(看懂图像)、空间智能(理解三维几何结构)、物理智能(理解物理交互和因果)、行为智能(做出决策和规划)。
一个值得注意的事实是,在自然界中,除了人类之外,第三层“物理智能”极其稀有,目前已知只有鸦科和类人猿等少数动物才具备。乌鸦往瓶子里投石子喝水、灵长类动物使用工具——这不是感知的简单升级,而是一次认知的质变。
【AI的下一里程碑】
“我认为,AI的下一个里程碑不是更会说话,而是理解物理世界,从而学会操作。”苏昊直言。
过去两年最流行的世界模型有两类,几何世界模型擅长空间理解,视频世界模型擅长视觉生成,但它们本质上都没有实现“物理理解”,也无法“预测行动后果”。
“真正需要的是第三类——物理交互世界模型,它既理解空间,又理解物理规律,能预测行动带来的后果。”苏昊说,这种模型目前仍处于较早期发展阶段,“不同技术路线都在同一个地方碰壁——物理智能层。而瓶颈的另一面就是机遇,谁能率先补上物理智能,谁就有可能定义下一代人工智能的范式。”
这正是苏昊领衔建设的复旦大学通用物理智能研究院要做的两件大事。第一,推动物理智能的最终实现。构建物理交互世界模型,让机器真正理解“推一下桌上的杯子会怎样”;第二,培养下一个十年的AI领军人才。
“我们看中两点:高品位的科研眼光,能判断什么问题值得去做;还有长周期的探索耐心,能在一个方向上坚持足够久。”苏昊强调,“我们不要只做论文的搬运工,而要做问题的提出者和解决者。”论文不是目标,而是副产品。真正的标尺,是能否在真实世界中实现智能体的有效行动与自主决策。
他给出三个关键词:交叉、交互、验证,并进一步阐释道,物理智能是多学科交叉问题,涉及数学、物理、计算机、人机交互、脑机接口等,因此通用物理智能研究院不设学科边界,而是围绕要解决的问题来汇聚人才。
关于交互,他指出交互数据是物理智能的“石油”。看1万个小时别人骑自行车,自己还是不会骑,必须通过主动交互获得物理经验。通用物理智能研究院将推动仿真平台和真实数据采集双线并行。
关于验证,他强调真实世界表现才是终审。仿真跑得再好,到了真实世界失败就不算数。从仿真到真实,是不可省略的一步。
复旦大学有数学和物理的根基,有新工科的决心,还背靠上海的产业生态,这些是做物理智能最需要的“土壤”。
【中国有机会主导这一方向】
对于物理智能,苏昊的态度是“谨慎的乐观”。
在他看来,大语言模型的竞争中,中国是追赶者;但物理智能不一样,全世界都还在同一条起跑线上,核心问题还没有被解决。中国具备产业链等优势,眼前正是一个有机会主导方向、定义范式的窗口期。
与此同时需要谨慎看待的是,很多demo(注:演示样例)非常精彩,比如机器人叠衣服、做饭、整理房间,但这些demo与真正的通用能力之间仍然存在着关键断层。“因为缺乏深度的物理理解,短期内达到大语言模型那种泛化程度还不现实,但在更长的时间尺度上,方向是清晰的。”苏昊说,具身智能将进入制造业、服务业、养老行业等,我们正通往人机共存时代,而这座“桥梁”,则建立在今天对物理智能的扎实探索之上。
“没有理解就没有泛化,没有交互就没有理解。”苏昊说,这是他多年人工智能研究最深切的体会。
他引用复旦校训“博学而笃志,切问而近思”解释物理智能的研究哲学:“切问,是从切身处发问;近思,是从实践中思考。这和物理智能的方法论有一种天然的契合——不是只坐在那里想,而是伸出手去碰,在碰撞中获得对世界的理解。这正是我们在复旦要践行的研究哲学。”