2025年,AI的发展有更智能了吗?
在人工智能的演进历程中,大型语言模型(LLM)的崛起标志着AI技术的一次飞跃,但真正的通用人工智能(AGI)远不止于文本的理解与生成。
当前大模型的发展已经从单一的语言模型迈向了多模态融合的新阶段,这是通向AGI的必经之路。
近日,在2025年世界人工智能大会(WAIC 2025)上,商汤科技联合创始人、执行董事、首席科学家林达华在接受21世纪经济报道记者采访时表示,人工智能的未来发展在于多模态信息的融合与物理世界的交互,而当前的大模型技术正朝着这一方向加速演进。
林达华强调,未来的多模态模型甚至能在纯语言任务上超越单一语言模型,而国内厂商也在加速布局,2025年下半年或将迎来多模态模型的全面普及。
然而,通向AGI的道路仍面临关键挑战,真正将智能落地到实际场景中目前来看仍有局限。
林达华向记者表示,尽管大模型在特定领域的推理能力已接近人类水平,但其泛化能力仍显不足,真正的突破在于推理能力能否从狭窄领域泛化到复杂的生活与生产场景。此外,当前多模态模型的空间感知能力也存在短板,这一能力的缺失可能成为具身智能落地的关键障碍。
具身智能被视为AGI的终极形态之一,今年以来热度居高不下。WAIC 2025大模型论坛上,商汤也正式发布了“悟能”具身智能平台,官宣入局具身智能。
显然,AGI的实现需要长期的技术积累与场景迭代。从单一语言模型到原生多模态架构,从数字空间的推理到具身智能的落地,AI的未来不仅需要更深的跨模态理解能力,还需突破空间感知、数据稀缺等关键瓶颈,才能真正迈向AGI的终极目标。
多模态需从理解层面延伸到思考层面
《21世纪》:未来大模型的演化趋势是怎样的?
林达华:回到智能的本源来看,我们所生活的世界它是各种模态的信号共同存在的世界。所以,如果我们要自主跟这个世界进行交互的话,它必然是要去跟不同的模态进行共同的交互,并且把它的信息汇集在一起来进行处理和分析。
为什么语言模型会成为这一波大模型打响的第一枪?是因为在人类的历史上积累下来非常丰富的知识,它本身是以语言的方式为主来存在的。但本质上语言是一种交流的工具,是一种传递信息的符号化的表达。语言并不是整个世界的本身。所以,从智能的本质来说,是需要对各种模态的信息进行跨模态的关联,才能够完成对这个世界的理解和建模。
所以,从某种意义上,我觉得语言模型可以说是大模型通向AGI比较容易切入的第一步,但是最终要通向人工智能,是不可缺少的需要一个多模态的能力的。
《21世纪》:多模态未来会如何发展?
林达华:早期的多模态的架构是一个语言模型接一个视觉编码器,这样的天花板是比较低的,模态跟语言之间的融合也是比较浅的。直到2024年下半年,出来了像Gemini的模型,提出所谓的原生多模态的概念,它真正把图像、视频的信息,融合在预训练的过程里面去,去形成更深层次的跨模态建模的能力。
现在我们要把多模态的融合从理解的层面,延伸到思考的层面。现在市面上的大模型APP也有多模态的能力,但深度思考的模式里传的都是文字。但是我觉得人的思考过程是一种逻辑思维跟形象思维的结合,也就是说在你思考的过程中,会不断地浮现出新的景象,新的印象,新的图形,然后在这个过程中,又在启发新的思考。
当有效进行融合训练之后,一个多模态模型是能够在纯语言的任务上面表现得比一个纯语言的模型更好。所以,当做到这一步的时候,一个单独的语言模型就不再是必要的。
商汤从日日新6.0开始,没有语言模型单独的存在,全部都是多模态模型,而且这个多模态模型在纯语言、纯文本的任务上面,依然也是表现出先进水平的性能。据我了解,现在国内的厂商,可能在今年下半年陆陆续续也会这么走。
具身智能需空间感知能力
《21世纪》:Agent被认为是AI落地的重要形态,如何看待它的发展?
林达华:Agent是大模型能力在现实世界落地的关键技术载体,2025年被视为“元年”并迎来大爆发,这与大模型能力的提升密切相关。
不过需要注意的是,尽管许多模型声称具备Agent能力,并在相关评测榜单上得分很高,但在实际落地场景中,尤其是在复杂条件的场景中,通用Agent仍存在较大差距。例如,在工业设计中,某些关键要素可能对设计产生重大影响,而通用Agent可能无法准确理解这些要素,导致设计偏差。
Agent的最终迭代必须围绕具体场景进行,否则其价值无法真正落地。在真实场景中,Agent的可靠性和成功率至关重要。如果Agent不能有效解决问题,反而增加用户的工作负担,那么它就无法被视为有价值的Agent。
我们发现,只有将Agent放入真实场景中进行迭代,结合行业知识和关键需求,才能开发出真正有用的Agent。
《21世纪》:实现AGI,还要在哪些方面突破?
林达华:推理在单科做到非常高,这个技术路径通过RL(强化学习)之后已经是比较成熟了。这里面最值得观察的突破点是,推理的性能能不能从单科的、单一领域的,比如奥赛、下围棋、写程序,拓展到广泛的生产、工作和生活的领域,做到跟真人一样能够自由地去推理的水平。如果是做到了可泛化,我觉得现有的模型距离AGI就靠近了一大步。
另一个重要的观察点是当前多模态模型的空间理解能力存在明显不足。国际顶尖多模态模型,在面对诸如积木拼接等简单空间问题时,也无法准确判断积木的组成数量以及各部分之间的连接关系,而这些问题对于几岁的儿童来说却是轻而易举的。
这表明当前多模态模型的思维方式主要依赖于逻辑推理,缺乏较强的空间感知能力。若这一问题得不到突破,未来将成为具身智能落地的重要障碍。
《21世纪》:具身智能当前面临哪些瓶颈?
林达华:从到达AGI的角度来说,是需要让智能走出数字空间,实现数字空间跟物理空间连接。具身智能与数字空间中的大模型存在显著区别。大模型能够从互联网获取海量的文本和图片数据,并对其进行深加工以提升质量,进而用于训练。
然而,具身智能的数据获取方式存在局限性,其数据主要通过机器人操作获得,而机器人的数量和操作速度都较为有限,导致数据吞吐量较低。无论是自动化操作还是人工操作,具身智能的数据获取都面临物理瓶颈,其数据量远低于互联网上的数字数据。
因此,仅依靠机器人真机操作的数据难以实现具身智能的有效发展,因为两者之间的数据量差距过大。具身智能需要借助先验能力、先验结构和先验数据,这些可以通过互联网上的大量视频等多模态数据构建强大的基座模型。仅依赖真机数据不仅数量级不足,而且无法满足当前快速迭代的需求。