9月11日,宇树科技CEO王兴兴出席上海外滩大会,并谈到了AI目前的发展节奏与未来方向,包括AI在通过多模态能力控制机器人领域的短板。
谈及AI领域的机遇,王兴兴表示,对于目前年轻一代来说,AI是一个良机。
他表示,过去大家都是从基础代码开始编程,而现在大家都把AI当做一个“越狱”编程工具。包括可以用更高级的模型能力去创作图像,或者创造Agent。
“当前的AI不能把它当做一个模型,而是一个工具集,忘记过去对模型的认知,重新学习和接受它一下,再去把它用得更好。”
谈及较早进入科技行业,王兴兴表示,自己早年通过对科技的兴趣,以及大学的机器人创造经历,顺理成章进入机器人行业。有一段时间,自己曾一度接触和喜欢神经网络,但因从事机器人行业,所以并没有在AI领域进行创业。
“最近几年因为AI领域的发展,无论是大模型也好,包括机器人的AI模型进展也非常快。我觉得这是给我个人的再一次机会,把握住AI的时代,让AI真正去落地干活。”王兴兴表示。
王兴兴还着重谈到了让AI和具身智能干活一事。
“现在的语言模型,包括一些文字图像领域已经做得非常好了,我觉得比99.99%的人都要做得好。但是真正到AI干活这个领域,现在整个领域都是荒漠,荒漠上可能长了几个小草,真正大规模爆发性增长的前夜还没来。”王兴兴表示:“这个时代对我来说,非常激动人心。对所有的人,尤其对于在座的,包括对于现在的学生来说,都是非常公平的时代,比以前要公平非常多。只要你聪明,愿意做事,你能做,你想达到自己想做的目标,大家都能在荒漠长出一些参天大树出来。”
在被问及机器人硬件、数据和架构创新的问题时,王兴兴重复了此前的态度。
“我前段时间说过,但是我说这话其实也不是说数据不重要,大家不要误解,”王兴兴表示:目前机器人的数据无论采集,包括它的噪声,包括数据质量的问题都非常大,包括到现在为止,真正的比较优质的数据应该怎么采,或者数据的质量应该达到什么程度,都还是相对比较模糊的阶段。
王兴兴还谈到,目前机器人在AI模型多模态融合方面仍然做得不够理想。
他表示,纯语言模型或者纯视频模型当前效果非常好,但即便是语言图像模态叠加,当下都是一个比较大的难点。
“当然现在已经做得越来越好了。比如说你要控制好一个图片生成的一些细节,或者一个视频生成的细节,你用文字单纯去控制是很难的,目前通过一些插图或者一些线稿来控制,图像生成效果会更好一点。”
而机器人要实现多模态智能,无疑又与语言模型和图像模型的智能融合关联密切。
“目前在机器人领域,如果单纯从语言或者其它模态,与机器人的控制模态绑定更好,现在也面临挺大挑战。比如说用视频去生成一个机器人做家务,现在视频生成的效果还不错的,但是要让生成的效果跟机器人控制的模态对齐得非常好,当下非常有挑战。”
当被问及多长时间能实现具身智能的突破时,王兴兴的回应重复了此前机器人硬件“够用论”。
“硬件其实目前是足够的,我觉得一两年以前的硬件都完全足够。其实最大的问题还是大模型AI模型本身的能力确实不太够。目前的软件没办法很好地把这些硬件给用起来,比如现在灵巧手用得就不是很好。无论是数据采集,包括控制灵巧手很好地去做一些更灵巧的事情,而不单单只是说做一些简单的抓取之类的事情,当下对AI领域也是一件非常具有挑战的事情。”