《科创板日报》11月5日讯(记者黄心怡)在第八届虹桥国际经济论坛“人形机器人创新发展合作”分论坛上,宇树科技创始人王兴兴发表了主题演讲。
他表示,今年机器人产业非常非常火热,个人比较乐观估计,全中国智能机器产业平均每家公司增长至少超过50%-100%。

“原本这个数据是我猜的,但前段时间有个相对比较准确的出口数据,我国出口工业机器人增长54.9%。在工业机器人领域都有这样的增长,那我觉得在智能机器人领域平均应该有100%的速度。今年非常火热,全行业应该感谢各种政策的支持。”王兴兴称。
王兴兴提到,机器人大模型进展速度比想象中慢了点,还没达到临界点。
“像我们做一些深度强化学习的全身运控,今年相对去年的进步是非常明显的,全球有目共睹。这部分的技术进步在当下的每个月还非常快,但在具身大模型、端到端能干活领域的技术进步,比我原本想象的稍微会慢一点点,但总体还是非常快。”
王兴兴认为,目前机器人大模型的状态相当于ChatGPT发布前1-3年。“大家已经发现了方向,但还没有达到真正做出来的临界点。”
对于具身智能模型和数据谁更值得关注,王兴兴认为,两方面都值得改进。
“简单的模型结构已经做了很多尝试,泛化能力还不太够,所以模型能力还需要创新。大家希望数据质量更好一点,有更大规模的数据,但对数据的采集、数据质量的评判还是非常困难。这两部分相辅相成,需要花更多时间。而不是单单只是一股脑地去采集大量数据,或者一股脑把模型规模做大,这稍微有点盲目了,更多在模型结构、数据采集方式和质量上需要更多思考,这也是目前面临比较大的问题。”
谈及何时实现真正的具身智能“ChatGPT时刻”,王兴兴认为,真正的具身智能在“ChatGPT时刻”是在陌生的生活场景中,如果给机器人发送语音或文字,机器人大概能实现80%左右的任务。
“这个场景是人形机器人完全没有预训练过的,能达到80%左右的成功率,已经是非常突破性的技术了,而且基本可以达到ChatGPT时刻,这是非常非常重要的目标。未来一年到两年,当然希望我们公司能实现。但说实在,目前全世界做AI还是概率成分、看运气。如果明年、后年谁能把这个目标实现了,毋庸置疑应是全球最领先的具身智能AI模型。”
对于具身智能两种主流模型——VLA和世界模型,王兴兴表示非常喜欢基于视频生成的世界模型
“相对来说架构比较清晰干净的VLA+RL模型,可以用仿真环境做训练,或者用真实场景做训练,这也是当下大家非常非常主流的模型,但也面临很多挑战,泛化能力相对来说不是特别够。而基于视频生成的世界模型,我个人还是非常喜欢。这个模型也面临比较大的挑战,中小型机器人公司这个模型跑不太动,因为视频生成模型对算力的需求非常非常大,需要的算力卡是比较多的。反而是一些大的AI公司、互联网公司对视频模型的资源更加丰富,可以做出来的概率更大一点。”