• 最近访问:
发表于 2025-08-09 21:50:51 股吧网页版
宇树科技王兴兴:机器人数据关注度有点太高了,最大问题在模型
来源:21世纪经济报道

  “在未来2到5年,最重要的一件事还是端到端的具身智能AI模型。”宇树科技CEO王兴兴在2025世界机器人大会上谈及对机器人产业未来的看法时如是表示。

  过去一段时间,机器人业界和投资界对数据问题的关注度非常高,有OpenAI珠玉在前,大力可以出奇迹,只要真实数据足够多,就可以训练出真正聪明的具身智能。某种程度上,这也是近期各地机器人数采中心雨后春笋般纷纷冒出来的重要原因。

  不过,王兴兴对此有不同看法,在前述大会上,一口气提出不少“反共识”。

  首先,王兴兴认为,机器人硬件性能虽然还不够好,但目前是够用的,“目前最大的挑战还是具身智能的AI还是完全不够用。这也是限制人形机器大规模应用的一个最大点。”

  在他看来,当前这个时点有点像ChatGPT出来之前的1到3年,用他的话来说就是“目前整个业界大家已经发现了类似的方向以及技术路线,但是没人把它做出来”。

  其次,目前具身智能没有达到理想效果,到底是模型的问题还是数据的问题?王兴兴的答案很直接,“目前全球范围内,大家对机器人数据这个问题关注度有点太高了。”

  在他看来,现在最大的问题是反而是模型的问题,并不是数据问题。因为目前就具身智能和机器人而言,模型架构都不够好,也不够统一。导致大家对模型反而关注的有点少,对数据的问题关注很多。

  最后,对于不少玩家押注的VLA+RL路线,王兴兴也表达了不同看法。

  “我个人感觉,包括我们公司目前尝试下来,VLA+RL还是不够的,这个模型架构还是得再升级和优化。”王兴兴认为,“用视频生成模型去做训练,可能比VLA模型收敛的概率还更大。”

  以下为21世纪经济报道记者整理的王兴兴演讲全文:

  大家好,非常荣幸在此做一个分享。我是宇树科技创始人王兴兴。我们公司2016年成立,到现在有九年时间,也比较长了。我们最早是做高性能四足机器人,最近几年也做高性能的人形机器人。目前产品的布局还是相对比较多的,各型号都会比较多一些。

  简单介绍一下,最早是在2013年到2015年左右,我在读书期间做的XDog这款机器。基本上开创了全球范围内这种低成本、高性能四足机器人技术方案的先河。简单说,就是在我当时做这个技术方案之前,大部分的业界(包括很多学校)大家做的这种机器人,都是采用了工业电机和工业伺服驱动器,成本非常高。而且尺寸也非常大,非常不好用。

  2013年我想到这个方案的时候,甚至想过要不要辍学去创业。因为大家也知道,辍学创业还是非常时尚的一个概念。我当时想了想,在那个时候,其实是不现实的一件事情。因为只是有个想法,没有把东西做出来,也没有别的一些资源。

  在2013年到2015、2016年,是把这个机器人给做出来了。而且这个机器人,大家可能想象不到,当时的整个研发投入大概只有1到2万元人民币。在2015年的时候,我还用这台机器人去参加了一个上海的比赛,获得了总分的二等奖,赚了8万元奖金。所以这款机器也算是我赚的第一桶金。在我们公司2016年成立的时候,最早这部分钱就这是这么来的。

  这也是比较有代表性的一个机器,包括现在很多人形机器人用的很多技术方案,跟这个技术方案也非常类似。另外,我们公司的四足机器人主机主要是有三款。一款是比较小的,像GO2,这款机器人在2023年发布的时候,就集成了大语言模型,功能非常健全。标配了3D激光雷达、语言模型,还有各种小的功能。目前这款机器也是过去几年(包括今年),应该全球范围内,四足机器人机器出货量最多的一款机器狗。

  此外,我们的B2这款机器人,主要是工业应用的。因为我们还是希望机器人真正去干活,包括工业场景等各种场景。所以这款机器人,持续扩展能力和续航能力,到现在为止都非常强劲。

  对于我们人形机器人,我在很多场合也说过,我们公司早些年,我一直是坚决反对做人形机器人的。为什么呢?因为当时在2009年,我在读大一的时候,做的第一款机器人就是一个小的双足人形机器人,花了两百多元人民币。

  当时我就发现,那个时候你要去做人形机器人,他的商业价值或者技术是非常难做的。所以,我们公司成立很多年,一直是反对做人形机器人。

  但是后来在2021年到2022年,全球人工智能发展非常迅速。尤其以ChatGPT那个时刻为代表的,就是整个AI的技术进步非常显著。

  并且像马斯克为代表的尖端企业(等产业界),对这个领域关注度非常高,带动了全球范围内的大众,对人形机器人关注非常高。

  说得再直接一点,大家可能想象不到,在2022年的时候,我们公司完全没有开始做人形机器人。但是有很多客户直接找我们下订单。就是我们啥都没有,但是有客户愿意直接给我们钱,付定金下订单给我们。所以这直接导致我们在2023年初就开始做人形机器人。

  (H1)这款机器人就是我们2023年初花了半年多时间做的第一款人力机器人。因为这款机器人是我们公司做的第一代,所以外观上可能相对粗陋一点。但它的动力性能到现在为止都非常强劲。上春晚的也是这款机器人。而且下个礼拜,我们在北京有个机器人比赛,我们这款机器人也会上场,大家可以关注一下。

  去年我们发布了第二款机器人,就是G1这款机器人。这款机器人到现在,也非常具有代表性,它代表些什么东西呢?从去年我们这款机器人发布以后到今年,大家可以发现很多其他企业的新兴的人形机器人,都跟我们这款机器人整个架构非常类似。

  这款机器人的动力性能,包括灵活度非常好。去年发布的时候,这款机器人低配价格大概是9.9万元人民币,非常有竞争力的。所以,这款机器人在去年,包括今年,应该差不多是全球人形机器领域出货量最多的。

  如果大家平时刷抖音,刷一些视频号,大家可以看到,很多我们的客户自发这些平台上放直播,基本上每天都有。

  我们前一两周刚发布的一款R1这款新的人形机器人。最大的特点,相对来说性价比更高些,当然也会更小一点,大概1.2米,但它的最低配价格做到3.99万元人民币。

  另外一个比较有特点的是,在它的外观,我们给客户留了很大的外观定制空间,大家可以在上面改装或涂装自己喜欢的造型。

  因为大家也知道,大家还是希望给自己的机器人做一些各种的打扮,衣服,各种的一些涂装,大家还是非常喜欢的。在我们展位上也有,大家有兴趣的话可以去看一下。到目前这个量产还没有搞定,发货可能还是要比较晚一些。

  另外,我们前段时间也发布了新一款的四足机器人。最大特点是自重和负载能力是非常强的。自重大概只有35千克。对一个成年男性来说,完全可以把它搬起来,还是非常方便的。但它的负载能力又非常强,持续负载能力可以达到差不多25到30千克左右,空载续航可以达到6个多小时,简单来说,这个空载续航大概可以达到(行进)20千米。

  我们去年底对轮足做了一些更新。大家可能会好奇,为什么我们的轮组会相对来说有了更多的灵活性?其实原因非常简单,就是我们过去的一两年,我们在人形机器人上开发了很多些复杂的动作。我们把这些复杂动作的算法直接用到了我们机器狗上面。

  这样的话我们机器狗就带了很大的一些灵活性。

  并且这款机器人本身是工业级的,就是可以防尘防水。相对来说工业级场景会比较合适。

  我们的工业级产品,在过去几年,已经在很多的工业领域,比如电网、工厂已经有24小时运行。它有自动充电,可以自动巡逻,自动识别一些图像、气体等。

  而且这款机型其实是相对有点大,这也是为什么我们又发布一款相对小一点的机器狗。

  这款机器人如果带上轮子的话,它的自重达到了将近七八十千克,其实稍微有点重,也有点大的。但是在这么大的情况下,它的灵活性还是非常不错的。

  负载能力也非常强,能达到可以四五十千克的持续负载能力。基本上一般性的话,载个人其实都没问题。当然有点危险性,不太推荐大家这么玩。

  很多人以为我们公司一直把机器人当做一些表演、打格斗之类的(产品)。其实我们公司还是一直是非常重视让机器人干活这件事情。我们核心目标还是说让机器人去干活。包括四足机器人和人形机器人。

  我们也做了很多的数据采集,数据开源等,我们的公开仓库,每隔一两个月都会公开一些算法,公开一些开源数据,大家可以在上面玩。

  在过去很多年,我们机器人的核心零部件都是自己开发的。包括关于电机、减速器、部分的传感器等,在视频里面,是我们开发的第二代3D激光雷达。这款3D激光雷达最大的特点就是相对来说它的视场角非常大,达到了90几度乘以360度的视场角。而且它的成本非常便宜,单个的公开零售价大概只要1000元人民币左右,也是标配在最低配的机器狗上。基本上达到2到3个厘米的精度,在室内和室外的都可以用。

  所以对于一些低速的,比如清洁机器人或者物流机器人,如果为了降低机器人的成本,非常推荐用这款机器。比如对一个小的物流机器人,成本甚至可以降到小几千元,是非常有竞争力的。

  最近半年多时间,在全球范围内,包括我们公司在内机器人的AI技术进步非常快的。

  在今年1月份的视频中,大家可以看到(机器人)跑步还是相对僵硬一点。但是在最近几个月我们已经开放给OTA给我们的客户,跑步动作也会更加丝滑,而且我们的跑步是可以进行复杂地形跑步。别的一些厂家可能只能在平地上跑一下,但是我们的机器人可以上下坡,石块路都可以运行。而且这个功能已经开放给所有客户。所以大家可以关注到,包括在全球很多客户用我们机器人参加各种活动。

  今年春晚上,我们机器人跳舞,是成为了目前中国的一个科技以及传统文化的符号。我觉得这是非常不容易的一件事情。

  因为如果单纯的只是一个表演的节目,以表演结束一两天以后,甚至很多情况下大家都忘记了。但现在来说,机器人跟传统文化这个扭秧歌的这个表演,已经成为了中国的一个某种意义上一个科技文化符号。这我觉得是非常有代表性的一件事情。我觉得没准过个十几、二十年再看,当时的也是非常经典的。

  这个项目是跟张艺谋导演合作的。大家可能想象不到,转手绢和抛手绢的idea就是张艺谋导演提出的,然后我们帮他技术实现了一下。

  最大的挑战并不是说单台机器人跳舞。单台机器人跳舞的话,我们其实去年上半年就已经实现了。这个项目最大的挑战,是用16台机器人全自动变队形跳舞。它的头上有三个激光雷达,它对整个场景的自动的变队形、走位、跳舞都是全自动进行的。

  就简单来说,每次表演的时候,音乐一响,整个流程就全部进行。我们甚至中间没办法中断这个表演,所以这个点还是非常有挑战,以及当然最终效果也非常超过大家的预期,也超过我自己的预期。

  大家非常喜欢这个节目,包括甚至有很多人去cosplay就这个节目。

  大家可能发现,我们机器人现在跳舞丝滑很多。为什么大春晚上跳舞相对有点僵硬呢?其实原因非常简单,因为这个技术我们是二月份才做出来的。

  而且大家可能也会好奇,为什么春晚上我们机器人会用黑色那款老的机器人,而不用更新的机器人?其实原因也比较简单,就是这款机身有点小,大概只有1.3米多一点。在表演的时候,大家是希望稍微大一点的机器人,这样的话效果会比较好一些。

  跳舞和功夫其实不算我们目前最新的技术,算老一代的技术。这个技术最大的特点就是它可以学习理论上可以学习任何动作。但这个技术有个不好的点,就是它的动作序列都是固定的,就是在表演之前要先去采集一个序列的动作,去做AI训练后再放到机器人上用。但有个很大的问题是什么呢?就是每次采集好以后,整个动作都是固定的,没办法去调整他的动作,甚至有时候都没办法去中断这个动作。 某种意义上是一个我们老一代的技术。

  刚才强调,我们公司其实是一直非常重视机器人,包括灵巧手,包括上班、去干活这件事。而且可能说出来大家不相信,我们公司的团队里面大部分做AI的人,都在做让机器人干活这件事情。

  但是为什么宣传这部分做的比较少呢?其实原因比较简单,就是我们公司希望干活的AI不是单功能性的AI,比如让一个机器人去整理衣服或者去烧个菜。我们其实并不想做这件事情。我们真正想做的干活的AI,是个通用型的AI。希望它各种功能都能做,包括端茶倒水、工厂干活、表演性等等。而这对于AI模型挑战非常大,到现在为止做的都不是特别理想,所以我们对这块的宣传相对少一些。

  刚才说的格斗上用的技术,反而是我们最新一代的技术。这个视频是我们四月份第一次把这个技术做出来的时候做的一个预告。里面动作大家跟我们展会的还不太一样。什么地方不太一样呢?就是这个四月份做出来的时候,它的动作速度有点慢。包括出拳动作、踢腿动作都有点慢。

  这对于整个格斗效果来说不太理想。所以后来我们在五月份真正跟央视合作做全球直播的时候,又把出拳速度在内的各种动作至少加强了一倍左右。

  机器人每次做一个格斗动作或做一个连续格斗动作的时候,可以认为是一个动作序列。有10到20个动作序列,要满足随机自由组合。因为格斗的时候,动作的随机性是比较大的。动作列的排列组合方式非常多。所以不仅要满足整个动作的随机组合,而且随机组合要相对比较丝滑。

  还有一个最关键的点,就是要做更大的一个抗冲击能力。因为打比赛或格斗的时候,外部的冲击和扰动是非常大的,这跟单纯的舞蹈表演或者武术表演非常不一样。如果大家有兴趣,可以关注一下我们机器人的腿部,它的腿部有很多凹坑,而且大家知道这个腿是铝合金的,在铝合金上面都有很多凹坑,所以机器人的打击力度还是非常大的,也比较有意思。

  另外分享一下目前我个人对国内和全球机器人行业(的看法)。

  今年上半年,最大的特点,我个人感觉,由于整个行业非常火爆,以及政策的相关支持,平均(来讲),整机厂商、零部件厂商,每家企业有将近50%到100%的增长,增长还是非常吓人的。

  这个在整个行业来说都是非常少见的一件事情,就是从需求端拉动了整个行业的发展。

  海外也毋庸置疑。比如特斯拉,他们今年要量产几千台人形机器人。而且今年大概率他们会发布第三代的特斯拉人形机器人。大家也可以多关注一下这件事情。

  目前全球范围内,大家在这块的热情,尤其海外的大公司,包括英伟达、苹果、Meta、OpenAI大家都非常持续在推动这个领域的发展。

  另外的话我分享几个想法,未必准确。

  第一点就是对于机器人本体来说,很多人可能会有个误区。为什么可能机器人目前没有大规模应用,或者目前的机器人的功能还不够。可能有人会怀疑是不是目前的硬件不够好?或者成本比较高?其实目前的硬件是够用的,某种意义上完全是够用的。目前人形机器的硬件,灵巧手、整机,某种意义上完全是够用的,当然不够好啊。需要持续把它做的更好,更大的问题是要把他量产。

  目前最大的挑战还是具身智能的AI还是完全不够用。这也是限制人形机器大规模应用的一个最大点。简单说,就是目前的感觉有点像ChatGPT出来之前的1到3年左右的时间,目前整个业界大家已经发现了类似的方向以及技术路线,但是没人把它做出来。

  大家也知道ChatGPT出来前面的几年,做语音AI的已经做了十几、二十年了。但是大家一直觉得它很傻瓜,根本完全没法用。像ChatGPT出来以后,大家达到了一个比一般人性能还更好的一个阶段。(机器人)目前还没有到这个临界点。

  对于机器人AI这个临界点,我觉得会达到什么程度呢?比如某一天,我们带一个人形机器人到这个会场,这个机器人之前也没见过这个会场,如果我随便跟它说一句话,“帮忙把这瓶水带给某个观众”。它可以比较顺畅的自己走过去,把这个事情干了。或者说把这个房间帮忙整理一下。机器人完全没有见过这个房间,能自己做这件事情的时候,我觉得就差不多达到了机器人的ChatGPT时刻。

  如果快的话,可能未来的一两年或者两三年还是很有可能实现的。最慢的话,我估计3到5年也是有很大概率可以实现,大家可以关注一下。

  目前具身智能没有达到(理想)效果,到底是模型的问题还是数据的问题?

  我反而感觉,目前全球范围内,大家对机器人数据这个问题关注度有点太高了。

  就是现在最大的问题是反而是模型的问题,并不是数据问题。

  目前来说在具身智能和机器人来说,模型架构都不够好,也不够统一。所以模型的问题其实是现在大家反而关注的有点少,对数据的问题关注很多。

  因为在大语言模型领域,大家觉得我有足够多的数据,尤其有足够多好的数据的时候,就能把模型训练的越来好。

  但是在具身智能,在机器人领域,大家可以发现,很多情况下数据有了,但这个数据用不起来。所以很多情况下大家对模型的关注目前是相对有点少,反而对数据关注有点太高了。

  (对于模型来说),大家也知道目前相对比较火的就是VLA模型(记者注:视觉—语言—行动模型)。VLA模型是一个相对比较傻瓜式的架构。我个人对VLA模型还是抱一个比较怀疑的态度。

  对于VLA模型,目前与真实世界交互的时候,采集的数据是不太够用的。所以有个简单的想法,就是在VLA模型上面加一个RL(记者注:强化学习)的训练,这是大家一个非常自然的想法。但是我个人感觉,包括我们公司目前尝试下来,VLA+RL还是不够的,这个模型架构还是得再升级和优化。

  这里也简单分享一下我们过去做的一些事情。大家可以关注到,前几天谷歌发布了他们全新一代的视频生成模型,或者某种意义上是一个视频驱动的世界模型。

  去年OpenAI发布他们的视频生成模型的时候,大家会有个很自然的想法,比如让它生产一个机器人整理房间的视频,如果能顺利完成的话,那能不能让这个视频生成模型直接驱动机器人去做这件事,想法非常直接简单。对吧?所以我们去年的时候就去做了这个事情。

  我们用一个预训练的视频生成模型,重新又去训练了一下,让它先去生成一个视频的机器人动作,再控制机器人去做。这个技术是能实现的,谷歌的视频生成世界模型也是想实现这个效果。

  我觉得这个路线,可能比VLA模型收敛的概率还更大,但我不敢打包票,可能还是会有很多问题。其中一个很大的问题是,视频生成模型太注重视频生成的质量了,导致对GPU的消耗有点大。但是对机器人干活来说,某种意义上并不需要很高精度的视频生成质量,只要驱动机器人去干活就行了。

  刚才我已经提出了一点个人想法,但实际上还是不太够用。目前机器人跳跳舞,打格斗,其实效果不错了,对吧?但实际上现在面临一个很大的问题,就是机器人的scaling law,就是缩放定律还是做的非常不好。

  举个最简单例子,如果训练一个机器人的训练动作,比如有一个新的舞蹈,或想让它干一个活。每次有新的动作,都要重新训练,还是从头开始训练,这是非常不好的一个事情。

  我们是希望,每次做新训练的时候,是在老的训练基础上去做。理论上做RL训练的时候,每次训练的时候,训练速度越来越快,学习新技能的效果越来越好。

  但是全行业内,目前整个机器人在RL这里scaling law,没有人做出来,没有人做好,我觉得这是非常值得做的一个方向。

  因为scaling law在语言模型已经是充分验证过的事情。但是在机器人的运动控制上面,还刚刚开始。在座的有些同学,可以关注一下这个领域之类,其实可以发表一些比较好的论文。

  个人感觉,在未来2到5年,最重要的一件事还是端到端的具身智能AI模型。大家可以多关注,多推动。模型本身是非常最重要的。另外就是更低成本的,更高寿命的硬件,这个是毋庸置疑的。

  大家知道,对于汽车行业来说,已经一百多年了,哪怕到今天,如果你对一家企业要做一个很好的一辆汽车出来,它的工程量还是非常大的。

  对机器人行业,比如说每年有几百万、几千万甚至几亿的人形机器人。如果要生产制造出来,工程量挑战还是非常吓人的一件事情。

  关于低成本的大规模算力,我分享一个概念,其实在人形机器人或者在移动机器人本体上,其实没办法直接部署很大规模的算力。为什么呢?因为它的尺寸只有这么大,它的电池只有这么大,它部署的算力的功耗是有限制的。

  我个人感觉在人形机器人上,最多只能部署峰值功耗大概只有100瓦的算力。最好平时工作的时候算力只有小几十瓦。简单说,就只有大概几个手机的算力水平。因为它的尺寸比较小,不能部署大规模算力。

  但是对于未来对大规模的算力需求,肯定是毋庸置疑的一件事情。而且我觉得可能是个分布式的算力,为什么呢?

  因为机器人在干活的时候,它的通讯延迟是希望比较低的。如果在北京干活的机器人,的数据中心或者算力中心在上海或者在内蒙,延迟实在是太大了。

  所以我个人感觉,未来在工厂里大规模应的时候,比如一个工厂里面有100个机器人,那工厂里面可以有部署一个集群的分布式服务器,所有的机器人就直接连接工厂里的局部服务器就好了,这样整个服务器的安全性、通信延迟是可以接受的。

  或者换一个话题,比如一个小区每家每户有一个机器人的时候,我觉得在这个小区或者这个区里面,肯定是有分布式的一个集群算力中心的。

  这样的话,延迟和安全性是有保证的。并且如果有一个新的客户想买一个人形机器人的时候,不需要给这部分算力花钱,成本也会更低很多。

  我觉得分布式算力是未来在机器人领域非常重要一个领域,需要比目前的算力分布还更广一些。

  最后,大家知道过去在AI领域,包括机器人领域,都是一个全球共创的过程。中美在内的全球很多的企业都做了很多贡献,在AI领域没有人能保证,也没有一家大公司能保证,有足够的人、有足够的资源,永远能确保其在AI领域是最领先的。过去OpenAI、deepseek已经证明了AI的创新永远伴随着一些随机性,伴随着更多聪明的年轻人。很多情况下,都是每家公司或者每家高校都做了很多贡献,这是需要全球共创出来的。谢谢大家。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500