机器人如何迎来“ChatGPT时刻”?

2025/09/19

今年上半年,机器人行业呈现出极为火爆的态势。在行业关注度上升、政策支持力度加大等因素的推动下,整机厂商和零部件厂商平均实现了50% - 100%的增长。如此惊人的增长幅度,在整个行业历史上都十分罕见,这主要得益于需求端对行业发展的有力拉动。

在海外市场,特斯拉作为行业代表,计划于今年量产数千台人形机器人,并将发布第三代Optimus 人形机器人,这一动态值得重点关注。此外,全球企业对机器人行业的热情高涨,包括英伟达、苹果、Meta、OpenAI 等企业都在持续推动这一领域的发展。

我分享几个观点,未必准确。

对于机器人本体来说,很多人可能会有这样一个误区:机器人目前没有大规模应用、功能不够完善的原因,是硬件不够好,或者成本比较高。

其实目前的硬件,无论是整机还是灵巧手,从某种意义上来说都是完全够用的。当然,它们还不够好,还需要优化,在量产以及工程上的问题肯定还是很多的。

但是在技术层面上,或者从AI的角度来说,目前的硬件是完全够用的。当下最大的挑战还是具身智能,或者说AI技术的发展,远远不够满足实际需求。这也是限制当前机器人,尤其是人形机器人大规模应用的最大问题。

目前,机器人行业所处的位置,就像是ChatGPT诞生前的1-3年左右,目前业界已经发现了类似的方向以及技术路线,但是没人把它做出来。

ChatGPT出来的前几年,做语音AI的已经做了十几年,近二十年了,但是大家一直觉得他很傻瓜,根本没法用。直到ChatGPT出现,它展现了比一般人还要强的能力,实现重大突破。机器人行业目前还没有到达这一临界点。

对于机器人的AI技术,我认为临界点可能是这样的:当一个人形机器人能够进入一个完全陌生的环境(比如从未见过的会场),我跟他说“把这瓶水带给某位观众”,或是“整理一下这个房间”,而它能够顺畅自主地完成任务,这就是人形机器人的ChatGPT时刻。

如果进展快的话,可能未来的1-2年或者2-3年,我们就能实现这一目标,最慢的话3-5年也有很大概率能实现。

目前,具身智能不够用的问题,究竟是模型还是数据导致的?我观察到全球范围内对机器人数据问题的关注热度似乎有些过高。而我认为,现在具身智能发展过程中最大的问题是模型,并不是数据。

对于具身智能和机器人来说,模型架构都还不够好,也不够统一。但当下,大家对模型问题的关注度不高,反而对数据的问题关注很多。这或许与大语言模型领域的经验有关,大家普遍认为,只要拥有充足且优质的数据,就能持续优化模型性能。

但是在具身智能,在机器人领域,大家会发现,很多情况下有了数据,却没法用起来。

相对比较火的就是VLA(视觉-语言-动作)模型。VLA是一个相对比较简单式的架构,我个人对VLA模型还是保持一个比较怀疑的态度,因为VLA模型在与真实世界交互时,它的数据质量、能采集的数据是不太够用的。

有个简单的想法,就是在VLA模型上面加一个RL(强化学习)的训练,这是一个非常自然、具有合理性的想法。但是实践下来,我认为它的实用性还是不够的,模型架构还是得再优化升级。

简单分享一下我们团队过去开展的相关探索与实践。近期,谷歌发布了他们全新一代的视频生成模型,或者从某种意义上讲,可视作一个视频驱动的世界模型。还有去年,当OpenAI发布了视频生成模型以后,大家会有一个很自然的想法:我可以控制一个视频生成模型,跟他说“帮我生成一个机器人,去整理一下房间”。

如果模型生成的视频中,机器人可以完成任务,那我是不是能让这个视频生成模型直接去驱动一个机器人完成任务。这个想法非常简单直接,我们去年就去做了这件事情。

我们用一个预训练的视频生成模型,重新训练了一下,让他先去生成一个机器人动作的视频,然后再控制一个机器人去做,这个技术是能实现的。包括谷歌的视频生成世界模型,他们也想实现这个效果。

我认为这个路径和方向可能会比VLA模型发展得要快,收敛概率还更大。当然,目前尚不能断言一定能成功,其中可能也还是有很多问题,例如,视频生成模型太关注视频生成的质量了,导致对GPU的消耗有点大。

但对于实际需求来说,某种意义上,你并不需要很高精度的视频生成质量,你只要驱动机器人去干活就行了。大家可以关注谷歌的视频生成模型,还是非常有意思的。整个模型的架构还是非常简单粗暴的,就是把机器人的一些动作序列控制,直接对齐到模型的架构上,为后续研究提供更多思路和方向。

另外一点,大家也知道,目前机器人跳跳舞、打格斗效果其实已经不错了,但实际上,面临一个很大的问题,如果要进一步提升机器人能力,也就是机器人RL的Scaling Law(扩展法则),还是做得非常不好。

举个最简单的例子,我训练一个机器人做新的动作、跳新的舞蹈,都要重新训练,还是从头开始训练,这是非常不好的一个事情。我们是希望机器人每次做一个新的训练的时候,可以在过去训练基础上进行。

理论上我做RL训练的时候,每次训练的速度应该越来越快,学习新技能的效果越来越好。但是目前整个机器人行业里,还没有人做出来、做好RL的Scaling Law。我认为这是一个极具研究价值和发展潜力的方向。

因为RL Scaling Law在语言模型上已经是充分验证过的事情。但在机器人的运动控制上面,大家才刚刚开始。

我认为,在未来2到5年,智能机器人技术的重心是端到端的具身智能AI模型,而模型本身是最重要的。

与此同时,开发更低成本、更长寿命的硬件设备也是行业的重要发展方向,这毋庸置疑。大家也知道,哪怕对于已经有一百多年历史的汽车行业来说,一家企业要做很好的一辆汽车出来,工程量还是非常大的。

而机器人行业,未来如果每年要生产制造几百万、几千万甚至几亿的人体机器人,它的工程量挑战还是非常惊人的。

同时,低成本的大规模算力也很重要。在人形机器人上,或者在移动机器人本体上,其实没办法直接部署大规模的算力。它的尺寸只有这么大,它的电池只有这么大,它部署算力的功耗是有限制的。

我认为在人形机器人上,最多只能部署峰值功耗为100瓦的算力,平时工作的时候算力只有小几十瓦,简单说,就大概只有几个手机的算力水平。但是,未来机器人还是需要大规模算力的,而且我认为可能需要的是分布式的算力。

在机器人执行任务的过程中,我们期望其通信延迟尽可能低。倘若在北京执行任务的机器人,其数据中心远在上海或内蒙古,通信延迟将会极大,严重影响机器人的工作效率和响应速度。因此,我认为在未来工业领域大规模应用人形机器人时,工厂内部可以设置分布式服务器。所有机器人直接连接工厂内的局部服务器,这样既能保证服务器的安全性,又能将通信延迟控制在可接受的范围内。

或者换个话题,如果一个小区,每家每户都有一个机器人的时候,这个小区可能是可以建立分布式的集群算力中心的,以此降低延迟与保障安全性。并且,如果有新客户想买一个人形机器人的时候,他不需要给这部分算力建设花钱,成本也会更低。

我认为分布式算力将会是机器人行业未来非常重要的一个发展领域,它可能比目前算力的分布还要更广一些。

此外,AI与机器人领域的发展始终是在一个全球共创的过程。无论是中国的科技企业、美国的行业巨头,还是英伟达等跨国公司,都在这一进程中做出了很多贡献。

在AI领域,没有一家大公司能保证,只要有足够的人才、足够的资源,就能永远领先。OpenAI和DeepSeek已经证明了,AI的创新永远伴随着一些随机性,伴随着更多聪明年轻人的智慧和创造力。所以,很多情况下的重大突破往往源自众多企业、高校做出的贡献,最终仍需通过全球协作共同实现。

(王兴兴  宇树科技创始人兼CEO、CTO)

关闭