更多

具身智能的“ChatGPT时刻”何时来到

  • 2025-07-16

  • 来源: 黑智

今年以来,具身智能热度攀升,成为人工智能领域的焦点议题 —— “具身智能”首次被写入政府工作报告,人形机器人半程马拉松成功举办,多家相关企业也于近日接连斩获大额融资…… 在此背景下,具身智能背后的技术演进、数据瓶颈及商业化落地场景,已然成为业界共同聚焦的话题。

近日,在 2025 全球数字经济大会人工智能融合应用发展论坛上,来自具身智能行业的头部专家围绕这些热门议题展开了深入探讨,以下为圆桌论坛原文:

人形机器人本体与具身智能的结合
人形机器人的客户群体、应用场景
具身智能的技术范式及重要发展方向
具身智能大小脑的技术路线梳理
具身智能的数据瓶颈如何突破
遥操作在具身智能中的商业模式

圆桌论坛嘉宾:

王晟(主持人):英诺天使基金合伙人,北京前沿国际人工智能研究院理事长
高海川:千诀科技创始人兼CEO
王潜:自变量机器人创始人兼CEO
莫一林:清华大学自动化系副教授、灵御智能首席科学家
姜哲源:松延动力创始人、董事长兼CTO

王晟:大家好,在座的四位都是具身智能领域里的明星企业和领军企业,首先大家作个自我介绍,三句话:你是谁?你在做什么?你的愿景和目标是什么?我先做个示范,我是北京前沿国际人工智能研究院的理事长王晟。北京前沿人工智能研究院现在做的事情就是广泛地连接人工智能领域里的各个创新要素,我们形成一个叫做AI创新共同体长期的目标就是通过这种连接为产业赋能,帮助中国的人工智能企业和传统企业通过人工智能服务走向全球,成为全球化有影响力的企业。

高海川:各位领导、老师,大家好!我是北京千诀科技有限公司的创始人高海川。我们孵化做清华大学类脑计算研究中心,致力于打造赋能千行百业的具身大脑,也是受到中国脑计划重点项目的支持。谢谢大家!

王潜:我是自变量机器人的创始人王潜,我们主要做具身智能的基础模型,我们认为它会是物理世界的基础模型,平行于数字世界的语言模型。同时还依托这个基础模型做软硬一体机器人整体的产品,我们希望这个模型能够成为某种意义上现实世界、物理世界的AGI,让机器人能够真正意义上成为我们想象中的能够帮助人做各种各样的事情,能够像人一样思考的机器人,也希望它能够进入千行百业、进入千家万户,真正意义上的解放人类的双手,达到我们理想中的机器人的愿景。

莫一林:大家好,我是清华大学自动化系莫一林,目前也在一个初创企业灵御智能担任首席科学家。我们主要是关注从L0-L2的机器人,我们是想造一个有很好用的方向盘的机器人,然后把人类的操作和机械智能能够有机的结合起来。我们的愿景就是通过机器人技术,把人从危险、繁重的劳动当中尽量解放出来。

姜哲源:大家好,我是松延动力北京科技有限公司的创始人姜哲源,我们公司是做双足人形机器人和仿生人形机器人这两个方向。愿景是打造感动人心的、走进千家万户的机器人产品。

教育和商演是可落地的两大场景领域

王晟:接下来,每位嘉宾有两个定制的问题,我们围绕四位嘉宾的业务进行一些定制化的提问    

第一个是哲源,你们是2023年9月份成立的,而且是非常优秀的人形机器人的企业,你们在4月份的机器人马拉松拿了第二名,倍受瞩目。我想问你的是,作为人形机器人的代表企业,怎么看这种人形的本体和具身智能的结合,你们应用了哪些具身智能的技术?未来又会往哪些方向发展呢?

姜哲源:谢谢,我们公司确实在之前的机器人马拉松上拿了第二、第三,从方向上来看,我们更加关注于下肢。具身智能其实有三个比较大的部分:移动、导航、操作,我们更加关注于移动,尤其是双足移动这个部分。

从技术侧来讲,先不讲硬件,讲算法的话,怎么把AI和机器人结合,我们用的是深度强化学习,基于一些人类动作的数据或者经过一些动力学模型优化的动作数据,把它分到仿真器里面去给机器人,让它学习,让它学得能跑、能跳、能空翻这些不同的技能,这是我们主要做的事。

未来的方向,我们认为我们以移动为初始,然后逐渐去建设完成我们的导航和操作能力板块,这是向广度发展。从深度发展来讲,我们会把移动能力更加精进,比如现在人形机器人从移动层面来讲有很多问题,包括稳定性、多地形适应性、步态优美性,还有噪音,其实都有很多的问题,包括还有能效,这里面有很多值得我们去深挖的一些研究可以做

王晟:最近我们看到有一些投资人同行,以前他只投AI、模型、人工智能,但现在他们对人形机器人高度感兴趣,总体来说,人形机器人现在确实有应用、有场景,你可以卖得出去,这个你能不能讲一下,除了科研典型的客户之外,你们现在的客户是什么情况?你觉得整个市场包括它的增长规模现在变成了一个什么情况?

姜哲源:先汇报一下我们目前的成果,目前已经在手2500多台订单,我们现在工厂单位产能也达到100台以上,我们也在规模化、批量化交付我们的订单,也在持续地拿单,所以今年会是我们的商业化元年,也会是我们第一个规模化量产的元年。

从场景上来讲,我们的客户群体主要分为四大场景:教育、科研、文旅、商业演出。这是目前最主流的四个大场景。

教育,就是拿来做教具、做课程,同时我们还探索到一些新的场景,比如说作为机器人的领操员、领跑员。

科研,科研就是作为一个硬件本体平台,一些科研机构发表一些论文或者做一些前沿的研究,

文旅,更多来讲是展厅,在一些展厅里面其实对双足人形机器人是有一定需求的,这种机器人它具备一些基础的移动能力,同时又具有一定的噱头能够吸引一些眼球,所以在一些文旅场景下其实是能够被用来吸引客流的。像我们在东北有一个客户,他是有几百家电动店,叫无人零售店,他下单了几百台我们的机器人,放到他的门口,来做迎宾。

商业演出,很多此前做豪车租赁的客户,他们很多客户也都是偏商业演出场景,这种情况下他们买了机器人会有更好的投资回报率。这其实是我们的第二大应用场景了,第一大是教育,第二大是商演。

王晟:也就是说过去大家租个豪车去开婚礼,现在要租两个机器人送戒指是吧?

姜哲源:是的,婚庆是里面很大的一个应用场景。

更高级的具身智能

软硬件深度协同是必不可少的

王晟:好的,谢谢。第二个问题给到王潜,自变量是2023年底成立的一个公司,但是成长速度是很快的。我注意到你们在2024年初就在diffusion policy和合成数据方面的工作,而且从现在来看取得了非常好的成绩,但这种技术范式其实到去年底和今年初才形成了一个相对大的共识,你们在初期判断得非常准确,所以这一点我也想请教王潜,就是目前具身智能的技术范式还没有收敛,当然也看到了包括强化,仿真,VLA等等几个范式不断的出现,我想听听你对这些重要范式的看法,以及你们怎么样做选择的?

王潜:我首先先戴个帽子,我说的这些可能更多的是集中在上肢的操作部分,就像刚才姜总说的导航包括移动,其实情况是不太一样的,我仅限于操作这个层面来说这个事。

第一个,我觉得相对比较收敛的一件事情是说,大家现在已经比较接受所谓统一的端到端的模型,我们从输入的原始信号开始,不管输出是一个细分的指令还是一个直接的动作,大家今天更加倾向于使用端到端的模型来做这个事。

第二个,所谓的通用模型,我们在一个模型里面做很多不同事情,这两个东西结合在一起,就形成了我们所谓的Foundation Model,这个其实和语言模型发展的过程有一点像,但是实质上的动机其实是完全不一样的。

刚才晟总也提到数据来源其实是一个很重要的问题,我觉得到了今天,大家已经逐渐地开始认识到这种仿真数据相对来说还是有一定的局限性,真实世界的数据不管是从效率上、训练的结果上,还是我们能够做得事情的维度上,应该说都有着比较明显的优势,这个其实也是过去几年间大家争议相对比较大的一件事情,但我觉得目前基本上还是有一个相对比较明确的定论,就是仿真数据不能作为主要的数据来源。

包括强化学习,大家其实在最一开始做机器人的时候,就是以强化学习为主,但今天我们觉得它可能还是更适合用来做所谓的后训练。其实我们在语言模型上也看到了类似的情况,强化学习主要就是用来做后训练的部分,我们在具身上,其实也有类似的看法和实践的结果。

除了这个之外,我觉得还有一些相对比较新兴的技术大方向,其中一个比较重要的就是COT(Chain of Thought:思维链,AI 模型(特别是 LLM)在生成最终答案或执行最终任务之前,显式地展示出其推理的中间步骤),特指具身的COT,因为我们在语言模型上的COT已经做得比较多了,或者说多模态的COT是我们现在比较关注的,然后我们自己也有一些相对领先的模型出来,目前能够去做一些非常复杂、非常长序列的推理和判断,我们觉得这个应该会是下一个阶段比较重要的一个方向。

当然还有很多其他的方向,包括我们现在做的理解生成一体化的统一模型,还包括一些其他的方向,但是我觉得其中最核心的还是我刚才说的第一点,就是Foundation Model这件事情还是非常广泛地受到了大家的认可,这个可能和两年前的情况就完全不一样了。

王晟:第二个问题我想问你,自变量在过去高速的发展过程中,我理解是唯一一家没有自己做本体的,但是非常头部明星的具身智能的企业,为什么这么选择?你接下来会做本体吗?

王潜:感谢晟总给我们一个澄清的机会,这应该也是市场上一个普遍的误解,就是说自变量好像不做本体、不做硬件,实际上我们自研的本体,包括我们的整机轮式底盘的双臂机器人,应该在今年第三季度的时候会发布,同期会发布的还有我们自己完全自研的高自由度的灵巧手。我们之前的确是在硬件方面投入比较少一点,因为我们觉得把模型做好还是第一驱动力,但是走到目前这个阶段,我们也深刻地感受到硬件或者说软硬一体、软硬结合是必不可少的,不管从发展的角度来讲,还是从落地的角度来讲,所以我们也投入了非常多的精力,实际上我们目前做的这个水平,我们认为也是处在一个领先的水平。

把具身大脑当成产品来做

王晟:非常有意思,我们今天开这个会获取了具身智能头部企业自变量机器人未来要做的事的一个提前信息。接下来,我们问海川,你们是第一个提出具身大脑概念的具身智能公司,而且千诀认为具身大脑和小脑可以解耦,但是目前具身的大脑和小脑的概念在整个产业里面我觉得是比较混淆的,共识也不是很清楚,技术路线比较多,我就想请你梳理一下这个方面的技术路线,以及给具身的大脑和小脑做一个更清晰的定义。

高海川:我们是清华类脑中心的,所以对于研究脑这件事情来说,我们是正儿八经看过脑子长什么样的,从生物启发做的计算机理,然后经过机器学习的验证去做大脑。我们从较为严谨的分层视角来阐述,目前大体来说可分为三层……

从分层的视角来看,因为分层的视角也更好地衔接了上一代的机器人技术。大体来说现在的各种综述一般分成三层,我用上一代的技术来讲叫运控,现在叫本体为中心的控制,它的区分是以本体的动作空间为模型的动作空间的输出。然后再是中间这一层轨迹规划(上一代的说法),现在VLA其实主要输出的也是这一部分,输出的这部分是以对象为中心的轨迹,还有被操作对象它的轨迹预测。最上面这一层是空间智能和大范围的行为决策,上一代叫任务规划,这三层,这样的定义是较为严谨的。它是从分层的视角来看。

其实也可以从端到端的视角来看,从最上面这一层的输入一直到最后运控的输出、本体为中心的控制,完全打穿,这是一个彻底的端到端。无论是分层还是端到端,这都是美国的两个主流方向,现在分层研究也比较多,比如快慢系统。我们可以看到,其实这两条技术路线的发展都已经放缓了,中国的具身智能企业不可避免地进入了跟它们一样的迷茫期和探索期,也不可避免地走向了前台,现在已经成为了跟美国共同探索的时刻。

我想推出的是我们千诀一直坚持的第三条技术路线,既不分层也不端到端,而是分区,这是一条类脑智能路线,在这条路线上芯片的架构到算法的架构是完全不同于美国的,全自主可控,而且它已经两度登陆了Nature封面,从芯片的架构到深度学习架构双颠覆,在技术全自主可控的基础上我们强调分区。分区的话,简单来理解就是以人的各种脑区功能去开发,它不像是分层快慢系统,它是要拆得更加碎,非常的碎,有视觉、听觉还有各种各样的功能,每个功能都是一个小模型,然后它们再联合起来。

跟VLA进行一个对比的话,其中大大弱化了L2的参与度,可以让这个机器人长达数小时的工作。我们机器人在家庭场景的演示已经达到了两个半小时的现场演示记录,现在已经演示了大几十次,现在我们正在突破以天为记录的,完全一镜到底的全自主的演示,中间有大量的动态干扰,也是无需人类的各种提示的,我们认为这样一条技术路线才是适合于自主机器人的技术路线,而前两条技术路线我们也在看一些美国Paper的发展,我们认为他们的探索较为放缓了,我们会在非常长的时间内坚持类脑智能的这条技术路线。

王晟:这个也非常让人印象深刻,因为这是一个完全创新的具身智能的范式,参考了大家但又完全做了一种创新,非常有意思。另外,我再问你另外一个问题,非常有意思。今天我们看做具身智能的企业,它不像本体企业,其实往往还没有落到场景里,但是你们有非常多的产业客户给你们下了订单,能不能讲一下这是为什么?

高海川:一个差异化的点在于我们是把具身大脑当成产品来做,而不是当成一项技术来做,我们的产品就是具身大脑,希望这项产品能赋能在千行百业当中。落地产生的价值大家可以按学界进行划分,包括具身操作,还有具身决策,我们是发挥第二层的价值,真正的大脑价值,我们会比较弱化操作上的复杂性。如果说强调了大脑自主决策的价值,长时程动态自主决策,而弱化操作的话,我们可以发现一条完全不同的商业路径,不再是大家理解的从半结构化的工厂服务再到家庭,而是反过来的,先家庭后服务,最后工厂。

因为我们会选择那些需求驱动的,对于长时程自主决策的需求最大的,然后又简化操作的这一类的机器人,我们提供帮他去除遥控器,让人们免于去做比如地面的扫地机,弯矩性的搜索狗,帮人按电梯,长时程的自主工作,再慢慢过度到复杂操作的商业路径,我们可以在现阶段找到大量的需求。

遥操作是和语言并列的

与机器人交互的方式

王晟:非常好,令人印象深刻。最后我们请教一下莫老师,因为灵御是刚刚成立的具身智能公司,而且你们融资效率也很高,保持一两个月融一轮的速度,其实刚才王潜博士也提到遥操数据,高质量的真实数据,其实这是整个产业的共识,都非常稀缺。我想问的是说目前在具身智能中有哪些层次数据,在这些层次数据中起到什么样的作用,同时比如动捕的数据和遥操作究竟是协同关系还是竞争关系?

莫一林:其实我感觉现在数据稀缺在具身智能领域是大家共同的痛点,类比像自动驾驶头部公司他可能是百亿小时的规模数据,但是具身智能现在还停留在万小时和十万小时,所以这中间大概有四五个数量级的数据差距,因为具身智能核心你要做一些操作,你要在三维空间和物体做交互,但是自动驾驶很多时候你可以认为它是在二维的空间里面,而且它是拒绝和任何物体产生交互,一旦产生交互就说明具身智能撞车了,所以我们觉得具身智能很有可能需要更多的数据。

这里面分若干个层次,比如我们认为最重要是真机数据,这个真机数据事实上我觉得还是可以再分,比如说你是用真机做强化学习得到的数据,还是用真机做遥操作得到的数据,因为用人遥操作会有很多的损失,真机数据往下比如您刚才提到的动捕的数据,它是捕捉人的,这里面存在不同的构形本体,你需要有一个映射的关系;当然动捕可能也跟质量有关系,比如我们现在看到最好的动捕比如全身都穿着各种点,稍微差一点就是它单纯戴一个手套,更差比如一个摄像头去做捕捉。这个数据会分很多的层次,当然不同数据肯定都是有用的,比如我们可以用动捕数据去做一个还OK的model,再像王总说的遥操和真机强化学习,来让这个模型更加好。

王晟:还有一个事情非常有意思,因为遥操不光会产生高质量的数据,我们看到遥操可能本身就会产生商业模式和商业场景,比如达芬奇手术机器人这就是纯遥操的手术机器人,这两三千亿美元的市值。我们看百度的萝卜快跑也是后面做遥操,这点莫老师你们怎么考虑的?

莫一林:我们也觉得具身智能也会遵从跟自动驾驶有点像的路线,它可能会有很长的时间停在L2的阶段,所谓的辅助驾驶,可能这个里面比如说50%时间是模型控制,或者90%时间是模型控制,但是可能做到100%是需要解决大量的数据才能真正在落地当中做到100%,所以我们觉得那个遥操作类似于给在座的各位大脑公司我们给你提供一个兜底方案。我们实际上现在也是发现有很多地方其实遥操作是比较容易落地的,比如像高危的场景,或者像我们了解到有一些场景他是需要非常干净,比如说这种场景其实不适合人进去,因为人进去人身上要消毒就很麻烦。还有一大类场景我们总结是属于操作在这个场景里占比很低的,比如像夜间的零售,它人来的很少,所以它有大量的时间在等待,或者有大量的任务在做移动,自主的移动现在相对来说解决的已经非常好了,在这种场景里面可能操作的人只需要非常少的时间去通过遥控来做一下。但是最终我们希望机器人按照人的意愿去做一件事情,到底是人给机器人描述一件事情,比如说我跟它说一句话它去干,还是我笔划一下它去干,这个事实上是可以商讨的,到底哪种方式能更好的操作机器人,当然终极的是脑机接口。所以我觉得最终遥操作是跟语言并列和机器人交互的一种方式。

技术理想vs商业落地

王晟:其实也非常有意思,其实你和具身智能企业都是一个合作关系,不管是在数据上合作,还是你做最后一个补位,保证安全的操作。

所以我们再问最后一个问题,每个人用一句话来回答这个问题。从你们自己对产业和自身业务发展角度来看,在未来的一年里,做个选择题,你们会继续加大投入在技术上实现更高的智能突破。还是说,商业化在未来变得更加的重要,要重点投入找到多类场景。咱们做个选择,从海川这边。

高海川:我们未来一年将围绕真实的大量的客户反馈去迭代技术,这是我们未来重点投入的方向。

王潜:俗话说小孩子才做选择,成年人全都要。当然如果非得真的做一个选择,技术还是根本,这种事情还是需要有一点长期主义。

莫一林:我其实觉得可能商业更重要,因为我们实际上是做一些数据采集,我觉得在现实场景当中拿到数据会远比在实验室里拿到数据更有价值。

姜哲源:我们是一家卖货的公司,我们70%精力都卖货,30%在做一些技术广度和深度的探索上。