首页 > 正文

播客｜构建机器人“大脑”的非共识路径，对话YesAI实验室石野

2026-04-30 07:33

什么是物理AI？它和世界模型、具身模型有何关联？VLA为什么被认为是上一代的具身模型技术？仿真数据和真机数据到底各自的利弊在哪里？数据缺乏的瓶颈到底如何破解？机器人要真正走进家庭，还需要多久？

本期播客我们邀请了上海科技大学信息科学与技术学院助理教授、研究员、博导‌石野，他也是‌YesAI 可信与通用智能实验室负责人，他为我们带来他关于具身智能的前沿思考与实践。

在他看来，虽然目前在机器人领域，相对本体企业来说，大脑企业的估值更高，但是并不代表本体已经没有需要攻克的难题。未来谁能走通本体、数据、模型的闭环，才能在这场具身智能的激烈竞争中脱颖而出。

点击收听完整对话音频

以下为对话实录节选

澎湃科技：物理AI、世界模型、VLA，以及视频模型，这些概念之间到底有什么样的关系，又有什么区别？

石野：物理AI其实是相对数字AI而言的，尤其是在具身智能兴起后，大家慢慢做了一个分界，有物理载体的是具身智能，或者叫物理AI；没有物理载体的就叫数字AI。

大语言模型以及Sora、Seedance等文生图、文生视频等模型都属于数字AI，它们验证了scaling law的能力。因此，大家想能不能将数字AI的这种能力应用到物理世界，形成物理AI。因为大语言模型的能力再强，只能通过语言和文本交流。

物理AI关心的更多是与物理世界交互的能力。譬如需要机器人倒杯水，机器人首先要理解这样语言的指令，然后将语言指令转化成动作，包括拿起杯子、拧开瓶盖，当水杯被拿起来之后，物理世界已经发生改变，在拧瓶盖时还需要考虑摩擦力，用多大的力去拧，力小了拧不开，力大了会把瓶盖捏坏。

澎湃科技：物理AI跟数字AI的区别是不是就在于物理AI具备和物理世界互动的能力？

石野：可以这么去理解，物理AI需要能够观察、感知、理解物理世界，同时有动作，完成任务。

澎湃科技：以往无论是工业机器人还是协作机器人，它也有自己的模型，有自己的算法，和现在的区别在于它不具备通用能力和泛化能力？

石野：是的，传统的工业机械臂在我看来是一个自动化，执行的是在规划的路径上进行规定的动作。

澎湃科技：从大语言模型到具身模型的跨越，需要解决的难点是什么？

石野：不管是在学术界还是在工业界，大家都非常关心这个问题。互联网为语言模型提供了足够多的数据，使得数字AI的模型证明了Scaling up的能力。

但在具身智能这里，它除了需要数据和模型，还需要本体。

不同的机器人本体不一样，关节自由度也不一样，这使得对数据和模型的要求有了一个很大的挑战。比如视频语言模型，需要的是文本和图片数据，但到机器人这里，需要的数据更加多元。

其实在说机器人之前，我们可以先说一下自动驾驶，它可以被认为是介于语言模型和具身模型之间的一个领域。

自动驾驶不仅需要有视觉的感知、语言的交互，同时也需要有动作的能力，但是它的动作自由度很低，主要在于操控油门和方向。

但对于具身智能来说，自由度会多很多，譬如一个机器人身体加灵巧手的自由度可能多达五六十个。自由度多了之后，所需要的数据量会倍数增长。语言模型可以通过互联网获取数据，自动驾驶可以通过车辆行驶采集数据，那目前数据缺乏是具身智能的一个重要挑战。

此外，由于具身智能兴起的时间也不长，专门针对具身智能设计的模型还需要不断迭代。

澎湃科技：这样看来，具身模型要落地是不是还很遥远？

石野：其实也不是很遥远，技术的迭代是飞速的，就像之前会跳舞的机器人还没有几家，现在基本上都会了。

针对具身的数据采集也不会照搬自动驾驶的模型，现在具身智能的数据采集也是多样的，有真机数据，也有遥操数据和仿真数据，模型架构也在不断迭代。

澎湃科技：大家对于仿真数据、真机数据的争议还是挺大的，有的人觉得仿真数据有用，有的人觉得必须用真机数据，你怎么看？

石野：目前大家确实还没有形成一个共识，我觉得从第一性原理来看，并不是说有些数据好用，我就只用这类数据。当然，当下真机数据肯定是最精准的，它对模型的考验就没有那么大。因为如果你用视频数据的话，需要将2D的数据转化成机器人需要的3D数据，对你的模型能力是有要求的。所以在模型算法还没有很成熟的时候，先用真机数据是最简单、最快的方式。

仿真数据的问题是它和现实世界会存在一些误差，但即便是非常小的误差都可能导致机器人无法完成任务，譬如拿一瓶水，差1厘米可能就导致抓取失败。

此外仿真数据的多样性也不如真实世界丰富，譬如拿水这个动作在真实世界里可以有多种方式，但在仿真里，动作轨迹相对是不够丰富的。在当下这个阶段，仿真数据的使用需要有更底层的一些技术的迭代和进化。

澎湃科技：既然真机数据效率这么高，为什么大家还会使用仿真数据来训练模型呢？

石野：成本是一个很关键的原因，进行真机数据采集不仅需要一个真实的机器人，还需要配一名遥操员，成本很高，数据量自然难涨上去。

仿真数据就不存在这个问题，你不需要进行真实环境的部署，不需要把机器人在不同场景中迁移。

现在，大家一般会先用仿真数据、结合一部分真实数据做粗略的训练，之后再结合具体的任务上的精细数据做训练。

但这套训练方法也会受限于数据量不够，所以我们在想如何让机器人像人类一样，具备观察、推理、思考、执行一套闭环能力，让机器人像小孩子一样，有些事情你只需要教他几遍，他就会做了。

对于机器人来说，它需要有一个世界模型，更好地去模拟这个世界。

澎湃科技：世界模型跟物理模型是不一样的概念？

石野：世界模型其实是相对物理模型的仿真而言的，其实世界模型你也可以叫仿真，但和传统的仿真不同。

传统的仿真是是根据一些物理定律来驱动的。比如在仿真里，我要拿起一瓶水，需要知道水的精确坐标、形状等，然后去求解如何完成抓取任务。但在真实世界里，我们并不需要知道水的精确位置，也不需要计算摩擦力是多少，就可以完成这个任务，这就是世界模型要做的事，它不依赖于非常精确的物理信息去建模。

澎湃科技：杨立昆之前好像有过类似的表达，你说的世界模型跟他是一样的逻辑吗？

石野：世界模型现在有很多流派，包括杨立昆、李飞飞，他们的世界模型范式也不同。

杨立昆强调的是在隐空间里的计算，好处是结构简介，但在隐空间里计算情况在过程中很难得到验证。

李飞飞的世界模型优点是非常逼真，所以在游戏制作领域可以得到很好的应用。

除此以外，眼下还有一个流派是视频模型，包括Sora和Seedance，它们视频生成能力、扩散能力都非常强。

但是这几种主流世界模型的范式，在我看来，过分关注了视觉的信息，忽略了对机器人来说更重要的动作信息。

因为对于机器人来说，视觉信息的多样性可能并不是必须的，但动作一定是要精准，这也是我们现在做的世界模型希望解决的问题，我们希望能够让机器人去快速适应新的环境、新的任务，不需要做真机的部署，它和上一代VLA（Vision-Language-Action）技术不一样。

澎湃科技：你觉得VLA已经是上一代的技术了？

石野：大家其实在VLA上投入了非常多时间、人力。VLA其实是大家在视觉语言模型的基础上快速地加上机器人的动作，但事实上它们并没有那么兼容。如果要让视觉、语言和动作很好地衔接起来，需要采集非常多的数据，它对动作的理解更多还是在背轨迹。

此外，在加入动作之后，还会对视觉语言模型的能力带来损失，因为本来视觉语言模型学得挺好的，但拼了一个动作轨迹后，再把整个模型参数更新一遍，会发现视觉语言模型的能力也下降了。

澎湃科技：所以就说具身智能需要一个专属于自己的模型。

石野：它不能像原来的VLA，不能是先语言过一遍再过图像再过动作，它得是一个统一的整体，一起输出。

澎湃科技：这个路线的难点是在哪里呢？

石野：首先是建模的动作得准，其次在模型架构上需要融合多模态的信息，包括触觉信息。我们做了触觉手套，精准地采集到的触觉数据，然后把它映射到机器人上。

这个模型可以校准仿真数据带来的误差，简化了真机部署、真机强化学习等步骤，大幅降低了对于真机数据的需求。比如原先需要1万条真机数据训练出来的模型效果，现在我们只需要十分之一的数据量，这已经在我们的实验室里得到验证。

这么做的好处在于大大提高了机器人的训练效率。比如原先你要把机器人部署在某个产线上，产线需要停工，让数采员进场要采数据，然后训练、调试，这个过程有时需要一两个月甚至更久，才能完成一个工位上的一个小任务，成本很高。现在基于这套新的范式，我们希望机器人能“瞬间适应”一个任务。

澎湃科技：训练的数据变少了，那训练的时间也下降了吗？

石野：并不是说训练的时间变少，而是原来我要实地采很多数据，现在直接在云端完成这个过程，相当于是用算力换了人力，算力的成本肯定低于人力成本，此外算力成本是持续下降的，但人力成本每年都在提升。

澎湃科技：市场对于你们这套世界模型的接受度如何？

石野：我觉得我们目前跟行业的一些共识形成了反共识，大家在追求通用、泛化，我们追求的是快速适应，但我们认为机器人的快速适应能力是通向通用泛化路上的一个非常必要的前置条件。因为要实现通用泛化，首先数据得足够多，如果不能快速适应各种任务，数据飞轮就滚不起来。

澎湃科技：你觉得要实现这样的通用、泛化还需要多久呢？

石野：它肯定不是遥不可及的，我们其实已经看到了这样的一个物理AI通用智能的曙光。短期可以在相对半结构化的工厂场景里落地；中期可以进入养老院等相对规整的场景；机器人进入家庭应该也就是三五年的事。

澎湃科技：现在还没有办法来判定哪家公司建立了护城河？

石野：现在确实是一个百花齐放的时代，大家都在从不同的角度尝试去探索世界模型。

澎湃科技：关于数据，大家都说缺数据，各家机器人也都在采集数据，有些也开源了数据集，但数据其实是没有办法共用的吗？

石野：如果我是用传统的VLA方案，可能真的很难去共用，因为不同的机械臂背出来的轨迹不同；但如果学到的是对物理世界的理解、推演、预测，没有那么依赖于机器人的本体，相对来说会更容易去把不同问题的数据统一起来，利用起来。

澎湃科技：在这个时间点，一家创业公司是做数据采集更有前途，还是直接做具身模型更有前途？

石野：数据是数据训练的一个组成部分，但传统做数据的公司生产出的数据有些不一定能直接用来训练我们的模型，我们也要自己去采集一部分数据。一般做数据的公司不一定做大脑，但是做大脑的公司他们得有一部分采集数据的能力。

澎湃科技：现在做大脑的机器人公司估值更高，是不是已经默认我们的本体已经发展到比较高的水平？本体真的没有大的需要突破的瓶颈了吗？

石野：我觉得可能当下大家有一个错觉，因为机器人本体不是新事物，数字AI让大家看到了物理AI的潜力，作为一个新事物，后者的显示度相对会更高。

但现在的本体，特别是在很多精细任务的执行上还没有那么好，硬件上也需要持续迭代，比如关节电机做了小型化之后，它的发热问题如何解决，如何实现稳定持续运行，以及机器人端侧的芯片现在用的还是自动驾驶的芯片，没有专门为机器人的开发的芯片等。

澎湃科技：国内人形机器人有好几百家，他们之间的水平到底是呈现一个怎样的分布状态，差距大不大？

石野：如果看单一能力，差距是在慢慢缩小的。但在这个过程中，如果有些头部企业做得很好，大家买的更多了，倒是有可能带来一些差距。

澎湃科技：投资人看重大脑的一个原因，是大脑的护城河相对会更高吗？

石野：我觉得最后大家实现的是一整个闭环，从模型、数据到本体，谁能以更低的数据成本，更高的效率去把这套闭环走通，谁就能在这场世界模型的赛道上脱颖而出。

🔍 相关推荐

多名主播串联跨省直播“斗狠PK”：13人被行拘，账号被封禁

当差评“被消失”，平台评价还有几分可信度？

“未来图书馆”的百年约定，用1000棵云杉种下文学“时间胶囊”

4K修复版《茶馆》首映，濮存昕冯远征到场

美媒：特朗普考虑对伊朗重启大规模作战；伊朗：将很快采取前所未有的军事行动

夜读｜放下镜头，用心去旅行