JavaScript is required

机器人是如何变聪明的

虽然眼前的机器人可能还会在叠毛巾时笨拙地卡住,或者有着恐怖谷效应的面孔,但进化的齿轮已经咬合。随着真实物理数据的积累、模型架构对物理世界的深度解构,以及硬件成本的持续下探,那个“像人一样思考,像人一样行动”的未来,或许比我们想象的更早到来。

2025年被业界广泛视为机器人基础模型的“元年”。当我们站在这个时间节点回望,会发现机器人正在从冰冷的机器逐步演变为能够理解人类语言、甚至具备一定常识的智能体。回顾整个机器人的发展史,这个过程足足用了60年。

01.

从依赖编程到拥有智能

时光回溯至1961年,世界上第一台工业机器人Unimate在通用汽车工厂上岗。那时的机器人“大脑”极其简单,完全依赖工程师的代码指令。例如,抓取一个零件需要分解为“手臂向左移动30厘米”、“手爪闭合”、“手臂旋转90度”等死板的步骤。这种方式在高度可控的流水线上运行了几十年,如今已经发展到登峰造极的程度,精度已经达到毫米级,执行速度达到秒级。

世界第一个机器人- 阮一峰的网络日志

但其缺陷是显而易见的,零容错、零灵活性。一旦零件位置偏移了1厘米,或者换了一个不同尺寸的零件,机器人就会抓空,甚至因为无法应对意外情况(如零件掉落)而彻底停摆。需要重新进行编程和标定才能再次工作,这样的机器人没有“智能”,只有“指令”。所以现在我们讨论具身智能时,已经将其排除在外。

时间到了20世纪90年代,机器人学家引入了SLAM(定位与地图构建)技术。机器人开始“看见”世界。并且构建“感知→规划→执行”的完整过程,工作时先用传感器扫描环境建立3D地图,再在地图上规划路径。

这套方法在导航任务上取得了巨大成功,扫地机器人(如Roomba)就是典型代表。然而,当这套逻辑被应用于复杂的“操作”任务时,却遭遇了滑铁卢。以叠毛巾为例,传统方法需要视觉识别毛巾的四个角,计算3D坐标,规划轨迹,最后执行。但在现实物理世界中,毛巾是柔性的,一抓就变形,坐标瞬间失效。2010年加州伯克利团队的实验显示,用这种方法让机器人叠一条毛巾,平均耗时竟长达24分钟。

为了突破规则的限制,2015年左右,谷歌团队尝试了“行为克隆”(Behavior Cloning),即让机器人模仿人类的动作。通过收集数十万次抓取数据,训练神经网络建立“视觉-动作”的映射。这标志着机器人开始从数据中学习,而非仅靠规则。但这种方法效率极低,学会“抓取”需要数十万次演示,若要学会“叠毛巾”,可能需要百万次数据,且泛化性极差,换个机器人型号模型就失效了。

Intro to Behavioral Cloning

后边的故事大家就都知道了。2022年,ChatGPT横空出世,大语言模型(LLM)不仅掌握了语言,更蕴含了人类世界的“常识”。2025年,VLA(视觉-语言-动作)模型应运而生,它将视觉(看)、语言(理解与推理)和动作(执行)统一到了一个端到端的神经网络中。

VLA模型的革命性在于“常识推理”。当你对机器人说“帮我准备早餐”时,传统机器人需要你编写每一行代码,而VLA模型能通过大语言模型推理出:早餐意味着要从冰箱拿鸡蛋,鸡蛋易碎需要轻拿,面包要放进烤面包机。正如它石智航创始人陈亦伦所言,大语言模型定义了训练任务是预测下一个token,而非架构本身,这为具身智能提供了推理和规划的底座。

至此,机器人终于从需要精确坐标代码的机器,进化为能够理解模糊指令并结合常识进行操作的智能体。

02.

百花齐放

如今,具身智能的三个条件均已具备,模型的逐步成熟、大算力芯片生态的完善、供应链硬件成本的大幅降低,为具身智能的爆发提供了条件。不过对于具身智能产业化怎么推进,硅谷与中国的科技公司们有着不同的路径。

特斯拉和Figure时典型的“全栈整合派”,坚持机器人基础模型必须与硬件深度耦合。

特斯拉试图复用其自动驾驶(FSD)的成功经验,将数百万辆车收集的数据和端到端架构迁移到机器人上,认为从“轮子上的机器人”到“长腿的机器人”只是输出维度的变化(从方向盘角度变为关节角度)。然而,2025年的现实表明这一路径并非坦途。Optimus的生产计划多次暂停并重新设计,甚至在公开演示中出现了疑似远程操控的争议画面。其面临的最大挑战是“具身鸿沟”(Embodiment Gap),即人类视频数据虽然丰富,但人手与机器手在物理构造上的差异导致数据迁移效率低下。

Figure AI则更为激进。他们曾直接接入OpenAI的GPT-4,展示了令人惊叹的对话与操作能力,但随后迅速“分手”,转而研发自有的Helix模型。Helix创新性地采用了“系统1+系统2”架构:系统2(大模型)负责慢思考和任务规划,如同大脑皮层;系统1(小模型)负责快反应和实时控制,如同小脑。这种架构让Figure的机器人能用单一神经网络控制全身35个自由度,估值在一年内飙升至390亿美元。

图片

另外一种是垂直突破派,这些企业寻求在单个典型场景中实现突破,再去拓展新的场景。如Dyna Robotics, 典型的工作就是叠毛巾、开可乐。

Dyna发布的DYNA-1模型在真实环境中实现了99.4%的叠餐巾成功率,且完全无需人工干预。他们发现,当模型在单一任务上深度专精后,获得的不仅是技能,更是“学习如何学习”的能力,这使得迁移到新任务的数据需求量大幅下降。亚马逊也采取了类似策略,在拥有100万台专用机器人的基础上,正在旧金山建立测试场,试图从物流场景切入开发通用模型。

Research - DYNA Robotics | Research

此外,还有一些公司正在寻求新的方向。比如它石智航陈亦伦指出,直接套用VLA模型(即在LLM上加一个动作输出头)并不是终局。他认为具身智能需要建立自己的空间概念和与世界交互的模型,而不仅仅是在语言模型上做修补。

它石智航并未选择简单的VLA路线,而是看到了三道曙光:利用强化学习提升运控能力、利用LLM处理任务规划、利用端到端技术解决极端案例(Corner Case)。他们强调真实数据的重要性,通过穿戴式设备(手套+第一视角摄像头)采集高精度的手部动作数据,而非依赖仿真或视频数据。这种对真实物理交互数据的执着,反映了业界对数据质量日益增长的重视。

虽然各家Demo频出,但2025年的落地现状依然是“B端为主”。Dyna Robotics虽然展示了叠衣服,但其商业逻辑是在洗衣房、餐厅等高人力成本场景“打工”。它石智航的落地场景之一也是处理柔性材料的线束装配。

至于家庭场景,Figure和Dyna都预测,随着硬件成本降低,具备单一功能(如叠衣服)的机器人可能在1-2年内进入家庭。目前的策略是:先让机器人在特定任务上变得“有用”,再通过迭代实现通用。

03.

远未停止

和大语言模型不同,机器人AI模型的进化不再仅仅是参数量的堆叠,未来的进化方向将主要围绕数据的“物理一致性”、模型的“架构创新”以及“生态标准”的争夺展开。

具体来看,在数据方面,大语言模型的成功遵循Scaling Law,即数据越多、模型越大,效果越好,且对数据噪声有很强的过滤能力(如自动过滤广告)。然而,机器人领域的Scaling Law有所不同。Dyna的实践表明,机器人模型对数据质量极其敏感。如果训练数据中的物理接触不准确(例如手指穿模),模型学到的就是错误的物理直觉。参数越大,这些错误反而会被放大。

因此,未来的进化方向是追求“高质量的真实物理交互数据”。这也引发了关于数据来源的路线之争:

• 仿真派:如Skild AI,试图通过大规模仿真数据训练通用大脑,解决现实数据稀缺问题。

• 实机派:如它石智航,坚信仿真无法模拟真实的物理接触(如摩擦力、柔性形变),坚持使用人手穿戴设备采集真实数据。

• 视频迁移派:如特斯拉,试图从海量人类视频中提取动作,但仍需克服“具身鸿沟”。谁能以最低成本获取最高质量的“触觉与物理”数据,谁就能主导下一代模型的进化。

在模型方面,虽然VLA是当前的热门,但它备受诟病的一点是:为什么拧瓶盖这种动作需要语言介入?人类在拧瓶盖时,脑子里并不会出现“拧瓶盖”三个字。

所以未来的模型架构一定会向更符合生物本能的方向进化。

• 分层架构:如Figure的Helix,将慢思考(语言/规划)与快反应(小脑/运动控制)解耦又协同,既保证泛化性又保证实时性。

• 世界模型(World Model):Meta和它石智航都在探索建立“世界模型”,让机器人理解空间、物理规律和因果关系,而不仅仅是预测下一个Token。这将使机器人具备更深层的物理理解力,能够处理比行走和跑跳更细致的操控动作。

最后则是生态之争,典型的便是开源、平台与封闭生态的竞争。

平台派中,NVIDIA试图通过GR00T项目和Isaac实验室成为机器人界的Android,提供全套工具链。但其“开源”往往伴随着深度的生态锁定(必须使用NVIDIA芯片)。开源派则以Google为代表,通过开源模型和数据集建立影响力,相信“聚沙成塔”,通过共享数据解决数据匮乏的难题。

而OpenAI、特斯拉等巨头则倾向于闭源,试图建立技术壁垒。2025年,这场开源与闭源的战争才刚刚开始。未来的赢家可能不是技术最强的,而是生态控制力最强的。

点击查看全文
评论赞0分享
轨迹
机器人大脑

欢迎关注我们!

上海恩翌信息科技有限公司
1NE时代-小恩
188-1775-0862
沪ICP备17041240号-4