机器人是如何变聪明的

NE时代智能体更新于: 2026-01-16 16:02:08

虽然眼前的机器人可能还会在叠毛巾时笨拙地卡住，或者有着恐怖谷效应的面孔，但进化的齿轮已经咬合。随着真实物理数据的积累、模型架构对物理世界的深度解构，以及硬件成本的持续下探，那个“像人一样思考，像人一样行动”的未来，或许比我们想象的更早到来。

2025年被业界广泛视为机器人基础模型的“元年”。当我们站在这个时间节点回望，会发现机器人正在从冰冷的机器逐步演变为能够理解人类语言、甚至具备一定常识的智能体。回顾整个机器人的发展史，这个过程足足用了60年。

01.

从依赖编程到拥有智能

时光回溯至1961年，世界上第一台工业机器人Unimate在通用汽车工厂上岗。那时的机器人“大脑”极其简单，完全依赖工程师的代码指令。例如，抓取一个零件需要分解为“手臂向左移动30厘米”、“手爪闭合”、“手臂旋转90度”等死板的步骤。这种方式在高度可控的流水线上运行了几十年，如今已经发展到登峰造极的程度，精度已经达到毫米级，执行速度达到秒级。

世界第一个机器人- 阮一峰的网络日志

但其缺陷是显而易见的，零容错、零灵活性。一旦零件位置偏移了1厘米，或者换了一个不同尺寸的零件，机器人就会抓空，甚至因为无法应对意外情况（如零件掉落）而彻底停摆。需要重新进行编程和标定才能再次工作，这样的机器人没有“智能”，只有“指令”。所以现在我们讨论具身智能时，已经将其排除在外。

时间到了20世纪90年代，机器人学家引入了SLAM（定位与地图构建）技术。机器人开始“看见”世界。并且构建“感知→规划→执行”的完整过程，工作时先用传感器扫描环境建立3D地图，再在地图上规划路径。

这套方法在导航任务上取得了巨大成功，扫地机器人（如Roomba）就是典型代表。然而，当这套逻辑被应用于复杂的“操作”任务时，却遭遇了滑铁卢。以叠毛巾为例，传统方法需要视觉识别毛巾的四个角，计算3D坐标，规划轨迹，最后执行。但在现实物理世界中，毛巾是柔性的，一抓就变形，坐标瞬间失效。2010年加州伯克利团队的实验显示，用这种方法让机器人叠一条毛巾，平均耗时竟长达24分钟。

为了突破规则的限制，2015年左右，谷歌团队尝试了“行为克隆”（Behavior Cloning），即让机器人模仿人类的动作。通过收集数十万次抓取数据，训练神经网络建立“视觉-动作”的映射。这标志着机器人开始从数据中学习，而非仅靠规则。但这种方法效率极低，学会“抓取”需要数十万次演示，若要学会“叠毛巾”，可能需要百万次数据，且泛化性极差，换个机器人型号模型就失效了。

Intro to Behavioral Cloning

后边的故事大家就都知道了。2022年，ChatGPT横空出世，大语言模型（LLM）不仅掌握了语言，更蕴含了人类世界的“常识”。2025年，VLA（视觉-语言-动作）模型应运而生，它将视觉（看）、语言（理解与推理）和动作（执行）统一到了一个端到端的神经网络中。

VLA模型的革命性在于“常识推理”。当你对机器人说“帮我准备早餐”时，传统机器人需要你编写每一行代码，而VLA模型能通过大语言模型推理出：早餐意味着要从冰箱拿鸡蛋，鸡蛋易碎需要轻拿，面包要放进烤面包机。正如它石智航创始人陈亦伦所言，大语言模型定义了训练任务是预测下一个token，而非架构本身，这为具身智能提供了推理和规划的底座。

至此，机器人终于从需要精确坐标代码的机器，进化为能够理解模糊指令并结合常识进行操作的智能体。

02.

百花齐放

如今，具身智能的三个条件均已具备，模型的逐步成熟、大算力芯片生态的完善、供应链硬件成本的大幅降低，为具身智能的爆发提供了条件。不过对于具身智能产业化怎么推进，硅谷与中国的科技公司们有着不同的路径。

特斯拉和Figure时典型的“全栈整合派”，坚持机器人基础模型必须与硬件深度耦合。

特斯拉试图复用其自动驾驶（FSD）的成功经验，将数百万辆车收集的数据和端到端架构迁移到机器人上，认为从“轮子上的机器人”到“长腿的机器人”只是输出维度的变化（从方向盘角度变为关节角度）。然而，2025年的现实表明这一路径并非坦途。Optimus的生产计划多次暂停并重新设计，甚至在公开演示中出现了疑似远程操控的争议画面。其面临的最大挑战是“具身鸿沟”（Embodiment Gap），即人类视频数据虽然丰富，但人手与机器手在物理构造上的差异导致数据迁移效率低下。

Figure AI则更为激进。他们曾直接接入OpenAI的GPT-4，展示了令人惊叹的对话与操作能力，但随后迅速“分手”，转而研发自有的Helix模型。Helix创新性地采用了“系统1+系统2”架构：系统2（大模型）负责慢思考和任务规划，如同大脑皮层；系统1（小模型）负责快反应和实时控制，如同小脑。这种架构让Figure的机器人能用单一神经网络控制全身35个自由度，估值在一年内飙升至390亿美元。

另外一种是垂直突破派，这些企业寻求在单个典型场景中实现突破，再去拓展新的场景。如Dyna Robotics，典型的工作就是叠毛巾、开可乐。

Dyna发布的DYNA-1模型在真实环境中实现了99.4%的叠餐巾成功率，且完全无需人工干预。他们发现，当模型在单一任务上深度专精后，获得的不仅是技能，更是“学习如何学习”的能力，这使得迁移到新任务的数据需求量大幅下降。亚马逊也采取了类似策略，在拥有100万台专用机器人的基础上，正在旧金山建立测试场，试图从物流场景切入开发通用模型。

Research - DYNA Robotics | Research

此外，还有一些公司正在寻求新的方向。比如它石智航陈亦伦指出，直接套用VLA模型（即在LLM上加一个动作输出头）并不是终局。他认为具身智能需要建立自己的空间概念和与世界交互的模型，而不仅仅是在语言模型上做修补。

它石智航并未选择简单的VLA路线，而是看到了三道曙光：利用强化学习提升运控能力、利用LLM处理任务规划、利用端到端技术解决极端案例（Corner Case）。他们强调真实数据的重要性，通过穿戴式设备（手套+第一视角摄像头）采集高精度的手部动作数据，而非依赖仿真或视频数据。这种对真实物理交互数据的执着，反映了业界对数据质量日益增长的重视。

虽然各家Demo频出，但2025年的落地现状依然是“B端为主”。Dyna Robotics虽然展示了叠衣服，但其商业逻辑是在洗衣房、餐厅等高人力成本场景“打工”。它石智航的落地场景之一也是处理柔性材料的线束装配。

至于家庭场景，Figure和Dyna都预测，随着硬件成本降低，具备单一功能（如叠衣服）的机器人可能在1-2年内进入家庭。目前的策略是：先让机器人在特定任务上变得“有用”，再通过迭代实现通用。

03.

远未停止

和大语言模型不同，机器人AI模型的进化不再仅仅是参数量的堆叠，未来的进化方向将主要围绕数据的“物理一致性”、模型的“架构创新”以及“生态标准”的争夺展开。

具体来看，在数据方面，大语言模型的成功遵循Scaling Law，即数据越多、模型越大，效果越好，且对数据噪声有很强的过滤能力（如自动过滤广告）。然而，机器人领域的Scaling Law有所不同。Dyna的实践表明，机器人模型对数据质量极其敏感。如果训练数据中的物理接触不准确（例如手指穿模），模型学到的就是错误的物理直觉。参数越大，这些错误反而会被放大。

因此，未来的进化方向是追求“高质量的真实物理交互数据”。这也引发了关于数据来源的路线之争：

• 仿真派：如Skild AI，试图通过大规模仿真数据训练通用大脑，解决现实数据稀缺问题。

• 实机派：如它石智航，坚信仿真无法模拟真实的物理接触（如摩擦力、柔性形变），坚持使用人手穿戴设备采集真实数据。

• 视频迁移派：如特斯拉，试图从海量人类视频中提取动作，但仍需克服“具身鸿沟”。谁能以最低成本获取最高质量的“触觉与物理”数据，谁就能主导下一代模型的进化。

在模型方面，虽然VLA是当前的热门，但它备受诟病的一点是：为什么拧瓶盖这种动作需要语言介入？人类在拧瓶盖时，脑子里并不会出现“拧瓶盖”三个字。

所以未来的模型架构一定会向更符合生物本能的方向进化。

• 分层架构：如Figure的Helix，将慢思考（语言/规划）与快反应（小脑/运动控制）解耦又协同，既保证泛化性又保证实时性。

• 世界模型（World Model）：Meta和它石智航都在探索建立“世界模型”，让机器人理解空间、物理规律和因果关系，而不仅仅是预测下一个Token。这将使机器人具备更深层的物理理解力，能够处理比行走和跑跳更细致的操控动作。

最后则是生态之争，典型的便是开源、平台与封闭生态的竞争。

平台派中，NVIDIA试图通过GR00T项目和Isaac实验室成为机器人界的Android，提供全套工具链。但其“开源”往往伴随着深度的生态锁定（必须使用NVIDIA芯片）。开源派则以Google为代表，通过开源模型和数据集建立影响力，相信“聚沙成塔”，通过共享数据解决数据匮乏的难题。

而OpenAI、特斯拉等巨头则倾向于闭源，试图建立技术壁垒。2025年，这场开源与闭源的战争才刚刚开始。未来的赢家可能不是技术最强的，而是生态控制力最强的。

点击查看全文