无需动捕系统，人形机器人要在乒乓球赛场“挑战”人类？

NE时代智能体更新于: 2026-04-01 09:19:12

人形机器人要在乒乓球赛场“挑战”人类？

2026年，人形机器人有望在乒乓球比赛中“击败”人类。

近日，超维动力 Kai × HKU MMLab联合推出世界首个可室外自主感知的高动态人形机器人乒乓球系统SMASH。

其突破之处在于摆脱了对外部设备的依赖，实现了真实户外环境下稳定的人机全身运动交互。

NE时代智能体，赞12

乒乓球运动对机器人的挑战极具特殊性：球速迅猛、旋转多变且落点随机，留给机器人的反应窗口仅有毫秒级。

此前，多数同类机器人系统需依靠球台周边的外部摄像头阵列追踪球路，这种方案仅能在可控的实验室环境中运行。

而SMASH系统的所有感知功能均集成于机器人自身，无需动捕系统，仅凭机载传感器，就能完成球路追踪、移动规划与击球动作。

即便面对户外光线变化、风力干扰、地面不平整等复杂变量，也能稳定运行，实现稳定的人机全身运动交互。

SMASH系统的稳定表现，离不开三大核心技术支撑。

在数据层面，研发团队通过运动变分自编码器（Motion-VAE）生成技术，对稀疏的动作捕捉演示数据进行扩充，构建出覆盖全工作空间的击球动作库，既提升了策略学习的效率，也有效降低了动作损失；

在策略层面，专门训练了适配乒乓球任务的全身控制策略，将动作先验与各目标击球点位精准匹配，不仅实现了精准击球，还能做出扣杀、低蹲击球等灵活动作，保持动作的自然协调性；

在部署层面，搭载第一人称机载感知模块，可实时估计球体与机器人自身状态，最终实现了首个无需外部相机及动作捕捉设备的户外人形机器人乒乓球交互应用。

01.

超维动力Kai是谁？

这款突破性系统的背后，是超维动力Kai的技术积淀。作为2025年正式成立的创新主体，超维动力Kai的核心团队长期深耕机器人、自动驾驶与多模态大模型领域，具备从底层算法到产品工程化的完整能力。

其过往成果丰硕，不仅自主设计并量产医用康复外骨骼机器人、推动L4级矿卡商业化落地，还携手合作伙伴打造了首个被《Nature》报道的国产统一语言与视觉多模态大模型、全球首个端到端自动驾驶大模型（获评CVPR自动驾驶历史最佳论文），主导打造的高拟人人形机器人更入选Morgan Stanley《Humanoid 100》。

此外，携手打造全球首个分层 AI Agent 框架，居 GAIA 开源模型榜首；与合作单位联合发布性能超越 PI0.5 的统一 VLA 大模型，在多个领域展现出强劲的技术实力。

超维动力Kai以“物理世界模型+全身驱动系统”为基础，聚焦产品创新，致力于让人形机器人同时具备理性决策与情感共鸣，其核心技术能力涵盖五大方面。

一是空间智能，突破传统二维图像语义理解的局限，具备三维空间感知能力，可理解真实世界的几何物理特性，实现未知空间的推理、决策与路径规划；

二是高拟人全身运动控制，通过实时力控、动态平衡与全身协调算法，让机器人以自然、可靠、安全的方式在真实世界行走与操作；

三是视觉–语言–触觉–动作统一模型，赋予机器人“看、听、触、思、动”的一体化认知能力，可适配成千上万的真实场景；

四是全身数采工厂，依托轻量穿戴式全身数采设备与众包方案，实现海量真实场景数据回流，通过端云协同智能算法重构人类动作，推动具身智能数据飞轮闭环；

五是具身智能基础设施，通过高保真仿真训练与真实数据微调，实现技术快速迭代落地，让机器人在进入家庭与工厂前就具备充足的能力与安全边界。

02.

人形机器人无需“全能”？

在超维动力Kai看来，真正的人形机器人无需“全能”，但需具备人类般的理解、学习、推理、使用工具与适应世界的能力，最终实现智能、运动与情感的三重涌现。

目前，超维动力Kai在人形机器人核心技术领域已取得多项具体成果，针对性解决了行业内的关键痛点。

在数据层面，其推出的EgoHumanoid框架首次打通了人形机器人移动操作领域具身数据金字塔的壁垒——该金字塔底层为海量互联网视频数据，中层为人类示教数据，顶层为精确的机器人录制数据，数据量自下而上递减、与机器人执行的相关性自下而上递增。

由于顶层机器人遥操作数据受采集成本、复杂度与硬件安全限制，难以覆盖真实世界多样性，导致机器人在实际场景中易“失灵”。

EgoHumanoid框架通过引入中层易得的第一视角人类示教数据，将其转化为机器人可协同训练的有效监督，并与少量机器人示教数据协同训练，在不增加额外机器人数据采集的前提下，将未见场景的任务成功率提升51%。

其核心实现路径包括三方面：视角对齐，通过深度估计与三维重投影，将人类视角映射到机器人的身高与相机位姿，提供符合机器人几何条件的第一视角输入；动作对齐，抽取与形态无关的运动语义，映射到机器人动作空间，实现“意图一致、形态自适”的跨本体对齐；混合训练，以少量机器人数据保障物理一致性与执行精度，以大规模人类数据提升场景多样性与泛化能力。