文献导读:毫秒级感知-决策-执行闭环的自主物理AI系统--Ace乒乓球机器人(Nature)

作者:王浩印时间:2026-05-12点击数:

【论文信息】

论文标题:Outplaying elite table tennis players with an autonomous robot

发表期刊:Nature,Vol652,pp 886-891(2026)

DOI:10.1038/s41586-026-10338-5


01.研究背景

AI系统已在国际象棋、围棋、星际争霸等项目中超越人类顶尖选手,但这些成就局限于虚拟或信息空间。物理性、实时对抗性运动--如乒乓球对AI而言仍是尚未攻克的高地。一局高水平乒乓球赛中,球速可超20 m/s,转速可达1000 rad/s,两拍间隔常不足0.5秒,逼近人类反应极限。更关键的是,球的旋转不仅显著改变其空中轨迹,还影响与球台、球拍的接触反弹行为,是高水平对抗中的核心战术要素。

自1983年以来,已提出多种乒乓球机器人方案,但此前工作皆存在显著局限:或使用固定发球装置规避真实对抗,或缩减场地覆盖范围降低运动难度,或忽略旋转这一决定竞技水准的核心变量。从控制方法看,多数方案依赖启发式击球点、轨迹预测、人类示教等强假设,未能形成从感知到动作的端到端自主闭环。因此,在完全遵循正式比赛规则的条件下,构建能与人类精英选手对等竞争的自主乒乓球机器人,始终是该领域的顶级挑战。

02.主要内容

本文介绍的Ace系统由感知、控制、硬件三大子系统构成,是首个在符合国际乒联(ITTF)规则的正式比赛中与人类精英及职业选手竞争并取得胜绩的自主乒乓球机器人。

1.感知系统:高速多模态球体状态测量

Ace的感知系统要回答两个核心问题:球在哪里,球转多快。

位置测量:9台APS工业相机安装于场地外围,以200 Hz频率同步采集1440×1080像素图像。每台相机配备FPGA硬件加速的二维检测模块,仅回传压缩后的检测掩码至中央服务器进行三维定位,平均延迟10.2 ms,平均误差3.0 mm。相机布局由CMA-ES优化算法自动求解。

旋转测量:这是Ace最显著的技术突破之一。传统方法难以在高速飞行中准确测量球体角速度。Ace采用了3套“凝视控制系统”(GCS),每套集成事件相机、可调焦远摄镜头与振镜式反射镜,可主动跟踪并放大飞行中的乒乓球。球体表面印刷logo的运动被事件相机捕捉后,由两条异步通路并行处理:一路为卷积神经网络(CNN),利用15 ms累积事件直接估计角速度,延迟低但精度有限;另一路为对比度最大化化算法(CMax),精度高但延迟长。系统根据各通路输出的不确定性进行动态加权融合,最终以约400–700 Hz的可变频率输出角速度估计值,平均误差约24.8 rad/s。

图1 Ace系统设置

2. 控制系统:仿真训练的强化学习策略零样本迁移

这是Ace能够实现的智能中枢。在对打阶段,系统将连续回合拆分为独立片段(从对手击球至机器人回球完成),每32 ms查询一次深度强化学习策略网络。它以SAC(Soft Actor-Critic)算法在仿真环境中完成全部训练,采用非对称Actor-Critic架构--Critic获取仿真器中的真值球态以提供准确的学习信号,Actor仅以带噪声的传感器观测历史(含球位和转速序列)作为输入,从而保证策略直接迁移至真实世界。策略输出的动作经特殊映射算法转化为32 ms后的可行关节位姿终点约束,再由MPC优化问题求解连续时间轨迹,并同步计算一条“复位轨迹”作为安全保障:若预测会发生碰撞则放弃当前轨迹改为执行上一拍的安全复位轨迹。

为应对不同来球,Ace在比赛时从一个策略库中按启发式或数据驱动规则动态采样,各策略对应不同回球技能(如强上旋、下旋、精准落点等)。

在发球阶段,Ace执行一种特殊的两段流程:首先从人类发球示教数据中优化出合规且稳定的抛球轨迹;随后,采用遗传算法在仿真中搜索最优击球状态参数以最大化特定发球技术指标(如落点、速度、转速),最终在真实机器人上由教练评估筛选,仅有失败率低于5%的发球会被收录进比赛发球库。库中的发球按最近历史中未使用的类型或预期得分概率进行选择。

图2 Ace集成感知、控制和机械臂硬件

3.硬件系统:面向专业竞技的定制设计

为匹配专业级乒乓球所要求的工作空间与敏捷性,其团队开发了8自由度(2个移动关节+6个旋转关节)的定制机械臂平台。末端执行器在满足覆盖3.6m×3.6 m场上有效区域的前提下,最大线速度可达20 m/s。通过拓扑优化与增材制造工艺,其机械臂结构在保证刚度的同时实现了减重。底层运动控制以1 ms为周期驱动全部关节,并与感知系统共享同一时钟信号,从而在硬件层面实现了全系统的时序同步。

4.比赛评估:与精英、职业选手正面较量

2025年4月,Ace在奥运会标准场地中,完全遵循ITTF规则与5名精英选手及2名职业选手进行了正式比赛。

主要结果如下:

·对战精英选手:5场比赛中赢下3场,累计局分7胜6负。

·对战职业选手:2场均告负,累计局分1胜6负。

·回球能力:Ace可稳定回击球速高达14 m/s、转速达450 rad/s的来球,两项指标的回球率均不逊于或优于人类对手。Ace自身能制造最高16.4 m/s出球速度和600 rad/s出球转速。

·得分模式差异:人类选手的制胜分在球速与转速上均显著高于其回球平均水准(P<0.001),说明其依赖“强攻”得分;Ace的制胜分与回球在速度/转速分布上无显著差异(P=0.88),说明Ace依靠回球的持续一致性而非爆发力压制对手。

·应急响应:Ace成功应对擦网球等极其罕见且难以在仿真中模拟的突发情况,展示了从感知到动作全链路低延迟带来的灵活应急能力。

图3 比赛场景与赛后得分

03.总结与展望

Ace的里程碑意义不仅在于竞技层面的胜利,更在于它验证了一种重要的技术范式:高保真仿真到真实世界的零样本迁移。其核心在于,通过对气动、碰撞、噪声及驱动延迟等物理环节的系统建模,配合充分的领域随机化,使完全在虚拟环境中训练的策略得以直接部署至物理系统。

这对数字孪生研究的启发在于,高保真的虚拟环境除了用于状态监测与故障诊断,还有潜力成为自主技能的“训练场”,承担策略探索与验证的功能。对于重载机械臂研究,Ace的硬件设计同样值得关注。该平台在覆盖3.6m×3.6m工作空间的同时,实现20 m/s的末端速度和低于5 ms的跟踪延迟,这依赖于“拓扑优化的轻量化结构、毫秒级硬件同步与学习型策略”三者协同。对比之下,工业重载装备通常以牺牲动态响应为代价来保证刚度和精度,运动规划过度依赖预设轨迹,缺乏对动态环境的自适应。将高动态控制与自主技能学习范式引入重载作业场景,有望为高速协作、人机安全配合等任务提供新的解决方案。

在人机交互方面,Ace将人机关系从工具性协作延伸到对等竞技,这对工业协作场景亦有参考价值。其非对称Actor-Critic架构--训练端接收真实状态以提供准确学习信号,部署端仅依靠带噪传感器观测以保证策略迁移--本质上是一种通用的设计思想,可为工业人机协作策略的学习提供方法论借鉴。

当前框架的主要局限在于,缺乏对交互对象行为模式与战术意图的显式推理。反映在乒乓球场景中是无法根据对手弱点动态调整策略,推广到更一般的自主物理系统,则表现为对非平稳动态环境--如设备退化、任务变化、操作者状态波动的适应能力不足。将在线学习与基于模型的状态估计纳入系统闭环,是实现从“执行固定策略”到“持续理解与自适应”跨越的关键。

总体而言,Ace所建立的技术框架包括高保真仿真与领域随机化、高动态机构设计与学习型控制、多模态感知的毫秒级融合,为自主物理智能系统提供了一套可参照的方法论组合。这一框架的价值远不限于乒乓球,它促使更多领域的研究者思考:各自所面对的物理系统,是否也已走到从半自主迈向全自主、从预设程序迈向自适应交互的转折点上。

结语

Ace的出现,标志着自主物理AI系统首次在需要毫秒级感知-决策-执行闭环的对抗性运动中,真正站到了人类精英选手的同一竞技平面上。它不仅证明了从仿真中完全学习高速物理技能并零样本迁移至真实世界的可行性,更为“人机交互”赋予了新的内涵——从工具性的协作延伸至对等的竞技。这预示着一个由机械臂实体与自主学习算法深度融合所驱动的智能时代,正向我们加速走来。

实验室地址:湖北省武汉市华中科技大学机械科学与工程学院东楼B317  

邮政编码:430074 联系电话:15171466275  

电子邮箱: 819068551@qq.com  

版权所有:2017_AMI_WEBSITE HUST