文献导读:Science Robotics研究:人在环强化学习(HIL-SERL)——让机器人在真实世界中学会精密灵巧操作

作者:徐家和时间:2026-05-12点击数:

 

论文首页信息节选:Science Robotics, 2025

在机器人操作中,真正困难的往往不是“知道要做什么”,而是“在接触、偏差、扰动和狭窄容差中把动作做对”。插入RAM、装配仪表盘、安装同步带、抽出叠叠乐木块,这些任务都要求机器人在真实物理世界中持续感知、纠偏和学习。

Science Robotics 发表的这项研究提出 HIL-SERL(human-in-the-loop sample-efficient robotic reinforcement learning),将少量人类示范、在线人类纠正、样本高效强化学习和系统级安全设计结合起来,使机器人能够直接在真实平台上训练视觉操作策略,并在多个精密和灵巧操作任务中达到接近满分的成功率。


一、背景:机器人灵巧操作卡在哪里?

机器人操作长期面临一个核心矛盾:传统控制方法可以在窄任务中做到很精确,但往往依赖大量人工建模和任务专用调参;模仿学习可以快速复现人类动作,却容易在初始位置、接触状态和物体姿态变化时发生误差累积;强化学习理论上能够通过试错找到更优策略,但真实机器人训练又会遇到样本效率低、安全风险高、奖励难定义等问题。

这篇论文把问题放在更真实的操作场景里:精密装配、双臂协同、柔性物体操作和动态操作。这些任务并不是简单的“抓起来再放下”,而是要求策略理解视觉变化、接触力变化和执行误差,并在运行过程中形成反应式闭环。

因此,论文真正想回答的问题是:如果不依赖仿真到现实迁移,也不只靠大规模离线数据,能否让机器人在真实硬件上、用可接受的训练时间,直接学会复杂灵巧技能?HIL-SERL给出的答案是:可以,但关键不在单一算法,而在“人类纠错 + 强化学习 + 真实系统设计”的组合。

 

图1  代表性任务

二、技术方法:把“人类纠错”变成强化学习的有效信号

  

图2 方法概述

HIL-SERL并不是简单地让人类一直遥操作机器人,而是把人类的少量演示和在线纠正组织成强化学习可以利用的数据。它的目标不是复制人类动作,而是让策略在真实交互中逐渐超过演示者,形成更快、更稳、更鲁棒的闭环控制行为。

用少量示范启动策略,而不是完全从零探索

真实机器人很难从随机动作开始学习精密操作,因为稀疏奖励几乎无法被触发。论文先收集少量人类示范,将其放入离线回放缓冲区,为策略提供初始可行轨迹。这样做相当于告诉机器人“成功大致长什么样”,避免早期训练完全陷入无效探索。

用在线人类纠正修正探索方向

训练过程中,当策略出现明显偏差时人类操作者可以介入并给出纠正片段。这些纠正不会像DAgger那样仅用于监督模仿,而是作为off-policy强化学习的数据进入回放池,由价值函数和策略优化过程共同吸收。换句话说,人类纠正不是终点,而是让机器人继续自我改进的“路标”。

用样本高效强化学习把纠错转化为策略提升

论文采用基于RLPD的样本高效off-policy强化学习,并结合预训练视觉骨干来提升训练稳定性。奖励方面,系统使用成功/失败二分类器作为稀疏奖励检测器,输入来自腕部相机和侧视相机的图像。这样既避免了复杂手工奖励设计,也让策略能够围绕任务成功概率进行优化。

用低层控制器保证真实训练的安全边界

在真实机器人上训练强化学习,系统设计比算法本身同样重要。论文在动作空间中使用末端笛卡尔速度、力/力矩或夹爪控制,并通过下游阻抗控制器执行动作。低层控制器为训练过程提供基本安全性,使策略可以在真实物理接触中学习,而不是完全依赖仿真。

三、任务设置:从主板装配到动态操作的真实挑战

实验覆盖七类真实机器人任务,既包含接触丰富的精密插入,也包含双臂协同、柔性物体操作和动态行为。任务对象包括主板RAM/SSD/USB装配、IKEA家具装配、汽车仪表盘装配、双臂物体交接、同步带安装、叠叠乐木块抽取和平底锅翻转。

这些任务的共同点是:初始状态存在厘米级角度级随机扰动,目标动作通常容差很小,且机器人必须在执行过程中根据图像和本体状态实时调整。对于RAM插入,力稍大可能导致内存条在夹爪中倾斜,力不足又无法完成插入;对于同步带装配,柔性带会在操作中发生不可预测变形;对于叠叠乐任务,机器人必须学习类似反射的高速开环动作,同时避免推倒整座塔。

 

图3 论文实验任务全景

四、结果验证:真实机器人上的三类能力

论文的结果重点不是“在仿真中跑得很高”,而是在真实机器人上用可接受时间直接训练策略。除同步带任务需要更长时间外,多数任务在1到2.5小时内完成训练;在大部分评估中,HIL-SERL相较于模仿学习基线显著提升了成功率和执行速度。

指标/任务

IL或HG-DAgger基线

HIL-SERL

核心含义

平均成功率

49.7%

100%

同等人类数据下,RL显著超过模仿学习

平均周期时间

9.6 s

5.4 s

平均约1.8×更快

RAM插入

29%

100%

精密接触任务收益明显

汽车仪表盘装配

41%

100%

双臂协同与多销对准能力增强

同步带装配

2%

100%

柔性物体与双臂协调场景提升最大

 复杂空间指令与精密接触操作能力

在RAM插入、SSD装配、USB插入等任务中,策略需要根据多相机图像持续调整末端位置和姿态。HIL-SERL学习到的不是固定轨迹,而是面向目标状态的视觉伺服行为:一旦初始抓取、插入角度或目标位置发生变化,策略仍能通过闭环反馈进行修正。

双臂协同与柔性物体处理能力

汽车仪表盘装配、物体交接和同步带安装都要求两个机械臂在时间和空间上协同。特别是同步带任务中,策略需要同时处理柔性带的变形、滑轮位置和张紧器动作。结果表明,HIL-SERL能够从真实交互中学到这类难以手工建模的反应式协调行为。

动态开环行为与鲁棒恢复能力

叠叠乐抽取和平底锅翻转更接近动态操作,策略不仅要“对准”,还要学会合适的速度、力度和时序。论文还展示了若干鲁棒性测试:主板被移动、夹爪被强制打开、同步带被扰动、USB抓取失败等情况下,策略可以重新抓取或重新调整,说明它并不是机械复现演示,而是在真实交互中形成了恢复策略。

 

图4 学习曲线

  

图5 鲁棒性测试

五、展望:结构化交互数据或许比单纯扩大模型更关键

论文认为,HIL-SERL可以成为生成高质量机器人数据的一种工具。由于每个任务训练时间相对较短,训练收敛后的策略可以进一步采集大量成功轨迹,再蒸馏到机器人基础模型中。这一点很重要:未来的机器人基础模型不一定只靠互联网图像或遥操作视频堆规模,还需要来自真实交互的高质量闭环数据。

当然,这项工作也有清晰边界。首先,更长时序任务可能会受到样本复杂度限制,需要任务自动分解、层次化学习或更好的预训练价值函数。其次,方法依赖稀疏奖励分类器,面对极窄成功条件时仍可能探索困难。再次,论文并未系统验证非结构化环境中的强泛化能力,未来需要更丰富的随机化课程和视觉基础模型来提升跨场景适应性。

写在最后

这篇论文最有价值的地方不是提出了一个全新的强化学习算法,而是把真实机器人学习中几个长期被分开讨论的问题串起来了人类如何介入、示范数据如何利用、策略如何从错误中改进、真实训练如何保证安全、以及如何让机器人最终超过人类演示的速度和稳定性。

人在环不只是“给标签”或“做遥操作”,而是可以成为机器人持续自我改进的交互式监督来源。对于知识密集型工业场景,可能更合理的路线是“知识驱动任务规划 + 人类在环技能学习 + 状态反馈验证”。只有这样,机器人才能从“知道规则”进一步走向“稳定执行规则”。


【论文信息】

• 标题:Precise and dexterous robotic manipulation via human-in-the-loop reinforcement learning

• 作者:Jianlan Luo, Charles Xu, Jeffrey Wu, Sergey Levine

• 期刊:Science Robotics

• 在线日期:2025年8月20日

• DOI:https://doi.org/10.1126/scirobotics.ads5033

• 代码与材料:Zenodo: https://zenodo.org/records/16064289;项目页: https://hil-serl.github.io/

• 关键词:人类在环强化学习;真实机器人RL;精密操作;双臂协同;灵巧操作

实验室地址:湖北省武汉市华中科技大学机械科学与工程学院东楼B317  

邮政编码:430074 联系电话:15171466275  

电子邮箱: 819068551@qq.com  

版权所有:2017_AMI_WEBSITE HUST