文献导读：Science Robotics研究：人在环强化学习（HIL-SERL）——让机器人在真实世界中学会精密灵巧操作-华中科技大学先进制造与智能实验室

首页 > 信息中心 > 论文推荐 > 正文

文献导读：Science Robotics研究：人在环强化学习（HIL-SERL）——让机器人在真实世界中学会精密灵巧操作

作者：徐家和时间：2026-05-12点击数：

论文首页信息节选：Science Robotics, 2025

在机器人操作中，真正困难的往往不是“知道要做什么”，而是“在接触、偏差、扰动和狭窄容差中把动作做对”。插入RAM、装配仪表盘、安装同步带、抽出叠叠乐木块，这些任务都要求机器人在真实物理世界中持续感知、纠偏和学习。

Science Robotics 发表的这项研究提出 HIL-SERL（human-in-the-loop sample-efficient robotic reinforcement learning），将少量人类示范、在线人类纠正、样本高效强化学习和系统级安全设计结合起来，使机器人能够直接在真实平台上训练视觉操作策略，并在多个精密和灵巧操作任务中达到接近满分的成功率。

一、背景：机器人灵巧操作卡在哪里？

机器人操作长期面临一个核心矛盾：传统控制方法可以在窄任务中做到很精确，但往往依赖大量人工建模和任务专用调参；模仿学习可以快速复现人类动作，却容易在初始位置、接触状态和物体姿态变化时发生误差累积；强化学习理论上能够通过试错找到更优策略，但真实机器人训练又会遇到样本效率低、安全风险高、奖励难定义等问题。

这篇论文把问题放在更真实的操作场景里：精密装配、双臂协同、柔性物体操作和动态操作。这些任务并不是简单的“抓起来再放下”，而是要求策略理解视觉变化、接触力变化和执行误差，并在运行过程中形成反应式闭环。

因此，论文真正想回答的问题是：如果不依赖仿真到现实迁移，也不只靠大规模离线数据，能否让机器人在真实硬件上、用可接受的训练时间，直接学会复杂灵巧技能？HIL-SERL给出的答案是：可以，但关键不在单一算法，而在“人类纠错 + 强化学习 + 真实系统设计”的组合。

图1 代表性任务

二、技术方法：把“人类纠错”变成强化学习的有效信号

图2 方法概述

HIL-SERL并不是简单地让人类一直遥操作机器人，而是把人类的少量演示和在线纠正组织成强化学习可以利用的数据。它的目标不是复制人类动作，而是让策略在真实交互中逐渐超过演示者，形成更快、更稳、更鲁棒的闭环控制行为。

用少量示范启动策略，而不是完全从零探索

真实机器人很难从随机动作开始学习精密操作，因为稀疏奖励几乎无法被触发。论文先收集少量人类示范，将其放入离线回放缓冲区，为策略提供初始可行轨迹。这样做相当于告诉机器人“成功大致长什么样”，避免早期训练完全陷入无效探索。

用在线人类纠正修正探索方向

训练过程中，当策略出现明显偏差时，人类操作者可以介入并给出纠正片段。这些纠正不会像DAgger那样仅用于监督模仿，而是作为off-policy强化学习的数据进入回放池，由价值函数和策略优化过程共同吸收。换句话说，人类纠正不是终点，而是让机器人继续自我改进的“路标”。

用样本高效强化学习把纠错转化为策略提升

论文采用基于RLPD的样本高效off-policy强化学习，并结合预训练视觉骨干来提升训练稳定性。奖励方面，系统使用成功/失败二分类器作为稀疏奖励检测器，输入来自腕部相机和侧视相机的图像。这样既避免了复杂手工奖励设计，也让策略能够围绕任务成功概率进行优化。

用低层控制器保证真实训练的安全边界

在真实机器人上训练强化学习，系统设计比算法本身同样重要。论文在动作空间中使用末端笛卡尔速度、力/力矩或夹爪控制，并通过下游阻抗控制器执行动作。低层控制器为训练过程提供基本安全性，使策略可以在真实物理接触中学习，而不是完全依赖仿真。

三、任务设置：从主板装配到动态操作的真实挑战

实验覆盖七类真实机器人任务，既包含接触丰富的精密插入，也包含双臂协同、柔性物体操作和动态行为。任务对象包括主板RAM/SSD/USB装配、IKEA家具装配、汽车仪表盘装配、双臂物体交接、同步带安装、叠叠乐木块抽取和平底锅翻转。

这些任务的共同点是：初始状态存在厘米级或角度级随机扰动，目标动作通常容差很小，且机器人必须在执行过程中根据图像和本体状态实时调整。对于RAM插入，力稍大可能导致内存条在夹爪中倾斜，力不足又无法完成插入；对于同步带装配，柔性带会在操作中发生不可预测变形；对于叠叠乐任务，机器人必须学习类似反射的高速开环动作，同时避免推倒整座塔。

图3 论文实验任务全景

四、结果验证：真实机器人上的三类能力

论文的结果重点不是“在仿真中跑得很高”，而是在真实机器人上用可接受时间直接训练策略。除同步带任务需要更长时间外，多数任务在1到2.5小时内完成训练；在大部分评估中，HIL-SERL相较于模仿学习基线显著提升了成功率和执行速度。

指标/任务	IL或HG-DAgger基线	HIL-SERL	核心含义
平均成功率	49.7%	100%	同等人类数据下，RL显著超过模仿学习
平均周期时间	9.6 s	5.4 s	平均约1.8×更快
RAM插入	29%	100%	精密接触任务收益明显
汽车仪表盘装配	41%	100%	双臂协同与多销对准能力增强
同步带装配	2%	100%	柔性物体与双臂协调场景提升最大

复杂空间指令与精密接触操作能力

在RAM插入、SSD装配、USB插入等任务中，策略需要根据多相机图像持续调整末端位置和姿态。HIL-SERL学习到的不是固定轨迹，而是面向目标状态的视觉伺服行为：一旦初始抓取、插入角度或目标位置发生变化，策略仍能通过闭环反馈进行修正。

双臂协同与柔性物体处理能力

汽车仪表盘装配、物体交接和同步带安装都要求两个机械臂在时间和空间上协同。特别是同步带任务中，策略需要同时处理柔性带的变形、滑轮位置和张紧器动作。结果表明，HIL-SERL能够从真实交互中学到这类难以手工建模的反应式协调行为。

动态开环行为与鲁棒恢复能力

叠叠乐抽取和平底锅翻转更接近动态操作，策略不仅要“对准”，还要学会合适的速度、力度和时序。论文还展示了若干鲁棒性测试：主板被移动、夹爪被强制打开、同步带被扰动、USB抓取失败等情况下，策略可以重新抓取或重新调整，说明它并不是机械复现演示，而是在真实交互中形成了恢复策略。

图4 学习曲线

图5 鲁棒性测试

五、展望：结构化交互数据或许比单纯扩大模型更关键

论文认为，HIL-SERL可以成为生成高质量机器人数据的一种工具。由于每个任务训练时间相对较短，训练收敛后的策略可以进一步采集大量成功轨迹，再蒸馏到机器人基础模型中。这一点很重要：未来的机器人基础模型不一定只靠互联网图像或遥操作视频堆规模，还需要来自真实交互的高质量闭环数据。

当然，这项工作也有清晰边界。首先，更长时序任务可能会受到样本复杂度限制，需要任务自动分解、层次化学习或更好的预训练价值函数。其次，方法依赖稀疏奖励分类器，面对极窄成功条件时仍可能探索困难。再次，论文并未系统验证非结构化环境中的强泛化能力，未来需要更丰富的随机化课程和视觉基础模型来提升跨场景适应性。

写在最后

这篇论文最有价值的地方不是提出了一个全新的强化学习算法，而是把真实机器人学习中几个长期被分开讨论的问题串起来了：人类如何介入、示范数据如何利用、策略如何从错误中改进、真实训练如何保证安全、以及如何让机器人最终超过人类演示的速度和稳定性。

人在环不只是“给标签”或“做遥操作”，而是可以成为机器人持续自我改进的交互式监督来源。对于知识密集型工业场景，可能更合理的路线是“知识驱动任务规划 + 人类在环技能学习 + 状态反馈验证”。只有这样，机器人才能从“知道规则”进一步走向“稳定执行规则”。

【论文信息】

• 标题：Precise and dexterous robotic manipulation via human-in-the-loop reinforcement learning

• 作者：Jianlan Luo, Charles Xu, Jeffrey Wu, Sergey Levine

• 期刊：Science Robotics

• 在线日期：2025年8月20日

• DOI：https://doi.org/10.1126/scirobotics.ads5033

• 代码与材料：Zenodo: https://zenodo.org/records/16064289；项目页: https://hil-serl.github.io/

• 关键词：人类在环强化学习；真实机器人RL；精密操作；双臂协同；灵巧操作

上一条：文献导读：从自然驾驶数据中学习潜在风险演化——正常分布驱动的风险建模启示 | Nature Machine Intelligence 下一条：文献导读：毫秒级感知-决策-执行闭环的自主物理AI系统--Ace乒乓球机器人（Nature）

文献导读：Science Robotics研究：人在环强化学习（HIL-SERL）——让机器人在真实世界中学会精密灵巧操作

作者：徐家和时间：2026-05-12点击数：_showDynClicks("wbnews", 1380182543, 1563)

作者：徐家和时间：2026-05-12点击数：