【论文信息】 论文题目:What matters in building vision–language–action models for generalist robots 发表期刊:Nature Machine Intelligence, Volume 8, pp. 158–172, 2026 发表时间:2026 年 2 月 11 日在线发表 DOI:10.1038/s42256-025-01168-7 关键词:视觉-语言-动作模型;通用机器人;RoboVLMs;机器人基础模型;跨本体数据 |
过去几年,机器人领域一直在追问一个问题:能不能把大规模视觉语言模型的能力,真正用到机器人操作中?
这个问题看起来顺理成章。视觉语言模型已经能够识别图像中的物体,理解自然语言指令,也能对场景关系做出解释。如果把它接入机器人系统,是否就能让机器人根据“打开抽屉”“拿起杯子”“按下按钮”这类指令,直接完成相应动作?
但机器人操作的难点往往就在“直接”两个字上。图像理解和动作执行之间还有很长一段距离。机器人不仅要知道目标是什么,还要判断自己现在在哪里,手爪和物体之间是什么关系,前几步动作是否已经改变了场景,下一步动作应该多大、多快、往哪个方向执行。对人来说很自然的一次伸手,对机器人来说可能涉及视觉、语言、空间、本体状态和连续控制的共同配合。

图 1 论文涉及的仿真与真实机器人任务环境。
Nature Machine Intelligence 发表的这篇研究,讨论的正是这一问题。它并不是简单提出又一个 VLA 模型,而是更系统地问:构建面向通用机器人的视觉-语言-动作模型时,究竟哪些因素真正重要?
01. 背景与问题:VLA 为什么受到关注?
视觉-语言-动作模型(vision-language-action models, VLAs)可以简单理解为:模型输入视觉观测和语言指令,输出机器人动作。它希望把大规模视觉语言模型的开放世界理解能力,迁移到机器人控制任务中。
论文在开头将现有机器人策略大致分为几类:传统 model-free learning、model-based learning、world-model-based learning,以及基于视觉语言模型的 VLA。前三类方法各有优势,但也各有局限。传统 model-free 方法可以直接学习动作策略,却往往依赖具体任务数据;model-based 方法通过建模和规划生成动作,但容易和特定机器人或场景绑定;world model 路线尝试预测未来状态,再由逆动力学等模块推导动作。
VLA 的吸引力在于,它似乎给通用机器人提供了一条新路径:让机器人策略建立在大规模 VLM 之上,用预训练阶段获得的视觉语言表征,帮助机器人更好地理解物体、场景和任务指令。这样一来,机器人不只是学会某个动作模板,而是有机会在更开放的环境中理解“要做什么”。

图 2 不同机器人策略路线的比较。VLA 将预训练视觉语言模型作为状态编码基础。
不过,VLA 并不是把 VLM 接一个动作头就结束了。真正进入机器人控制后,很多细节都会变得关键:视觉语言骨干模型该选哪一个?动作应该离散化成 token,还是直接输出连续控制量?模型要不要看到历史观测?来自不同机器人平台的数据,是不是一定越多越好?
这些问题过去常常分散在不同论文中。本文的价值在于,作者把这些设计选择放到同一套框架下系统比较,试图回答 VLA 研究中一些看似基础、但并不容易回答的问题。
02. 核心思路:把 VLA 的关键选择拆开来看
论文围绕三个问题展开。
第一个问题是,应该选择什么样的 VLM backbone。不同视觉语言模型的架构、参数规模、视觉编码器和预训练数据差异很大。它们在图文任务上表现好,并不代表一定适合机器人操作。对机器人而言,模型不仅要识别“这是一个杯子”,还要理解杯子的位置、可抓取区域、与其他物体的关系,以及指令中隐含的操作目标。
第二个问题是,VLA 架构应该怎样设计。机器人动作不是单轮问答,不能只看一张图就输出一个静态答案。当前图像、历史动作、本体状态和后续动作序列都会影响结果。因此,论文重点比较了动作空间和历史信息两类设计:动作是连续表示还是离散表示?模型只使用当前观测,还是使用一段历史观测?历史信息是直接交错输入 VLM,还是交给额外的 policy head 来融合?
第三个问题是,跨本体数据应该如何使用。近年来,机器人领域开始汇集来自不同机器人平台、不同夹爪、不同相机视角和不同任务的数据。直觉上,数据越多,模型越通用。但机器人数据和图文数据不同,不同平台之间的动作空间、硬件结构和任务分布差异很大。因此,跨本体数据到底什么时候能帮忙,什么时候收益有限,需要实际验证。
03. 方法框架:RoboVLMs 提供统一比较平台
为了比较这些问题,作者提出了 RoboVLMs 框架。这个框架的重点不是固定一种模型结构,而是让不同 VLM backbone、不同动作表示方式、不同历史融合方式和不同数据使用策略,可以在统一条件下组合和评估。

图 3 RoboVLMs 统一框架。该框架围绕 VLA 架构、VLM backbone 和数据使用方式三个维度展开。
论文的实验规模较大。作者比较了 8 个以上视觉语言 backbone、4 类 policy architecture,并进行了 600 多组实验。评测同时覆盖仿真任务和真实机器人任务。
在仿真部分,论文使用了 CALVIN 和 SimplerEnv 两个基准。CALVIN 是多任务桌面操作环境,包含 34 个基本任务和 24000 条带语言标注的人类遥操作示范;SimplerEnv 则用于评估机器人策略在接近真实机器人设置的模拟环境中的表现。
在真实机器人部分,论文使用了包含 7 万余条人类遥操作轨迹、105 个操作任务的数据集。评估时,模型需要在 20 个任务上接受测试,每个任务又包含基础设置、未知干扰物、未知背景、未知目标物和新技能描述等不同条件。真实平台采用 Kinova Gen3 七自由度机械臂、Robotiq 2F-85 夹爪,并配备头部相机和腕部相机。
04. 实验结果:哪些因素真正影响模型表现?
4.1 VLA 确实是一条有潜力的路线
论文首先验证了一个基本判断:基于预训练 VLM 的 VLA,能否作为通用机器人策略的一条可行路线。
结果显示,RoboVLMs 中表现最好的模型,在 CALVIN 和 SimplerEnv 上超过了已有开源通用机器人策略。在 CALVIN 的跨场景测试中,最佳模型从训练场景迁移到未见过的新场景时,单任务和连续任务表现都有明显提升。论文报告,在 zero-shot 设置下,模型平均每次 rollout 可以完成 4.25 个任务,高于此前代表性方法 GR-1。
这说明,大规模视觉语言预训练并不只是提高了“看懂图片”的能力,也可以为机器人策略提供更好的语义基础。机器人在学习具体动作时,不必完全从低层像素和动作关系重新开始,而是可以站在更成熟的视觉语言表征之上。
4.2 Backbone 不能随便选
论文比较了 Flamingo、LLaVA、Qwen-VL、MoonDream、UForm、PaliGemma、KosMos 等多种视觉语言模型。结果显示,KosMos 和 PaliGemma 在多项 VLA 任务中表现更好。
这一点看似是模型对比,背后其实说明了 VLA 的一个基本要求:机器人操作需要的不是孤立的视觉识别能力,而是视觉和语言之间更充分的对齐。模型需要把“目标物体是什么”“它在哪里”“指令要求什么”“当前状态是否接近目标”这些信息放到同一套表征中。视觉语言预训练越扎实,后续策略学习越容易受益。
4.3 连续动作、历史信息和 policy head 更适合操作任务
在架构设计上,论文得到的结论比较清楚:连续动作通常优于离散动作;使用历史观测优于只使用当前观测;在历史信息融合方式上,policy head 的整体表现更好。
连续动作的优势并不难理解。机器人控制本来就是连续的,末端位置、姿态和速度都需要较高精度。如果把动作离散化成 token,模型虽然可以像预测语言一样预测动作,但也会引入量化误差。对于短任务,这种误差可能不明显;对于连续多步操作,误差会逐渐累积。
历史信息同样重要。机器人当前看到的画面,并不能完全说明之前发生了什么。比如物体是否刚被推动过,夹爪是否已经接触目标,前一步动作是否偏离预期,这些都可能影响下一步决策。引入历史观测,可以让模型更好地处理部分可观测和长时程操作问题。
policy head 的好处则在于分工更清楚。VLM 继续按照原本的方式处理视觉语言 token,额外的策略头负责融合历史视觉、本体状态和动作信息。这样既保留了预训练 VLM 的优势,也避免把所有历史信息都硬塞进 VLM 主体结构中。

图 4 不同动作空间和历史信息融合方式的消融结果
4.4 跨本体数据不是无条件有效
这篇论文中比较值得注意的结论,是它对“数据越多越好”这一常见直觉提出了保留。
作者比较了几种使用跨本体数据的方式:直接把目标数据和 Open X-Embodiment 等跨本体数据一起训练;只在目标数据上 fine-tune;以及先利用跨本体数据训练,再回到目标数据上 post-train。结果显示,直接 co-training 并不总能稳定提升最终表现。
原因也不难理解。不同机器人平台之间并不是只有“任务不同”这么简单,它们的机械结构、相机视角、动作定义、夹爪形态和数据分布都可能不同。跨本体数据可以提供更丰富的经验,但如果和目标平台差异过大,也可能带来干扰。论文发现,来自同一机器人或相近任务的 in-domain 数据,仍然对目标任务表现有非常直接的作用。
换句话说,机器人模型的泛化并不是“一次预训练,到处通吃”。数据规模重要,数据和目标任务之间的匹配关系同样重要。
4.5 训练目标和执行方式:不只是生成动作,还要稳定执行动作
除了 backbone 和架构,论文还比较了不同训练目标和推理阶段动作执行方式。作者将 Flow Matching 与 MSE+BCE 这类监督目标进行对比,结果发现 Flow Matching 虽然在部分实验中略有优势,但整体差距并不显著。对于一些相对短时程、动作不确定性没有那么强的任务,直接的监督学习目标仍然可以取得接近的效果。
更值得注意的是推理阶段如何执行动作。VLA 往往一次预测一段 action chunk,问题在于:机器人是只执行其中第一个动作,然后马上重新推理;还是完整执行这一段动作;或者对多次预测结果进行集成?论文结果显示,在不少设置中,完整执行 action chunk 更有利于保持动作序列的时间一致性。只执行第一个动作虽然看起来更谨慎,但可能破坏模型原本生成的连续轨迹,反而影响长时程任务表现。
这个结果看似是一个实现细节,其实很能说明机器人任务的特点。语言模型生成答案时,输出通常是一个离散文本序列;机器人执行动作时,每一步都和真实物理环境发生作用。动作不仅要“预测对”,还要在时间上连贯,在执行中稳定。VLA 的难点也因此不只是模型结构本身,还包括训练目标、动作块执行方式和推理频率这些容易被忽略的工程选择。
4.6 真实机器人实验更能说明问题
除了仿真结果,论文还在真实机器人平台上进行了验证。作者将最佳 RoboVLMs 模型与 Octo-Base、OpenVLA 等基线进行比较。结果显示,基于 KosMos backbone 和 policy head 的模型在多数真实评估设置中表现最好,尤其是在基础场景和未知背景条件下优势更明显。

图 5 真实机器人任务中的不同模型表现比较。
论文还观察到一个有意思的现象:在部分真实任务中,模型表现出一定的自我纠正能力。比如第一次没有准确到达目标位置时,机器人会在后续动作中调整末端执行器位置并继续尝试完成任务。作者指出,这类自我纠正行为并没有作为专门数据出现在训练集中,在部分对比模型中也不明显。

图 6 真实机器人实验中出现的自我纠正现象。
这类结果说明,VLA 的价值不只体现在单次动作预测上,也体现在模型能否在连续执行中根据视觉反馈保持任务方向。对于真实机器人来说,这比单步成功率更接近实际使用中的难点。
05.讨论:通用机器人不是“更大的模型 + 更多的数据”
如果只看标题,这篇论文容易被理解成又一个 VLA 模型工作。但它真正有意思的地方,恰恰不在于又提出了一个模型名字,而在于把 VLA 热潮中一些经常被默认、却很少被系统回答的问题重新摆到了桌面上。
机器人并不是“会看图、会听指令”之后就自然会操作。VLM 可以提供开放世界中的语义理解能力,但真实操作还要面对更细的动作问题:当前手爪处在什么位置,前几步动作留下了什么影响,下一步应该输出连续控制量还是离散动作 token,细小误差会不会在长任务中不断累积。论文关于连续动作、历史观测和 policy head 的结论,本质上说明了一个问题:VLA 的难点不只是理解语言,而是把语言理解稳定地落到时间连续的动作执行中。
另一个值得注意的结论,是论文给“数据越多越好”的直觉泼了一点冷水。跨本体数据听起来很有吸引力:把不同机器人、不同任务、不同场景的数据合在一起,似乎就能训练出更通用的机器人策略。但实验结果表明,这种迁移并不是无条件发生的。机器人之间的硬件结构、动作定义、相机视角和任务频率差异,都会影响数据能否真正转化为能力。
这也是这篇研究比较有价值的地方。它没有简单重复“大模型让机器人更通用”这样的判断,而是进一步追问:这种通用性到底来自哪里?是视觉语言预训练本身,还是动作表示方式?是数据规模,还是数据与目标平台之间的匹配程度?是模型架构更复杂,还是某些看似朴素的工程选择更稳?
这些问题听起来没有新模型名字那么醒目,却更接近机器人走向真实环境时必须面对的困难。对于仍在快速迭代的 VLA 领域来说,一项系统比较研究的意义正在于:它不只是告诉我们“什么模型更强”,也在尝试回答“为什么会更强”。
06.启示
后续研究来看,这篇论文的启发不在于提供某个可以直接照搬的模型方案,而在于提示我们:VLA 方向已经从早期的概念验证,逐渐进入更加重视系统设计和实证比较的新阶段。对后续开展 VLA 与具身智能相关研究而言,单纯关注某个新模型或单一结果并不足够,更值得关注的是 backbone 选择、动作表示、历史信息建模和数据组织方式等基础环节如何共同影响最终表现。
同时,论文也提醒我们,通用能力最终还是需要通过具体任务和真实场景来检验。无论是仿真基准、真实机器人平台,还是跨本体数据与目标平台数据的配合,都说明 VLA 研究不能只停留在“大模型赋能机器人”的概念层面,而需要在可复现评测、任务覆盖和场景泛化上逐步积累。
因此,这篇工作对相关研究更像是一份方向性参照:一方面需要持续关注 VLA 模型能力本身的提升,另一方面也要重视实验设计、数据构建和评估体系这些相对基础但影响深远的问题。只有把模型、数据、任务和评估放在同一个框架中理解,后续研究才更容易形成连续积累,也更容易体现出稳定的研究特色。
07. 小结
总体来看,这篇论文提供了一份面向 VLA 研究的系统化设计参考。作者通过 RoboVLMs 框架,将不同视觉语言骨干、动作表示方式、历史信息融合方法和数据使用策略放在统一条件下比较,并在仿真和真实机器人任务中验证其效果。
论文的主要结论可以概括为五点:第一,基于预训练 VLM 的 VLA 是构建通用机器人策略的一条有前景路线;第二,充分的视觉语言预训练对 VLA 表现非常关键;第三,连续动作、历史观测和 policy head 组合更适合机器人操作任务;第四,训练目标并不是唯一决定因素,推理阶段的动作执行方式同样会影响连续操作表现;第五,跨本体数据有价值,但目标平台和相近任务数据仍然不可替代。
从更长远看,VLA 研究正在从早期的能力展示,走向更加重视结构选择、数据策略和真实场景验证的新阶段。未来通用机器人能否真正进入复杂开放环境,可能不仅取决于模型更大、数据更多,也取决于这些设计细节能否被更清楚地理解和组合。