首页 > 信息中心 > 论文推荐 > 正文

文献导读：构建通用机器人 VLA 模型，真正重要的是什么？——Nature Machine Intelligence 最新研究解读

作者：寇逸群时间：2026-05-29点击数：

【论文信息】

论文题目：What matters in building vision–language–action models for generalist robots

发表期刊：Nature Machine Intelligence, Volume 8, pp. 158–172, 2026

发表时间：2026 年 2 月 11 日在线发表

DOI：10.1038/s42256-025-01168-7

关键词：视觉-语言-动作模型；通用机器人；RoboVLMs；机器人基础模型；跨本体数据

过去几年，机器人领域一直在追问一个问题：能不能把大规模视觉语言模型的能力，真正用到机器人操作中？

这个问题看起来顺理成章。视觉语言模型已经能够识别图像中的物体，理解自然语言指令，也能对场景关系做出解释。如果把它接入机器人系统，是否就能让机器人根据“打开抽屉”“拿起杯子”“按下按钮”这类指令，直接完成相应动作？

但机器人操作的难点往往就在“直接”两个字上。图像理解和动作执行之间还有很长一段距离。机器人不仅要知道目标是什么，还要判断自己现在在哪里，手爪和物体之间是什么关系，前几步动作是否已经改变了场景，下一步动作应该多大、多快、往哪个方向执行。对人来说很自然的一次伸手，对机器人来说可能涉及视觉、语言、空间、本体状态和连续控制的共同配合。

图 1 论文涉及的仿真与真实机器人任务环境。

Nature Machine Intelligence 发表的这篇研究，讨论的正是这一问题。它并不是简单提出又一个 VLA 模型，而是更系统地问：构建面向通用机器人的视觉-语言-动作模型时，究竟哪些因素真正重要？

01. 背景与问题：VLA 为什么受到关注？

视觉-语言-动作模型（vision-language-action models, VLAs）可以简单理解为：模型输入视觉观测和语言指令，输出机器人动作。它希望把大规模视觉语言模型的开放世界理解能力，迁移到机器人控制任务中。

论文在开头将现有机器人策略大致分为几类：传统 model-free learning、model-based learning、world-model-based learning，以及基于视觉语言模型的 VLA。前三类方法各有优势，但也各有局限。传统 model-free 方法可以直接学习动作策略，却往往依赖具体任务数据；model-based 方法通过建模和规划生成动作，但容易和特定机器人或场景绑定；world model 路线尝试预测未来状态，再由逆动力学等模块推导动作。

VLA 的吸引力在于，它似乎给通用机器人提供了一条新路径：让机器人策略建立在大规模 VLM 之上，用预训练阶段获得的视觉语言表征，帮助机器人更好地理解物体、场景和任务指令。这样一来，机器人不只是学会某个动作模板，而是有机会在更开放的环境中理解“要做什么”。

图 2 不同机器人策略路线的比较。VLA 将预训练视觉语言模型作为状态编码基础。

不过，VLA 并不是把 VLM 接一个动作头就结束了。真正进入机器人控制后，很多细节都会变得关键：视觉语言骨干模型该选哪一个？动作应该离散化成 token，还是直接输出连续控制量？模型要不要看到历史观测？来自不同机器人平台的数据，是不是一定越多越好？

这些问题过去常常分散在不同论文中。本文的价值在于，作者把这些设计选择放到同一套框架下系统比较，试图回答 VLA 研究中一些看似基础、但并不容易回答的问题。

02. 核心思路：把 VLA 的关键选择拆开来看

论文围绕三个问题展开。

第一个问题是，应该选择什么样的 VLM backbone。不同视觉语言模型的架构、参数规模、视觉编码器和预训练数据差异很大。它们在图文任务上表现好，并不代表一定适合机器人操作。对机器人而言，模型不仅要识别“这是一个杯子”，还要理解杯子的位置、可抓取区域、与其他物体的关系，以及指令中隐含的操作目标。

第二个问题是，VLA 架构应该怎样设计。机器人动作不是单轮问答，不能只看一张图就输出一个静态答案。当前图像、历史动作、本体状态和后续动作序列都会影响结果。因此，论文重点比较了动作空间和历史信息两类设计：动作是连续表示还是离散表示？模型只使用当前观测，还是使用一段历史观测？历史信息是直接交错输入 VLM，还是交给额外的 policy head 来融合？

第三个问题是，跨本体数据应该如何使用。近年来，机器人领域开始汇集来自不同机器人平台、不同夹爪、不同相机视角和不同任务的数据。直觉上，数据越多，模型越通用。但机器人数据和图文数据不同，不同平台之间的动作空间、硬件结构和任务分布差异很大。因此，跨本体数据到底什么时候能帮忙，什么时候收益有限，需要实际验证。

03. 方法框架：RoboVLMs 提供统一比较平台

为了比较这些问题，作者提出了 RoboVLMs 框架。这个框架的重点不是固定一种模型结构，而是让不同 VLM backbone、不同动作表示方式、不同历史融合方式和不同数据使用策略，可以在统一条件下组合和评估。

图 3 RoboVLMs 统一框架。该框架围绕 VLA 架构、VLM backbone 和数据使用方式三个维度展开。

论文的实验规模较大。作者比较了 8 个以上视觉语言 backbone、4 类 policy architecture，并进行了 600 多组实验。评测同时覆盖仿真任务和真实机器人任务。

在仿真部分，论文使用了 CALVIN 和 SimplerEnv 两个基准。CALVIN 是多任务桌面操作环境，包含 34 个基本任务和 24000 条带语言标注的人类遥操作示范；SimplerEnv 则用于评估机器人策略在接近真实机器人设置的模拟环境中的表现。

在真实机器人部分，论文使用了包含 7 万余条人类遥操作轨迹、105 个操作任务的数据集。评估时，模型需要在 20 个任务上接受测试，每个任务又包含基础设置、未知干扰物、未知背景、未知目标物和新技能描述等不同条件。真实平台采用 Kinova Gen3 七自由度机械臂、Robotiq 2F-85 夹爪，并配备头部相机和腕部相机。

04. 实验结果：哪些因素真正影响模型表现？

4.1 VLA 确实是一条有潜力的路线

论文首先验证了一个基本判断：基于预训练 VLM 的 VLA，能否作为通用机器人策略的一条可行路线。

结果显示，RoboVLMs 中表现最好的模型，在 CALVIN 和 SimplerEnv 上超过了已有开源通用机器人策略。在 CALVIN 的跨场景测试中，最佳模型从训练场景迁移到未见过的新场景时，单任务和连续任务表现都有明显提升。论文报告，在 zero-shot 设置下，模型平均每次 rollout 可以完成 4.25 个任务，高于此前代表性方法 GR-1。

这说明，大规模视觉语言预训练并不只是提高了“看懂图片”的能力，也可以为机器人策略提供更好的语义基础。机器人在学习具体动作时，不必完全从低层像素和动作关系重新开始，而是可以站在更成熟的视觉语言表征之上。

4.2 Backbone 不能随便选

论文比较了 Flamingo、LLaVA、Qwen-VL、MoonDream、UForm、PaliGemma、KosMos 等多种视觉语言模型。结果显示，KosMos 和 PaliGemma 在多项 VLA 任务中表现更好。

这一点看似是模型对比，背后其实说明了 VLA 的一个基本要求：机器人操作需要的不是孤立的视觉识别能力，而是视觉和语言之间更充分的对齐。模型需要把“目标物体是什么”“它在哪里”“指令要求什么”“当前状态是否接近目标”这些信息放到同一套表征中。视觉语言预训练越扎实，后续策略学习越容易受益。

4.3 连续动作、历史信息和 policy head 更适合操作任务

在架构设计上，论文得到的结论比较清楚：连续动作通常优于离散动作；使用历史观测优于只使用当前观测；在历史信息融合方式上，policy head 的整体表现更好。

连续动作的优势并不难理解。机器人控制本来就是连续的，末端位置、姿态和速度都需要较高精度。如果把动作离散化成 token，模型虽然可以像预测语言一样预测动作，但也会引入量化误差。对于短任务，这种误差可能不明显；对于连续多步操作，误差会逐渐累积。

历史信息同样重要。机器人当前看到的画面，并不能完全说明之前发生了什么。比如物体是否刚被推动过，夹爪是否已经接触目标，前一步动作是否偏离预期，这些都可能影响下一步决策。引入历史观测，可以让模型更好地处理部分可观测和长时程操作问题。

policy head 的好处则在于分工更清楚。VLM 继续按照原本的方式处理视觉语言 token，额外的策略头负责融合历史视觉、本体状态和动作信息。这样既保留了预训练 VLM 的优势，也避免把所有历史信息都硬塞进 VLM 主体结构中。

图 4 不同动作空间和历史信息融合方式的消融结果

4.4 跨本体数据不是无条件有效

这篇论文中比较值得注意的结论，是它对“数据越多越好”这一常见直觉提出了保留。

作者比较了几种使用跨本体数据的方式：直接把目标数据和 Open X-Embodiment 等跨本体数据一起训练；只在目标数据上 fine-tune；以及先利用跨本体数据训练，再回到目标数据上 post-train。结果显示，直接 co-training 并不总能稳定提升最终表现。

原因也不难理解。不同机器人平台之间并不是只有“任务不同”这么简单，它们的机械结构、相机视角、动作定义、夹爪形态和数据分布都可能不同。跨本体数据可以提供更丰富的经验，但如果和目标平台差异过大，也可能带来干扰。论文发现，来自同一机器人或相近任务的 in-domain 数据，仍然对目标任务表现有非常直接的作用。

换句话说，机器人模型的泛化并不是“一次预训练，到处通吃”。数据规模重要，数据和目标任务之间的匹配关系同样重要。

4.5 训练目标和执行方式：不只是生成动作，还要稳定执行动作

除了 backbone 和架构，论文还比较了不同训练目标和推理阶段动作执行方式。作者将 Flow Matching 与 MSE+BCE 这类监督目标进行对比，结果发现 Flow Matching 虽然在部分实验中略有优势，但整体差距并不显著。对于一些相对短时程、动作不确定性没有那么强的任务，直接的监督学习目标仍然可以取得接近的效果。

更值得注意的是推理阶段如何执行动作。VLA 往往一次预测一段 action chunk，问题在于：机器人是只执行其中第一个动作，然后马上重新推理；还是完整执行这一段动作；或者对多次预测结果进行集成？论文结果显示，在不少设置中，完整执行 action chunk 更有利于保持动作序列的时间一致性。只执行第一个动作虽然看起来更谨慎，但可能破坏模型原本生成的连续轨迹，反而影响长时程任务表现。

这个结果看似是一个实现细节，其实很能说明机器人任务的特点。语言模型生成答案时，输出通常是一个离散文本序列；机器人执行动作时，每一步都和真实物理环境发生作用。动作不仅要“预测对”，还要在时间上连贯，在执行中稳定。VLA 的难点也因此不只是模型结构本身，还包括训练目标、动作块执行方式和推理频率这些容易被忽略的工程选择。

4.6 真实机器人实验更能说明问题

除了仿真结果，论文还在真实机器人平台上进行了验证。作者将最佳 RoboVLMs 模型与 Octo-Base、OpenVLA 等基线进行比较。结果显示，基于 KosMos backbone 和 policy head 的模型在多数真实评估设置中表现最好，尤其是在基础场景和未知背景条件下优势更明显。

图 5 真实机器人任务中的不同模型表现比较。

论文还观察到一个有意思的现象：在部分真实任务中，模型表现出一定的自我纠正能力。比如第一次没有准确到达目标位置时，机器人会在后续动作中调整末端执行器位置并继续尝试完成任务。作者指出，这类自我纠正行为并没有作为专门数据出现在训练集中，在部分对比模型中也不明显。

图 6 真实机器人实验中出现的自我纠正现象。

这类结果说明，VLA 的价值不只体现在单次动作预测上，也体现在模型能否在连续执行中根据视觉反馈保持任务方向。对于真实机器人来说，这比单步成功率更接近实际使用中的难点。

05.讨论：通用机器人不是“更大的模型 + 更多的数据”

如果只看标题，这篇论文容易被理解成又一个 VLA 模型工作。但它真正有意思的地方，恰恰不在于又提出了一个模型名字，而在于把 VLA 热潮中一些经常被默认、却很少被系统回答的问题重新摆到了桌面上。

机器人并不是“会看图、会听指令”之后就自然会操作。VLM 可以提供开放世界中的语义理解能力，但真实操作还要面对更细的动作问题：当前手爪处在什么位置，前几步动作留下了什么影响，下一步应该输出连续控制量还是离散动作 token，细小误差会不会在长任务中不断累积。论文关于连续动作、历史观测和 policy head 的结论，本质上说明了一个问题：VLA 的难点不只是理解语言，而是把语言理解稳定地落到时间连续的动作执行中。

另一个值得注意的结论，是论文给“数据越多越好”的直觉泼了一点冷水。跨本体数据听起来很有吸引力：把不同机器人、不同任务、不同场景的数据合在一起，似乎就能训练出更通用的机器人策略。但实验结果表明，这种迁移并不是无条件发生的。机器人之间的硬件结构、动作定义、相机视角和任务频率差异，都会影响数据能否真正转化为能力。

这也是这篇研究比较有价值的地方。它没有简单重复“大模型让机器人更通用”这样的判断，而是进一步追问：这种通用性到底来自哪里？是视觉语言预训练本身，还是动作表示方式？是数据规模，还是数据与目标平台之间的匹配程度？是模型架构更复杂，还是某些看似朴素的工程选择更稳？

这些问题听起来没有新模型名字那么醒目，却更接近机器人走向真实环境时必须面对的困难。对于仍在快速迭代的 VLA 领域来说，一项系统比较研究的意义正在于：它不只是告诉我们“什么模型更强”，也在尝试回答“为什么会更强”。

06.启示

后续研究来看，这篇论文的启发不在于提供某个可以直接照搬的模型方案，而在于提示我们：VLA 方向已经从早期的概念验证，逐渐进入更加重视系统设计和实证比较的新阶段。对后续开展 VLA 与具身智能相关研究而言，单纯关注某个新模型或单一结果并不足够，更值得关注的是 backbone 选择、动作表示、历史信息建模和数据组织方式等基础环节如何共同影响最终表现。

同时，论文也提醒我们，通用能力最终还是需要通过具体任务和真实场景来检验。无论是仿真基准、真实机器人平台，还是跨本体数据与目标平台数据的配合，都说明 VLA 研究不能只停留在“大模型赋能机器人”的概念层面，而需要在可复现评测、任务覆盖和场景泛化上逐步积累。

因此，这篇工作对相关研究更像是一份方向性参照：一方面需要持续关注 VLA 模型能力本身的提升，另一方面也要重视实验设计、数据构建和评估体系这些相对基础但影响深远的问题。只有把模型、数据、任务和评估放在同一个框架中理解，后续研究才更容易形成连续积累，也更容易体现出稳定的研究特色。

07. 小结

总体来看，这篇论文提供了一份面向 VLA 研究的系统化设计参考。作者通过 RoboVLMs 框架，将不同视觉语言骨干、动作表示方式、历史信息融合方法和数据使用策略放在统一条件下比较，并在仿真和真实机器人任务中验证其效果。

论文的主要结论可以概括为五点：第一，基于预训练 VLM 的 VLA 是构建通用机器人策略的一条有前景路线；第二，充分的视觉语言预训练对 VLA 表现非常关键；第三，连续动作、历史观测和 policy head 组合更适合机器人操作任务；第四，训练目标并不是唯一决定因素，推理阶段的动作执行方式同样会影响连续操作表现；第五，跨本体数据有价值，但目标平台和相近任务数据仍然不可替代。

从更长远看，VLA 研究正在从早期的能力展示，走向更加重视结构选择、数据策略和真实场景验证的新阶段。未来通用机器人能否真正进入复杂开放环境，可能不仅取决于模型更大、数据更多，也取决于这些设计细节能否被更清楚地理解和组合。

下一条：文献导读：从自然驾驶数据中学习潜在风险演化——正常分布驱动的风险建模启示 | Nature Machine Intelligence