无法在训练之外实现泛化，模仿学习也是如此融合视觉-语言模型，让模型具备推理能力，模块化指导规划和控制参考模型：CLIP , SigLIP, and Llama 2 ；以现有视觉 – 语言基础模型为核心构建块，训练可泛化至训练数据外的物体、场景与任务的机器人策略 OpenVLA 模型由一个预训练的视觉条件语言模型骨干网络构成，该骨干网络可实现多粒度视觉特征的提取；模型在 Open-X 具身智能数据集 [1] 的 97 万条机器人操作轨迹构成的大规模多样化数据集上完成了微调 —— 这一数据集覆盖了丰富的机器人具身形态、任务类型与应用场景。

这篇OpenVLA论文笔记真的超有料！不仅直白点出了当前相关技术在泛化能力上的短板，还给出了融合视觉-语言模型的清晰解决方案，连落地应用的阻碍都分析得明明白白，帮我快速理清了核心思路，太实用啦！感谢作者的用心整理，期待更多干货分享～

OpenVLA论文阅读笔记

业界weakness

无法在训练之外实现泛化，模仿学习也是如此

解决方案Solution

融合视觉-语言模型，让模型具备推理能力，模块化指导规划和控制

参考模型：CLIP , SigLIP, and Llama 2 ；

以现有视觉 – 语言基础模型为核心构建块，训练可泛化至训练数据外的物体、场景与任务的机器人策略

VLA广泛应用的2个阻碍点

现有模型均为闭源模式，其模型架构、训练流程及数据构成的可探究性极低；
1. 架构：模型的网络结构、层间连接逻辑；
2. 训练流程：训练超参数、优化器、训练步骤；
3. 数据构成：预训练数据的类型、比例、标注方式；
现有研究尚未给出将视觉 – 语言模型（VLAs）部署并适配至新型机器人、新环境及新任务的最佳实践方案 —— 尤其是在通用硬件（如消费级显卡）上的部署适配方案

OpenVLA 模型由一个预训练的视觉条件语言模型骨干网络构成，该骨干网络可实现多粒度视觉特征的提取；模型在 Open-X 具身智能数据集 [1] 的 97 万条机器人操作轨迹构成的大规模多样化数据集上完成了微调 —— 这一数据集覆盖了丰富的机器人具身形态、任务类型与应用场景。

论文涉及的主要任务

LoRA微调
量化
消费级显卡

推动近期 VLMs 发展的核心进展之一，是融合了预训练视觉编码器与预训练语言模型特征的模型架构；其依托计算机视觉和自然语言建模的技术进展构建，实现了高性能多模态模型的研发。

解释VLA是怎么回事？

VLM：A number of works have explored the use of VLMs for robotics, e.g., for visual state representations [12, 13], object detection [67], high-level planning [16], and for providing a feedback signal

VLA = VLM + predict action

VLM的技术实现

视觉语言模型（VLM）的经典训练流程（先单模态预训练，再跨模态对齐），也是自动驾驶多模态感知中 VLM 的核心训练逻辑 —— 先将视觉编码器（提取车道、车辆、交通标志等图像特征）、语言编码器（提取文本指令 / 场景描述等语言特征）分别预训练，再通过海量自动驾驶场景的视觉 – 语言配对数据做对齐，让模型能理解 “图像中的智驾场景” 与 “文字描述 / 人类指令” 的对应关系。

the use of a generic architecture, not custom-made for robot control, allows us to leverage the scalable infrastructure underlying modern VLM training [75–77] and scale to training billion-parameter policies with minimal code modiffcations,

这句话核心阐述了 “通用架构” 在机器人控制 VLM 策略训练中的核心价值，可拆解为两层关键逻辑：

摆脱专用架构的扩展性束缚传统机器人控制策略多为特定任务 / 硬件定制架构（比如为某款自动驾驶车型定制的视觉运动控制架构），代码和训练逻辑高度耦合，无法复用 VLM 领域已成熟的规模化训练体系；而通用架构不绑定具体机器人控制逻辑，能直接 “借力” VLM 的训练基础设施，避免从零搭建专属训练框架。
低成本实现大参数策略的规模化训练现代 VLM 训练已形成完整的可扩展基础设施（比如千亿参数 VLM 的分布式训练方案），通用架构可直接复用这些成熟能力；仅需少量代码修改（如适配机器人控制的输入：图像 + 文本指令；输出：车辆转向 / 机械臂抓取指令），就能将策略模型扩展到十亿参数级别，大幅降低研发成本和周期。

实际场景示例

以自动驾驶视觉运动控制为例：

若用为某款车型定制的专用架构，要训练十亿参数的控制策略，需重构整个训练框架、重新适配算力集群，耗时数月；
若用通用 VLM 架构（如 LLaVA/GPT-4V 的基础架构），可直接用 DeepSpeed 分布式训练框架（VLM 训练的成熟基础设施），仅修改输入输出的适配代码（约几百行），1-2 周就能启动十亿参数策略的训练。

总结

核心优势：通用架构打破了机器人控制专用架构的扩展性限制，可直接复用 VLM 领域成熟的规模化训练基础设施；
工程价值：仅需少量代码修改，就能低成本将机器人控制策略模型扩展至十亿参数级别；
核心逻辑：通过 “通用化架构设计” 衔接机器人控制任务与大模型训练体系，平衡了定制化需求与规模化训练效率。

模型架构

尽管早期研究探索了多种视觉 – 语言特征交叉注意力架构 [37–41]，但新一代开源 VLMs [20,42–44] 已趋同于简洁的 patch-as-token 方法，该方法将预训练视觉 Transformer 的图像块特征视作 token，并投影至语言模型的输入空间。

本研究采用上述工具规模化开展 VLA 训练，具体以 Karamcheti 等人 [44] 的 VLMs 为预训练骨干网络；该模型基于多分辨率视觉特征训练，融合了 DINOv2 [25] 的低级空间信息与 SigLIP [9] 的高级语义信息，可有效提升视觉泛化能力。

三模块的核心作用：该架构的核心是实现视觉与语言模态的特征对齐—— 视觉编码器做「图像特征提取」，投影层做「跨模态特征适配」，LLM 骨干网络做「语言特征融合与预测」，三者协同完成视觉 – 语言的联合建模。

end-to-end training（端到端训练）：训练过程中三个模块的参数同步更新，无需分阶段训练，能让模型学习到更统一的跨模态表征，而非各模块独立的特征。

paired/interleaved vision-language data：

配对数据：图像与对应的文本描述（如 “猫在沙发上”+ 对应图片），是 VLMs 训练的基础数据；
交错数据：图像与文本混合的序列数据（如多图多文本的对话、图文问答语料），让模型适配更复杂的视觉 – 语言交互场景。

6 亿参数的视觉编码器、小型双层多层感知机投影层，以及70 亿参数的 Llama 2 语言模型骨干网络[10]。值得注意的是，Prismatic 采用双组件视觉编码器，由预训练的 SigLIP [79] 和 DinoV2 [25] 模型共同构成：输入的图像块会分别送入这两个编码器进行特征提取，生成的特征向量最终在通道维度完成拼接。与仅采用 CLIP [80] 或 SigLIP 这类更主流的视觉编码器的方案相比，研究已证实，融入 DinoV2 特征能有效提升模型的空间推理能力[44]—— 这一特性对于机器人控制任务而言尤为关键。

轻量架构的工程优势：Prismatic 的投影层仅为双层 MLP，视觉编码器 6 亿参数 + LLM 70 亿参数的组合，属于轻量型 VLMs，兼顾模型性能与推理速度，适配机器人端 / 边缘端的计算资源限制，是其能落地机器人控制的重要前提。
双视觉编码器的设计逻辑
- SigLIP：主打视觉 – 语言对齐，预训练于大规模图文配对数据，能精准理解图像的语义信息，适配 VLMs 的跨模态核心需求；
- DinoV2：主打纯视觉自监督表征，对物体的空间几何、局部细节、场景结构的表征能力极强，弥补了单一 SigLIP/CLIP 在纯空间信息理解上的不足。
为何适配机器人控制：机器人操控（如抓取、移动、避障）需要模型精准理解物体间的空间相对位置（如 “杯子在桌子左侧”）、物体的几何结构（如 “门把手的朝向”）、场景的空间布局（如 “从当前位置到椅子的路径”），而 DinoV2 带来的空间推理能力提升，恰好解决了传统 VLMs 在这类空间任务上的短板。
与单编码器方案的核心差异：仅用 CLIP/SigLIP 的编码器更侧重语义层面的图像理解，而 Prismatic 的双编码器实现了语义信息 + 空间信息的双重表征，让模型既能理解图像 “是什么”，也能精准判断 “在哪里 / 是什么结构”，更适配机器人的实际操控需求。

OpenVLM数据样本

三大基础模型的训练数据特征（未公开 + 超大规模）三者均采用互联网海量非结构化数据做预训练，且按自身任务特性做了数据类型区分：

SigLIP（视觉 – 语言对齐模型）：图文混合数据，适配跨模态特征匹配；
DinoV2（纯视觉表征模型）：纯图像数据，强化空间 / 视觉细节表征；
Llama 2（纯语言模型）：纯文本数据，夯实语言理解与生成能力。数万亿级 token 的预训练数据是模型具备强泛化能力的核心，也是三者不公开细节的主要原因（数据版权 / 隐私、模型技术壁垒）。

Prismatic 的微调策略：「大预训练 + 小微调」的经典范式Prismatic 未对三大基础模型做全量重训练，仅在其之上做轻量微调，核心优势有两点：

降低计算成本：微调仅用 100 万级样本，远低于预训练的万亿级，普通算力即可完成，适配后续机器人端的二次微调；
保留基础能力：复用三大模型经海量数据训练的核心表征能力（SigLIP 的跨模态对齐、DinoV2 的空间推理、Llama2 的语言能力），微调仅做特征融合与任务适配。

Prismatic 微调数据的核心特点：开源 + 图文 / 纯文本混合其采用的 LLaVA 1.5 数据混合集均来自开源数据集，相比三大基础模型的非公开数据，这一特性对机器人领域的二次开发尤为重要：研究人员 / 工程师可基于该开源微调数据复现 Prismatic 模型，还能在此基础上加入机器人专属数据集（如机械臂操控、场景导航的图文数据）做进一步微调，让模型更适配具体的机器人任务。

微调数据规模的合理性100 万个图文 + 纯文本样本是 VLMs跨模态微调的黄金规模：既足够让投影层完成视觉 / 语言特征的精准对齐，又不会因数据量过大导致模型过拟合，同时保证了微调的效率，符合 Prismatic 轻量型 VLMs 的定位（适配机器人端有限的计算资源）。

Infrastructure for Training and Inference

本段是 OpenVLA工程化部署的核心细节，所有设计均围绕「让大模型能在普通硬件上跑、能实时控制机器人、能低成本落地」展开，每一个指标和方案都对应机器人实际应用的痛点，关键逻辑如下：

训练算力配置：大批次 + 高算力集群，保证模型收敛与性能
1. 64 卡 A100 集群 + 21500 A100-hours：是 70 亿参数级 VLMs 做机器人任务微调的主流算力规模，大批次（2048）训练能让模型学习到更稳定的跨机器人 / 场景 / 任务的特征规律，避免小批次的训练震荡；
2. 14 天训练时长：兼顾训练效率与模型性能，是工业界 / 学术界微调千亿 / 十亿级大模型的典型时长。
推理核心指标：低显存 + 准实时帧率，完美适配消费级硬件这是 OpenVLA 能落地机器人端边缘部署的核心，也是最亮眼的工程设计：
1. 15GB bfloat16 显存占用：NVIDIA RTX 4090（消费级旗舰显卡，24GB 显存）可轻松承载，无需昂贵的服务器 GPU，大幅降低机器人部署的硬件成本；
2. 6Hz 推理帧率：机器人实时控制的黄金阈值（一般要求≥5Hz），未启用任何加速手段的情况下达到 6Hz，说明模型做了极致的工程优化，能满足机器人 “观测 – 推理 – 动作” 的实时闭环需求。
量化优化：降显存不损性能，进一步适配低配硬件量化是大模型边缘部署的标配技巧，但多数模型量化后会出现性能下降；而 OpenVLA 实现了 “量化无损性能”，这对机器人任务尤为重要 —— 机器人动作预测的精度直接影响任务成败，该设计让模型可进一步部署在更低配的消费级 GPU（如 RTX 3060/3070，8/12GB 显存）上，进一步降低落地门槛。
远程推理服务器：解决机器人「本地算力不足」的终极痛点这是 OpenVLA工程化落地的关键创新，直击机器人硬件的核心限制：
1. 机器人本体的硬件空间 / 供电有限，几乎无法搭载高性能 GPU（如机械臂、小型移动机器人仅能搭载树莓派、Jetson Nano 等低配计算板）；
2. 远程推理服务器实现了 **「算力与执行端分离」**：模型在远端高性能服务器 / 云端推理，仅将动作预测结果通过网络推流给机器人，机器人仅需完成 “接收指令 – 执行动作”，无需本地做复杂推理；
3. 开源该方案：让其他研究人员 / 工程师可直接复用，大幅降低机器人 VLA 的落地开发成本。

OpenVLA怎么实现Action?

OpenVLA 中机器人动作（Action）的实现，核心是让预训练视觉语言模型（VLM）适配机器人「连续动作执行」的硬件需求，解决了 VLM 原生仅能输出离散文本 Token、无法直接控制机器人的核心问题，整体是**「连续动作离散化→适配 LLM 输出→Token 还原连续动作→硬件执行」的端到端链路，且融入了工程化优化让动作能实时、精准落地到物理机器人/仿真机器人**。

结合前文的核心设计，整个 Action 实现流程分为6个核心步骤，从模型输入到硬件执行闭环，覆盖算法适配、模型训练、工程落地全环节，所有步骤均围绕「简洁性、适配性、实时性」设计，以下是分步详解（含核心技术细节和落地逻辑）：

步骤1：动作预测的任务形式化——转化为VLM原生的视觉-语言任务

OpenVLA 首先将机器人连续动作预测这一机器人专属任务，转化为 VLM 天然能处理的视觉-语言序列预测任务，从任务层面消除模型与机器人的适配鸿沟：

输入：机器人的视觉观测图像（如相机采集的场景图）+自然语言任务指令（如“抓取桌面的红色杯子”），按 VLM 的输入格式拼接为「视觉特征+语言特征」的跨模态序列；
输出目标：不再是自由文本，而是与机器人动作维度一一对应的离散 Token 序列（如机械臂有7个关节维度，就输出7个动作 Token）；
核心目的：让预训练 Prismatic-7B VLM 无需重构核心架构，仅通过微调即可学习「视觉-语言→机器人动作」的映射关系，大幅降低模型改造成本。

步骤2：核心适配——机器人连续动作的离散化处理

这是 OpenVLA 实现 Action 的最关键步骤，因为 VLM 的 LLM 骨干（Llama 2）仅能输出离散 Token，而机器人执行的是连续动作值（如机械臂关节角度：-1.57~1.57 rad、移动机器人线速度：0~0.5 m/s），必须通过离散化实现“格式转换”，具体规则严格贴合机器人任务需求：

按维度独立离散化：将机器人的N维连续动作（如机械臂7维、移动机器人3维）拆分为N个独立的一维连续值，每个维度单独处理（避免不同维度的动作值范围差异相互干扰）；
256个等宽区间（bins）划分：每个一维动作值被均匀划分为256个bins，最终转化为0~255的离散整数（N维动作即得到N个0-255的整数，对应后续N个动作 Token）；
1/99分位数定区间边界：摒弃传统的「最小-最大值边界」，改用训练数据中动作值的1st~99th 分位数作为离散化区间的上下限，剔除异常动作值（如机器人机械故障、数据采集误差导致的极端值），避免正常动作值被压缩在少数bins中，保证动作离散化的有效粒度（即还原后的连续动作精度足够支撑机器人任务）。

举个例子：若机械臂某关节的动作值在训练数据中的1/99分位数为-1.0~1.0 rad，bin宽度则为 (1.0 – (-1.0))/256 = 0.0078 rad/bins；离散整数128对应还原值为 -1.0 + 128×0.0078 = 0 rad，整数255对应1.0 rad，实现「连续值→整数」的精准映射。

步骤3：LLM词表适配——将离散整数映射为LLM可输出的动作Token

离散化得到的0~255整数，需要进一步映射为 Llama 2 分词器能识别并输出的Token，解决了 Llama 分词器「特殊 Token 不足」的问题，具体实现简洁且无性能损失：

分词器限制：Llama 2 分词器仅为微调新增 Token 预留100个「特殊 Token」，远不足以承载256个动作 Token；
解决方案：秉持简洁性原则，直接覆盖Llama分词器词表中256个使用频率最低的Token（词表最后256个），将其替换为自定义的动作 Token，一一映射0~255的离散整数；
核心优势：无需重新训练分词器（重新训练会破坏分词器与 Llama 2 预训练的对齐关系），且低频 Token 在常规文本/视觉-语言任务中几乎不出现，替换后不影响模型的语言理解能力。

至此，机器人的N维连续动作，已完全转化为 VLM 可输出的N个动作 Token 序列，模型层面的适配全部完成。

步骤4：模型训练——让VLM精准学习「视觉-语言→动作Token」的映射

基于上述适配，OpenVLA 以预训练 Prismatic-7B 为骨干做针对性微调，训练目标和损失函数设计均围绕「动作预测精度」优化，避免模型丢失预训练能力：

训练目标：沿用 VLM 原生的下一个 Token 预测（next-token prediction），让模型学习在输入「视觉图像+语言指令」后，按顺序输出对应的动作 Token 序列；
损失函数：仅对预测的动作 Token 计算交叉熵损失，对视觉-语言输入部分不计算损失；
核心目的：固定模型对「视觉-语言」的理解能力（复用 Prismatic-7B 的跨模态对齐能力），让微调的梯度仅更新与「动作 Token 预测」相关的参数，提升训练效率和动作预测的精准度。

训练算力为64卡A100集群、batch size=2048，保证模型能学习到多样化具身载体/场景/任务的动作规律，实现“开箱即用”的多机器人控制。

步骤5：推理阶段——动作Token还原为机器人可执行的连续动作值

模型训练完成后，推理时的核心逆操作是将输出的动作 Token 序列，还原为机器人硬件能执行的连续动作值，这是离散化的逆过程，且全程保证实时性：

Token→离散整数：将模型输出的动作 Token 映射回0~255的离散整数（基于步骤3的Token-整数映射关系）；
整数→连续动作值：根据训练时每个动作维度的分位数边界和bin宽度，计算还原公式：

连续动作值 = 1st分位数 + 离散整数 × bin宽度

工程化优化：推理时采用bfloat16精度（仅占15GB显存），未加速时单张RTX4090可达6Hz帧率（每秒输出6组连续动作），满足机器人「观测-推理-动作」的实时闭环需求（机器人实时控制的黄金阈值为≥5Hz）；同时支持量化优化（INT8/INT4），进一步降低显存占用且不损失实际任务性能，适配更低配的消费级GPU。

步骤6：动作落地——连续动作值发送至机器人硬件执行（本地/远程两种方式）

这是 OpenVLA 动作实现的最后一环，解决了机器人「本地算力不足」的核心痛点，提供本地部署和远程部署两种工程化方案，让动作能落地到物理机器人/仿真机器人：

方案1：本地部署——消费级GPU直连机器人控制器

适用场景：机器人配套有消费级GPU（如RTX4090/3090）或高性能边缘计算设备（如Jetson AGX Orin）；
执行流程：推理得到的连续动作值，通过机器人通信协议（如ROS/ROS2、TCP/IP、串口）直接发送至机器人的运动控制器，控制器将动作值解析为电机/执行器的控制信号，驱动机器人完成动作（如机械臂关节转动、移动机器人轮速调节）；
核心优势：低延迟，无需网络依赖，适配对实时性要求极高的任务（如精密抓取）。

方案2：远程部署——远程推理服务器推流动作值（核心落地方案）

这是 OpenVLA 针对机器人硬件限制设计的关键工程化创新，也是实际落地的主流方案：

机器人痛点：物理机器人（如机械臂、小型移动机器人）的空间、供电、算力有限，无法搭载高性能GPU，仅能配备低配计算板（如树莓派、Jetson Nano）；
执行流程：
- 机器人将视觉观测图像+语言指令通过网络发送至远程VLA推理服务器（搭载GPU集群/高性能服务器）；
- 服务器端运行OpenVLA模型，推理得到连续动作值后，实时远程推流至机器人端；
- 机器人低配计算板仅负责“接收动作值→转发至运动控制器→执行动作”，无需做任何复杂推理；
核心优势：彻底分离「算力端」和「执行端」，让低配机器人也能享受大模型的推理能力，且服务器端支持多机器人同时接入，大幅降低部署成本；
开源支持：该远程推理方案随OpenVLA源码一同开源，可直接复用，无需重复开发。

OpenVLA动作实现的核心设计亮点

端到端适配：无需重构VLM核心架构，仅通过「离散化+词表替换+针对性微调」实现从模型到机器人的动作适配，简洁且易复现；
精度与适配性平衡：256 bins离散化+1/99分位数划分，既保证了动作还原的精度，又避免了异常值的干扰，适配不同机器人的动作空间；
工程化落地友好：低显存（15GB bfloat16）、准实时帧率（6Hz）、量化无损性能，让模型能运行在消费级GPU上，大幅降低硬件门槛；
解决核心痛点：远程推理服务器方案彻底解决了机器人本地算力不足的问题，是OpenVLA能落地到实际物理机器人的关键。

简单总结：OpenVLA 的 Action 实现，本质是**「为机器人动作量身定制的VLM序列预测」**——通过离散化让连续动作适配VLM的输出逻辑，再通过工程化优化让模型推理的动作能实时、精准落地到机器人硬件，最终实现「语言指令→视觉理解→动作执行」的机器人端到端控制。