> >
揭秘Figure AI通用人形机器人Helix的VLA视觉-语言-动作模型

揭秘Figure AI通用人形机器人Helix的VLA视觉-语言-动作模型

2025-03-21 16:24:39

        在工业流水线上,机械臂能以毫米级精度重复作业;但在家庭场景中,机器人却常因一个歪倒的玩具或褶皱的衣物而"手足无措"。这种困境折射出机器人技术的核心挑战——如何在开放环境中实现智能的实时泛化。传统方法依赖海量标注数据和预设规则,但面对家庭场景中数以百万计的长尾物体(Long-Tail Objects),这种模式已触及天花板。

Helix的五大能力

全身灵活控制:上半身包含35个自由度(DoF),协调手腕、手指、躯干等部件的连续动作,相当于同时控制35条相互耦合的物理方程。首个能实时控制人形机器人完整上半身(含手指)的模型,像人类一样协调上半身所有关节(包括手指),每秒调整动作200次,灵活到能稳稳抓住一个易碎的鸡蛋。

双机器人协作两台机器人首次能协作完成从未见过的长期任务,像好搭档一样,通过简单对话(比如“把右边那包饼干递给那家伙”)合作完成复杂任务。

万物皆可抓通过自然语言指令抓取数千种陌生家居物品,这里有个视频只要说“捡起那个沙漠主题的东西”,它就能从玩具堆里准确抓起一个小仙人掌模型,即使它从没见过这个玩具。

一个大脑搞定所有不像传统机器人每个技能都要单独训练,Helix用同一套“脑回路”就能开关抽屉、整理冰箱、传递物品。

低功耗可量产完全运行在低功耗嵌入式GPU,随时可以量产。

传统机器人教一个新动作需要专家编程或上千次演示,而Helix只需用自然语言描述任务。

Helix双系统异步协作架构设计

系统2(S2):一个在7-9赫兹下运行的互联网预训练VLM,用于场景理解和语言理解,能够在对象和上下文之间进行广泛的泛化。潜在语义通信机制:S2输出的潜在向量包含三类信息:①任务语义(如"抓取易碎品")   object_properties ②物体物理属性(质量分布、摩擦系数等)   safety_constraints③安全边界(力度阈值、碰撞检测等)

系统1(S1):80M参数的Transformer,以200Hz将S2的语义规划转化为具体动作(如手指屈伸、躯干姿态调整)

Helix零样本学习:机器人学会“触类旁通”

零样本学习(Zero-Shot Learning)的核心是让机器人在从未见过某类物体或场景的情况下,仅通过语义理解知识迁移完成任务。Helix在此领域的突破,本质上是将大语言模型的“常识推理”与机器人动作的“物理直觉”深度融合。

传统机器人依赖“物体特征库”或“动作模板库”,而Helix通过多模态对齐实现泛化

语义嵌入(Semantic Embedding)

  • 预训练视觉语言模型(VLM)将物体视觉特征(如形状、纹理)与语言描述(如“易碎玻璃杯”“褶皱衣物”)映射到同一语义空间。例如,模型会建立“透明→易碎→需轻柔抓握”的关联。

  • 这种关联不依赖具体物体实例,而是通过互联网级多模态数据(如商品图库、教学视频)学习抽象概念。

动作生成(Action Generation)

  • 当收到“捡起沙漠主题物品”指令时,Helix的S2系统(VLM)解析语义,输出潜在向量(Latent Vector),编码高层意图(如“需选择尖锐多刺的物体”)。

  • S1系统(控制策略)将此向量与实时视觉输入结合,生成适配当前物体物理特性(如尺寸、重心)的动作轨迹。例如,对仙人掌玩具采用“三指捏握”而非“五指抓握”。

案例1:抓取未知的“玩具仙人掌”

图片

  • 输入指令:“捡起沙漠主题物品”

  • 执行过程

    1. S2解析语义:从场景中识别符合“沙漠主题”的候选物体(仙人掌玩具、沙漏、骆驼模型)。

    2. 基于物理属性筛选:仙人掌玩具具有“多刺、直立、底部平坦”特征,符合稳定抓取条件。

    3. S1生成动作:选择拇指、食指、中指形成三角支撑点,同步调整躯干前倾以平衡重心。

案例2:双机器人协作传递陌生物品

图片

  • 输入指令:“将XX递给右侧机器人”

  • 执行过程

    1. S2推断协作逻辑:XX需在双手间平稳转移,且接收方需提前调整手部姿态。

    2. 跨机器人语义同步:通过共享潜在向量,两台Helix的S2系统协商动作时序(如递出时机与接收准备)。

    3. S1实时避障:在传递过程中动态调整手腕角度,避免包裹与对方手指碰撞。

这套双系统与之前这篇文章中的有异曲同工之妙:人话讲大热的自动驾驶LLM-VLM-E2E-DualSys等新范式

同时HiRT这篇文章,与Figure的Helix综述也是相似的方法,与自动驾驶双系统研究一样,来自清华团队的研究。