动作模型融合 全自回归模型WorldVLA来:——了

2025-07-24 01:19:07      来源:上海热线

岑俊,阿里巴巴达摩院具身智能大模型算法研究员,博士毕业于香港科技大学。研究方向主要是:具身智能VLA模型,世界模型。

阿里巴巴达摩院提出了WorldVLA,首次将世界模型(WorldModel)和动作模型(ActionModel/VLAModel)融合到了一个模型中。WorldVLA是一个统一了文本、图片、动作理解和生成的全自回归模型。

论文标题:WorldVLA:TowardsAutoregressiveActionWorldModel

代码地址:https://github.com/alibaba-damo-academy/WorldVLA

研究简介

近年来,视觉-语言-动作(Vision-Language-Action,VLA)模型的发展成为机器人动作建模研究的重要方向。这类模型通常是在大规模预训练的多模态大语言模型(MultimodalLargeLanguageModels,MLLMs)基础上,添加一个动作输出头或专门的动作模块,以实现对动作的生成。MLLMs在感知和决策方面表现出色,使得VLA模型在多种机器人任务中展现出良好的泛化能力。然而,这些模型存在一个显著的局限性:它们往往缺乏对动作本身的深入理解。在现有方法中,动作只是作为输出结果处理,并未被当作输入进行分析和建模。相比之下,世界模型(WorldModels)能够基于当前观测与动作预测未来的视觉状态,从而同时理解视觉信息和行为动态。尽管具备这一优势,世界模型却无法直接生成动作输出,这导致其在需要显式动作规划的应用场景中存在功能上的空白。

为了解决VLA模型与世界模型各自的局限,我们提出WorldVLA——一种基于自回归机制的统一动作与图像理解与生成模型。如下图所示,WorldVLA使用三个独立的编码器分别处理图像、文本和动作数据。不同模态的token被设计为共享相同的词表,从而使得在同一个语言模型架构下可以统一完成跨模态的理解与生成任务。

其中,世界模型部分通过输入动作来生成对应的视觉表示,从而学习环境中的物理动态规律。这种对动作的解读与物理世界的建模对于动作模型的决策至关重要。与此同时,嵌入在WorldVLA中的动作模型也反过来增强了对视觉信息的理解,进一步提升世界模型在图像生成方面的准确性。这种双向增强机制使整个系统在理解和生成图像与动作方面更加鲁棒和全面。

此外,已有研究表明,动作分块(actionchunking)和并行解码技术对动作模型的性能有显著影响。然而,我们在实验中发现,在自回归模型中连续生成多个动作时会导致性能下降。主要原因在于,预训练的多模态语言模型主要接触的是图像和文本,而对动作的学习较少,因此在动作生成任务中泛化能力有限。而在自回归模型中,后续动作的生成依赖于前面的预测结果,一旦出现错误,便会随时间不断传播放大。为了解决这一问题,我们提出了一种动作注意力掩码策略(actionattentionmaskingstrategy),在生成当前动作时选择性地屏蔽掉之前的动作信息。这种方法有效缓解了错误累积的问题,在动作分块生成任务中带来了显著的性能提升。

在LIBERO基准测试中,我们的WorldVLA相比使用相同主干网络的传统动作模型,在抓取成功率上提升了4%。相较于传统的世界模型,WorldVLA在视频生成质量上表现更优,FVD(FréchetVideoDistance)指标降低了10%。这些结果充分说明,将世界模型与动作模型融合所带来的协同增益,验证了图像与动作统一理解与生成框架的优势。在动作分块生成任务中,传统自回归方式会导致抓取成功率下降10%到50%。但引入我们的注意力掩码策略后,性能下降得到了明显缓解,抓取成功率提升了4%到23%。

研究方法

VLA模型可以根据图像理解生成动作;世界模型可以根据当前图像和动作生成下一帧图像;WorldVLA将将两者融合,实现图像与动作的双向理解和生成,如下图所示。

WorldVLA使用独立的编码器分别处理图像、文本和动作,并让这些模态共享同一个词汇表,从而在单一的大语言模型架构下实现跨模态的统一建模。这种设计不仅提升了动作生成的准确性,也增强了图像预测的质量。WorldVLA使用ActionModel数据和WorldModel数据来训练模型。ActionModel是根据图片输入和文本指令输入来输出动作,数据格式如下:

WorldModel根据当前帧图片和动作来生成下一帧图片,数据格式如下:

在一次性输出多个action时,使用默认的自回归范式会使得效果变差。原因是动作模态并不在原本多模态大模型的预训练中,因此泛化能力较差,这样生成多个动作时就会有误差累积的问题。为了解决这个问题,WorldVLA提出了一种attentionmask策略,使得生成动作时只能看见前面的图片而不能看见前面的动作,从而解决动作累计误差问题,如下图所示。

实验结果

在LIBERObenchmark上的实验结果如下图所示,在没有预训练的情况下超越了需要预训练的全自回归模型OpenVLA。

下图为actionmodel的消融实验结果。对比row2和row1以及row5和row4可以看出,worldmodel的加入可以给actionmodel带来更好的结果。Row3可以看出,使用默认的attentionmask会导致某些任务的成功率下降,但是从row4看出,我们提出的attentionmask可以全面大幅提升任务的成功率。

ActionModel可视化(Text+Image->Action)

下图可以看出WorldVLA可以根据指令完成对应的动作。

WorldModel可视化(Action+Image->Image)

下图可以看出WorldVLA可以根据动作和图片来生成下一帧图片。

  坚持因地制宜、科学抗旱,河库灌区及时开闸放水,增加流量,采取疏通渠道、维修涵闸等措施,做到远送多浇、有水可浇;引黄灌区根据抗旱需水情况,及时开闸放水,争取多引黄河水;平原灌区发挥机电井作用,采取有效措施保障机井通电,并组织投入各类排灌机械179.4万台,努力增加抗旱播种面积。丘陵岗区利用坑、塘、堰、坝等小型水利工程组织抗旱播种。夏播以来,全省累计抗旱浇水7977.3万亩次,播种进度与常年相当。

责编:菅秀筠编辑

美国参战全球股市或有个点的回撤

  “台湾民意基金会”今日(6月18日)公布最新民调,台湾地区领导人赖清德声望为48.2%,相较上个月重挫 9.8 个百分点。该基金会董事长游盈隆表示,在台湾,一个百分点代表 19.5 万人,10 个百分点代表近 200 万人,上任不到一个月,流失近200万人支持,是一个严重的警讯。

常州光头免票

  陈政高于1970年担任辽宁省海城县革委会政工组办事员;1978年任大连海运学院团委书记;1982年任辽宁省大连团市委常委、学校部部长;1985年任辽宁省大连市长海县副县长;1988年任辽宁省大连市西岗区委常委、副区长(主持工作);1993年任辽宁省大连市副市长;1997年任辽宁省省长助理;1998年任辽宁省副省长;2003年任辽宁省沈阳市委副书记、市长;2008年任辽宁省委副书记、省长。

美代表大骂以色列后尴尬改口

  详细剖析两个企业补税案例,也能一定程度上消除上述担忧。枝江酒业之所以被要求补缴8500万元消费税,直接原因是审计部门发现问题,税务部门据此执行。

伊朗宣布中东美军为合法目标

  2024年,西安机场旅客吞吐量4703.04万人次,排名全国第11位;乌鲁木齐机场旅客吞吐量2776.57万人次,排名全国第18位。西安去年GDP为13317.78亿元,排名全国第21位;乌鲁木齐去年GDP仅为4502.16亿元,排名全国第74位。

品牌撤下那尔那茜物料

  连日来,受高温少雨天气影响,黄河流域甘肃、内蒙古、山西、陕西、河南、山东等省(区)出现不同程度的旱情。针对流域相关省(区)旱情,黄河防总和水利部黄河水利委员会(简称黄委)第一时间分别启动抗旱四级响应和干旱防御Ⅳ级应急响应;自6月14日17时起,针对河南省启动干旱防御Ⅲ级应急响应;要求各相关单位落实落细各项抗旱保供水措施,做好旱情持续或进一步发展的应对准备。

蜜雪冰城房塌了

  但随着税收征管能力不断强化,税收征收率不断提高,企业实际税负正在逐步接近名义税负,在当前经济形势下,企业痛感会更明显,一些企业如果不能承担可能会选择停业,这不仅影响就业,更会对宏观经济运行带来负面影响。/p>

巩俐与老公合照

  [环球时报特约记者 任重]英国政府当地时间13日以“打击普京的战争机器”为由宣布50项新制裁,对象包括5家中国实体。中国驻英国使馆发言人当天回应说,英国政府罔顾国内国际民意,不断火上浇油,不但没有反思自己的恶劣行径,反而罗织罪名制裁中国及其他国家企业,充分暴露了英方的虚伪嘴脸。中方敦促英方立即纠正错误,撤销对中国企业的制裁。/p>

汪峰森林北合照

  国家防灾减灾救灾委员会办公室、应急管理部会同国家粮食和物资储备局向河北、山西、内蒙古、山东、河南5省(区)调拨3万件中央救灾物资,支持地方做好抗旱救灾各项工作。