模仿学习新范式 Ch:ainofA、ction 轨迹自回“归实现动”作推理

2025-07-21 18:57:42      来源:中国经济网

论文标题:Chain-of-Action:TrajectoryAutoregressiveModelingforRoboticManipulation

主页链接:https://chain-of-action.github.io/

代码链接:https://github.com/ByteDance-Seed/Chain-of-Action

模仿学习的困境

具身智能(EmbodiedAI)作为人工智能领域的前沿方向,旨在赋予机器人或智能体在物理世界中感知、决策和行动的能力。近年来,尽管视觉-语言-动作模型(VisionLanguageAction,VLA)已经取得了诸多进展,但具身智能领域尚未迎来「GPT时刻」。越来越多的研究人员开始相信,仅仅增加模型规模和数据量似乎不足以创造出通用操作模型,如果我们想要充分释放现有数据的潜力,就需要找到更有效的机器人操作建模方法。

来自字节跳动Seed&阿德莱德大学的研究者追根溯源,对模仿学习的基本范式进行了反思,发现现有建模思路或许存在缺陷:经典方法如ACT、DiffusionPolicy(DP)都遵循「前向预测」(forward-prediction)范式。而然这种方式不可避免地存在较大的复合误差(compoundingerror)。

在该范式下,策略通常被优化为基于当前观察预测短期的下一步动作,而非确保最终能够成功完成整个任务。虽然引入了动作分块(actionchunking)等策略来缓解复合误差,但无法解决其固有的「短视性」问题。

基于该局限,研究者提出了「动作链」(Chain-of-Action,CoA)——一种基于轨迹自回归的机器人操作策略。与经典范式区分,CoA并不直接由观察映射到执行动作,而是由从最终位置反向自回归的生成轨迹点,推理出可执行的动作。研究团队初步发现,仅仅通过修改建模方式,CoA在与ACT保持相同的基本结构下,空间泛化能力显著提升。这种建模方式为具身操作策略的建模提供了新的思路。

动作链:基于轨迹自回归建模的

机器人操作策略

核心思想:受到思维链(Chain-of-Thought)的启发,CoA并不直接由观察映射到执行动作,而是在动作层面进行迭代式的推理。具体来说,CoA逆向的生成针对目标任务的完整轨迹,这个生成过程统一在一个自回归网络下。自回归过程从「关键帧动作」(keyframeaction)开始,迭代地生成一连串完整的动作轨迹,直至当前的机器人夹爪的位置。

全局到局部一致性:这种「从后往前」的生成方式,为整个动作序列提供了的「全局-局部」(global-to-local)结构性约束。因为每个后续生成的动作都以代表最终目标的「关键帧」为条件,所以最后执行的动作将会被最终目标所「锚定」,空间泛化能力显著得到增强。

统一的自回归框架:CoA将关键帧的识别和轨迹的生成统一在单一的自回归模型中,实现了端到端的训练和高效的闭环执行,并保持了可扩展(scalable)的潜力。

关键设计

为了实现轨迹自回归的想法,CoA引入了四个关键设计:

连续动作表征(ContinuousActionRepresentation):离散化的动作表征会引入量化误差,为保证轨迹的精细度,CoA采用了连续的动作表征并引入了「潜在一致性损失」(Latentconsistencyloss)。

动态停止机制(DynamicStopping):在连续动作空间中,没有传统的中止符(EOStoken)来指示序列的结束。因此,CoA设计了一种基于距离的动态停止机制,实现可变长度(variablelength)的轨迹预测。

反向时间集成(ReverseTemporalEnsemble):传统的时序集成策略基于前向时间假设,不适用于CoA的反向生成模式。CoA通过反向时序集成,进一步提高预测的稳定性。

多词元预测(Multi-tokenPrediction,MTP):动作局部依赖关系的建模可作为「全局-局部」一致性的补充。此设计仅在训练阶段作为正则化手段使用,在推理时移除,保证了效率。

实验验证

模拟环境测试

大幅超越基线:在涵盖60个任务的RLBench大规模拟基准测试中,CoA的平均成功率达到了55.2%,显著优于ACT(38.9%)和DP(32.6%)。相较于ACT,CoA在81.7%的任务中取得了更高的成功率,平均提升了16.3%。相较于DP,CoA在80.0%的任务上表现更优,平均提升为23.2%。

相关性分析:所有方法的成功率都随着物体空间分布方差的增大而下降,但CoA的下降趋势更为平缓,且其性能优势在高方差(更困难)的任务中更为明显。

空间泛化能力分析:研究者对泛化性进行了更细致的观察。以按按钮任务为案例,分别测试了「内插」(in-distribution)和「外推」(out-of-distribution)情况下各个模型的表现,结果显示,CoA在外推场景下成功率约为内插情况下的一半,但对于ACT和DP,外推任务几乎不能完成,这一定程度揭示了两种建模范式在空间泛化表现上的根本差异。

真实世界实验

研究者在一台Fetch机器人上,围绕8项厨房任务进行了部署和测试。观察来自单个RGB摄像头,策略以10Hz的频率运行,每个任务测试10次。实验结果显示CoA取得了61.3%的平均成功率,ACT成功率为46.3%,DP的成功率36.3%。这验证了CoA建模范式在真实世界中的可用性。

结论与展望

Chain-of-Action提出了一种新颖的模仿学习范式,其核心是轨迹自回归建模。通过从一个代表任务目标的「关键帧」开始,逆向生成动作序列,该方法为轨迹施加了一个强大的「全局-局部」结构约束,从而有效解决累计误差问题,提升机器人操作泛化性。全面的实验结果证明,在没有更多数据和增大模型规模的情况下,其在空间泛化能力相比传统范式取得显著提升。这说明一个合理的建模范式可以有效的释放现有数据的潜力。CoA有望为未来一代的VLA模型提供新的建模思路。

  受高空低槽东移影响,16日河南省有分散性阵雨、雷阵雨,雨量分布不均,中西部局部中雨或大雨,并伴有短时强降水、雷暴大风等强对流天气。

责编:陈千惠编辑

品牌大秀鹿晗

  6月13日9时,国家防总针对广西、福建启动防汛四级应急响应,派出两个工作组分赴广西、福建协助指导;新增针对河北、内蒙古启动抗旱四级应急响应,并继续维持针对河南、山东的抗旱四级应急响应,两个工作组正在两省协助指导。

路人镜头下的锤娜丽莎

  进一步改进工作作风,严格要求自己,求真务实,真抓实干,坚持以人民为中心的创作导向,强化“国家队”意识,努力以优秀作品向着艺术“高峰”不断攀登。

阿斯塔纳的握手

  常年打球的张先生告诉《环球时报》记者:“在郑钦文夺冠前的这几年,网球运动在大众层面一直是向上走的态势,加入网球运动行列中的人不断增多。”张先生分析,这也许跟网球是隔网运动有关,因此在疫情期间受到欢迎。

女大学生失联近天家属最新发声

  去年以来,中国对多个国家单方面免签。截至目前,中方已经对法国、德国、意大利、荷兰、西班牙、瑞士、爱尔兰、匈牙利、奥地利、比利时、卢森堡等国施行单方面免签;还与泰国、新加坡、马来西亚、格鲁吉亚等国互免了签证。此前的6月13日,国务院总理李强在惠灵顿总督府同新西兰总理拉克森举行会谈。李强表示,将把新西兰纳入单方面免签国家范围,希望新方为中国公民赴新提供更多便利。

路人镜头下的锤娜丽莎

  经查,王一新丧失理想信念,背弃初心使命,结交政治骗子,对抗组织审查;违背组织原则,隐瞒不报家庭房产情况,在组织谈话时不如实说明问题,违规选拔任用干部并收受财物;违规收受礼金,接受私营企业主低价装修,利用职权为特定关系人谋取利益,搞权色、钱色交易;道德败坏;以权谋私,大搞权钱交易,利用职务便利为他人在土地开发、项目承揽等方面谋利,并非法收受巨额财物。

品牌大秀鹿晗

  第二,议程设置失灵。新任领导刚上任,却没有提出让民众有感的重大改革行动,欠缺议程设置能力,迄未展现其领导能力,无法主导政治议程,反而任由蓝白“在野”党主导议题引领风潮。/p>

丁禹兮说我不想学会分离

  连日来,受高温少雨天气影响,黄河流域甘肃、内蒙古、山西、陕西、河南、山东等省(区)出现不同程度的旱情。针对流域相关省(区)旱情,黄河防总和水利部黄河水利委员会(简称黄委)第一时间分别启动抗旱四级响应和干旱防御Ⅳ级应急响应;自6月14日17时起,针对河南省启动干旱防御Ⅲ级应急响应;要求各相关单位落实落细各项抗旱保供水措施,做好旱情持续或进一步发展的应对准备。/p>

热搜播客正式出道

  新疆机场集团总经理吕辉斌表示,国泰航空开通乌鲁木齐至香港航线,标志着乌鲁木齐天山国际机场的航线网络又一次升级,满足了新疆及周边地区旅客日益增长的出行需求,不仅提升了乌鲁木齐机场的国际化水平,也将进一步增强新疆的区位优势和影响力,共同助力打造乌鲁木齐成为连接亚欧区域门户复合型国际航空枢纽目标。