北大提出{机器人学}习新范式MP:1 实现速度与成功率双SOT|A

经观智讯2025-07-29 05:59:41

作者介绍:盛举义,北京大学在读博士研究生,研究方向为机器人操作技能学习方法研究;王梓懿、李培铭,北京大学在读硕士研究生,研究方向为视频理解分析;刘勇,浙江大学控制科学与工程学院教授,研究领域为自主机器人与智能系统;刘梦源,北京大学深圳研究生院助理教授,研究领域为人类行为理解与机器人技能学习。

在目前的VLA模型中,「A」—动作生成模型决定了动作生成的质量以及速度。具体而言,生成式模型在推理速度与任务成功率之间存在「根本性权衡」。

其中,DiffusionModels(如DiffusionPolicy和DP3)通过多步迭代生成高质量动作序列,但推理速度较慢,难以满足实时控制要求;而Flow-based模型(如FlowPolicy)尽管能提供快速推理,但需要额外的架构约束或一致性损失(consistencyloss)来保证轨迹的有效性,这增加了设计复杂性并可能限制性能和泛化能力。

此外,机器人操作面临另一个挑战,即数据高效的少样本泛化。标准模仿学习策略容易出现「特征坍塌(featurecollapse)」,即将需要不同动作的关键状态错误地映射到相似的潜在表征latentrepresentation)上,导致模型在新情境下无法做出准确反应。因此,提升模型对不同状态的区分能力是提高策略泛化性的关键。

为应对上述挑战,来自北大的研究团队提出名为MP1的全新机器人学习框架。该框架首次将近期在图像生成领域取得突破的MeanFlow范式引入机器人学习,实现毫秒级推理速度,为VLA动作生成模型打下基础。

论文标题:MP1:MeanFlowTamesPolicyLearningin1-stepforRoboticManipulation

论文链接:https://arxiv.org/abs/2507.10543

代码链接:https://github.com/LogSSim/MP1

MP1的核心引擎——MeanFlow范式

MP1的核心创新在于其生成范式的根本转变。传统FlowMatching学习的是一个瞬时速度场(instantaneousvelocityfield),在推理时需要通过迭代式求解常微分方程(ODE)来积分生成轨迹,这一过程不仅耗时,且会引入并累积数值误差。与之相反,MP1直接学习从初始噪声到目标动作的区间平均速度场(interval-averagedvelocityfield)。

技术上,MP1利用了「MeanFlowIdentity」,使模型能够直接对平均速度场进行建模,而无需在推理时进行任何积分求解。这一设计带来了两大核心优势:

真正的单步生成(1-NFE):模型仅需一次网络前向传播,即可从随机噪声直接生成完整动作轨迹,彻底摆脱了对迭代式ODE求解器的依赖。

无约束的简洁性:得益于其数学形式的完备性,MP1天然保证了轨迹质量,无需引入FlowPolicy等方法所依赖的外部一致性约束,使模型设计更为简洁、优雅。

这种从数学原理上解决问题的方式,而非依赖工程技巧进行修补,使得MP1不仅实现了速度的飞跃,更重要的是,其单次、确定性的前向传播过程保证了推理时间的高度稳定,这能够保证机器人操作任务中的实时性。

分散损失提升少样本泛化能力

在解决轨迹生成的动态问题后,MP1针对机器人学习中的「表征坍塌」问题进行了改进。该问题指的是策略网络将需要不同动作的关键状态错误地映射到相近的潜在空间位置,从而导致模型在少样本学习中泛化能力下降。

MP1引入了来自表征学习领域的最新方法——分散损失(DispersiveLoss)。这是一种轻量级、仅在训练阶段生效的正则化项,旨在直接优化策略网络的内部表征空间。其核心思想是在训练的每个mini-batch中,对不同输入样本的潜在表征施加一种「排斥力」,强制它们在特征空间中相互分散。该损失可以被理解为一种「无正样本的对比损失」:策略网络主要的回归目标负责将每个状态「拉向」其对应的专家动作,而分散损失则负责将不同状态的表征相互「推开」,从而塑造出一个更具辨识度的特征空间。

分散损失的关键优势在于它是一个仅在训练时生效的正则化器,在不增加任何推理开销的前提下,显著提升了模型区分细微场景差异的能力,完美保留了MP1标志性的毫秒级响应速度。在数据采集成本高昂的机器人领域,这种能从极少量(如5-10个)示教中高效学习的能力至关重要。

MP1的仿真测试表现

MP1的性能优势在涵盖37个复杂操作任务的Adroit与Meta-World基准测试中得到了验证。

出色的任务成功率与稳定性

在任务成功率方面,MP1平均成功率达到78.9%,相较于当前先进的流模型FlowPolicy(71.6%)和扩散模型DP3(68.7%),分别实现了7.3%和10.2%的显著提升。

尤为关键的是,MP1的优势在更高难度的任务中愈发凸显。在Meta-World的「中等」、「困难」及「非常困难」任务集上,MP1相较于FlowPolicy的成功率增幅分别高达9.8%、17.9%和15.0%。此外,MP1展现出极高的性能稳定性。在多次随机种子实验中,其成功率的平均标准差仅为±2.1%,远低于其他基线方法,证明了其结果的高度可靠性与可复现性。

卓越的推理效率与实时控制能力

在实现更高成功率的同时,MP1的推理速度同样刷新了纪录。在NVIDIARTX4090GPU上,其平均推理耗时仅为6.8ms。

这一速度比当前最快的流模型FlowPolicy(12.6ms)快了近2倍,更比强大的扩散模型DP3(132.2ms)快了19倍。如此低的延迟意味着MP1的决策环路完全满足机器人领域典型的实时控制频率(通常为20-50毫秒)。

少样本学习能力验证

为了进一步验证分散损失在提升模型数据效率上的作用,研究团队还进行了少样本学习的消融实验。

实验结果表明,MP1在所有数据量级上均一致地优于FlowPolicy,尤其是在示教数据极为稀少(如2-5个)的极端少样本场景下。这有力地证明了分散损失通过优化内部表征空间,能够有效提升策略少样本学习的泛化能力,这可以降低真机部署时大量数据的需求。

MP1的真机验证

研究团队将MP1部署于一台ARXR5双臂机器人上,并在五个真实的桌面操作任务中进行了测试。

实验结果进一步印证了MP1的性能。在所有五项任务中,MP1均取得了最高的成功率和最短的任务完成时间。以「Hummer」任务为例,MP1的成功率高达90%,远超FlowPolicy和DP3的70%;同时,其平均任务耗时仅18.6秒,显著快于FlowPolicy(22.3秒)和DP3(31.1秒)。

  针对近期持续高温干旱对农业生产造成的不利影响,农业农村部在前期发布预警信息的基础上,于6月11日对河北、山西、江苏、安徽、山东、河南、陕西等省启动农业重大自然灾害四级应急响应。