机器人视觉智能训练长期面临“近视监督”困境,模型仅关注相邻帧预测,导致对整体运动规律理解不足。华中科技大学、香港科技大学等机构联合提出“Next Forcing”训练框架,通过多帧预测强制模型学习物理规律,在RoboTwin测试集上刷新纪录。该研究以预印本形式于2026年6月9日发布在arXiv平台(论文编号:arXiv:2606.11187),由华中科技大学、香港科技大学、香港科技大学广州校区及Robbyant公司联合完成。 核心创新点在于解决“教师强迫”训练范式的局限性:传统方法仅预测“下一帧”,模型易通过“复制粘贴”相邻帧降低误差,形成取巧策略。Next Forcing要求模型同时预测“下两帧”、“下三帧”乃至“下四帧”,迫使模型理解物体运动规律而非局部像素差异。 从资金面看,机器人视觉赛道近期获政策与产业资本双重加持,该技术突破有望加速人形机器人商业化进程。技术面上,实验结果亮眼:在包含50种双臂协作任务的RoboTwin标准测试集中,固定场景成功率94.1%,随机场景成功率93.5%。当视频帧率提升至50帧每秒时,训练速度较此前最强的LingBot-VA方法快2.3倍,推理速度提升2倍,视频生成质量指标下降超50%(指标越低越好)。 展望后市,该框架解决了机器人世界行动模型(WAM)的“近视监督”问题,为复杂操作任务提供更鲁棒的视觉基础。随着多模态大模型与机器人硬件迭代,Next Forcing有望成为具身智能领域的标准训练范式,推动估值修复行情。 文章导航 吉宏股份Giikin AI+上线,AI原生组织变革落地 申通地铁拟挂牌转让申电通49%股权