机器人操控技术迎来突破性进展。香港大学XLANG Lab与阿里巴巴Qwen团队联合开源的FineVLA框架,通过细粒度语言控制,显著提升了视觉-语言-动作(VLA)模型的执行精度,在仿真环境中成功率提升超15个百分点,为机器人精细操作提供了全新解决方案。

该框架的核心创新在于实现了对机器人操控细节的精确语言控制。传统VLA模型虽能根据“把杯子放进篮子”等指令完成任务,但对手部选择、抓取角度、接触部位等关键细节缺乏有效标注。FineVLA通过引入可控VLA策略,让机器人能按人类指定的方式执行任务,包括用哪只手、从哪个方向接近、接触物体哪个部位等。

从技术面看,FineVLA的最佳混合策略设置在RoboTwin仿真中达到86.8%/82.5%的成功率,较基线提升15.0/11.1个百分点。在真实双臂机器人测试中,其表现达62.7/100,而Raw-only基线仅为49.9。姿态、颜色、接近方向等可控因素分别提升23、18、18个百分点,显示出在复杂场景下的稳健性能。

从基本面分析,该框架的开源特性有望加速机器人领域的研发进程。代码、模型和评测基准均已公开,为行业提供了标准化测试平台。资金面上,机器人板块近期受到AI技术突破的持续催化,FineVLA的发布可能引发新一轮资金关注。

展望未来,随着VLA模型精细控制能力的提升,机器人在医疗、制造、服务等领域的应用场景将进一步拓展,板块估值修复空间值得关注。

作者 admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注