近日,北京大学多媒体信息处理国家重点实验室联合香港科技大学、新加坡国立大学以及北京人形机器人创新中心等共同开发一套“视角转换想象系统”,此项名为“WristWorld”技术的核心突破在于:
(1)空间重建,给机器人装上“空间感知大脑”。全球首次实现让机器人通过外部摄像头画面,自动生成手腕视角操作画面,让其从第三人称视角推测出第一人称的精确操作画面,解决机器人精细操作中的数据瓶颈问题。
(2)实现“自监督”学习。传统方法需通过预先标注的手腕位置信息来训练模型,但此类信息在全球现有数据库中极其稀缺。新方法实现了“自监督”学习,不需额外的标注信息便可获得准确的手腕位置估计。
(3)提升VLA模型性能。在Calvin机器人上平均任务完成时间提高3.81%,锚点-腕部视角差距缩小42.4%。
(4)即插即用的技术扩展能力。其为“即插即用”的技术模块,可轻松集成到现有的机器人学习系统中,无需对原有系统进行大幅修改。
“WristWorld”技术为机器人学习领域开辟了新的发展方向,可显著提升机器人训练效率和效果,增强具身智能进行复杂动作(如握持、翻转)的能力,将推动机器人在精密制造、医疗手术、食品加工等精细操作领域的应用。相关成果已发表在全球权威核心的arXiv预印本平台。
昵称 验证码 请输入正确验证码
所有评论仅代表网友意见,与本站立场无关