近期,奥比中光研发团队融合前沿多模态大模型技术,推出最新2.0版大模型机械臂演示方案。新方案搭载公司最新深度相机Gemini 335L和Femto Bolt,能够基于语音指令,自动执行沏茶、插花、滴香薰、播放音乐等一系列复杂任务。此前在2023年底,奥比中光成功发布大模型机械臂1.0,在业界引起广泛关注。
(点击播放视频)
秒懂语音指令,丝滑沏茶、倒茶
奥比中光2.0版大模型机械臂结合多模态大模型技术(语音、文本、视觉)与机械臂控制技术,可以生成空间语义信息,帮助机械臂准确识别、理解生活中的常见物体并执行相应动作,可识别物体包括日常用品、食品和工业零件等。
以最具挑战性的沏茶任务为例,其难点在于流程长、步骤多,需要保证动作执行的准确性和多步骤之间的逻辑合理性。奥比中光研发团队借助高精度Gemini 335L和Femto Bolt相机实现目标抓取位姿的精确定位,结合大模型的理解能力,经过长期算法优化与仿真环境调试,最终实现对沏茶等复杂任务的理解、规划与自动执行。
相比1.0版本,2.0版大模型机械臂在以下几个方面实现了升级:
● 语言模型:自然语言处理和理解能力显著提升,机械臂能够更准确理解和执行抽象的语言指令。
● 规划能力:复杂任务规划能力显著提升,可以准确理解高阶任务并精准执行。
● 响应速度:程序整体执行效率优化,任务理解与规划时间大大缩短。
● 抓取能力:升级为夹爪设计,能够准确识别和分类不同物体,适应更多样化的任务和环境。
● 感知能力:配备Gemini 335L和Femto Bolt相机,双目3D相机与ToF相机互补,提供更高分辨率和精度的3D视觉感知能力。
搭载先进深度相机,感知更精确
奥比中光2.0版大模型机械臂通过搭载公司最新深度相机和AI算法,在识别、抓取和操作复杂物体时的精度和效率显著提升。相较于1.0版本采用的Gemini 2系列相机,2.0版本的Gemini 335L和Femto Bolt在深度精度和深度完整性方面具有更佳表现,捕捉更精致的物体细节,可重建玻璃、亚克力等透明材质物体,从而让机械臂能够精准定位物体,高效执行动作。此外,公司基于仿真与实际相结合的调试优化方式,可快速实现AI算法验证与迭代。
奥比中光Gemini 335L相机可重建香薰玻璃瓶、亚克力支架等透明物体
机器人要想具备更通用的能力,需要理解真实的物理世界。作为行业领先的机器人视觉及AI视觉公司,奥比中光长期致力于3D视觉感知技术的研发,以促进具身智能在感知技术层面的进步。未来,团队将进一步提升大模型机械臂的理解能力,使其能够处理更多复杂、抽象的任务;提升机械臂在复杂或动态变化环境中的泛化能力,并加强人机交互与机器自我学习能力,加速其在生活服务、工业生产等实际场景中的落地应用。