在机器人领域,如何让机器人在非结构化环境中实现对环境的有效感知和深入理解,是一个普遍面临的重大挑战。
这不仅涉及机器人基于感知信息进行自主导航能力,还要求其在执行任务时能够通过准确的认知理解人的任务命令,确保机器人在认知、感知和规控这三个关键方面的稳定性和准确性,更是难中之难。
为应对这些挑战,深圳技术大学机器人自主移动与操作实验室马淦副教授团队成功自主研发了一种具身智能机器人系统。该系统能够出色地适应动态、多变的环境,灵活应对复杂场景,进而执行实时巡检任务。
研究人员将大语言模型和视觉语言模型深度融合,成功突破了语言、视觉、导航等多模态信息之间的壁垒,实现了机器人从位置导航模式到认知导航模式的跨越。
通过集成诸如激光雷达、惯性测量单元等不同类型的传感器,机器人能够将实时捕捉到的视觉信息转化为自然语言,并及时反馈给用户。
值得一提的是,借助大模型处理复杂指令,机器人的理解能力得到显著增强,其对复杂自然语言指令的理解和执行成功率超过 96%,相较于传统依赖预设指令的机器人系统,优势十分明显。
正如马淦所说:“这一能力不仅提升了用户对机器人的信息理解程度,还填补了机器人与用户之间的认知空白,使得任务完成效率大幅提高。”
图丨马淦课题组(来源:马淦团队)
传统机器人在自然语言理解方面能力有限,往往需要结构化输入或固定模板,而且在处理视觉信息,如场景变化、潜在异常等情况时,通常需要人工进行分析。
而这款具身智能机器人利用大模型,实现了对多样化自然语言指令的准确解析和实时转化,让操作过程变得更加直观、灵活。
此外,机器人在视觉场景描述中的正确率高达 93%,反馈延迟低于 200 毫秒,达成了高效的人机信息交互。
该系统通过对算法和感知技术的优化,实现了快速、精确的环境建模,并将其与任务规划完美融合,成功解决了巡检任务中的多目标调度和路径规划问题。
在动态场景下,它能够达到 25 帧/秒的重建速度,建模误差低于 1.8%,可以满足巡检任务对高精度和高效率的要求。
马淦指出,这些优化得益于课题组在巡检机器人开发,以及动态环境导航算法方面多年积累的经验和持续取得的突破,有望为行业创造显著价值。
首先,机器人的操作门槛显著降低,用户无需掌握复杂的操作技能,通过自然语言就能与机器人轻松交互。
其次,任务效率得以提升,机器人能够将实时三维建图与巡检任务规划相结合,执行过程中无需停顿,同时视觉语言反馈技术赋予了机器人“解释能力”,进一步提高了交互效率。
此外,该系统主要依靠本地传感器进行高精度定位,即便外部定位信号微弱,也能凭借自身计算能力完成任务,增强了在各种场景下的适应性和可靠性。
图丨语义导航技术路线(来源:马淦团队)
在通用性方面,马淦认为,通用机器人并非仅局限于人形机器人,其核心在于硬件的模块化和软件的分层架构。“该机器人系统具备通用的具身智能自主移动和操作功能,能够与任意形态的腿足式机器人和机械臂兼容。”
从硬件层面来看,该系统可应用于不同形态的机器人本体,既适用于轮式底盘,也可用于履带式底盘。在此基础上,还能进一步添加两个机械臂或工具箱等模块。
从软件层面来讲,系统具有高度通用性,最初可将其视为一个核心共享平台,然后根据需求扩展出各种功能模块,如腿部或手臂等。例如,扩展腿部后能实现不同的行走方式,添加一个或两个机械臂则可完成特定任务。
该系统拥有广泛的应用场景,有望在工业巡检、灾后救援、农业自动化、仓储物流和制造业等多个领域发挥重要作用。
在日常巡检方面,机器人可在学校、医院、写字楼、社区等场所进行常规巡检。
在特殊场景巡检方面,它能够在地震灾后救援、矿井内部巡检等环境复杂、危险性高的场景中发挥作用。
在工业和农业领域,机器人可用于大型工厂的设备巡检和大型农场的作业监督,这些场景通常面积广阔、设备众多、巡检任务艰巨。
使用智能机器人系统代替人工巡检,能够有效降低人力成本,提高巡检效率和质量,还能在高危和极端环境中执行任务,为人员安全提供更有力的保障。
图丨自主移动技术在教学楼中的应用(来源:马淦团队)
现阶段,研究人员希望结合更多实际应用需求,深入解决工程化过程中可能出现的问题。据悉,相关技术已申请专利,他们期待在合适的时机将技术推向产业化。
此外,该团队还计划在智能协作系统、感知与交互以及机器人在智能家居、教育辅助等跨领域拓展方向继续探索。
图丨多形态移动平台展示(来源:马淦团队)
研究人员打算解决的问题包括:优化多传感器数据融合、开发自适应学习算法以及研究新的管理策略等。
例如,进一步提高多传感器融合算法的精度与效率,以实现更精准的环境感知和更灵敏的动态响应能力;开发更先进的自适应学习算法,让机器人能够在不同任务和环境中迅速调整和优化自身行为;通过研究新的管理策略,提升机器人在长时间、高负载任务中的能量端点能力,确保其稳定运行。
转载请注明:可思数据 » 科学家研制具身智能巡检机器人,对自然语言理解准确率超过96%