在真实环境中,现有单智能体建图范式存在建图效率低、视角受限、视野遮挡等问题,难以满足智能体在复杂环境中的任务需求;同时,现有多智能体建图方法缺乏实例级语义理解能力,限制了多智能体在真实环境中的语义理解和任务交互能力。
本研究设计了一种开放环境下基于多模态场景图的多智能体认知导航空间构建方法,研究内容包括:(1)单机开放词汇多模态实例理解,实现单智能体对复杂场景的语义理解;(2)多机跨平台一致性实例对齐,解决多智能体间的语义一致性对齐问题;(3)分布式协同层次化导航空间构建,实现多智能体协作的高效建图。通过三个模块的协同工作,构建全面且准确的导航空间地图。
实验结果显示,本算法相比基线方法在几何与语义层面分别提升了9.15%与2.30%,达到了同类算法最高精度,展示了高质量场景重建能力及准确的语义理解能力。同时,本项目在真实环境下采集多尺度数据,并完成了导航实验,验证了算法的实用性与可行性。本项目为满足智能体在真实空间中的复杂任务要求提供了丰富的先验地图信息,具有显著的创新性和竞争优势。
20251128
科学研究和技术服务业
仅限国内转让
北京市自然科学基金本科生“启研”计划
北京市科学技术委员会;中关村科技园区管理委员会
在物体种类繁多且分布复杂的真实环境中,构建全面且准确的导航空间地图是智能体完成路径规划和技能操作等任务的重要前提。现有的认知导航空间构建方法大多采用单智能体建图范式,即单个智能体在场景中独自采集数据并处理得到全局地图。这一范式有效的保证了全局建图的统一性,但会面临建图效率低、视角受限以及视野遮挡等问题,从而难以满足智能体在真实环境中的任务需求,因此必须将单智能体独立建图范式推向多智能体协作建图范式。然而,现有的多智能体建图方法普遍缺乏实例级语义理解能力,限制了多智能体在真实环境中的语义理解和任务交互能力。 针对上述问题,本研究设计了一种开放环境下基于多模态场景图的多智能体认知导航空间构建方法,研究内容包括(1)单机开放词汇多模态实例理解;(2)多机跨平台一致性实例对齐;(3)分布式协同层次化导航空间构建三个模块。为评估多智能体分布式隐式建图效果,本项目在Replica与ScanNet数据集上进行了算法测试。实验结果显示,本算法相比基线方法在几何与语义层面分别提升了9.15%与2.30%,达到了同类算法最高精度,展示了高质量场景重建能力及准确的语义理解能力。同时,本项目在真实环境下采集多尺度数据,并完成了导航实验,验证了算法的实用性与可行性。综上所述,通过构建开放环境下基于多模态场景图的多智能体认知导航空间,本项目为满足智能体在真实空间中的复杂任务要求提供了丰富的先验地图信息。
