CN121503969A一种结构熵引导图神经网络的多智能体作战任务协作方法-转果果

彭

彭浩机构暂无

技术领域暂无

王

王博洋机构暂无

技术领域暂无

苏

苏丁力机构暂无

技术领域暂无

王

王一鸣机构暂无

技术领域暂无

刘

刘鑫机构暂无

技术领域暂无

张

张靖赟机构暂无

技术领域暂无

摘要

本发明公开一种结构熵引导图神经网络的多智能体作战任务协作方法，包括步骤：S10,各作战智能体依据策略网络产生的动作与环境交互，环境包含环境信息，任务参数及预设任务目标，每个作战智能体的策略是完全去中心化执行的；收集完整的经验轨迹数据；S20,将收集到的数据用于中心化训练；对每一时间步的全局状态，利用价值网络进行价值评估；S30,使用多智能体近端策略优化算法，结合策略网络的输出和价值网络输出的价值估计，计算策略损失和价值损失；使用梯度下降法对策略网络和价值网络的参数进行更新；S40,循环迭代。本发明解决传统方法中战场博弈动态结构感知能力不足、分层策略学习与泛化能力受限以及模型在小样本区域适应性差、迁移效率低下等问题。

权利要求全文暂无

暂无引用专利