CN121562713A一种基于注意力机制的战场多智能体动态协作方法-转果果

彭

彭浩机构暂无

技术领域暂无

王

王博洋机构暂无

技术领域暂无

王

王一鸣机构暂无

技术领域暂无

王

王杰聪机构暂无

技术领域暂无

刘

刘鑫机构暂无

技术领域暂无

张

张靖赟机构暂无

技术领域暂无

摘要

本发明公开一种基于注意力机制的战场多智能体动态协作方法，包括步骤：S10，获取局部观察信息；S20，建立策略网络和价值网络，均嵌入多头注意力机制，允许每个智能体动态查询队友的内部表征，并将指数级联合行动空间的搜索问题转化为对关键信息的动态关注；S30，策略网络通过注意力层生成智能体的动作概率分布，强制智能体依赖协作信号；价值网络输出每个智能体的价值估计，提供基准函数；协同损失函数基于注意力层输出的嵌入表示计算智能体间的相似度惩罚；S40，训练过程采用策略梯度方法更新，策略网络参数以最大化累积奖励，价值网络参数通过最小化总损失更新，输出高度协作联合策略。本发明确保智能体在决策时始终整合团队信息。

权利要求全文暂无

暂无引用专利