CN121562712A一种基于视觉强化学习泛化能力提升的战术策略生成方法-转果果

彭

彭浩机构暂无

技术领域暂无

王

王博洋机构暂无

技术领域暂无

谢

谢敏慧机构暂无

技术领域暂无

王

王一鸣机构暂无

技术领域暂无

王

王杰聪机构暂无

技术领域暂无

刘

刘鑫机构暂无

技术领域暂无

张

张靖赟机构暂无

技术领域暂无

摘要

本发明公开一种基于视觉强化学习泛化能力提升的战术策略生成方法，包括步骤：在离线战术预训练阶段：利用离线战场数据缓冲区中的历史数据训练初始网络；随后，进入Q值预降低阶段：基于离线网络参数，通过中间Q值评估网络主动修正分布外动作的Q值过高估计，为在线微调提供稳定起点；最后，在线战场微调阶段：使用在线战场数据缓冲区的实时数据对策略进行优化，结合记忆正则化机制防止性能退化。本发明解决视觉强化学习在战场环境应用中策略难以有效泛化到未曾训练过的敌方战术变化、复杂地形与气候条件等测试环境这一核心挑战；解决离线强化学习与在线战场微调结合时存在的策略稳定性与效率问题。

权利要求全文暂无

暂无引用专利