在审

一种基于视觉强化学习泛化能力提升的战术策略生成方法

彭浩、王博洋、谢敏慧、王一鸣、王杰聪、刘鑫、张靖赟
北京航空航天大学
彭浩机构 暂无
技术领域 暂无
王博洋机构 暂无
技术领域 暂无
谢敏慧机构 暂无
技术领域 暂无
王一鸣机构 暂无
技术领域 暂无
王杰聪机构 暂无
技术领域 暂无
刘鑫机构 暂无
技术领域 暂无
张靖赟机构 暂无
技术领域 暂无

摘要

本发明公开一种基于视觉强化学习泛化能力提升的战术策略生成方法,包括步骤:在离线战术预训练阶段:利用离线战场数据缓冲区中的历史数据训练初始网络;随后,进入Q值预降低阶段:基于离线网络参数,通过中间Q值评估网络主动修正分布外动作的Q值过高估计,为在线微调提供稳定起点;最后,在线战场微调阶段:使用在线战场数据缓冲区的实时数据对策略进行优化,结合记忆正则化机制防止性能退化。本发明解决视觉强化学习在战场环境应用中策略难以有效泛化到未曾训练过的敌方战术变化、复杂地形与气候条件等测试环境这一核心挑战;解决离线强化学习与在线战场微调结合时存在的策略稳定性与效率问题。

暂无引用专利