在审
一种基于视觉强化学习泛化能力提升的战术策略生成方法
彭
彭浩机构 暂无
王
王博洋机构 暂无
谢
谢敏慧机构 暂无
王
王一鸣机构 暂无
王
王杰聪机构 暂无
刘
刘鑫机构 暂无
张
张靖赟机构 暂无
摘要
本发明公开一种基于视觉强化学习泛化能力提升的战术策略生成方法,包括步骤:在离线战术预训练阶段:利用离线战场数据缓冲区中的历史数据训练初始网络;随后,进入Q值预降低阶段:基于离线网络参数,通过中间Q值评估网络主动修正分布外动作的Q值过高估计,为在线微调提供稳定起点;最后,在线战场微调阶段:使用在线战场数据缓冲区的实时数据对策略进行优化,结合记忆正则化机制防止性能退化。本发明解决视觉强化学习在战场环境应用中策略难以有效泛化到未曾训练过的敌方战术变化、复杂地形与气候条件等测试环境这一核心挑战;解决离线强化学习与在线战场微调结合时存在的策略稳定性与效率问题。
暂无引用专利



