1.一种飞机装配调度的强化双学习驱动的进化优化方法,其特征在于,包括以下步骤:基于目标飞机装配的工序顺序约束和工人站位的容量约束,构建进化策略中的初始分层编码策略和初始解码策略;通过预设搜索策略、预设多算子协同反馈搜索策略和预设参数选择策略优化所述初始分层编码策略和所述初始解码策略的统计学习性能和进化学习性能,以得到优化后的分层编码策略和优化后的解码策略;根据所述优化后的分层编码策略和所述优化后的解码策略生成新的进化策略,以执行所述新的进化策略对所述目标飞机装配进行调度;其中,在通过所述预设搜索策略、所述预设多算子协同反馈搜索策略和所述预设参数选择策略优化所述初始分层编码策略和所述初始解码策略的统计学习性能和进化学习性能之前,还包括:读取所述目标飞机装配调度的工序关系,根据所述工序关系将工序分层以得到不同的工序层;基于所述不同的工序层,利用所述初始分层编码策略生成初始采样种群,并根据目标函数排列所述初始采样种群,以得到排列后的初始采样种群,并根据所述排列后的初始采样种群选取精英解;统计所述精英解在所述不同的工序层的分布信息,并根据所述分布信息建立概率统计矩阵并初始化所述概率统计矩阵,以得到初始化统计矩阵;基于所述初始化统计矩阵中的概率分布信息和所述初始采样种群构建新种群,以根据所述新种群中的精英解更新所述初始化统计矩阵的概率分布信息,得到更新后的概率分布信息及其对应的更新后的统计矩阵,以根据所述更新后的统计矩阵确定所述预设搜索策略;其中,在通过所述预设搜索策略、所述预设多算子协同反馈搜索策略和所述预设参数选择策略优化所述初始分层编码策略和所述初始解码策略的统计学习性能和进化学习性能之前,还包括:基于所述不同的工序层,构建算子分布矩阵并初始化所述算子分布矩阵,以得到初始化算子分布矩阵;通过所述初始化算子分布矩阵,进化学习的分层搜索性能并强化学习的反馈调节性能,得到进化学习后的分层搜索策略和强化学习后的反馈调节策略;结合所述进化学习后的分层搜索策略和强化学习后的反馈调节策略分析所述不同的工序层的最优搜索算子,以生成所述预设多算子协同反馈搜索策略;其中,在通过所述预设搜索策略、所述预设多算子协同反馈搜索策略和所述预设参数选择策略优化所述初始分层编码策略和所述初始解码策略的统计学习性能和进化学习性能之前,还包括:定义所述初始分层编码策略和所述初始解码策略的状态集、动作集、奖励、状态转换;基于所述状态集、所述动作集、所述奖励和所述状态转换,确定所述预设搜索策略的参数选择范围,以确定所述预设参数选择策略。
2.根据权利要求1所述的方法,其特征在于,所述根据所述优化后的分层编码策略和所述优化后的解码策略生成新的进化策略,以执行所述新的进化策略对所述目标飞机装配进行调度,包括:基于所述不同的工序层,采用所述优化后的分层编码策略获取完整的调度解;基于所述调度解,利用所述优化后的解码策略计算所述目标飞机装配的时间约束,以得到所述目标飞机装配的最终调度方案,以根据所述最终调度方案对所述目标飞机装配进行调度。
3.一种计算机程序系统,包括计算机程序,其特征在于,所述计算机程序被执行时,以用于实现如权利要求1-2任一项所述的飞机装配调度的强化双学习驱动的进化优化方法。