CN116090336B基于改进强化学习算法的虚拟编组列车参考曲线计算方法-转果果

刘

刘宏杰机构暂无

技术领域暂无

郎

郎颖辉机构暂无

技术领域暂无

唐

唐涛机构暂无

技术领域暂无

吴

吴昊机构暂无

技术领域暂无

王

王道敏机构暂无

技术领域暂无

李

李晓刚机构暂无

技术领域暂无

张

张艳兵机构暂无

技术领域暂无

赵

赵剑华机构暂无

技术领域暂无

柴

柴铭机构暂无

技术领域暂无

宿

宿帅机构暂无

技术领域暂无

吕

吕继东机构暂无

技术领域暂无

李

李开成机构暂无

技术领域暂无

摘要

本发明公开了基于改进强化学习算法的虚拟编组列车参考曲线计算方法，应用于轨道交通运行控制技术领域，包括：基于虚拟编组列车运行指标与约束的数学形式构建虚拟编组列车的运行优化模型，并确定决策变量；将运行优化模型转化到强化学习框架下；应用改进的强化学习DQN算法对运行优化模型求解，获得虚拟编组列车参考曲线。本发明通过整合各列车单元的独立分布规划，在考虑编队整体的运行指标基础上，为车队中每一辆车都生成一条各自的协同参考曲线，并通过改进的强化学习DQN算法求解，取代了现有的独立分布规划，使得前车不再完全独立的运行而是考虑后车的运行状态，实现虚拟编组列车同步停车、准点到达、精确停车的运行指标。

1.基于改进强化学习算法的虚拟编组列车参考曲线计算方法，其特征在于，包括：步骤(1)：基于虚拟编组列车运行指标与约束的数学形式构建虚拟编组列车的运行优化模型，并确定决策变量；步骤(2)：将所述运行优化模型转化到强化学习框架下；步骤(3)：应用改进的强化学习DQN算法对所述运行优化模型求解，获得虚拟编组列车参考曲线。 2.根据权利要求1所述的基于改进强化学习算法的虚拟编组列车参考曲线计算方法，其特征在于，所述虚拟编组列车运行指标包括：同时停车，如下式：其中，e s 为前车和后车停下的最终时间差；为前车停下的最终时间；为后车停下的最终时间；准点到达，如下式：其中，为前车停下的最终时间和目标时间差；为前车停下的目标时间；精准停车，如下式：其中，和分别为前车和后车停下的最终位置和目标位置之差；和分别为前车和后车停下的最终位置；和分别为前车和后车停下的目标位置。 3.根据权利要求1所述的基于改进强化学习算法的虚拟编组列车参考曲线计算方法，其特征在于，所述虚拟编组列车运行约束包括：列车动力学约束，如下：其中，和分别为前、后车在k时刻的位置和速度；m 1 和m 2 分别为前、后车的质量；和分别为前、后车的牵引力和制动力；和分别为前、后车的基本阻力、曲线附加阻力、坡度附加阻力；驱动力约束，如下：其中，F t 和F b 分别为牵引力和制动力；为前车或后车在k时刻的速度；和分别为前车或后车在速度时所能提供的最大牵引力和最大制动力；道路限速约束，如下：前后车速度满足约束：其中，和分别为前、后车的警示曲线限制速度；安全间距约束，如下：sm＝min(d(t))；d e +L+k 1 ≤d(t)≤d e +L+k 2 ；其中，d(t)为紧急制动过程中任意时刻的辆车间距；分别为前后车在紧急制动前的车头位置、速度、加速度；sm为列车间的最小间距；d e 为安全间距约束；L为车长；k 1 和k 2 为控制裕量。 4.根据权利要求1所述的基于改进强化学习算法的虚拟编组列车参考曲线计算方法，其特征在于，所述决策变量为每个计算步长内的列车控制加速度u，如下：u 1 ，u 2 ，u 3 ......u n 。 5.根据权利要求1所述的基于改进强化学习算法的虚拟编组列车参考曲线计算方法，其特征在于，通过马尔可夫决策过程将所述运行优化模型转化到强化学习框架下，如下：其中，s 0 ，s 1 ......s n 分别为每一步的虚拟编组列车状态；u 1 ，u 2 ......u n 分别为每一步的控制加速度指令。 6.根据权利要求1所述的基于改进强化学习算法的虚拟编组列车参考曲线计算方法，其特征在于，所述改进的强化学习DQN算法，具体为：初始化阶段：设置改进的强化学习DQN算法参数，并初始化一个深度神经网络作为价值函数；观察阶段：从初始状态开始随机选择动作获得下一状态，存储数据到经验空间，直至训练次数达到预设值；训练阶段：从初始状态根据价值函数以及策略函数选择大价值动作进行迭代，并按预设周期从经验空间中抽取样本训练价值函数，直至训练结果满足预设成功率要求，取出成熟价值函数；参考曲线生成阶段：从初始状态开始利用成熟价值函数和策略函数迭代获得一系列完整的起点到终点的数据，得到虚拟编组列车参考曲线。 7.根据权利要求6所述的基于改进强化学习算法的虚拟编组列车参考曲线计算方法，其特征在于，所述设置改进的强化学习DQN算法参数，并初始化一个深度神经网络作为价值函数，具体为：状态：以虚拟编组列车的位置、速度、时间作为状态变量，如下：其中，s k 为第k步虚拟编组列车的状态；分别为k时刻前后车的位置、速度、时间；初始状态、最终状态以及目标状态分别为：其中，分别为前后车初始的位置、速度、时间；分别为前后车停下时的最终位置、速度、时间；分别为前后车停下时的目标位置、速度、时间；动作：将前后车的离散控制加速度的编码值作为动作，通过对动作解码获得两车的控制加速度值，编码函数如下：其中，p为前车控制加速度的档位数；q为后车控制加速度的档位数；分别为第k步前后车的控制加速度；p 1 和q 2 为当前控制加速度的档位次序；A k 为第k步的动作值；环境：包括：列车动力学和线路参数；对于前车，智能体与环境的交互公式，如下：其中，Δt为时间计算步长；对于前车，根据线路参数计算出线路阻力包含的加速度，如下：其中，为第k步前车的加速度；F t (v)和F b (v)分别为前车在速度v时的牵引力和制动力；f b 、f c 、f g 分别为前车受到的基本阻力、曲线附加阻力、坡度附加阻力；m 1 为前车质量；价值函数：Q＝Q net (s k ，A k )，0≤k≤n；其中，Q net 为价值函数，为一个深度神经网络，输入为状态和动作，输出为当前状态结合动作的Q值，为当前组合产生的未来收益；策略函数：其中，为第k步时第i种动作；奖励函数：e＝[e x ，e v ，e t ，e x ，e v ，e t ]；其中，e为容许误差矩阵；R 1 为虚拟编组列车在要求的位置、速度、时间误差内停下时给予的正奖励；P 1 为两车没有在停车区域停下时给予的负奖励；P 2 为两车没有按时刻表安排停下时给予的负奖励；P 3 为前车或后车超出道路限速时给予的负奖励；P 4 为当两车间距小于安全间距时给予的负奖励；经验回放：从经验空间中抽取的数据不符合神经网络的输入输出需求无法直接用来训练，需要根据数据计算出当前估计的未来期望值，处理后的数据可根据学习率α对神经网络进行训练，如下：其中，U k 为根据第k步抽取数据估计的未来期望值；R k 为第k步抽取数据中的奖励值；γ为衰减率。 8.根据权利要求7所述的基于改进强化学习算法的虚拟编组列车参考曲线计算方法，其特征在于，设置所述改进的强化学习DQN算法参数，还包括：经验奖励：在算法初始化阶段，从外部导入一条以往训练得到的参考曲线数据作为基础添加奖励，一旦在算法过程中探索曲线偏离经验数据过远就会给与负奖励，如下：其中，B 1 和B 2 为整数；x w 和t w 分别为经验数据中的位置和时间；g 1 和g 2 为设定的引导范围；曲线评价机制：若没有可以导入的外部经验数据，则把探索到的第一条曲线当成经验数据进行使用，并采用曲线评价机制，使分数高的曲线代替分数低的曲线，评分函数如下：其中，a、b、c为针对虚拟编组列车运行各目标的权重系数。 9.根据权利要求7所述的基于改进强化学习算法的虚拟编组列车参考曲线计算方法，其特征在于，设置所述改进的强化学习DQN算法参数，还包括：局部遍历机制：当列车触发边界时会在一定范围内进行局部遍历选择动作，算法中加入了记录违规动作的表，用来进行局部遍历。 10.根据权利要求7所述的基于改进强化学习算法的虚拟编组列车参考曲线计算方法，其特征在于，设置所述改进的强化学习DQN算法参数，还包括：动作空间收缩机制：当确定列车处于牵引或制动工况时，只考虑相对应的加速或制动指令；当一辆列车停止时，动作可以只针对另一辆还在行驶的列车，已经停下的列车控制加速度始终为零。

CN113492892ACN113492892A CN113525461ACN113525461A