有效
一种实现测试场景生成的模型的训练方法
张毅、何泓霖、封硕、杨敬轩、裴华鑫、张佐
清华大学
张
张毅机构 暂无
技术领域 暂无
何
何泓霖机构 暂无
技术领域 暂无
封
封硕机构 暂无
技术领域 暂无
杨
杨敬轩机构 暂无
技术领域 暂无
裴
裴华鑫机构 暂无
技术领域 暂无
张
张佐机构 暂无
技术领域 暂无
摘要
本文公开一种实现测试场景生成的模型的训练方法,包括:获取用于模型训练的数据集,数据集中包含历史观测序列和地图信息;对历史观测序列进行升维,获得第一高维特征信息;根据地图信息中包含的离散点之间的相关关系,获得的第二高维特征信息;根据第一高维特征信息、第二高维特征信息与表征所有车辆在场景中的随机性的随机函数信息,生成隐变量状态信息;对隐变量状态信息进行解码,获得交通先验模型的输出;对数据集中数据,根据交通先验模型的输入和获得的交通先验模型的输出计算预设的第一损失函数,获得交通先验模型。本发明实施例训练获得了交通先验模型,为自动生成自动驾驶汽车在正常工作情况下安全行驶的驾驶场景提供了支持。
1.一种实现测试场景生成的模型的训练方法,包括:获取用于模型训练的数据集,数据集中包含历史观测序列和地图信息;对数据集中的历史观测序列进行升维,获得第一高维特征信息;根据数据集中的地图信息中包含的离散点之间的相关关系,获得地图信息的第二高维特征信息;根据第一高维特征信息、第二高维特征信息与预先设定的表征所有车辆在场景中的随机性的随机函数信息,生成隐变量状态信息;对生成的隐变量状态信息进行解码,获得交通先验模型的输出;对数据集中所有数据,根据交通先验模型的输入和获得的交通先验模型的输出计算预先设定的第一损失函数,获得交通先验模型;其中,所述第一损失函数根据交通先验模型的预测的状态信息与真实的状态信息之间的距离确定;所述交通先验模型用于生成自动驾驶车辆的测试场景;所述生成隐变量状态信息,包括:将所述第一高维特征信息和第二高维特征信息,通过预先设定的自注意力机制模块进行处理,获得更新的表征车辆之间交互关系的第三高维特征信息;将所述第三高维特征信息,通过预先设定的交叉注意力机制模块进行处理,获得更新的表征车辆与道路之间交互关系的第四高维特征信息;根据所述第三高维特征信息、所述第四高维特征信息与所述随机函数信息,生成所述隐变量状态信息;所述根据所述第三高维特征信息、所述第四高维特征信息与所述随机函数信息,生成隐变量状态信息,包括:将更新的所述第三高维特征信息和所述第四高维特征信息进行矩阵相乘;根据所述矩阵相乘的结果与所述随机函数信息,确定所述隐变量状态信息;所述随机函数信息通过预设的拟合器和调节器加载;所述拟合器用于根据所述数据集中的被测试车辆的决策器模块的输入的状态信息,对所述决策器模块的输出的状态信息进行预估;所述调节器用于对除所述被测试车辆以外的背景车辆的行为进行调整。
2.根据权利要求1所述的训练方法,其特征在于,所述数据集为: ;其中, 为预先设定的固定时长 ,采样间隔为 的测试场景对, 为所述地图信息; 代表用以交通先验模型训练的场景 时的所述历史观测序列, ; 场景 时的真实序列, ; ,表示场景i中每一时刻的状态是维度为 的向量, 为车辆总数, 为状态信息的维度; ,代表场景 中 时刻所有车辆状态的集合, 表示场景i时刻t第 辆车的状态信息, 代表被测试车辆的决策器模块的状态信息。
3.根据权利要求1所述的训练方法,其特征在于,所述对生成的隐变量状态信息进行解码,包括:通过预先设定的门控循环单元GRU对所述隐变量状态信息进行解码。
4.根据权利要求1-3任一项所述的训练方法,其特征在于,所述第一损失函数的表达式为: (1); (2);其中,下标i1用于标识场景i中的被测试车辆的决策器模块, 表示场景i中所述决策器模块的真实的状态信息; 表示所述交通先验模型输出的场景i中决策器模块的预测的状态信息;下标ij用于标识场景i中的车辆j, 表示场景i中车辆j的真实的状态信息; 表示所述交通先验模型输出的场景i中车辆j的预测的状态信息;N为场景i中包含的车辆总数。
5.根据权利要求1-3任一项所述的训练方法,其特征在于,所述训练方法还包括,在所述交通先验模型中添加以下第一约束项: (3);其中, , 为场景i中车辆 的近似圆半径, 为场景i中车辆 的近似圆半径; 表示车辆 与车辆 的间隔, , 代表场景 中的车辆 在 时刻的圆心 所在位置, 代表场景 中的车辆 在 时刻的圆心 所在位置。
6.根据权利要求1-3任一项所述的训练方法,其特征在于,所述训练方法还包括:对所述拟合器的多层感知机 参数采用第一梯度下降方法进行更新,通过预先设定的第二损失函数对拟合器进行训练;通过预先设定的第二损失函数对拟合器进行训练之后,对所述调节器的 参数采用第二梯度下降方法进行更新,通过预先设定的第三损失函数对调节器进行训练。
7.根据权利要求6所述的训练方法,其特征在于,所述第二损失函数为: (4);其中,下标i1用于标识场景i中的被测试车辆的决策器模块, 表示场景i中所述决策器模块的真实的状态信息; 表示所述交通先验模型输出的场景i中决策器模块的预测的状态信息。
8.根据权利要求6所述的训练方法,其特征在于,所述第三损失函数为: (5);其中,下标i1用于标识场景i中的被测试车辆的决策器模块, 表示所述交通先验模型输出的场景i中决策器模块的预测的状态信息; 表示交通先验模型输出的场景i中背景车辆的预测的状态信息。
9.根据权利要求8所述的训练方法,其特征在于,所述第三损失函数表达式为: ; (6);其中, 为背景车辆的轨迹信息, , , 为场景i中车辆 的近似圆半径, 为场景i中车辆 的近似圆半径; 表示车辆 与车辆 的间隔, , 代表场景 中的车辆 在 时刻的圆心 所在位置, 代表场景 中的车辆 在 时刻的圆心 所在位置; , 为预先设定的权重项, 代表背景车辆 与被测试车辆之间的距离。
10.根据权利要求6所述的训练方法,其特征在于,所述训练方法还包括:所述通过预先设定的第二损失函数对拟合器进行训练时,在所述交通先验模型添加以下 散度损失函数作为第二约束项: (7);其中: 为所述拟合器的MLP参数更新前被测试车辆的决策器模块的随机性的随机变量, 为所述拟合器的MLP参数更新后被测试车辆的决策器模块的随机性的随机变量, 分别服从 , 为随机变量 的维数; 表示所述交通先验模型输出的背景车辆未来位置分布的标准差, 表示所述调节器输出的背景车辆未来位置分布的标准差, 表示所述交通先验模型输出的背景车辆未来位置分布的均值, 表示,所述调节器输出的背景车辆未来位置分布的均值。
11.一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-10中任一项所述的实现测试场景生成的模型的训练方法。
12.一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,处理器被配置为执行存储器中的计算机程序;所述计算机程序被所述处理器执行时实现如权利要求1-10中任一项所述的实现测试场景生成的模型的训练方法。



