有效
一种基于大模型的交通查询方法、装置及电子设备
刘晓冰、杨建新、刘祥、袁莉萍、秦秀伟、张缙
青岛海信网络科技股份有限公司
刘
刘晓冰机构 暂无
技术领域 暂无
杨
杨建新机构 暂无
技术领域 暂无
刘
刘祥机构 暂无
技术领域 暂无
袁
袁莉萍机构 暂无
技术领域 暂无
秦
秦秀伟机构 暂无
技术领域 暂无
张
张缙机构 暂无
技术领域 暂无
摘要
本申请实施例提供的一种基于大模型的交通查询方法、装置及电子设备,用以解决相关技术中查询不准确的问题。在本申请实施例中,电子设备在接收到查询问题后,首先获取与该查询问题中的关键词匹配度较高的多个目标向量。随后,将查询问题及目标向量对应的词组输入拆分大模型,由拆分大模型将查询拆问题解为多个子问题。每个子问题中包含更加细节的信息,确保问题表述的精准性。电子设备根据拆分后的子问题分别执行针对性查询,获取各子问题对应的精确查询结果。这有效提升了子问题的语义准确性,进而提高了最终查询结果的准确性和可靠性,并且本申请实施例中还进行异常数据的识别以及基于因果知识库进行根因分析。
1.一种基于大模型的交通查询方法,其特征在于,所述方法包括:接收查询问题;获取所述查询问题中的查询关键词;根据获取到的每个查询关键词的类型,以及对应类型的关键词在向量中所处的分量位置,确定所述查询问题对应的查询向量;根据预先保存的向量库中的每个向量与所述查询向量的相似度,确定相似度高的前预设数量个目标向量;针对每个目标向量,获取针对该目标向量保存的词组,其中,所述词组中包含至少一个关键词;将获取到的每个词组及所述查询问题输入拆分大模型中,获取所述拆分大模型拆分后输出的每个子问题;根据所述每个子问题进行查询,获取对应的查询结果;所述方法还包括:根据预设算法进行异常识别,识别多个查询结果中的第一异常数据;其中,所述预设算法包括基于统计阈值的Z-Score检测算法;将所述查询问题输入第二目标大模型中,获取所述第二目标大模型输出的异常识别算法;根据所述异常识别算法,识别多个查询结果中的第二异常数据;其中,所述异常识别算法包括孤立森林技术、局部异常因子LOF技术;获取所述查询问题中的分组信息;其中,所述分组信息包括事故发生时间、事故发生地点、事故类型、事故路段类型、事故形态中至少一个;获取针对所述分组信息保存的异常类别;确定所述第一异常数据和所述第二异常数据对应所述异常类别的目标信息;其中,所述异常类别包括时间、字段中至少一个;所述根据所述每个子问题进行查询,获取对应的查询结果,包括:通过自然语言转结构化查询语言NL2SQL大模型,确定所述每个子问题对应的结构化查询语言SQL语句;根据获取到的每个SQL语句在数据库中进行查询,获取对应的查询结果;所述NL2SQL大模型通过以下方式训练:获取第一样本问题及针对所述第一样本问题保存的样本SQL语句;将所述第一样本问题输入NL2SQL大模型中,获取所述NL2SQL大模型输出的输出SQL语句;根据所述样本SQL语句和所述输出SQL语句之间的树编辑距离,以及所述样本SQL语句和所述输出SQL语句中同一位置的token的语法类型是否一致,确定第一子损失值;并根据所述样本SQL语句和所述输出SQL语句之间的相似度,以及所述样本SQL语句和所述输出SQL语句的语法是否一致,确定第二子损失值;并根据预测的每个token的概率分布和所述样本SQL中每个token的概率分布,确定第三子损失值;根据所述第一子损失值、所述第二子损失值及所述第三子损失值,确定目标损失值;根据所述目标损失值,对所述NL2SQL大模型的参数进行微调。
2.根据权利要求1所述的方法,其特征在于,所述接收查询问题之后,所述根据所述每个子问题进行查询,获取对应的查询结果之前,所述方法还包括:确定所述查询问题对应的查询意图和查询场景;获取针对所述查询意图和所述查询场景保存的目标模版;所述根据所述每个子问题进行查询,获取对应的查询结果,包括:将所述每个子问题及所述目标模版输入第一目标大模型中,获取所述目标大模型依据所述目标模版输出的查询结果。
3.根据权利要求1所述的方法,其特征在于,所述第二目标大模型通过以下方式训练:获取第二样本问题及针对第二样本问题保存的样本识别算法;将所述第二样本问题输入第二目标大模型中,获取所述第二目标大模型输出的输出识别算法;采用基于人类反馈的强化学习优化策略GRPO,确定所述样本识别算法和所述输出识别算法对应的奖励值;根据所述奖励值对所述第二目标大模型的参数进行调整。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:根据预先保存的因果知识库中的信息,与所述目标信息的相似度,确定对应的相似度最高的第一目标信息;获取与所述因果知识库中与第一目标信息具有关联关系的第二目标信息;若所述第二目标信息的类型为原因或后果或解决办法,则输出所述第二目标信息。
5.一种查询装置,其特征在于,所述装置包括:接收获取模块,用于接收查询问题;获取所述查询问题中的查询关键词;根据获取到的每个查询关键词的类型,以及对应类型的关键词在向量中所处的分量位置,确定所述查询问题对应的查询向量;确定模块,用于根据预先保存的向量库中的每个向量与所述查询向量的相似度,确定相似度高的前预设数量个目标向量;针对每个目标向量,获取针对该目标向量保存的词组,其中,所述词组中包含至少一个关键词;处理模块,用于将获取到的每个词组及所述查询问题输入拆分大模型中,获取所述拆分大模型拆分后输出的每个子问题;根据所述每个子问题进行查询,获取对应的查询结果;其中,所述处理模块,还用于根据预设算法进行异常识别,识别多个查询结果中的第一异常数据;其中,所述预设算法包括基于统计阈值的Z-Score检测算法;将所述查询问题输入第二目标大模型中,获取所述第二目标大模型输出的异常识别算法;根据所述异常识别算法,识别多个查询结果中的第二异常数据;其中,所述异常识别算法包括孤立森林技术、局部异常因子LOF技术;获取所述查询问题中的分组信息;其中,所述分组信息包括事故发生时间、事故发生地点、事故类型、事故路段类型、事故形态中至少一个;获取针对所述分组信息保存的异常类别;确定所述第一异常数据和所述第二异常数据对应所述异常类别的目标信息;其中,所述异常类别包括时间、字段中至少一个;所述处理模块,具体用于通过自然语言转结构化查询语言NL2SQL大模型,确定所述每个子问题对应的结构化查询语言SQL语句;根据获取到的每个SQL语句在数据库中进行查询,获取对应的查询结果;所述处理模块,还用于通过以下方式训练所述NL2SQL大模型:获取第一样本问题及针对所述第一样本问题保存的样本SQL语句;将所述第一样本问题输入NL2SQL大模型中,获取所述NL2SQL大模型输出的输出SQL语句;根据所述样本SQL语句和所述输出SQL语句之间的树编辑距离,以及所述样本SQL语句和所述输出SQL语句中同一位置的token的语法类型是否一致,确定第一子损失值;并根据所述样本SQL语句和所述输出SQL语句之间的相似度,以及所述样本SQL语句和所述输出SQL语句的语法是否一致,确定第二子损失值;并根据预测的每个token的概率分布和所述样本SQL中每个token的概率分布,确定第三子损失值;根据所述第一子损失值、所述第二子损失值及所述第三子损失值,确定目标损失值,根据所述目标损失值,对所述NL2SQL大模型的参数进行微调。
6.一种电子设备,其特征在于,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如上述权利要求1-4任一项所述基于大模型的交通查询方法的步骤。



