CN115858754B任务型人机对话模型的训练及人机对话的方法和设备-转果果

胡

胡宇巍机构暂无

技术领域暂无

袁

袁彩霞机构暂无

技术领域暂无

王

王小捷机构暂无

技术领域暂无

冯

冯方向机构暂无

技术领域暂无

高

高晖机构暂无

技术领域暂无

许

许文俊机构暂无

技术领域暂无

摘要

本申请公开了一种任务型人机对话模型的训练及人机对话的方法和设备，其中模型训练方法包括：获取预设样本数据；样本数据包括对话过程文本数据和每轮对话的目标汉字标签；利用人机对话模型，基于样本数据，为相应对话过程中的每一轮对话，生成系统回复语句；在生成系统回复语句时，利用汉字识别模型，确定用户在当前轮对话中用户语句描述的汉字，基于所述汉字，生成系统回复语句；汉字识别模型预先训练得到，能够基于汉字的结构特征信息识别出相应汉字；基于所述系统回复语句以及所述生成的过程中对用户语句所描述汉字的预测结果，计算总损失函数值并利用其对人机对话模型的参数进行优化调整。采用本申请，可以提高对话回复的准确性和智能性。

1.一种任务型人机对话模型的训练方法，其特征在于，包括：获取预设的样本数据；所述样本数据包括对话过程文本数据和每轮对话的目标汉字标签；利用人机对话模型，基于所述样本数据，为相应对话过程中的每一轮对话，生成系统回复语句；其中，在生成系统回复语句时，利用所述人机对话模型中的汉字识别模型，确定用户在当前轮对话中用户语句描述的汉字，基于所述汉字，生成所述系统回复语句；所述汉字识别模型预先训练得到，能够基于汉字的结构特征信息识别出相应汉字；基于所述系统回复语句以及所述生成的过程中对用户语句所描述汉字的预测结果，计算总损失函数值，利用所述总损失函数值，对所述人机对话模型的参数进行优化调整；其中，所述为相应对话过程中的每一轮对话，生成系统回复语句包括：基于当前轮对话的用户语句和当前轮对话之前的对话历史，从所述用户语句中提出知识片段；遍历每个所述知识片段，利用所述汉字识别模型，基于对上一轮对话生成的系统回复语句、该知识片段以及预设的任务提示信息进行拼接的结果，进行汉字理解，以预测该知识片段对应的汉字；按照预设的预测选择概率，确定当前轮对话是否需要基于所述汉字识别模型的预测结果，生成系统回复语句，如果是，则将所述预测得到的汉字作为当前轮对话的描述汉字，否则，将所述样本数据中当前轮对话的目标汉字标签，作为当前轮对话的描述汉字；利用文本序列生成模型，基于当前轮对话对应的对话历史相关数据，生成当前轮对话的对话状态和对话动作，并基于所述对话动作，查找预设数据库，得到相应的知识；所述对话历史相关数据包括当前轮对话之前的每一轮对话的单轮相关数据以及当前轮对话的用户语句、所述知识片段和所述描述汉字；所述单轮相关数据包括用户语句、所述知识片段、所述描述汉字、所述对话状态、所述对话动作、所述知识和所述系统回复语句；利用所述文本序列生成模型，基于所述对话历史相关数据以及当前轮对话的所述对话状态、所述对话动作和所述知识，生成当前轮对话的系统回复语句。 2.根据权利要求1所述的方法，其特征在于，所述汉字识别模型预先基于预训练样本语句训练得到；其中，所述预训练样本语句的生成包括：获取预设的汉字描述语句；所述汉字描述语句为一个汉字的结构特征描述语句；如果所述汉字描述语句包含正确的目标描述对象，则分别采用标签掩码和结构信息掩码的方式，生成预训练样本语句；否则，将所述汉字描述语句与预设的任务提示语句拼接，得到预训练样本语句；所述任务提示语句为：这句话描述的是[mask]，其中，所述[mask]为预设的掩码符号。 3.根据权利要求2所述的方法，其特征在于，采用标签掩码的方式，生成所述预训练样本语句包括：从第一掩码方式、第二掩码方式、第三掩码方式和第四掩码方式中，选择一种掩码方式，对所述汉字描述语句中的目标描述对象进行掩码处理，得到预训练样本语句；其中，所述第一掩码方式为将所述目标描述对象替换为[mask]；所述第二掩码方式为将所述目标描述对象替换为相应的同音字或近音字；所述第三掩码方式为将所述目标描述对象替换为随机汉字；所述第四掩码方式为不对所述目标描述对象进行替换处理；所述第一掩码方式的选择概率为预设的第一概率；所述第二掩码方式的选择概率为预设的第二概率；所述第三掩码方式的选择概率为预设的第三概率；所述第四掩码方式的选择概率为预设的第四概率；所述第一概率、第二概率、第三概率和第四概率的累加值为1。 4.根据权利要求2所述的方法，其特征在于，采用结构信息掩码的方式，生成所述预训练样本语句包括：将所述汉字描述语句中的部分结构特征描述信息中的每个汉字，分别替换为 [mask]，得到所述预训练样本语句。 5.根据权利要求1所述的方法，其特征在于，所述计算总损失函数值包括：基于所述汉字，利用交叉熵损失函数，计算第一损失函数值；基于所述系统回复语句，利用交叉熵损失函数，计算第二损失函数值；计算所述第一损失函数值和所述第二损失函数值的和，得到所述总损失函数值。 6.根据权利要求1所述的方法，其特征在于，所述文本序列生成模型为GPT-2模型。 7.一种人机对话方法，其特征在于，包括：在人机对话过程中，利用预先训练的人机对话模型，为每轮对话的用户语句，生成相应的系统回复语句；其中，所述人机对话模型基于权利要求1至6任项所述任务型人机对话模型的训练方法得到。 8.一种任务型人机对话模型的训练设备，其特征在于，包括处理器和存储器；所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如权利要求1至6中任一项所述任务型人机对话模型的训练方法。 9.一种人机对话设备，其特征在于，包括处理器和存储器；所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如权利要求7所述人机对话方法。

暂无引用专利