1.一种基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,包含如下内容:构建实体关系抽取模型并进行训练,其中,实体关系抽取模型包含用于对输入的文本序列进行编码来输出对应单词词向量表示的编码器,用于对词向量表示进行标签映射的标注组件和实体相关矩阵,用于对标签映射结果进行解码来抽取相关实体关系三元组的解码器;标签映射中,利用标注组件对词向量表示标注由实体位置、单词在实体中位置及关系类型组成的组合标签,并利用实体相关矩阵增强组合标签之间的信息交互;实体关系抽取模型利用BERT模型结构作为编码器来获取输入文本序列的词向量表示,且在BERT模型中,首先,将输入文本序列转换为由词嵌入向量、分割嵌入向量和位置嵌入向量组成的待编码嵌入向量;然后将待编码嵌入向量输入值BERT模型中进行编码;且实体关系抽取模型中利用全连接神经网络来实现标注组件的组合标签标注,将词向量表示中的每个单词标签预测转换为多标签分类问题,利用sigmoid作为激活函数获取每个单词所属组合标签的预测概率,并根据预设的概率阈值来获取单词对应的标签映射;实体关系抽取模型中利用全连接网络神经网络来实现实体相关矩阵的组合标签信息交互,利用sigmoid作为激活函数获取组合标签为头实体开始单词和尾实体开始单词之间的相关概率,并根据预设的相关概率阈值来得到对应组合标签映射;实体关系抽取模型中的解码器,首先根据标注组件的标签映射解码出具有关系的头实体和尾实体,以根据标签索引来寻找组合标签;然后,通过将具有相同关系的头实体和尾实体两两组合来生成实体关系三元组,并根据实体相关矩阵的组合标签映射结果来解码出具有关系的头实体开始单词和尾实体开始单词的组合;最后,将标注组件标签映射的解码输出和实体相关矩阵的组合标签映射的解码输出进行匹配,保留有关系的实体关系三元组;将待抽取的目标文本序列输入已训练的实体关系抽取模型,利用该已训练的实体关系抽取模型来输出目标文本序列的相关实体三元组。
2.根据权利要求1所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,每个单词所述组合标签的预测概率的计算过程表示为:p i =sigmoid(W s x i +b s ),其中, R为预定义实体关系的数量,W s ()表示网络可训练的权重矩阵,x i 表示第i个单词的词向量表示,b s 表示网络可训练的偏置常数。
3.根据权利要求1所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,组合标签为头实体开始单词和尾实体开始单词的相关概率计算过程表示为:p is,js =sigmoid(W m [x is ;x js ]+b m ),其中,W m ()表示网络可训练的权重矩阵,x is 表示第i个头实体开始单词的词向量表示,x js 表示第j个尾实体开始单词的词向量表示,b m 表示网络可训练的偏置常数。
4.根据权利要求3所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,构建由标注组件损失函数和实体相关矩阵损失函数组成的组合损失函数,并利用NYT、NYT*、WebNLG、WebNLG*四个数据集对实体关系抽取模型进行训练,在训练过程中标注组件和实体相关矩阵共享编码器的编码输出。
5.根据权利要求4所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,组合损失函数表示为: 其中, N表示输入文本序列的长度,R表示预定义关系的数量,M表示输入文本序列的最大长度,y i,j 表示真实的标签,p i,j 和p is,js 表示增强序列标注组件中和实体相关矩阵中每个元素的输出概率。
6.一种基于增强序列标注策略的单阶段联合实体关系抽取系统,其特征在于,包含:模型训练模块和目标抽取模块,其中,模型训练模块,用于通过构建实体关系抽取模型并进行模型训练,其中,实体关系抽取模型包含用于对输入的文本序列进行编码来输出对应单词词向量表示的编码器,用于对词向量表示进行标签映射的标注组件和实体相关矩阵,用于对标签映射结果进行解码来抽取相关实体关系三元组的解码器;标签映射中,利用标注组件对词向量表示标注由实体位置、单词在实体中位置及关系类型组成的组合标签,并利用实体相关矩阵增强组合标签之间的信息交互;实体关系抽取模型利用BERT模型结构作为编码器来获取输入文本序列的词向量表示,且在BERT模型中,首先,将输入文本序列转换为由词嵌入向量、分割嵌入向量和位置嵌入向量组成的待编码嵌入向量;然后将待编码嵌入向量输入值BERT模型中进行编码;且实体关系抽取模型中利用全连接神经网络来实现标注组件的组合标签标注,将词向量表示中的每个单词标签预测转换为多标签分类问题,利用sigmoid作为激活函数获取每个单词所属组合标签的预测概率,并根据预设的概率阈值来获取单词对应的标签映射;实体关系抽取模型中利用全连接网络神经网络来实现实体相关矩阵的组合标签信息交互,利用sigmoid作为激活函数获取组合标签为头实体开始单词和尾实体开始单词之间的相关概率,并根据预设的相关概率阈值来得到对应组合标签映射;实体关系抽取模型中的解码器,首先根据标注组件的标签映射解码出具有关系的头实体和尾实体,以根据标签索引来寻找组合标签;然后,通过将具有相同关系的头实体和尾实体两两组合来生成实体关系三元组,并根据实体相关矩阵的组合标签映射结果来解码出具有关系的头实体开始单词和尾实体开始单词的组合;最后,将标注组件标签映射的解码输出和实体相关矩阵的组合标签映射的解码输出进行匹配,保留有关系的实体关系三元组;目标抽取模块,用于将待抽取的目标文本序列输入已训练的实体关系抽取模型,利用该已训练的实体关系抽取模型来输出目标文本序列的相关实体三元组。