有效
基于领域适应的服装实体识别方法
张晓滨、马瑛超
西安工程大学
张
张晓滨机构 暂无
技术领域 暂无
马
马瑛超机构 暂无
技术领域 暂无
摘要
本发明公开了一种基于领域适应的服装实体识别方法,步骤包括:步骤1,构建实体分类标准;步骤2,构建源域训练数据;步骤3,使用步骤2构建的源域数据集S训练针对源域的命名实体识别模型Ms,并保存预训练的模型嵌入层参数Param和注意力层参数Param;步骤4,构建及训练基于领域适应的服装实体识别模型Mt;步骤5,参照图5,对服装领域进行实体识别,即成。本发明的方法,有效解决服装领域实体识别缺乏大量训练集的问题,促进服装领域知识抽取相关工作,有效地促进了服装信息智能化发展和其下游任务的开展。
1.一种基于领域适应的服装实体识别方法,其特征在于,按照以下步骤实施:步骤1,构建实体分类标准;步骤2,构建源域训练数据S;步骤3,使用步骤2构建的源域数据集S训练针对源域的命名实体识别模型Ms,并保存预训练的模型嵌入层参数Param E 和注意力层参数Param att ;具体过程是:3.1)对源域数据集S中的文本进行编码,依据Bert中文版本BERT_BASE_CHINAESE所提供的Token字典实施编码,得到编码E S ;3.2)对源域数据集S中的标签进行编码转化,依据标注字典DIC lable ,对数据的标签进行转化,将对应标签的下标进行编码;3.3)构建一个使用源域数据训练的命名实体识别模型Ms,包括编码层、学习层、输出层,由Bert预训练模型作为编码层,由注意力层、Dropout层和一个全连接层组成学习层,由CRF层构成输出层,预训练其中的编码层和注意力层,小步骤包括:3.3.1)将预训练的Bert层加载到命名实体识别模型Ms的网络中,作为命名实体识别模型Ms的编码层;设置预训练的参数,其中设置Bert层参数为可训练的,即在网络训练过程中,Bert层参数随训练过程而优化,Bert层的输入为步骤3.1)生成的编码E S ,输出为包含上下文特征的维度为512*768的隐藏层张量 ;3.3.2)为命名实体识别模型Ms添加由注意力层、Dropout层和全连接层组成的学习层,注意力层对 进行计算,注意力权重 计算式如下: (1) (2)其中,公式中的黑圆点为张量点积,S W 为可训练的参数, Sq 为输入的注意力对象, d 为维度大小, 为命名实体识别模型Bert层输出的隐藏层张量,对计算得到的注意力权重 与隐藏层张量 相乘,得到注意力层的输出SAtt out ;3.3.3)构建模型的输出层,应用CRF对输出SAtt out 进行计算,得到的输出为每个字对应字典DIC label 的向量,其中每一个位置的数值为对应标签lable的概率;3.4)对步骤3.3)中构建的编码层、学习层、输出层按顺序组合成命名实体识别模型Ms并使用源域数据进行训练,优化器为ADAM,指定训练批次为200及批次大小为64;并在不断训练时进行验证,待数据在验证数据上准确率保持稳定时结束训练,保存命名实体识别模型Ms;3.5)对步骤3.4)训练好的命名实体识别模型Ms中编码层的参数进行保存得到参数权重Param E ,对学习层中的注意力层进行保存得到Param att ;步骤4,构建及训练基于领域适应的服装实体识别模型Mt;具体过程是:4.1)构造训练数据集TrainData,小步骤包括:4.1.1)对源域数据集S与目标域数据集T进行标注,标注其域分类标签,其中属于源域数据集S的标记为1,属于目标域数据集T的标注为0;4.1.2)将源域数据集S与目标域数据集T进行混合,得到训练数据集TrainData;4.1.3)将训练数据集TrainData参照步骤3.1)的方式进行编码得到E train ,将编码E train 作为基于领域适应的服装实体识别模型Mt的总体输入;4.2)搭建用于控制迁移的目标可迁移注意力机制层,小步骤包括:4.2.1)对输入特征 进行目标注意力权重 的计算,计算公式如下: (3) (4)其中, TW 为可训练的参数, Tq 为输入的注意力对象, d 为维度大小, 为领域适应的服装实体识别模型双向长短期记忆网络LSTM层输出的隐藏层张量,将得到的注意力权重 与输入特征 相乘,得到新的特征张量 ;4.2.2)将特征张量 划分为 K 个部分,并建立对应的 K 个特征判别器 对样本特征所属领域进行判别,通过多个特征判别器对多个特征级别进行源域与目标域的匹配,特征判别器的输出结果 ,其中 的计算式为: (5)4.2.3)将每一特征级别的特征判别器的结果 记作 ,再进行熵 的计算,熵 是一种不确定度度量,表达式如下: (6)4.2.4)依据熵准则生成每个特征区域的局部注意力权重 ,局部注意力权重 的表达式如下: (7)特征判别器的输出是每个区域特征判别出属于源域的概率,当概率接近于1时表示该特征区域属于源域,概率接近于0时表示该特征区域属于目标域;在得到局部注意力权重 后与特征 相乘,得到目标可迁移注意力层的特征输出 与可迁移性局部注意力权重 ;4.2.5)将以上计算过程写入Keras框架中自定义层的计算部分,生成目标可迁移性注意力层;4.2.6)将保存的注意力层参数Param att 加载到式(4)的可优化参数 TW 中,并固化使得参数数值不随基于领域适应的服装实体识别模型Mt的训练而改变;4.3)构建基于领域适应的服装实体识别模型Mt,模型结构由三部分组成,具体构建过程中的细化步骤为:4.3.1)将Bert作为基于服装实体识别模型Mt的编码层置于输入端,维度与步骤3.3.1)限定的维度相同,将步骤3.5)保存的Param E 的参数加载到这一层中,得到编码层的输出 ;4.3.2)搭建双向长短期记忆网络LSTM层,长短期记忆网络细胞的计算过程如下:a、依据编码层的输出 计算遗忘门,计算式如下: (8)式(8)中, 为遗忘门的控制信息,用于减少前一时刻的细胞信息, 和 则分别为遗忘门的权重及偏置值, 为前一时刻LSTM细胞的输出;b、依据编码层的输出 计算记忆门,计算式如下: (9)式(9)中, 为记忆门的控制信息, 和 为记忆门的权重及偏置值;c、依据遗忘门权重与记忆门权重进行细胞状态的更新,更新过程如下: (10)式(10)中, 为新的细胞状态, 为前一时刻的细胞状态, 和 分别反映计算临时细胞状态的权重及偏置值, 为前一时刻LSTM细胞的输出;d、计算输出门,输出门将计算哪些信息将被输出,表达式如下: (11) (12)其中, 为输出门的控制信息, 、 则分别反映输出门的权重及偏置值, 为前一时刻LSTM细胞的输出,最终 作为单个LSTM细胞的输出,将多个LSTM细胞进行拼接得到LSTM层的输出 ;4.3.3)将步骤4.2)得到的目标可迁移注意力机制层接入到LSTM层之后,其中 为注意力层的输入, 为注意力层的输出;4.3.4)对注意力层的输出特征进行梯度翻转,翻转公式如下: (13)在反向传播过程中,梯度方向进行取反,并乘以一个常数 ,则有: (14)其中, 为梯度函数对 求偏导, E 为单位矩阵,经过梯度翻转后得到特征 ;4.3.5)将步骤4.2.4)得到的局部注意力权重 输入到以Sigmoid为激活函数的全连接层中,全连接层节点数设为1;最终在这一层中的输出为服装实体识别模型Mt对于数据领域的判别,即域判别器,数值越接近于1则为源域,越接近于0则为服装域;这一以Sigmoid为激活函数的全连接层被视作域判别器,记为G d ;4.3.6)对步骤4.3.4)得到的特征 进行再次计算,通过以RELU为激活函数的全连接层为连接,输入到CRF层中进行计算;CRF计算如下,在向量随机场中设为线性条件随机场,则在随机变量取值为 x 的条件下,随机变量根据如下公式进行计算: (15) (16) 和 是特征函数, 和 是对应 和 的权值, 是规范化因子, 为特征值, 为上一时刻序列的输出值;CRF层输出的为数据对应实体识别标签的概率,输出形式为 ,其中 表示第 个字, 表示第 个字对应字典DIC label 的标签的概率;这一由CRF层构成的标签判别器记为G y ;4.3.7)建立优化目标函数,函数为: (17)其中, 为基于领域适应的服装实体识别模型Mt的目标函数, 、 、 均为参数; 、 为标签判别器和域判别器的损失; 、 、 分别为特征提取器、标签判别器以及域判别器; 为超参数, 为特征提取器提取后的多个特征, 为识别标签值, 为域标签值;以标签分类的损失与域分类损失加权,得到整体函数的损失;4.4)进行步骤4.3)所搭建的服装实体识别模型Mt的训练,其中输入为训练输入TrainData的编码E train ,实体标注标签与域分类标签作为输出;优化器为ADAM,进行九折交叉验证,选择验证效果最佳的服装实体识别模型进行保存,得到服装实体识别模型Mt;步骤5,对服装领域进行实体识别,具体过程是:5.1)对待处理的服装文本进行截断和预处理;5.2)对处理好的文本进行编码,得到文本编码 和位置编码 ;5.3)将步骤5.2)得到的文本编码 S 和位置编码 POS 拼接后输入基于领域适应的服装实体识别模型Mt进行预测,得到预测矩阵 ,其中 u 对应文本第 u 个位置的下标, r 为每个字符对应标签类别字典对应的下标;5.4)根据 判断每个字符的对应的标签类别,取第u位置的最大值判定,最大值所在的下标记为最终预测结果;5.5)根据对应序列预测结果,标记出文本中的实体、实体始末位置以及实体类型,完成服装文本命名实体识别任务。
2.根据权利要求1所述的基于领域适应的服装实体识别方法,其特征在于:所述的步骤1的具体过程是:1.1)依据服装领域知识与专家知识构建实体统计实体分类标准,对服装领域的实体类型进行划分;1.2)结合实体类型的划分标准,构建实体字典文件DIC NER ,DIC NER =[Concepts,Materials, Examples, Processes, Brands],其中五个项目分别表示概念、材料、实例、工艺、品牌的实体类型;1.3)构建标注字典,将识别出的实体以BIO标注,其中,B为实体开始位置、I为实体开始出现位置以外的表示、O为非实体表示,结合实体字典文件DIC NER 的标注形式为B-Concepts、I-Concepts,形成标注字典DIC lable 。
3.根据权利要求1所述的基于领域适应的服装实体识别方法,其特征在于:所述的步骤2的具体过程是:2.1)利用公开的训练数据,构成初始数据集;2.2)对初始数据集进行初步筛选,去除初始数据集中实体标签不包含于实体字典文件DIC NER 的数据;2.3)对步骤2.2)处理后的数据集中不属于BIO标注的标注方式进行调整,按照数据标注规范对应BIO标注规范的规则转换为BIO标注;2.4)对步骤2.3)处理后的数据集进行清洗,对于语料长度大于256字符的进行截断操作,得到源域数据集S;2.5)对领域专家提供的少量服装领域文本依据BIO标准进行标注,得到目标域数据集T,用作基于领域适应的服装实体识别模型Mt的训练和模型效果验证的数据。



