CN114580412B基于领域适应的服装实体识别方法-转果果

张

张晓滨机构暂无

技术领域暂无

马

马瑛超机构暂无

技术领域暂无

摘要

本发明公开了一种基于领域适应的服装实体识别方法，步骤包括：步骤1，构建实体分类标准；步骤2，构建源域训练数据；步骤3，使用步骤2构建的源域数据集S训练针对源域的命名实体识别模型Ms，并保存预训练的模型嵌入层参数Param和注意力层参数Param；步骤4，构建及训练基于领域适应的服装实体识别模型Mt；步骤5，参照图5，对服装领域进行实体识别，即成。本发明的方法，有效解决服装领域实体识别缺乏大量训练集的问题，促进服装领域知识抽取相关工作，有效地促进了服装信息智能化发展和其下游任务的开展。

1.一种基于领域适应的服装实体识别方法，其特征在于，按照以下步骤实施：步骤1，构建实体分类标准；步骤2，构建源域训练数据S；步骤3，使用步骤2构建的源域数据集S训练针对源域的命名实体识别模型Ms，并保存预训练的模型嵌入层参数Param E 和注意力层参数Param att ；具体过程是：3.1）对源域数据集S中的文本进行编码，依据Bert中文版本BERT_BASE_CHINAESE所提供的Token字典实施编码，得到编码E S ；3.2）对源域数据集S中的标签进行编码转化，依据标注字典DIC lable ，对数据的标签进行转化，将对应标签的下标进行编码；3.3）构建一个使用源域数据训练的命名实体识别模型Ms，包括编码层、学习层、输出层，由Bert预训练模型作为编码层，由注意力层、Dropout层和一个全连接层组成学习层，由CRF层构成输出层，预训练其中的编码层和注意力层，小步骤包括：3.3.1）将预训练的Bert层加载到命名实体识别模型Ms的网络中，作为命名实体识别模型Ms的编码层；设置预训练的参数，其中设置Bert层参数为可训练的，即在网络训练过程中，Bert层参数随训练过程而优化，Bert层的输入为步骤3.1）生成的编码E S ，输出为包含上下文特征的维度为512*768的隐藏层张量；3.3.2）为命名实体识别模型Ms添加由注意力层、Dropout层和全连接层组成的学习层，注意力层对进行计算，注意力权重计算式如下：（1）（2）其中，公式中的黑圆点为张量点积，S W 为可训练的参数， Sq 为输入的注意力对象， d 为维度大小，为命名实体识别模型Bert层输出的隐藏层张量，对计算得到的注意力权重与隐藏层张量相乘，得到注意力层的输出SAtt out ；3.3.3）构建模型的输出层，应用CRF对输出SAtt out 进行计算，得到的输出为每个字对应字典DIC label 的向量，其中每一个位置的数值为对应标签lable的概率；3.4）对步骤3.3）中构建的编码层、学习层、输出层按顺序组合成命名实体识别模型Ms并使用源域数据进行训练，优化器为ADAM，指定训练批次为200及批次大小为64；并在不断训练时进行验证，待数据在验证数据上准确率保持稳定时结束训练，保存命名实体识别模型Ms；3.5）对步骤3.4）训练好的命名实体识别模型Ms中编码层的参数进行保存得到参数权重Param E ，对学习层中的注意力层进行保存得到Param att ；步骤4，构建及训练基于领域适应的服装实体识别模型Mt；具体过程是：4.1）构造训练数据集TrainData，小步骤包括：4.1.1）对源域数据集S与目标域数据集T进行标注，标注其域分类标签，其中属于源域数据集S的标记为1，属于目标域数据集T的标注为0；4.1.2）将源域数据集S与目标域数据集T进行混合，得到训练数据集TrainData；4.1.3）将训练数据集TrainData参照步骤3.1）的方式进行编码得到E train ，将编码E train 作为基于领域适应的服装实体识别模型Mt的总体输入；4.2）搭建用于控制迁移的目标可迁移注意力机制层，小步骤包括：4.2.1）对输入特征进行目标注意力权重的计算，计算公式如下：（3）（4）其中， TW 为可训练的参数， Tq 为输入的注意力对象， d 为维度大小，为领域适应的服装实体识别模型双向长短期记忆网络LSTM层输出的隐藏层张量，将得到的注意力权重与输入特征相乘，得到新的特征张量；4.2.2）将特征张量划分为 K 个部分，并建立对应的 K 个特征判别器对样本特征所属领域进行判别，通过多个特征判别器对多个特征级别进行源域与目标域的匹配，特征判别器的输出结果，其中的计算式为：（5）4.2.3）将每一特征级别的特征判别器的结果记作，再进行熵的计算，熵是一种不确定度度量，表达式如下：（6）4.2.4）依据熵准则生成每个特征区域的局部注意力权重，局部注意力权重的表达式如下：（7）特征判别器的输出是每个区域特征判别出属于源域的概率，当概率接近于1时表示该特征区域属于源域，概率接近于0时表示该特征区域属于目标域；在得到局部注意力权重后与特征相乘，得到目标可迁移注意力层的特征输出与可迁移性局部注意力权重；4.2.5）将以上计算过程写入Keras框架中自定义层的计算部分，生成目标可迁移性注意力层；4.2.6）将保存的注意力层参数Param att 加载到式（4）的可优化参数 TW 中，并固化使得参数数值不随基于领域适应的服装实体识别模型Mt的训练而改变；4.3）构建基于领域适应的服装实体识别模型Mt，模型结构由三部分组成，具体构建过程中的细化步骤为：4.3.1）将Bert作为基于服装实体识别模型Mt的编码层置于输入端，维度与步骤3.3.1）限定的维度相同，将步骤3.5）保存的Param E 的参数加载到这一层中，得到编码层的输出；4.3.2）搭建双向长短期记忆网络LSTM层，长短期记忆网络细胞的计算过程如下：a、依据编码层的输出计算遗忘门，计算式如下：（8）式（8）中, 为遗忘门的控制信息，用于减少前一时刻的细胞信息，和则分别为遗忘门的权重及偏置值，为前一时刻LSTM细胞的输出；b、依据编码层的输出计算记忆门，计算式如下：（9）式（9）中，为记忆门的控制信息，和为记忆门的权重及偏置值；c、依据遗忘门权重与记忆门权重进行细胞状态的更新，更新过程如下：（10）式（10）中，为新的细胞状态，为前一时刻的细胞状态，和分别反映计算临时细胞状态的权重及偏置值，为前一时刻LSTM细胞的输出；d、计算输出门，输出门将计算哪些信息将被输出，表达式如下：（11）（12）其中，为输出门的控制信息，、则分别反映输出门的权重及偏置值，为前一时刻LSTM细胞的输出，最终作为单个LSTM细胞的输出，将多个LSTM细胞进行拼接得到LSTM层的输出；4.3.3）将步骤4.2）得到的目标可迁移注意力机制层接入到LSTM层之后，其中为注意力层的输入，为注意力层的输出；4.3.4）对注意力层的输出特征进行梯度翻转，翻转公式如下：（13）在反向传播过程中，梯度方向进行取反，并乘以一个常数，则有：（14）其中，为梯度函数对求偏导， E 为单位矩阵，经过梯度翻转后得到特征；4.3.5）将步骤4.2.4）得到的局部注意力权重输入到以Sigmoid为激活函数的全连接层中，全连接层节点数设为1；最终在这一层中的输出为服装实体识别模型Mt对于数据领域的判别，即域判别器，数值越接近于1则为源域，越接近于0则为服装域；这一以Sigmoid为激活函数的全连接层被视作域判别器，记为G d ；4.3.6）对步骤4.3.4）得到的特征进行再次计算，通过以RELU为激活函数的全连接层为连接，输入到CRF层中进行计算；CRF计算如下，在向量随机场中设为线性条件随机场，则在随机变量取值为 x 的条件下，随机变量根据如下公式进行计算：（15）（16）和是特征函数，和是对应和的权值，是规范化因子，为特征值，为上一时刻序列的输出值；CRF层输出的为数据对应实体识别标签的概率，输出形式为，其中表示第个字，表示第个字对应字典DIC label 的标签的概率；这一由CRF层构成的标签判别器记为G y ；4.3.7）建立优化目标函数，函数为：（17）其中，为基于领域适应的服装实体识别模型Mt的目标函数，、、均为参数；、为标签判别器和域判别器的损失；、、分别为特征提取器、标签判别器以及域判别器；为超参数，为特征提取器提取后的多个特征，为识别标签值，为域标签值；以标签分类的损失与域分类损失加权，得到整体函数的损失；4.4）进行步骤4.3）所搭建的服装实体识别模型Mt的训练，其中输入为训练输入TrainData的编码E train ，实体标注标签与域分类标签作为输出；优化器为ADAM，进行九折交叉验证，选择验证效果最佳的服装实体识别模型进行保存，得到服装实体识别模型Mt；步骤5，对服装领域进行实体识别，具体过程是：5.1）对待处理的服装文本进行截断和预处理；5.2）对处理好的文本进行编码，得到文本编码和位置编码；5.3）将步骤5.2）得到的文本编码 S 和位置编码 POS 拼接后输入基于领域适应的服装实体识别模型Mt进行预测，得到预测矩阵，其中 u 对应文本第 u 个位置的下标， r 为每个字符对应标签类别字典对应的下标；5.4）根据判断每个字符的对应的标签类别，取第u位置的最大值判定，最大值所在的下标记为最终预测结果；5.5）根据对应序列预测结果，标记出文本中的实体、实体始末位置以及实体类型，完成服装文本命名实体识别任务。 2.根据权利要求1所述的基于领域适应的服装实体识别方法，其特征在于：所述的步骤1的具体过程是：1.1）依据服装领域知识与专家知识构建实体统计实体分类标准，对服装领域的实体类型进行划分；1.2）结合实体类型的划分标准，构建实体字典文件DIC NER ，DIC NER =[Concepts,Materials, Examples, Processes, Brands]，其中五个项目分别表示概念、材料、实例、工艺、品牌的实体类型；1.3）构建标注字典，将识别出的实体以BIO标注，其中，B为实体开始位置、I为实体开始出现位置以外的表示、O为非实体表示，结合实体字典文件DIC NER 的标注形式为B-Concepts、I-Concepts，形成标注字典DIC lable 。 3.根据权利要求1所述的基于领域适应的服装实体识别方法，其特征在于：所述的步骤2的具体过程是：2.1）利用公开的训练数据，构成初始数据集；2.2）对初始数据集进行初步筛选，去除初始数据集中实体标签不包含于实体字典文件DIC NER 的数据；2.3）对步骤2.2）处理后的数据集中不属于BIO标注的标注方式进行调整，按照数据标注规范对应BIO标注规范的规则转换为BIO标注；2.4）对步骤2.3）处理后的数据集进行清洗，对于语料长度大于256字符的进行截断操作，得到源域数据集S；2.5）对领域专家提供的少量服装领域文本依据BIO标准进行标注，得到目标域数据集T，用作基于领域适应的服装实体识别模型Mt的训练和模型效果验证的数据。

CN107766894ACN107766894A CN109614614ACN109614614A CN110196980ACN110196980A CN112733541ACN112733541A CN113626536ACN113626536A US2019034795A1US2019034795A1 WO2021178731A1WO2021178731A1