有效
基于融合多模态信息的实体和关系表示的链接预测方法
田紫暄、金福生、徐源、袁野、王国仁
北京理工大学
田
田紫暄机构 暂无
技术领域 暂无
金
金福生机构 暂无
技术领域 暂无
徐
徐源机构 暂无
技术领域 暂无
袁
袁野机构 暂无
技术领域 暂无
王
王国仁机构 暂无
技术领域 暂无
摘要
本发明涉及知识图谱知识推理技术领域,具体涉及一种基于融合多模态信息的实体和关系表示的链接预测方法,包括:收集与所要构建知识图谱主题相关的图像数据、文本数据和三元组数据;将预处理后的三元组数据进行知识抽取和实体对齐;对图像数据进行特征提取,生成视觉表示;对文本数据和三元组数据进行特征提取,生成文本表示;将生成的视觉表示、文本表示和三元组数据共同作为输入,对融合模块进行训练,学习包含多模态信息的实体和关系向量表示;通过解码部分对融合模块学习到的特征表示进行解码并进行链接预测,输出预测为正三元组的概率。本发明可提高链接预测任务的准确率,并能提高多模态知识表示学习的可解释性。
1.一种基于融合多模态信息的实体和关系表示的链接预测方法,其特征在于,包括以下步骤:收集与所要构建知识图谱主题相关的多模态数据,进行预处理;所述多模态数据包括图像数据、文本数据和三元组数据;将预处理后的三元组数据进行实体识别、关系抽取和属性抽取,并将与三元组中实体相关的图像数据和文本数据与之对齐;通过视觉模块对图像数据进行单模态特征提取,学习图像数据中与实体相关的关键特征,生成视觉表示;通过文本模块对文本数据和三元组数据进行单模态特征提取,生成能够反映语义信息的文本表示;将生成的视觉表示、文本表示和三元组数据共同作为输入,对融合模块进行训练,学习包含多模态信息的实体和关系向量表示;通过解码部分对融合模块学习到的特征表示进行解码并进行链接预测,输出预测为正三元组的概率;所述视觉模块包括输入、择优模块和视觉编码器;通过视觉模块对图像数据进行特征提取的过程为:将同一实体对应的多个图像数据作为输入,送入所述择优模块,得到最优的一张图像数据,并将该最优图像数据划分为小尺寸的块作为所述视觉编码器的输入,通过所述视觉编码器输出视觉表示;在所述择优模块中,通过相似度计算和清晰度评价两个步骤筛选掉无关图像和低质量图像,保留一张相对最优的图像作为后续输入;具体包括:采用感知哈希算法对同一实体对应的多张图像进行相似度计算,通过计算汉明距离得到图像之间的相似度,筛选掉相似度过高的图像和无关图像;采用灰度差分绝对值之和函数进行清晰度评价,通过对图像水平和垂直方向的相邻像素做差分,取绝对值后进行累加,以该累加值作为图像清晰度的表征,筛选出清晰度最优的图像,将该图像划分为小尺寸的块作为所述视觉编码器的输入向量;所述视觉编码器采用Transformer架构中的编码器结构,具体编码过程为:输入向量先通过多头注意力层和残差连接与层操作,再通过前馈神经网络和残差连接与层归一化操作,得到视觉表示。
2.根据权利要求1所述的基于融合多模态信息的实体和关系表示的链接预测方法,其特征在于,所述预处理包括:使用开源工具分别对图像数据、文本数据和三元组数据进行数据清洗、数据转换和数据集成操作。
3.根据权利要求1所述的基于融合多模态信息的实体和关系表示的链接预测方法,其特征在于,所述将与三元组中实体相关的图像数据和文本数据与之对齐之后,将三元组以及与其中实体对应的图像数据和文本数据共同作为多模态总数据集,将多模态总数据集随机分为训练集、验证集和测试集。
4.根据权利要求1所述的基于融合多模态信息的实体和关系表示的链接预测方法,其特征在于,若同一实体只有一张对应的图像数据,则将该图像数据直接作为所述视觉编码器的输入;若同一实体包含零张对应的图像数据,则将所述视觉编码器的输入全部填充0。
5.根据权利要求1所述的基于融合多模态信息的实体和关系表示的链接预测方法,其特征在于,通过所述文本模块进行文本特征提取的过程为:将文本数据中的文本序列分割成多个句子,在整个文本序列的开头添加一个“[CLS]”标记,并在两个句子中间以及整个序列的结尾添加“[SEP]”标记;通过“[CLS]”标记和“[SEP]”标记将三元组数据顺序拼接转换为文本序列;由文本嵌入、位置编码和标记编码共同作为输入向量,送入文本编码器中;文本编码器采用Transformer架构中的编码器结构,输入向量先通过多头注意力层和残差连接与层归一化操作,再通过前馈神经网络和残差连接与层归一化操作,得到文本表示。
6.根据权利要求1所述的基于融合多模态信息的实体和关系表示的链接预测方法,其特征在于:所述融合模块由视觉融合编码器、中心编码器和文本辅助编码器三部分组成;文本辅助编码器采用Transformer的编码器结构,输入的文本表示先通过多头注意力层和残差连接与层归一化操作,再通过前馈神经网络和残差连接与层归一化操作,输出文本的特征向量;视觉融合编码器采用Transformer的编码器结构,输入的图像表示先通过多头注意力层和残差连接与层归一化操作,再通过前馈神经网络和残差连接与层归一化操作,最终输出图像的特征向量;中心编码器采用Transformer架构中的编码器结构,文本辅助编码器输出的文本特征向量和视觉融合编码器输出的图像特征向量先通过多模态注意力层和残差连接与层归一化操作,再通过前馈神经网络和残差连接与层归一化操作,输出实体和关系向量表示。
7.根据权利要求1所述的基于融合多模态信息的实体和关系表示的链接预测方法,其特征在于:多模态注意力层的操作过程为:计算文本模态注意力值;计算视觉模态注意力值;对输入的每一个三元组表示,先通过线性变换矩阵得到三元组结构的初始表示,经过LeakyRelu非线性层后再通过Softmax层,得到三元组注意力值;将文本模态注意力值、视觉模态注意力值和三元组注意力值分别作为文本特征向量、视觉特征向量和三元组结构特征向量的权重,并作加权求和取平均,获得实体的多模态表示;将实体的多模态表示与实体的原有特征表示进行加权求和,获得最终的实体的向量表示;对于实体之间关系的多模态表示,取三元组结构信息作为多模态表示,将关系的原有表示与多模态表示进行加权求和,得到最终关系的向量表示;将实体和关系的向量表示作为融合模块的输出。
8.根据权利要求1所述的基于融合多模态信息的实体和关系表示的链接预测方法,其特征在于,所述解码部分使用Transformer网络架构中的解码器,解码过程为:输入目标输出序列,通过掩码多头注意力层和残差连接与层归一化操作;将上一层的输出向量与融合模块的输出一同作为输入向量,通过多头注意力层和残差连接与层归一化操作;将上一层的输出向量通过前馈神经网络和残差连接与层归一化操作;将上一层的输出向量通过1个全连接层和1个softmax层,得到最终的概率输出结果作为解码部分的输出。



