有效
一种基于知识图谱的特定目标可视化分析方法及系统
王元卓、沈英汉、程松庆、江旭晖、胡玉龙、陈中正、李子健
中国科学院计算技术研究所
王
王元卓机构 暂无
技术领域 暂无
沈
沈英汉机构 暂无
技术领域 暂无
程
程松庆机构 暂无
技术领域 暂无
江
江旭晖机构 暂无
技术领域 暂无
胡
胡玉龙机构 暂无
技术领域 暂无
陈
陈中正机构 暂无
技术领域 暂无
李
李子健机构 暂无
技术领域 暂无
摘要
本发明提出一种基于知识图谱的特定目标可视化分析方法和系统,包括:获取来自多个数据源包括实体数据和动态事件数据的基础数据库,采用流式文本单遍聚类方法对该基础数据库中各数据源的话题进行分类,并对各数据源的关键信息、实体及实体间关系信息进行提取,融合各数据源的提取结果构建知识图谱;以待分析的特定目标检索该知识图谱,得到该特定目标的目标实体和关联事件;对该目标实体进行人员分析和组织分析,形成该目标实体的实体画像;以节点和边形式展示该目标实体与其关联实体之间或该目标实体与该关联事件的关联关系。本发明提供了多领域数据综合分析的能力,提供时序线索推理、隐含线索推理功能,可以挖掘出数据库中并不存在的线索数据。
1.一种基于知识图谱的特定目标可视化分析方法,其特征在于,包括:步骤S1、获取来自多个数据源包括实体数据和动态事件数据的基础数据库,采用流式文本单遍聚类方法对该基础数据库中各数据源的话题进行分类,并对各数据源的关键信息、实体及实体间关系信息进行提取,融合各数据源的提取结果构建知识图谱;步骤S2、以待分析的特定目标检索该知识图谱,得到该特定目标的目标实体和关联事件;对该目标实体进行人员分析和组织分析,形成该目标实体的实体画像;以节点和边形式展示该目标实体与其关联实体之间或该目标实体与该关联事件的关联关系。
2.如权利要求1所述的基于知识图谱的特定目标可视化分析方法,其特征在于,步骤2中该关联事件包括时序事件线索推理事件;基于该特定目标和该知识图谱,通过基于事件图神经注意力网络的时序事件推理模型,预测该特定目标参与事件的趋势,得到该时序事件线索推理事件;该时序事件推理模型包括:线索收集模块和线索推理;线索收集模块用于在由已知动态事件构造的事件知识图谱F中召回有助于推理查询q的事件线索;线索收集模块由随机游走采集器和路径编码器构成,前者的功能是依据给定的查询信息,在事件知识图谱中检索若干条从s出发的N条长度为l的路径线索,并组装为线索集;路径编码器由一个单向LSTM编码器实现,用于将随机游走采集器收集的路径编码为向量信息,并计算线索集每条路径的权重系数,以便线索推理模块进行下一步推理;线索推理模块的目标是依据线索收集模块召回有助于推理查询q的事件线索信息中,推理出隐含事件集合;线索推理模块由子图编码模块与时序推理模块构成;子图编码模块由图神经网络构成,用于理解每一时刻中线索的拓扑特征,时序推理模块由单向循环神经网络构成,用于学习线索随时间单向演化的规律,并预测时序事件的未来发展,得到该时序事件线索推理事件。
3.如权利要求2所述的基于知识图谱的特定目标可视化分析方法,其特征在于,该时序事件推理模型训练过程包括:初始化实体向量、关系向量与时间向量,设置为可训练模式;对于查询q=(s,r,t)以及正确实体o,初始化查询表示向量为 从特定目标实体s出发,通过该随机游走采集器采样N条长度为l的路径线索,组装为线索集P={p 0 ,p 1 ,...,p N },其中N与l为自定义参数;通过路径编码器编码线索集中的路径,对于路径p=[s,r 0 ,t 0 ,o 0 ,r 1 ,t 1 ,o 1 ,...,r l-1 ,t l-1 ,o l-1 ](其中s 0 =s),编码公式为(0≤k≤l-1):t k =σ(W r Δt k +U r h k-1 )上述公式中的Δt k =t k -t k-1 (当k=0时,Δt k =0);t k 代表时序门限控制表示, 代表本单元编码的语义信息,W r ,W h 与U r ,U h 代表4个映射矩阵, 为路径中第k步对应关系与实体向量;LSTM第k步的输出为h k ;路径p对应第l-1步的输出h l-1 成为该路径的编码向量p,据此,得到路径线索集的编码向量{p 0 ,p 1 ,...,p N };使用Softmax计算每个编码向量对于查询的attention分值{α 0 ,α 1 ,...,α N };通过路径线索集的编码向量,得到全局线索表示 通过线索集P,依据路径中事件时间信息的构建查询子图序列{SG 0 ,SG 1 ,...,SG t-1 };使用子图编码模块的图神经网络编码子图序列中每一个子图,得到子图中的节点表示{SG 0 ,SG 1 ,...,SG t-1 };使用该时序推理模块的单向循环神经网络编码上述子图序列的节点表示,输出t时刻的子图节点表示SG t ;结合全局线索表示 计算SG t 中每个节点的匹配分数;选取匹配分数最高的实体o′与正确实体o,通过二分类损失函数计算本次训练的损失,通过反向传播算法训练更新该时序事件推理模型。
4.如权利要求1所述的基于知识图谱的特定目标可视化分析方法,其特征在于,该步骤S1包括:构建多源异构数据融合模型,用于根据不同数据源的提取结果,补全不同数据源实体之间的映射关系,实现各数据源的提取结果的融合,构建该知识图谱;其中该多源异构数据融合模型包括实体表示模块与实体映射关系推理模块;实体表示模块用于根据实体的文本描述信息、时态信息以及其邻居的结构信息来编码实体的特征,作为映射关系挖掘的依据,该实体表示模块由实体文本描述信息编码模块、时间信息编码模块和结构信息编码模块组成;实体的文本描述信息编码由预训练语言模型BERT结合神经网络全连接层实现;时间信息的编码则是使用Time2vec算法表示;而对于结构信息,则是通过将实体描述信息以及时间信息的表示进行拼接作为输入,并通过带注意力机制的图神经网络进行编码,最终将编码后得到的向量作为实体的最终表示;该实体映射关系推理模块用于根据实体的该最终表示来推理实体之间所存在的映射关系;实体映射关系推理模块由实体表示翻译模块和实体映射匹配模块两部分组成;实体表示翻译模块由多层感知机(MLP)构成,用于将源自于不同数据源的实体的表示映射到统一的语义空间;实体映射匹配模块则是首先通过余弦相似度的方式计算不同源的实体表示匹配程度,并以匹配程度的数值为依据,进行实体映射匹配,最终得到实体之间的映射关系,实现多源异构数据融合,得到该知识图谱。
5.一种基于知识图谱的特定目标可视化分析系统,其特征在于,包括:知识图谱构建模块,用于获取来自多个数据源包括实体数据和动态事件数据的基础数据库,采用流式文本单遍聚类方法对该基础数据库中各数据源的话题进行分类,并对各数据源的关键信息、实体及实体间关系信息进行提取,融合各数据源的提取结果构建知识图谱;目标可视化模块,用于以待分析的特定目标检索该知识图谱,得到该特定目标的目标实体和关联事件;对该目标实体进行人员分析和组织分析,形成该目标实体的实体画像;以节点和边形式展示该目标实体与其关联实体之间或该目标实体与该关联事件的关联关系。
6.如权利要求5所述的基于知识图谱的特定目标可视化分析系统,其特征在于,目标可视化模块中该关联事件包括时序事件线索推理事件;基于该特定目标和该知识图谱,通过基于事件图神经注意力网络的时序事件推理模型,预测该特定目标参与事件的趋势,得到该时序事件线索推理事件;该时序事件推理模型包括:线索收集模块和线索推理;线索收集模块用于在由已知动态事件构造的事件知识图谱F中召回有助于推理查询q的事件线索;线索收集模块由随机游走采集器和路径编码器构成,前者的功能是依据给定的查询信息,在事件知识图谱中检索若干条从s出发的N条长度为l的路径线索,并组装为线索集;路径编码器由一个单向LSTM编码器实现,用于将随机游走采集器收集的路径编码为向量信息,并计算线索集每条路径的权重系数,以便线索推理模块进行下一步推理;线索推理模块的目标是依据线索收集模块召回有助于推理查询q的事件线索信息中,推理出隐含事件集合;线索推理模块由子图编码模块与时序推理模块构成;子图编码模块由图神经网络构成,用于理解每一时刻中线索的拓扑特征,时序推理模块由单向循环神经网络构成,用于学习线索随时间单向演化的规律,并预测时序事件的未来发展,得到该时序事件线索推理事件。
7.如权利要求6所述的基于知识图谱的特定目标可视化分析系统,其特征在于,该时序事件推理模型训练过程包括:初始化实体向量、关系向量与时间向量,设置为可训练模式;对于查询q=(s,r,t)以及正确实体o,初始化查询表示向量为 从特定目标实体s出发,通过该随机游走采集器采样N条长度为l的路径线索,组装为线索集P={p 0 ,p 1 ,...,p N },其中N与l为自定义参数;通过路径编码器编码线索集中的路径,对于路径p=[s,r 0 ,t 0 ,o 0 ,r 1 ,t 1 ,o 1 ,...,r l-1 ,t l-1 ,o l-1 ](其中s 0 =s),编码公式为(0≤k≤l-1):t k =σ(W r Δt k +U r h k-1 )上述公式中的Δt k =t k -t k-1 (当k=0时,Δt k =0);t k 代表时序门限控制表示, 代表本单元编码的语义信息,W r ,W h 与U r ,U h 代表4个映射矩阵, 为路径中第k步对应关系与实体向量;LSTM第k步的输出为h k ;路径p对应第l-1步的输出h l-1 成为该路径的编码向量p,据此,得到路径线索集的编码向量{p 0 ,p 1 ,...,p N };使用Softmax计算每个编码向量对于查询的attention分值{α 0 ,α 1 ,...,α N };通过路径线索集的编码向量,得到全局线索表示 通过线索集P,依据路径中事件时间信息的构建查询子图序列{SG 0 ,SG 1 ,...,SG t-1 };使用子图编码模块的图神经网络编码子图序列中每一个子图,得到子图中的节点表示{SG 0 ,SG 1 ,...,SG t-1 };使用该时序推理模块的单向循环神经网络编码上述子图序列的节点表示,输出t时刻的子图节点表示SG t ;结合全局线索表示 计算SG t 中每个节点的匹配分数;选取匹配分数最高的实体o′与正确实体o,通过二分类损失函数计算本次训练的损失,通过反向传播算法训练更新该时序事件推理模型。
8.如权利要求6所述的基于知识图谱的特定目标可视化分析系统,其特征在于,该知识图谱构建模块包括:构建多源异构数据融合模型,用于根据不同数据源的提取结果,补全不同数据源实体之间的映射关系,实现各数据源的提取结果的融合,构建该知识图谱;其中该多源异构数据融合模型包括实体表示模块与实体映射关系推理模块;实体表示模块用于根据实体的文本描述信息、时态信息以及其邻居的结构信息来编码实体的特征,作为映射关系挖掘的依据,该实体表示模块由实体文本描述信息编码模块、时间信息编码模块和结构信息编码模块组成;实体的文本描述信息编码由预训练语言模型BERT结合神经网络全连接层实现;时间信息的编码则是使用Time2vec算法表示;而对于结构信息,则是通过将实体描述信息以及时间信息的表示进行拼接作为输入,并通过带注意力机制的图神经网络进行编码,最终将编码后得到的向量作为实体的最终表示;该实体映射关系推理模块用于根据实体的该最终表示来推理实体之间所存在的映射关系;实体映射关系推理模块由实体表示翻译模块和实体映射匹配模块两部分组成;实体表示翻译模块由多层感知机(MLP)构成,用于将源自于不同数据源的实体的表示映射到统一的语义空间;实体映射匹配模块则是首先通过余弦相似度的方式计算不同源的实体表示匹配程度,并以匹配程度的数值为依据,进行实体映射匹配,最终得到实体之间的映射关系,实现多源异构数据融合,得到该知识图谱。
9.一种存储介质,用于存储执行如权利要求1到4所述任意一种基于知识图谱的特定目标可视化分析方法的程序。
10.一种客户端,用于权利要求5至8中任意一种基于知识图谱的特定目标可视化分析系统。



