有效
一种基于知识图谱推理的污染场地画像构建方法及系统
何炜琪、郭观林、贺泽杰
清华苏州环境创新研究院
何
何炜琪机构 暂无
技术领域 暂无
郭
郭观林机构 暂无
技术领域 暂无
贺
贺泽杰机构 暂无
技术领域 暂无
摘要
本发明提供一种基于知识图谱推理的污染场地画像构建方法及系统,方法包括:收集污染场地调查报告中的重点数据;基于污染场地调查报告分别获取每一污染地块的污染地块结构化数据表,并获取知识图谱本体结构;对污染地块结构化数据表进行整合形成污染场地结构化数据表;获取知识图谱本体结构中各节点的节点表、关系表和属性表以获取三元组表;基于三元组表建立图数据库,并基于图数据库进行推理以获取污染场地已知污染信息;基于图神经网络对三元组表进行潜在风险推理以获取污染场地潜在污染信息;基于污染场地已知污染信息和污染场地潜在污染信息获取污染场地画像。本申请的方法基于已知事实和潜在风险推理评估污染场地,提高了评估的准确性。
1.一种基于知识图谱推理的污染场地画像构建方法,其特征在于,包括:收集每一污染地块的污染场地调查报告中的重点数据,并将收集的所述重点数据储存至污染场地数据库,所述重点数据用于表示每一所述污染地块的污染情况的关联因素;基于所述污染场地调查报告分别获取每一污染地块的污染地块结构化数据表,所述污染地块结构化数据表用于记录所述重点数据以及每一所述重点数据所属的类别,其中,同一类别下的所述重点数据被标注为一个标签;基于多个所述污染地块结构化数据表中的所述标签得到知识图谱本体结构,所述知识图谱本体结构用于表示所有重点数据对应的所述标签之间的关系;对各所述污染地块结构化数据表进行整合以形成污染场地结构化数据表;获取所述知识图谱本体结构中各节点的节点表、关系表和属性表,并基于所述污染场地结构化数据表中的所述重点数据分别对所述节点表、所述关系表和所述属性表进行填充,其中,所述节点对应所述标签;基于填充后的所述节点表、所述关系表和所述属性表获取三元组表,根据所述三元组表建立图数据库,并基于所述图数据库进行推理以获取污染场地已知污染信息;基于图神经网络对所述三元组表进行潜在风险推理以获取污染场地潜在污染信息;基于所述污染场地已知污染信息和所述污染场地潜在污染信息获取污染场地画像。
2.根据权利要求1所述的基于知识图谱推理的污染场地画像构建方法,其特征在于,还包括:当有新的重点数据更新到所述污染场地数据库时,基于更新后的所述污染场地数据库对所述知识图谱本体结构和所述污染地块结构化数据表进行更新。
3.根据权利要求2所述的基于知识图谱推理的污染场地画像构建方法,其特征在于,所述当有新的重点数据更新到所述污染场地数据库时,基于更新后的所述污染场地数据库对所述知识图谱本体结构和所述污染地块结构化数据表进行更新,包括:将所述污染地块结构化数据表的标签与更新后的所述污染场地数据库中的标签进行匹配,以获取更新信息,所述更新信息包括新增的标签和/或所述标签下的新增的重点数据;通过所述更新信息分别对所述知识图谱本体结构中的所述节点、所述污染地块结构化数据表中的标签以及与所述标签对应的重点数据进行更新。
4.根据权利要求3所述的基于知识图谱推理的污染场地画像构建方法,其特征在于,所述通过所述更新信息分别对所述知识图谱本体结构中的所述节点、所述污染地块结构化数据表中的标签以及与所述标签对应的重点数据进行更新,还包括:若新增的重点数据缺失所述标签,则将该重点数据标注为标签缺失。
5.根据权利要求2所述的基于知识图谱推理的污染场地画像构建方法,其特征在于,还包括:基于污染物性质表和行业分类表提取的污染物信息和行业信息对所述污染地块结构化数据表中的所述重点数据进行补全。
6.根据权利要求1所述的基于知识图谱推理的污染场地画像构建方法,其特征在于,所述对各所述污染地块结构化数据表进行整合以形成污染场地结构化数据表,包括:对各所述污染地块结构化数据表中同义性的所述标签以及与所述标签对应的所述重点数据进行数据消歧后,将各所述污染地块结构化数据表进行整合以形成污染场地结构化数据表。
7.根据权利要求6所述的基于知识图谱推理的污染场地画像构建方法,其特征在于,所述基于图神经网络对所述三元组表进行潜在风险推理以获取污染场地潜在污染信息,包括:对所述三元组表中的文本进行向量嵌入以获取各所述重点数据的第一特征向量,并根据所述第一特征向量将所述重点数据映射在多维空间中以形成异构图;通过图神经网络框架将所述第一特征向量转化为异构数据对象,并将所述异构数据对象传入变换层;使用两组图神经网络模型分别在所述变换层中进行叠加以形成两层异构图神经网络卷积层,并由两层所述异构图神经网络卷积层组成编码器;通过所述编码器对所述异构图中的各所述重点数据以及各所述重点数据之间的边进行更新以获取第二特征向量,并将各所述重点数据的第二特征向量进行合并以获取组合向量;使用解码器对所述组合向量进行解码输出各所述重点数据之间的链接概率。
8.根据权利要求7所述的基于知识图谱推理的污染场地画像构建方法,其特征在于,还包括:基于所述异构图和所述链接概率对标注为标签缺失的所述重点数据进行标签补全以获取所述污染场地潜在污染信息。
9.一种基于知识图谱推理的污染场地画像构建系统,其特征在于,包括:数据采集模块,用于收集每一污染地块的污染场地调查报告中的重点数据,并将收集的所述重点数据储存至污染场地数据库,所述重点数据用于表示每一所述污染地块的污染情况的关联因素;污染地块结构化数据确定模块,用于基于所述污染场地调查报告分别获取每一污染地块的污染地块结构化数据表,所述污染地块结构化数据表用于记录所述重点数据以及每一所述重点数据所属的类别,其中,同一类别下的所述重点数据被标注为一个标签;本体建立模块,用于基于多个所述污染地块结构化数据表中的所述标签得到知识图谱本体结构,所述知识图谱本体结构用于表示所有重点数据对应的所述标签之间的关系;污染场地结构化数据整合模块,用于对各所述污染地块结构化数据表进行整合以形成污染场地结构化数据表;本体信息获取模块,用于获取所述知识图谱本体结构中各节点的节点表、关系表和属性表,并基于所述污染场地结构化数据表中的所述重点数据分别对所述节点表、所述关系表和所述属性表进行填充,其中,所述节点对应所述标签;知识图谱推理模块,用于基于填充后的所述节点表、所述关系表和所述属性表获取三元组表,根据所述三元组表建立图数据库,并基于所述图数据库进行推理以获取污染场地已知污染信息,还用于根据图神经网络对所述三元组表进行潜在风险推理以获取污染场地潜在污染信息;污染场地画像确定模块,用于基于所述污染场地已知污染信息和所述污染场地潜在污染信息获取污染场地画像。
10.根据权利要求9所述的基于知识图谱推理的污染场地画像构建系统,其特征在于,还包括:更新模块,用于在有新的重点数据更新到所述污染场地数据库时,基于更新后的所述污染场地数据库对所述知识图谱本体结构和所述污染地块结构化数据表进行更新。



