CN119128155B一种新闻事件分类方法-转果果

徐

徐源机构暂无

技术领域暂无

孟

孟立波机构暂无

技术领域暂无

张

张泽琦机构暂无

技术领域暂无

吴

吴芳颖机构暂无

技术领域暂无

王

王翘秀机构暂无

技术领域暂无

李

李新兴机构暂无

技术领域暂无

摘要

本发明公开了一种新闻事件分类方法，包括：获取新闻事件的文本数据；利用关键词提取融合模型提取所述文本数据中的若干关键词，获得关键词词组；基于多层次关键词词库，对所述关键词词组进行多阶段相似性计算，获得相似性计算结果；对所述相似性计算结果进行归一化处理，并基于多层感知网络模型，获得新闻事件的概率分布结果；基于所述概率分布结果，将概率值最高和次高的两个新闻事件概率值差值，和预设概率阈值进行比较，获得新闻事件的分类结果。该方法通过综合利用不同类型的数据、融合模型、多层次的词库和相似性计算、归一化处理以及灵活的分类结果处理，能够提供更准确、全面和可解释的新闻事件分类结果。

1.一种新闻事件分类方法，其特征在于，包括：S1、获取新闻事件的文本数据；所述文本数据包括：直接数据和间接数据；S2、利用关键词提取融合模型提取所述文本数据中的若干关键词，获得关键词词组；S3、基于多层次关键词词库，对所述关键词词组进行多阶段相似性计算，获得相似性计算结果；所述多层次关键词词库包括：一级词库、二级词库和三级词库；其中，对所述关键词词组进行多阶段相似性计算，包括：S31、计算关键词词组与三级词库中每个词汇的相似性k ij ：S32、计算关键词词组与二级词库中每个词汇的相似性K i ：S33、计算关键词词组与一级词库中每个词汇的相似性M：其中，c(m，n)表示关键词词组向量A m 与三级词库中词向量B n 距离，m、n分别表示关键词词组向量A m 、词向量B n 的索引，N表示三级词库的词汇数量，j表示二级词库中的词汇索引，J表示二级词库中的词汇数量，i表示一级词库中的词汇索引，I表示一级词库中的词汇数量；S4、对所述相似性计算结果进行归一化处理，并基于多层感知网络模型，获得新闻事件的概率分布结果；S5、基于所述概率分布结果，将概率值最高和次高的两个新闻事件概率值差值，和预设概率阈值进行比较，获得新闻事件的分类结果。 2.根据权利要求1所述的一种新闻事件分类方法，其特征在于，所述S1中，利用新闻网站和数据提供商提供的API接口获取直接数据；利用编写爬虫模型访问新闻网站或社交媒体平台获取间接数据。 3.根据权利要求1所述的一种新闻事件分类方法，其特征在于，所述S2中，利用关键词提取融合模型提取所述文本数据中的关键词，包括：S21、对所述文本数据进行预处理，包括：分词和去除停用词；S22、基于预处理后的文本数据，计算每个词项的词频TF和逆文档频率IDF，获得每个词项的TF-IDF值；S23、将每个词项作为图的节点，使用共现矩阵计算词项之间的关系，构建文本图；S24、利用TextRank算法对所述文本图进行排序，确定每个词项的TextRank得分；S25、将所述TF-IDF值和TextRank得分进行加权融合，获得每个词项的综合得分；S26、基于所述每个词项的综合得分进行排序，并通过预设得分阈值提取若干关键词，获得关键词词组。 4.根据权利要求3所述的一种新闻事件分类方法，其特征在于，所述S3中，多层次的关键词词库基于智能推荐机制进行更新。 5.根据权利要求1所述的一种新闻事件分类方法，其特征在于，所述S4中，新闻事件分类模型包括：输入层、隐藏层和输出层；所述隐藏层后设有ReLU激活函数；所述输出层后设有Softmax激活函数。 6.根据权利要求1所述的一种新闻事件分类方法，其特征在于，所述S5中，基于所述概率分布结果，将概率值最高和次高的两个新闻事件概率值差值，和预设概率阈值进行比较，获得新闻事件的分类结果，包括：若概率值最高和次高的两个新闻事件概率值差值大于预设概率阈值，输出概率值最高的新闻事件；若概率值最高和次高的两个新闻事件概率值差值小于预设概率阈值，输出输出最高和次高的两个新闻事件。 7.一种新闻事件分类系统，其特征在于，包括：数据获取模块：用于获取新闻事件的文本数据；所述文本数据包括：直接数据和间接数据；关键词提取模块：用于利用关键词提取融合模型提取所述文本数据中的若干关键词，获得关键词词组；相似性计算模块：用于基于多层次关键词词库，对所述关键词词组进行多阶段相似性计算，获得相似性计算结果；所述多层次关键词词库包括：一级词库、二级词库和三级词库；其中，对所述关键词词组进行多阶段相似性计算，包括：S31、计算关键词词组与三级词库中每个词汇的相似性k ij ：S32、计算关键词词组与二级词库中每个词汇的相似性K i ：S33、计算关键词词组与一级词库中每个词汇的相似性M：其中，c(m，n)表示关键词词组向量A m 与三级词库中词向量B n 距离，m、n分别表示关键词词组向量A m 、词向量B n 的索引，N表示三级词库的词汇数量，j表示二级词库中的词汇索引，J表示二级词库中的词汇数量，i表示一级词库中的词汇索引，I表示一级词库中的词汇数量；概率分布计算模块：用于对所述相似性计算结果进行归一化处理，并基于多层感知网络模型，获得新闻事件的概率分布结果；分类结果输出模块：用于基于所述概率分布结果，将概率值最高和次高的两个新闻事件概率值差值，和预设概率阈值进行比较，获得新闻事件的分类结果。 8.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的新闻事件分类方法。 9.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的新闻事件分类方法。

CN108052556ACN108052556A CN110377731ACN110377731A