面向网络互动信息与内容关联的多文档情感/态度摘要

联系合作
新一代信息技术
信息内容消费
成果单位: 北京邮电大学
合作方式: 合作开发
所处阶段: 概念
关键词: 网络互动信息中文微博英文推特热点话题用户评论舆情分析内容关联情感分析态度分析多文档摘要
总得分 (满分100)
0
资本强度 (满分0)
该成果得分:0

核心问题

该成果针对网络互动信息中热点话题的博文及评论,解决了传统多文档摘要技术难以有效处理带有大量用户评价与讨论信息的痛点问题。特别是在中文新浪微博和英文推特等社交网络上,用户讨论数量庞大,舆论影响显著,快速准确地了解舆论走向成为迫切需求。

解决方案

该成果采用深度神经网络和机器学习方法,通过基于多特征融合的内容关联、基于DLDA扩展情感词典的情感分析、基于LDA算法以及K-means聚类算法的态度分析、基于行列式点过程的抽取式多文档摘要生成等技术步骤,实现了对中英文网络互动信息的多文档情感/态度摘要。该方案能够生成每个博文及其评论的多文档摘要,以及不同情感/态度下的多文档摘要,有效提高了信息获取和处理效率。

竞争优势

该成果具有显著的技术优势和创新性。首先,它实现了对中英文网络互动信息的多文档情感/态度摘要,满足了多语言需求。其次,通过深度神经网络和机器学习方法的结合,提高了内容关联、情感分析和态度分析的准确性。此外,该成果还搭建了一个多语言多文档抽取式摘要原型系统,提供了方便的交互界面。这些优势使得该成果在快速了解网络互动信息的舆论走向方面具有很高的应用价值,为信息传播和舆情分析提供了新的技术手段。

成果公开日期

20220216

所属产业领域

信息传输、软件和信息技术服务业

转化现有基础

本课题通过设计实现网络爬虫的方式自行从主要的中英文社交网络上采集了最新热点话题的博文和对应的评论,如北京冬奥会和新冠疫情,并对原始数据完成了预处理。在此基础上,采用深度神经网络和机器学习方法对其进行分析,经过基于多特征融合的内容关联、基于DLDA扩展情感词典的情感分析、基于LDA算法以及K-means聚类算法的态度分析、基于行列式点过程的抽取式多文档摘要生成等主要步骤,最终可以生成每个博文和博文下评论的多文档摘要和不同情感/态度下的多文档摘要。主要技术指标如下: 1)面向中文新浪微博和英文推特两种网络互动信息中的新闻事件以及用户所写的评论,研究开发了一种内容关联算法,准确率≥60%。 2)面向中文新浪微博和英文推特两种网络互动信息中的新闻事件以及用户所写的评论,基于内容关联算法结果,研究开发了一种为评论语句对关联语句的态度进行打标(支持/反对)的算法,标签准确率≥65%。 3)面向中文新浪微博和英文推特两种网络互动信息中的新闻事件以及用户所写的评论,基于内容关联算法结果,研究开发了一种为评论语句对评论对象的情感进行打标(正向/负向/中性)的算法,标签准确率≥65%。 4)面向中文新浪微博和英文推特两种网络互动信息中的新闻事件以及用户所写的评论,基于内容关联算法、情感打标算法和态度打标算法的结果,研究开发了一种多文档摘要算法,ROUGE-1 F ≥25%。 在上述关键技术研究基础上,为了提供较为方便的交互界面,本课题采用B/S架构设计搭建了一个多语言多文档抽取式摘要原型系统。

转化合作需求

多文档摘要作为重要的文本萃取技术,旨在为话题相近的多篇文档生成能够概括全部主要内容的摘要。在信息快速增长的时代背景下,该技术可以大幅提高信息的获取和处理效率。另一方面,网络互动信息与传统文档不同,存在大量的用户对内容进行评价与讨论,这种情况在热点话题上更为明显。热点话题中的用户讨论数量极大,造成的舆论影响也更为明显,而多文档情感/态度摘要对于快速了解此类情况的舆论走向拥有很大的优势。同时,在国际交流日益普遍的今天,将多文档摘要应用到多语言的需求也变得相当广泛和迫切。 本课题面向中文和英文两种语言,基于内容关联、情感/态度分析、多文档摘要的关键技术研究,设计实现了一个针对网络互动信息的多文档情感/态度摘要原型系统。研究内容主要包括:面向中文和英文网络互动信息中的热点事件和用户所写的评论,完成信息采集和预处理,研究内容关联方法、情感/态度分析方法、抽取式多文档摘要方法并搭建一个原型系统,完成摘要结果的评价和分析。 本课题当前成果中的信息采集和预处理、内容关联方法、情感/态度分析方法、抽取式多文档摘要方法等功能具有进行单项或多项的产学研合作转化的潜力。需要说明的是,目前成果更偏向研究型,关于实用的设计较弱,考虑到自然语言自身的复杂性和多样性,技术发展的快速性以及应用场景的多变性和动态性等多种因素的影响,直接实现成果的应用转化是非常困难的,需要合作方建立理解和共识,共同展开合作逐步推进实现应用转化,在此基础上能够形成产学研合作的良好平台。我们也希望经过应用转化能够带动发现科学研究的新方向和新问题,促进科研的进一步发展,有益于高校培养更符合社会需求的高层次人才。我们对合作者没有很强烈的资金场地需求。

转化意向范围

可国(境)内外转让

转化预期效益

当前,网络信息极其丰富且无处不在,人们在享受便捷服务的同时,更加关注信息过载和高效获取的问题。多文档摘要作为一种重要的文本萃取技术,一直是人工智能、自然语言处理领域的研究热点之一,旨在为话题相近的多篇文档生成一篇能概括主要内容的摘要,从而帮助人们提高信息获取效率,优化各种网络智能信息服务,如智能搜索引擎、电子商务、网络舆情等。而网络互动信息作为一种发展最为快速,影响最为普遍的网络信息,日益成为研究者关注的重点。 与传统文档自动摘要的研究对象不同,网络互动信息的最大特点就是参与者之间的交互性。例如,新闻、产品或者服务等初始内容(通常可以看作是一篇文档)发布后,用户可以随时针对其中的任意内容发表自己的观点或评论(也可以看作是一篇文档,一般篇幅不会太长),用户之间也可以互相评论,表达自己的情感和态度。参与评论的用户数随内容不同会有所变化,从几个到几百个不等,而热点话题内容的评论用户数有时甚至可以多达千/万级别,这同时也形成了影响较大的网络舆情(可以看作是话题相关的多文档集合)。可见,多文档摘要对于快速高效地了解网络舆情是非常有益的,但传统摘要技术缺乏对于其中交互性、情感和态度信息的专门处理。 内容关联是近年来新兴起的一个研究课题,旨在为相关内容之间直接建立精准的连接关系。例如,在科技论文的参考文献引用关系中进行精准语句或内容定位,在网络互动信息的评论关系中根据用户的评论语句找到与其关联的被评论内容。显然,无论在哪种应用背景中,这种内容关联关系都可以在文本内容的基础上梳理出互动联系网络,为多种下游应用提供辅助。

项目名称

面向网络互动信息与内容关联的多文档情感/态度摘要

项目课题来源

北京市科学技术委员会;中关村科技园区管理委员会

摘要

多文档摘要作为重要的文本萃取技术,旨在为话题相近的多篇文档生成能够概括全部主要内容的摘要。在信息快速增长的时代背景下,该技术可以大幅提高信息的获取和处理效率。另一方面,网络互动信息与传统文档不同,存在大量的用户对内容进行评价与讨论,这种情况在热点话题上更为明显。热点话题中的用户讨论数量极大,造成的舆论影响也更为明显,而多文档情感/态度摘要对于快速了解此类情况的舆论走向拥有很大的优势。同时,在国际交流日益普遍的今天,将多文档摘要应用到多语言的需求也变得相当广泛和迫切。 本课题的研究目标是面向中文和英文两种语言,基于内容关联、情感/态度分析、多文档摘要的关键技术研究,设计实现一个针对网络互动信息的多文档情感/态度摘要原型系统。研究内容主要包括:面向中文和英文网络互动信息中的热点事件和用户所写的评论,完成信息采集和预处理,研究内容关联方法、情感/态度分析方法、抽取式多文档摘要方法并搭建一个原型系统,完成摘要结果的评价和分析。 本课题通过设计实现网络爬虫的方式自行从主要的中英文社交网络上采集了最新热点话题的博文和对应的评论,如北京冬奥会和新冠疫情,并对原始数据完成了预处理。在此基础上,采用深度神经网络和机器学习方法对其进行分析,经过基于多特征融合的内容关联、基于DLDA扩展情感词典的情感分析、基于LDA算法以及K-means聚类算法的态度分析、基于行列式点过程的抽取式多文档摘要生成等主要步骤,最终可以生成每个博文和博文下评论的多文档摘要和不同情感/态度下的多文档摘要。主要技术指标如下: 1)面向中文新浪微博和英文推特两种网络互动信息中的新闻事件以及用户所写的评论,研究开发了一种内容关联算法,准确率≥60%。 2)面向中文新浪微博和英文推特两种网络互动信息中的新闻事件以及用户所写的评论,基于内容关联算法结果,研究开发了一种为评论语句对关联语句的态度进行打标(支持/反对)的算法,标签准确率≥65%。 3)面向中文新浪微博和英文推特两种网络互动信息中的新闻事件以及用户所写的评论,基于内容关联算法结果,研究开发了一种为评论语句对评论对象的情感进行打标(正向/负向/中性)的算法,标签准确率≥65%。 4)面向中文新浪微博和英文推特两种网络互动信息中的新闻事件以及用户所写的评论,基于内容关联算法、情感打标算法和态度打标算法的结果,研究开发了一种多文档摘要算法,ROUGE-1 F ≥25%。 在上述关键技术研究基础上,为了提供较为方便的交互界面,本课题采用B/S架构设计搭建了一个多语言多文档抽取式摘要原型系统。

试试对话AI技术经理人
WENXIAOGUO
问小果
该成果有哪些相似成果?
该成果可能有哪些需求方?
该成果的市场前景如何?
北京邮电大学的相关成果还有哪些?