该成果针对写人作文的篇章语义评测中的多个痛点问题,包括隐含语篇关系的识别、复杂关系三元组的联合抽取、语义块的精准分割、主题一致性的评测、篇章成分的识别与合理性评测、段落逻辑合理性的评测以及作文自动打分模型的构建。这些问题在作文评测中普遍存在,影响了评测的准确性和效率。
该成果提出了一系列创新性的技术解决方案。首先,基于图神经网络的隐含语篇关系识别模型,通过构建句法依赖图和语义图,结合Bi-GRU与GAT,实现了对文本语义信息的深度挖掘。其次,混合重指针网络模型(HDP)有效解决了复杂关系三元组的联合抽取问题,提高了F1值。此外,语义块分割技术利用Text CNN和BiLSTM结合Attention机制,实现了对作文文本的有效分割。主题一致性评测模型通过Match_Net_Siamese神经网络模型,实现了人物性格形象特征与故事特征之间的对应关系训练。同时,基于Bert-BiLSTM的篇章成分识别和合理性评测技术,以及段落逻辑合理性评测模型,进一步提升了作文评测的准确性和效率。最后,基于对比学习的作文自动打分模型,通过数据增强和交叉熵损失,实现了对作文分数的精准预测。
该成果在作文评测领域具有显著的竞争优势。首先,通过集成创新,将多种先进技术应用于作文评测,提高了评测的准确性和效率。其次,该成果在多个关键技术点上取得了突破,如隐含语篇关系识别、复杂关系三元组联合抽取等,为作文评测提供了新的思路和方法。此外,该成果的技术实现具有较高的可行性和实用性,可广泛应用于作文评测、教育评估等领域,具有广阔的市场前景和应用价值。
20221226
教育
2022年结项科技重点项目
北京市教育委员会
1、基于图神经网络的隐含语篇关系识别 项目提出了一种新的隐式话语关系分类模型,该模型侧重于在单词级别、句子级别和句子跨度级别挖掘文本语义信息。具体来说,使用 BERT 将句子对编码为向量对。我们设计了一种将自由文本构建为图的新方法,将句子分别构建为句法依赖图,然后将两个句法图合并为一个语义图。语义图中的边被参数化为门控向量并编码以参与图学习过程。与独立学习句法结构的策略相比,我们的方法允许同时学习句法依赖和句子交互。基于图网络的学习原理,引入 Bi-GRU 与 GAT 一起工作,扩展的 GAT 可以捕获长距离节点的句法依赖关系,并从多跳邻域节点中选择性地挖掘语义特征。在卷积池化操作之后,从该模型中提取的语义特征通过指数映射被投影到 Poincare 球中,以进行语篇关系分类。论文发表在2区期刊Applied Intelligence上。 2、基于混合重指针网络模型的知识图谱联合抽取技术 句子中的关系三元组是复杂的,多个不同的关系三元组可能会有重叠,这在现实中很常见。然而,在以前的大多数工作中,无法有效地提取多对三元组。为了缓解这个问题,我们提出了一种基于sequence-to-sequence序列学习的深度神经网络模型,即混合双指针网络(HDP),该网络通过生成混合双指针序列从给定句子中提取多对三元组。实验结果表明,我们的模型优于最先进的工作,并提高F1值17.1%。 3、语义块分割技术 语义块分割包括前后无逻辑关系和有逻辑关系的语义块分割,前后无逻辑关系的语义块指表现手法、人物外貌描写等,前后有逻辑关系的语义块指事件三要素。项目根据利用Text CNN有效获取作文当前待测句抽象语义特征,使用BiLSTM学习上下文特征并结合Attention机制分配合理的上下文权重,最后将待测句和上下文拼接后的特征进行二分类实现作文的文本分割。考虑作文中事件三要素之间存在状态关联、概率转移的情况,将待分割句子序列使用双层LSTM分别进行抽象语义学习和上下文特征学习后,使用条件随机场(CRF)条件概率模型进行类别判断,提高分割边界判断的准确性。 4、主题一致性评测模型 针对作文的人物性格形象特征与故事特征的语义级对应问题,设计了直接应用神经网络模型实现人物性格形象特征与故事特征之间的对应关系训练。下图展示了本课题所提出的Match_Net_Siamese神经网络模型的示意图。首先将维度不同的人物形象向量与故事描写向量映射到同一维度,再使用一层共享权值的神经网络进行最终的抽象特征提取。最后,在最终的抽象特征空间计算样本的相似度,并参考孪生神经网络模型设计网络权值共享、相似度度量与优化。 5、基于Bert-BiLSTM的篇章成分识别和合理性评测技术 一篇记叙文由不同段落组成,段落的功能由其内部的句子组成。每个段落的功能决定了文章整体的谋篇布局。课题提出了一种融合篇章成分表示段落功能的记叙文篇章结构测评方法,使用基于微调的BERT模型进行篇章成分识别任务。 6、段落逻辑合理性评测 从分类角度,使用机器学习算法构建段落逻辑合理性判别模型,对段落逻辑合理性进行定性研究。从句间连贯性角度,提出并构建了段落逻辑合理性等级评测模型,对段落逻辑合理性进行定量分析。然后融合段落整体逻辑合理性判别模型与段落逻辑合理性等级评测模型对段落逻辑合理性进行评测。 7、基于对比学习的作文自动打分模型 模型借鉴了图像处理中对比学习的思想,研究基于对比学习的作文自动打分。通过数据增强工具构造正负样例,其中,应用drop-out两次的思想,把原始作文作为两个正例传入模型。经过BERT模型的编码后,传入linear层。通过交叉熵损失使模型预测得分逐渐贴合真实分数;通过对正负样例的文本相似度计算,使模型关注到多粒度知识。
