智能化中文文本校对技术及在内容审核中的应用

联系合作
新一代信息技术
信息内容消费
成果单位: 北京信息科技大学
合作方式: 合作开发
所处阶段: 产业化
关键词: 内容审核外交部国家安全部中央办公厅IT公司互联网公司知识库构建字词侦测模型语义判定模型纠错建议生成
总得分 (满分100)
0
资本强度 (满分0)
该成果得分:0
张仰森
查看详情

张仰森,北京信息科技大学信息管理学院院长、智能信息处理研究所所长,主要研究方向为中文信息处理、人工智能与知识工程、网络内容安全等,从事教学、科研及团队管理工作。

所在机构:
北京信息科技大学

核心问题

智能化中文文本校对技术及在内容审核中的应用,主要解决中文文本校对领域面临的多个痛点问题,包括大规模自动获取语义搭配知识的难题、字词级错误侦测效率低、高质量纠错建议生成与排序困难,以及语义层面政治性错误侦测的难题。这些问题在内容审核中尤为突出,特别是在需要高度准确性和敏感性的应用场景中,如政府文件和互联网内容监管。

解决方案

该技术成果通过构建多层次、跨领域的搭配知识库,实现了机器大规模自动获取语义搭配知识。基于“非多字词错误”思想,构建了字词级错误侦测模型,并结合语义搭配知识库和D-S证据理论,提出了语义搭配错误的判定模型。同时,提出了纠错建议生成与排序模型的构建方法,以及面向政治相关及敏感词汇的错误侦测方法,有效解决了上述痛点问题。

竞争优势

该技术成果拥有完全的自主知识产权,包括59篇论文、11项软件著作权、8项发明专利申请和1部专著,体现了其深厚的学术和技术积累。项目成果相关的软件系统已成功应用于多个重要部门和IT及互联网公司,证明了其在实际应用中的可靠性和有效性。此外,作为原始性创新成果,该技术具有显著的创新性和竞争优势,能够为用户提供更高效、准确的中文文本校对和内容审核服务,带来良好的经济效益和社会效益。

成果公开日期

20200920

所属产业领域

信息传输、软件和信息技术服务业

成果类型

应用技术

成果体现形式

新技术

转化意向范围

允许出口

项目名称

基于语义分析的汉语文本错误自动侦测与纠错方法

项目课题来源

国家科技计划

研究形式

与企业合作

合作完成单位

拓尔思信息技术股份有限公司;北京大学

摘要

该项目针对中文文本校对领域目前所面临的难题,提出了多层次、跨领域的搭配知识库构建方法,解决了利用机器大规模自动获取语义搭配知识的难题。基于其提出的“非多字词错误”的思想,构建了字词级错误侦测模型,基于语义搭配知识库和D-S证据理论提出了语义搭配错误的判定模型,解决了语义侦测难题,并提高了字词错误的侦测效率。提出了纠错建议生成与排序模型的构建方法,解决了高质量纠错建议的生成难题和纠错建议候选集的排序难题。提出了面向政治相关及敏感词汇的错误侦测方法,解决了语义层面政治性错误的侦测难题。 项目成果拥有完全的自主知识产权,发表论文59篇,软件著作权11项,申请发明专利8项,出版专著1部。项目成果相关的软件系统已成功应用于外交部、国家安全部、中央办公厅等重要部门及多家IT及互联网公司,取得了良好的经济效益和社会效益。 。

试试对话AI技术经理人
WENXIAOGUO
问小果
该成果有哪些相似成果?
该成果可能有哪些需求方?
该成果的市场前景如何?
北京信息科技大学的相关成果还有哪些?