
殷绪成,北京科技大学计算机与通信工程学院院长,教授,博士生导师,主要研究方向为模式识别、文字识别、计算机视觉、人工智能芯片、工业智能与工业软件技术及应用,从事图像视频大数据的智能识别关键技术及应用等研究。
大规模网络图像中的文本识别技术,解决了复杂环境下从海量、强噪声、大差异场景图像与网络图片视频中快速有效检测识别文本的技术难题。这对于国家网络信息安全的全面保障和管理,以及互联网经济和社交广告的发展至关重要。
该技术成果通过提出最大边界核方法新模型、自适应聚类新机制以及差异性与稀疏性协同优化的集成学习框架,实现了复杂数据模式的高效分类。同时,基于自适应聚类的复杂图像文本检测快速方法、高性能的文本识别深度学习多分类器系统以及视频文本检测与识别的统一框架,有效提升了文本识别的准确性和效率。这些技术创新打破了复杂环境文字识别技术的发展瓶颈。
该技术成果在国际文档分析与识别大会技术竞赛中连续三届获得冠军,展现了其卓越的性能和创新能力。此外,该技术已应用于国家重大工程和超大规模系统中,保障了网络空间安全,产生了重大社会效益。同时,作为国内首个面向互联网的融合文本识别与社交广告推荐技术的超大规模系统,该技术成功应用于腾讯效果广告精准推荐系统,近三年累计新增利润达34.89亿元人民币,具有显著的经济效益和竞争优势。
20180605
信息传输、软件和信息技术服务业
应用技术
新技术
仅限国内转让
基于概率图模型的大量复杂文档图像信息提取
国家科技计划
与企业合作
国家计算机网络与信息安全管理中心;腾讯科技(深圳)有限公司
互联网上存在海量的文档图像、场景图像、广告图片、复杂视频和社交多媒体,其中内嵌的文字信息及文本语义,在国家网络信息安全的全面保障和管理以及互联网经济和社交广告的发展推进中,具有极其重要的作用。项目以大规模网络图像文本识别为核心,进行了深入的方法研究、全面的技术创新和广泛的应用推广,主要创新成果如下: (1)在复杂数据模式分析及分类器设计理论方法创新方面,提出了最大边界核方法新模型,建立了基于度量学习的自适应聚类新机制,构建了差异性与稀疏性协同优化的集成学习统一框架,解决了复杂数据模式分类中最大边界核方法设计与层次型聚类分析的理论与框架问题,以及分类器集成中差异性与泛化能力的关联表示及学习问题。 (2)在大规模网络图像文本识别核心技术创新方面,提出了基于自适应聚类的复杂图像文本检测快速方法,构建了高性能的文本识别深度学习多分类器系统,建立了基于跟踪的视频文本检测与识别统一框架,解决了复杂环境下视频文本检测、跟踪与识别研究中信息融合的共性问题,以及如何快速有效的从海量规模、强噪声、大差异场景图像与网络图片视频中检测识别文本这一业内公认的技术难题,打破了复杂环境文字识别技术发展相对停滞的局面。 (3)在超大规模网络图像文本识别技术系统与创新应用方面,构建了面向国家网络信息安全的文本识别与信息管理应用系统和面向互联网(社交媒体)的百亿级日访问规模的文本识别与广告推荐应用系统,解决了互联网多媒体文本识别超大规模应用系统的处理效率瓶颈问题,以及图像文本识别与网络广告推荐相融合系统在互联网平台上超大规模应用的一系列技术瓶颈问题,开创了文字识别技术超大规模实际应用的国内先河。 项目连续三届(2013、2015和2017年)获得国际文档分析与识别大会技术竞赛文本检测和文本识别等共8项冠军,2013年是中国研究机构首次问鼎该项赛事,2015年是那届赛事夺冠的唯一中国团队;国际文档分析与识别大会技术竞赛是国际模式识别、文字识别领域最悠久最权威的国际赛事,累计参加竞赛和评测的队伍包括加州大学、剑桥大学、新加坡国立大学、清华大学、北京大学、中国科学院、Google、腾讯、百度、三星等在内的全球上千支高水平研究团队。项目连续三年(2015、2016和2017年)获得国际文本语义检索与问答技术挑战平台BioASQ Challenge多项第一名。 项目建设了面向国家网络信息安全的文本识别与信息管理应用系统和面向互联网(社交媒体)的百亿级日访问规模的文本识别与广告推荐应用系统,聚焦国家战略需求,广泛应用于国家计算机网络与信息安全管理中心多个国家重大工程和超大规模系统中,在保障我国网络空间安全发挥了重要的作用,产生了重大的社会效益;推进国家经济发展,作为国内首个面向互联网的融合文本识别与社交广告推荐技术的超大规模系统,成功应用于腾讯效果广告精准推荐系统,近三年累计新增利润为34.89亿元人民币,产生了重大的经济效益。 。
