中文医疗文本处理中存在的电子病历(EMRs)长文本信息稀释、医学实体识别模糊、标注噪声与样本不均衡等痛点问题,这些问题导致ICD编码自动映射和DRGs分组准确率低,影响病例归档、医保结算效率及医疗科研与管理质量。
本成果以深度学习技术为核心,融合预训练模型、图神经网络、对比学习等前沿方法,设计三层技术架构:
20251128
信息传输、软件和信息技术服务业
1、技术成熟度:本成果技术成熟度达系统级原型验证阶段,核心模型SENCE 实体识别模型、医学知识驱动长文本处理框架已完成实验室原型开发与权威数据集验证,具备可复用的算法代码库与模块化部署架构。 2、工艺与性能指标: 实体识别模块:在 CCKS2017/2018 数据集上 F1 分数最高达 95.40%,单条文本处理速度≤0.5 秒 / 条,支持 5 类核心医学实体(疾病、症状、检查、治疗、解剖部位)的精准抽取; 长文本处理模块:针对万级汉字电子病历,分块准确率达 92%,分类任务 F1 值较基线提升 8.78%,语义块关键程度与临床诊断逻辑契合度超 85%; 抗噪训练模块:在 30% 标注噪声场景下精度损失≤2.1%,正负样本不均衡场景下 F1 波动≤±1.5%。 转化所处阶段:已完成实验室小批量数据验证,与某三甲医院达成临床数据测试合作意向,正处于 “实验室原型→临床场景试点” 的过渡阶段,具备初步的场景适配与性能调优能力。
1、资金需求:需合作方提供合理的转化资金,主要用于:临床场景适配开发、模型轻量化与部署优化、多中心临床数据测试、专利转化与知识产权维护。 2、场地与设备需求:需合作方提供具备医疗数据安全合规资质的算力环境,以及符合《电子病历应用管理规范》的本地化部署场地,保障医疗数据的隐私与安全。 3、人员需求:需合作方配备医疗信息化技术团队、临床业务专家(熟悉 ICD 编码、DRGs 分组等场景),协同完成技术落地与场景验证。
仅限国内转让
经济效益: 短期:在 3-5 家试点医院落地后,可实现单医院年节约人工编码 / 病历处理成本约50-80万元,预计首年可实现营收300-500万元; 长期:拓展至区域医疗中心后,预计年服务医疗机构超 50 家,形成年营收2000-3000万元的市场规模,同时可衍生出医疗文本标准化处理的 SaaS 服务模式。 社会效益: 1、提升医疗效率:将病历关键信息提取耗时从人工 30 分钟 / 份缩短至系统 1 分钟 / 份,辅助医生日均诊疗病例数提升 20%; 2、规范医疗管理:助力 ICD 编码准确率从人工 85% 提升至系统 95% 以上,DRGs 分组合规率提升 15%,减少医保基金不合理支出; 3、推动智慧医疗:为基层医疗机构提供低成本的文本智能化工具,缩小优质医疗资源的区域差异,提升基层诊疗服务能力。
北京市自然科学基金本科生“启研”计划
北京市科学技术委员会;中关村科技园区管理委员会
一、科技成果来源 本成果源自针对中文医疗文本处理痛点的专项技术研发,聚焦电子病历(EMRs)长文本信息稀释、医学实体识别模糊、标注噪声与样本不均衡等核心问题,依托北京自然科学基金项目(项目编号:QY24096)开展系统性研究。研发过程中整合临床诊疗知识与自然语言处理技术,形成以深度学习为核心的系列创新方法,相关成果已发表 EI 会议论文 2 篇(收录于 2025 IEEE 49th Annual Computers, Software, and Applications Conference (COMPSAC)),并成功申请 1 项国家发明专利,为医疗文本智能化分析提供了技术支撑。 二、技术原理 本成果以深度学习技术为核心,融合预训练模型、图神经网络、对比学习等前沿方法,针对医疗文本特性设计三层技术架构: 多粒度语义编码原理:基于汉字象形文字特性与医学术语语义特点,将笔画、字形、拼音、字符、词五级语义信息进行分层嵌入,通过关系图注意力网络(RGAT)显式建模实体间隐性关联,解决医学术语歧义与语义上下文不完整问题。 医学知识驱动分块原理:遵循临床诊疗逻辑(如主诉、检查、诊断、治疗的诊疗流程),将冗长电子病历切分为语义连贯的功能块,结合数据增强与对比学习,在保持块内医学语境完整性的同时,通过跨块协同决策缓解长文本信息稀释。 正负向联合训练原理:引入梯度反转层(GRL)构建对抗训练机制,正向训练学习样本与真实标签的映射关系,反向训练抑制噪声标签干扰,通过双损失函数优化平衡正负样本贡献,提升模型抗噪能力与泛化性能。 三、关键技术指标 1、实体识别性能:多粒度语义增强 SENCE 模型在CCKS2017(5 类实体)、CCKS2018(6 类实体)权威基准数据集上表现优异,F1 分数最高达95.40%,较BERT-BiLSTM-CRF基线模型提升4.40%,可精准抽取疾病、症状、检查、治疗、解剖部位等核心医学要素。 2、长文本分类性能:医学知识驱动长文本处理框架在谵妄诊断二分类任务中,准确率达79.12%、F1 值达79.75%,较基础 BERT 模型分别提升7.46%、8.78%;语义块关键程度排序与临床诊断逻辑契合度高,会诊记录、检查结果等核心块分类贡献度超72%。 四、应用前景 本成果的核心技术可广泛迁移至医疗健康领域的多种 NLP 任务,应用前景广阔: 1、临床诊疗辅助:为ICD编码自动映射、DRGs分组提供标准化语义输入,减少人工编码误差,提升病例归档与医保结算效率;辅助医生快速提取病历关键信息,缩短诊疗决策时间。 2、医保支付规范化:通过精准识别医疗服务相关实体(如检查项目、治疗手段、药物),支撑医保合规性审查与费用核查,降低医保基金浪费,推动医保支付标准化。 3、医疗科研与管理:为临床路径优化、疾病预后分析、药物不良反应监测等科研任务提供高质量文本数据预处理工具,加速医疗科研成果转化;助力医疗机构实现病历数据的智能化管理与价值挖掘。 4、健康服务拓展:可延伸至在线问诊文本分析、健康管理档案结构化等场景,提升基层医疗与健康服务的可及性,降低医疗服务成本,推动智慧医疗体系建设。
