当前语言大模型存在写得有错、推理不准、跨模态语义对得不齐的问题,具体表现为大模型生成内容的事实准确性不足、复杂问题推理能力有限以及视觉与文本模态间语义对齐不精确,影响法律咨询、政务服务等场景的实际应用效果。
20251202
科学研究和技术服务业
本课题输出的关键技术研究成果,已在蚂蚁集团的“保险管家”、“生活管家”与“健康管家”等场景中得到了实施与应用:开展事实一致性检测与控制技术的调研与落地,使得多场景应用下的端到端事实一致性指标的显著提升;融合常识与领域知识的大模型推理技术调研与落地,带来线上真实用户复杂推理问题得分显著提升。
本课题研发的幻觉治理与知识推理等技术成果,可进一步扩展应用到医疗、金融等关键领域,开发行业知识增强的大模型可靠性解决方案 。为达到此目标,在资源需求上需要医疗/金融行业数据用于领域知识融合,同时需要GPU算力支持用于模型训练与调优。合作方最好是企业,能够提供应用场景、领域数据、需求定义及商业化渠道。
可国(境)内外转让
通过转化合作,研发一套自主可控的大模型应用可靠性保障平台,在医疗、金融等关键领域形成标杆案例,取得良好社会效益与经济效益。
中央引导地方专项
北京市科学技术委员会;中关村科技园区管理委员会
本科技成果来源于“中央引导地方专项”课题“基于大模型幻觉治理的可控文本生成与反思式知识推理技术研究及示范应用”的技术研究成果,课题组基于技术研究成果申请了4项发明专利。 针对当前语言大模型存在的写得有错、推理不准、跨模态语义对得不齐的问题,课题组开展面向大模型幻觉治理的可控文本生成与反思式知识推理技术研究。在大模型幻觉治理方面,全面梳理大模型幻觉模式集,分析总结幻觉成因,通过实验验证性别年龄等社会偏见与忠实性幻觉之间的因果关系。在知识推理方面,针对法律咨询、政务服务等典型应用场景中的知识检索与推理的实际需求,整理标注相关数据集,设计实现基于“规划—推理”的复杂问题分析与解答方法,构建基于多智能体回溯验证的知识检索与推理工具。在多模态方面,基于启发式视觉提示生成框架,实现更精准的特征对齐,赋予大模型对视觉语义的理解和对齐能力;基于蒸馏的文本视觉对齐方法,帮助模型更好地进行视觉语义对齐。 本课题的关键性技术指标包括:1)大模型生成内容的事实一致性检测与控制技术:研制大模型生成内容的事实一致性检测工具1套;支持不少于2种开源大模型(如LLaMA等);面向实体描述生成任务的事实准确性提升10%以上;2)融合常识与领域知识的大模型推理技术:研制反思式大模型推理工具1套;支持不少于2种开源大模型(如LLaMA等);在GAOKAO 多学科综合性评测上的平均准确率达到0.5以上;3)基于视觉语义对齐的跨模态推理技术:研制视觉—文本语义对齐工具1套;支持不少于2种开源大模型(如LLaMA等);在卡耐基梅隆大学提出的OK-VQA 数据集上,基于下游任务视觉问答(VQA)的准确率达到70%。 针对上述关键性技术指标,本课题最终具体达成:1)完成事实一致性检测工具1套;面向实体描述生成任务的事实准确性提升超过10%,并支持Qwen2.5和 LLaMA3.1两种开源模型。具体地,在Qwen2.5-7B-Instruct模型上,面向实体描述生成任务的平均事实准确性得分(即FactScore值)提升11.98%;在LLaMA3.1-8B-Instruct模型上,面向实体描述生成任务的平均事实准确性得分(即FactScore值)提升15.55%;2)完成反思式推理工具1套;反思式推理工具在 GAOKAO 多学科综合性评测上的平均准确率超过0.5,并支持Qwen2.5 和LLaMA3.1两种开源模型。具体地,针对Qwen2.5-7B-Instruct模型,反思式推理工具在 GAOKAO 多学科综合性评测上的平均准确率为0.78;对于LLaMA3.1-8B-Instruct模型,反思式推理工具在 GAOKAO 多学科综合性评测上的平均准确率为0.56;3)完成研制视觉—文本语义对齐工具 1 套;基于Qwen2.5-VL、InternVL3 两种开源大模型实现在OK-VQA数据集上,基于下游任务视觉问答(VQA)评测的准确率已超过70%。具体地,对于Qwen2.5-VL模型,准确率值为80.97%;对于InternVL3模型,准确率值为75.99%。 本课题输出的关键技术研究成果,已在蚂蚁集团的“保险管家”、“生活管家”与“健康管家”等场景中得到了实施与应用:开展事实一致性检测与控制技术的调研与落地,使得多场景应用下的端到端事实一致性指标的显著提升(+7.49%)。2024年度累计服务用户数3364万;截至2024年8月31日,辅助保险师人数达到1201人;融合常识与领域知识的大模型推理技术调研与落地,带来线上真实用户复杂推理问题得分显著提升(+4.36)。 课题组计划与更多产业机构和企业建立沟通联系,积极探索技术成果在保险、医疗、法律等实际业务场景中的落地应用,以实现更大规模的成果转化。
