大语言模型(LLM)生成的虚假信息对开放域问答(ODQA)系统等下游应用造成知识污染,导致下游应用性能下降,信息可靠性降低。
本项目构建了一套基于LLM文本水印的污染防治机制,主要技术原理包括:分析现有水印算法性能差异,提出基于时序组合的混合水印方案,该方案通过“生成-检测并行”机制动态融合具有高检测性的KGW水印与生成文本质量较好的Unbiased水印;开发条件性添加水印的KnowFilter系统,引入指令分类与条件性水印机制,缓解无差别加水印影响LLM通用能力的问题;关键技术涵盖WaterBench评估框架、动态混合水印策略、提示工程驱动的指令二分类、SelfCheckGPT集成。
在评测水印的WaterBench基准上,混合水印方案生成质量(GM)平均下降仅8.8%,优于单一KGW水印的60.3%下降;在ODQA实验中,使用NQ-1500数据集注入虚假信息后,四种ODQA架构的精确匹配(EM)值与未污染时相差几乎小于1%;KnowFilter系统在保证输出文本质量的同时,ODQA的整体准确度表现与未被知识污染时几乎相同。本项目首次提出了时序组合混合水印,创新性引入指令分类与条件性水印机制,具有原始创新性。其科学价值在于深化大语言模型水印机制理解,推动LLM安全研究标准化;经济和社会价值在于为搜索引擎、聊天机器人等提供实用工具,降低虚假信息处理成本,提升信息可靠性与数字生态可持续性。
20251201
信息传输、软件和信息技术服务业
本项目针对大语言模型(LLM)生成虚假信息对开放域问答(ODQA)系统等下游应用的知识污染问题,构建了一套基于LLM文本水印的污染防治机制。主要内容包括:分析现有水印算法性能差异;提出基于时序组合的混合水印方案;开发条件性添加水印的KnowFilter系统,从而实现虚假信息的高效识别与排除,保障下游应用准确性。 在评测水印的WaterBench基准上,我们提出的混合水印方案生成质量(GM)平均下降仅8.8%,优于单一KGW水印的60.3%下降。在验证可检测性的ODQA实验中,使用NQ-1500数据集注入虚假信息后,四种ODQA架构(DPR/BM25 + GPT-3.5/FiD)的精确匹配(EM)值与未污染时相差几乎小于1%,证明混合水印缓解了文本生成质量和水印检测强度之间的权衡。同时,在添加指令分类和幻觉检测模块后的KnowFilter系统实验中,我们的方法在保证输出文本质量的同时,ODQA的整体准确度表现与未被知识污染时几乎相同,证明了KnowFilter系统的有效性,从而解决了知识密集型应用面对知识污染导致的性能下降问题。 总体性能方面,混合水印在Waterbench上GM下降0.8%-28.3%,TP平均94.1%;KnowFilter在DPR+FiD架构EM值为0.449,与未污染一致;分类器F1分数0.985。总结来看,科技成果技术原型初步成熟,在数据集选择方面可能选择更多样的数据集进行全面测试。
本成果的转化目标是将KnowFilter核心技术以软件即服务(SaaS)或API接口的形式,集成到现有的大语言模型基础设施或信息服务平台中。为实现这一目标,拟寻求在大模型服务提供商、信息安全公司或大规模内容运营平台方面的合作伙伴。合作转化对拟合作方的要求主要包括: 资金要求方面,首先需要技术产品化资金: 约需 100-200万元人民币 的首期投入,用于核心算法从实验室代码到企业级产品的重构、优化、接口标准化以及产品化封装。其次需要大规模测试及运营资金: 用于在合作方的真实、大规模数据环境下进行数月至一年的先导测试,以及首期的市场推广和销售渠道搭建。最后需要部分知识产权合作费用: 包含技术授权的初期费用或股权置换的资金支持。 场地与设备要求方面,本成果需要计算基础设施(设备)的支持: 合作方需提供稳定的、可弹性扩展的GPU计算集群(例如至少包含8-16块高性能NVIDIA A100/H100等型号GPU的算力资源),用于支持大规模LLM模型的集成、训练微调和并发服务的稳定运行。另外针对办公与部署环境: 需提供标准化的企业级私有云或数据中心环境,以保证技术部署的安全性和高可用性。同时数据资源方面,合作方需提供具有代表性的大规模、真实场景的生成文本数据和知识污染语料,以进行系统针对性优化和效果验证。 人员要求方面,我们需配备至少 3-5名 具备MLOps(机器学习运维)、高并发后端开发和系统集成经验的工程师,负责将本成果API无缝集成到其现有LLM服务架构中。同时,我们也需配备专业的AI产品经理和业务拓展人员,负责市场需求的挖掘、产品路线图规划以及面向企业客户的销售和推广。最后还需要部分具备NLP/LLM安全性背景的研发人员,与本项目核心团队保持紧密协作,共同进行后续的算法迭代和功能升级。
可国(境)内外转让
本成果转化后,预计将产生显著的经济效益和社会效益。 经济效益方面,预计通过“技术授权许可”和“API调用量/SaaS订阅费用”的方式,在转化后三年内实现年收入 500-1000万元人民币。同时合作方的LLM服务将因具备 “知识污染防治”的关键能力而形成独特的市场竞争壁垒,可以支持更高的服务定价,增加客户粘性。并且通过自动化的溯源机制,我们可以减少合作方用于人工内容审核、虚假信息清理和危机公关的投入,预计可降低相关运营成本20%以上。 社会效益方面,本成果可以有效抑制大语言模型在新闻、教育、公共服务等关键信息领域输出虚假信息,为用户提供可信赖、可溯源的AI生成内容,从根本上维护网络空间的信息纯净度。同时本成果为未来针对AI生成内容的责任界定、内容追责和法律合规提供技术支撑,符合国家对《生成式人工智能服务管理暂行办法》等法规的监管要求。另外,本成果预期推动行业向“负责任的人工智能(Responsible AI)”方向健康发展,具备引领作用。在成果转化的过程中,也将培养出一批熟悉AI安全、模型攻防和知识产权管理的复合型人才,为国家科技创新战略服务。
北京市自然科学基金本科生“启研”计划
北京市科学技术委员会;中关村科技园区管理委员会
本项目针对大语言模型(LLM)生成虚假信息对开放域问答(ODQA)系统等下游应用的知识污染问题,构建了一套基于LLM文本水印的污染防治机制。主要内容包括:分析现有水印算法性能差异;提出基于时序组合的混合水印方案;开发条件性添加水印的KnowFilter系统,从而实现虚假信息的高效识别与排除,保障下游应用准确性。 重要结果:在评测水印的WaterBench基准上,我们提出的混合水印方案生成质量(GM)平均下降仅8.8%,优于单一KGW水印的60.3%下降。在验证可检测性的ODQA实验中,使用NQ-1500数据集注入虚假信息后,四种ODQA架构(DPR/BM25 + GPT-3.5/FiD)的精确匹配(EM)值与未污染时相差几乎小于1%,证明混合水印缓解了文本生成质量和水印检测强度之间的权衡。同时,在添加指令分类和幻觉检测模块后的KnowFilter系统实验中,我们的方法在保证输出文本质量的同时,ODQA的整体准确度表现与未被知识污染时几乎相同,证明了KnowFilter系统的有效性,从而解决了知识密集型应用面对知识污染导致的性能下降问题。同时,本项目产出一篇学术论文并进行了ACL ARR投稿。 主要创新点包括:我们首次提出了时序组合混合水印,通过“生成-检测并行”机制动态融合了具有高检侧性的KGW水印与生成文本质量较好的Unbiased水印;同时我们引入了指令分类与条件性水印机制,缓解了无差别加水印影响LLM通用能力的问题。 关键技术涵盖WaterBench评估框架、动态混合水印策略、提示工程驱动的指令二分类、SelfCheckGPT集成。 核心数据:混合水印GM下降0.8%-28.3%,TP平均94.1%;KnowFilter在DPR+FiD架构EM值为0.449,与未污染一致;分类器F1分数0.985。主要科学价值在于深化大语言模型水印机制理解,推动LLM安全研究标准化;经济和社会价值在于为搜索引擎、聊天机器人等提供实用工具,降低虚假信息处理成本,提升信息可靠性与数字生态可持续性。
