大模型输入输出内容管控场景

关注

联系合作

网络安全

人工智能

新一代信息技术

技术领域：

预算金额：50 万

合作方式：

发布日期：20251231

截止日期：-

需求发布单位：华夏银行股份有限公司

关键词：大模型技术金融场景内容管控安全管理反越狱模型敏感词模型内容安全权限控制实时检测

小果解读

需求的背景和应用场景

本项目需求源于大模型技术应用中面临的一系列安全风险，特别是提示词攻击、敏感信息泄露和有害信息生成等问题。在金融行业中，这些风险不仅关乎数据安全与客户隐私，还直接关系到模型的合规性与金融服务的稳健性。当前，我行在应对大模型输入输出环节的安全管理上存在明显不足，通用安全体系无法全面覆盖这一特殊领域的需求。因此，本项目旨在通过开发专门针对金融场景的大模型安全管理产品，实现对大模型输入输出内容的有效管控，确保数据安全、模型合规及客户信息的严格保密，为后续大模型技术的安全高效应用奠定坚实基础。

要解决的关键技术问题

反越狱小模型：设计并实现一种权限控制机制，确保大模型的输出内容严格与用户职责权限相匹配。该机制需具备高度的灵活性和可扩展性，以有效防止敏感信息的非法泄露。
敏感词小模型：开发一个高效的内容审核与管理模块，能够快速、准确地识别出文本中的敏感词汇，包括但不限于政治、暴力、色情和歧视性内容。这要求模型具备强大的自然语言处理能力和高度的识别准确性。
内容安全大模型：构建一个能够对海量内容数据进行深度分析和评估的大模型，以识别并拦截有害内容。该模型需支持大规模数据训练，涵盖中文、英文等多种语言，并具备实时内容检测与预警能力。
系统性能优化：确保在加入内容安全拦截机制后，大模型的延迟响应时间增加不超过10%，同时保持内容识别的准确率和召回率在高水平。这要求系统在设计时充分考虑高效性和准确性，并具备自适应学习能力，以自动更新和优化检测算法。

效果要求

精准识别与拦截：有害内容召回率达到95%以上，内容识别准确率不低于80%，显著降低合规风险。
提高审核效率：通过自动化内容审核，大幅缩短客户等待时间，提升客户体验。
多场景适用：支持多场景、多元化的金融服务需求，展现强大的适应性和灵活性。
性能优越：在保障高效性和准确性的同时，确保系统具备实时检测与预警能力，以及自适应学习能力，以持续优化检测算法和应对新出现的安全威胁。
数据安全与合规：通过严格的安全管控机制，确保数据安全、模型合规及客户信息的保密性，为金融服务的稳健运行提供有力保障。

需求描述

技术产品需求：

反越狱小模型：通过权限控制机制，确保大模型输出与用户职责权限相匹配，有效防止敏感信息泄露。
敏感词小模型：用于内容审核与管理，快速、准确识别出文本中敏感词汇（涉及政治、暴力、色情、歧视）。
内容安全大模型：对海量的内容数据进行深度分析和评估。
应用后，可精准识别拦截有害内容，降低合规风险；提高内容审核效率，缩短客户等待时间；支持多场景多元金融服务。有害内容召回率达到95%以上；内容识别准确率不低于80%；加入内容安全拦截机制后，大模型的延迟响应时间比未加入该机制时增加不超过10%。
需支持大规模数据训练，涵盖中文、英文，具备实时内容检测与预警能力。需保障高效性和准确性；具备自适应学习能力，可自动更新优化检测算法。应用场景项目介绍：本项目需求来源于为应对大模型技术应用中可能出现的提示词攻击、敏感信息泄露和有害信息生成等安全风险。当前，我行缺乏针对大模型输入输出环节的专项安全管理产品，现有通用安全体系已无法满足全流程管控需求。本项目旨在通过补充适配金融场景的大模型安全管理产品，为后续大模型技术的安全高效应用提供输入输出内容安全的核心支撑，以确保数据安全、模型合规性及客户信息的保密性。