生成式人工智能内容安全与伦理风险检测关键技术研究及示范应用

联系合作
新一代信息技术
成果单位: 北京邮电大学
合作方式: 面议
所处阶段: 中试
关键词: 智能出行金融大模型公共安全智慧医疗人脸识别安全评估中央注意力网络自混合增强因果推断层次化分析进化计算红队攻击伦理指令集参数微调价值观对齐
总得分 (满分100)
0
资本强度 (满分0)
该成果得分:0

核心问题

生成式人工智能在深度伪造检测和伦理道德价值判断方面存在技术瓶颈,导致内容安全检测不准确、伦理风险评估不完善,进而影响人工智能生态系统的安全性和可靠性。

解决方案

系统性开展生成式人工智能内容安全检测与生成模型伦理道德评估的理论研究与技术攻关,形成'技术防护+伦理治理+平台赋能'三位一体的综合解决方案。具体包括:在内容安全检测领域,研发基于中央注意力网络(CAN)的检测算法,结合自混合图像增强(SBI)策略和因果推断模型;在伦理风险评估领域,首创基于论点-论据的层次化分析框架,研发基于进化计算的自动化红队攻击技术,构建覆盖10类伦理道德准则的高质量伦理指令数据集;提出基于Aligner架构的参数高效微调(PEFT)价值观对齐方法。

竞争优势

在技术性能上,伪造人脸检测准确率达96.39%,正常样本误报率3.95%,对抗样本召回率99.80%,虚假人脸召回率99.35%;伦理风险评估攻击成功率较基准方法提升35%,与人类伦理道德准则一致性比例达92.00%;参数高效微调方法将所需调整参数比例降至0.0046%,训练时间缩短85%,计算资源需求降低90%,实现70%以上的安全性改进率。在应用转化上,已在智能出行、金融、大模型安全对齐、公共安全、智慧医疗等领域实现深度应用,服务用户超2000万人,赋能多个业界顶尖大模型,产生直接经济效益超10亿元。在创新性上,填补了我国在生成式AI安全治理技术领域的空白,为构建负责任的人工智能生态系统提供关键技术支撑。

成果公开日期

20251027

所属产业领域

信息传输、软件和信息技术服务业

项目名称

中央引导地方专项

项目课题来源

北京市科学技术委员会;中关村科技园区管理委员会

摘要

本成果聚焦生成式人工智能在深度伪造检测和伦理道德价值判断方面的技术瓶颈,系统性地开展了生成式人工智能内容安全检测与生成模型伦理道德评估的理论研究与技术攻关,形成了"技术防护+伦理治理+平台赋能"三位一体的综合解决方案。 核心技术创新: 一是在内容安全检测领域,创新性地研发了基于中央注意力网络(CAN)的检测算法,结合自混合图像增强(SBI)策略和因果推断模型,实现伪造人脸检测准确率96.39%、正常样本误报率3.95%、对抗样本召回率99.80%、虚假人脸召回率99.35%,全面超越预设技术指标。 二是在伦理风险评估领域,首创了基于论点-论据的层次化分析框架,研发了基于进化计算的自动化红队攻击技术,攻击成功率较基准方法提升35%。构建了覆盖10类伦理道德准则、规模达101万条的高质量伦理指令数据集,与人类伦理道德准则一致性比例达92.00%。 三是提出了基于Aligner架构的参数高效微调(PEFT)价值观对齐方法,将所需调整参数比例降至0.0046%,训练时间缩短85%,计算资源需求降低90%,实现了70%以上的安全性改进率。 应用成果: 成果已在多个领域实现深度应用转化。在智能出行与金融领域,内容安全检测系统已在滴滴出行、北京桔财动力科技有限公司等企业日均处理百万级请求,累计服务用户超过2000万人。在大模型安全对齐领域,成功赋能阿里妈妈星辰大模型(安全分提升至98.31%)、百川智能Baichuan-53B模型(正确性提升7.76%)、鹏城实验室鹏城脑海33B模型(安全性从87.5%提升至95.1%)、香港HKGAI V1模型(安全性能提升14.9%)等业界顶尖大模型。 在公共安全领域,红队攻击平台在北京市公安局网安总队2024年护网行动中发挥重要作用。在智慧医疗领域,与北京大学第三医院联合开发的MedGuide-V智慧医疗大模型为超过三百名医务工作者提供智能服务。伦理风险测试平台被北京智源人工智能研究院用于FlagEval大模型评测平台,为大模型评测标准体系建设提供重要参考。 多维度视频人像伪造鉴定技术已在银河水滴科技(江苏)有限公司应用于人脸生物特征识别产品。闪捷信息科技、新疆熙菱信息技术、南京王师大数据等企业采用检测平台对其大模型应用进行安全评估。 知识产权与经济效益: 已申请发明专利22项(其中11项已授权),专利布局涵盖视频伪造检测算法、伦理数据集构建方法、价值观评估体系、高效对齐算法、红蓝对抗技术、平台架构设计等核心技术领域。项目成果产生直接经济效益超10亿元。 本成果填补了我国在生成式AI安全治理技术领域的空白,为构建负责任的人工智能生态系统提供了关键技术支撑,对推动我国人工智能产业的高质量、可持续发展具有重要战略意义。

试试对话AI技术经理人
WENXIAOGUO
问小果
该成果有哪些相似成果?
该成果可能有哪些需求方?
该成果的市场前景如何?
北京邮电大学的相关成果还有哪些?