CN121685739A一种基于模型激活操纵的越狱攻击样本生成方法及系统-转果果

刘

刘祥龙机构暂无

技术领域暂无

郝

郝昊杰机构暂无

技术领域暂无

李

李波机构暂无

技术领域暂无

摘要

本发明公开了一种基于模型激活操纵的越狱攻击样本生成方法及系统。该方法包括如下步骤：获取初始越狱指令、良性图像、良性指令数据集和有害指令数据集；将初始越狱指令输入至有害性语义诱导模块，通过有害性语义诱导模块，基于有害激活分布生成诱导性最强的对抗性文本；将良性图像以及对抗性文本共同输入至欺骗性视觉伪装模块，通过欺骗性视觉伪装模块，以对抗性文本为攻击目标，并基于良性激活分布对良性图像添加对抗噪声，从而生成欺骗性最强的对抗性图像；将对抗性文本与对抗性图像组合为越狱攻击样本。利用本发明，能够生成更精准的越狱样本，从而评估目标模型的安全边界。

权利要求全文暂无

暂无引用专利