CN120088263B一种基于视觉语言交互式学习的AI图像检测模型优化方法-转果果

丁

丁峰机构暂无

技术领域暂无

张

张月机构暂无

技术领域暂无

周

周沄鹏机构暂无

技术领域暂无

魏

魏康康机构暂无

技术领域暂无

肖

肖梦瑶机构暂无

技术领域暂无

摘要

本发明提供了一种基于视觉语言交互式学习的AI图像检测模型优化方法，涉及视觉语言处理技术领域。所述模型优化方法包括：提取图像训练集的视觉特征和文本特征，基于文本特征对视觉特征进行加权处理获得重建文本，基于视觉特征对文本特征进行加权处理获得重建图像，基于均方误差损失优化跨模态交互式重建过程的重建文本和重建图像；获取跨模态交互式重建过程中的视觉特征及文本特征，计算粗粒度代理点特征和细粒度代理点特征并构建四个字典，基于余弦相似性损失函数拉近模态之间的空间分布，并基于动量更新机制更新所述四个字典，获得优化后的AI图像检测模型。本发明通过设计跨模态交互式重建与字典学习更新，提升了模型检测AI图像的准确率。

1.一种基于视觉语言交互式学习的AI图像检测模型优化方法，其特征在于，包括以下步骤：基于图像编码器提取图像训练集的视觉特征，基于CoCoOp自动化提示工程生成图像训练集的文本描述集，将所述文本描述集输入文本编码器提取获得文本特征，所述图像训练集包含多个类别图像，引入交叉注意力机制，基于文本特征对视觉特征进行加权处理并输入文本解码器获得重建文本，基于视觉特征对文本特征进行加权处理并输入图像解码器获得重建图像，基于均方误差损失优化跨模态交互式重建过程的重建文本和重建图像；获取跨模态交互式重建过程中第十个训练轮次的视觉特征及文本特征，基于所述视觉特征和文本特征分别计算粗粒度代理点特征和多个类别的细粒度代理点特征，基于所述代理点特征分别构建四个字典，基于余弦相似性损失函数拉近图像和文本模态之间的空间分布，并在每个训练轮次后基于动量更新机制更新所述四个字典，获得优化后的AI图像检测模型。 2.根据权利要求1所述的一种基于视觉语言交互式学习的AI图像检测模型优化方法，其特征在于，基于CoCoOp自动化提示工程生成图像训练集的文本描述集的过程中，包括：为每个图像样本引入一个轻量级的神经网络，并生成输入条件标记，将条件标记与四个可学习的上下文向量结合形成动态提示，基于所述动态提示为每个图像样本生成唯一的文本描述，构建文本描述集。 3.根据权利要求1所述的一种基于视觉语言交互式学习的AI图像检测模型优化方法，其特征在于，基于文本特征对视觉特征进行加权处理并输入文本解码器获得重建文本的过程中，包括：将文本特征作为特征向量Q1，视觉特征作为特征向量K1和特征向量V1，通过交叉注意力机制，基于文本特征对视觉特征进行加权处理，得到带有注意力权重分布的第一视觉特征，将所述第一视觉特征输入到文本解码器获得重建文本。 4.根据权利要求1所述的一种基于视觉语言交互式学习的AI图像检测模型优化方法，其特征在于，基于视觉特征对文本特征进行加权处理并输入图像解码器获得重建图像的过程中，包括：将视觉特征作为特征向量Q2，文本特征作为特征向量K2和特征向量V2，通过交叉注意力机制，基于视觉特征对文本特征进行加权处理，得到带有注意力权重分布的第一文本特征，将所述第一文本特征输入到图像解码器获得重建图像。 5.根据权利要求1所述的一种基于视觉语言交互式学习的AI图像检测模型优化方法，其特征在于，基于所述视觉特征和文本特征分别计算粗粒度代理点特征和多个类别的细粒度代理点特征的过程中，包括：所述视觉特征包括真实图像的多个类别的真实视觉特征、重建图像的多个类别的重建视觉特征，所述文本特征包括真实文本的多个类别的真实文本特征、重建文本的多个类别的重建文本特征；基于所述真实视觉特征计算真实图像中的粗粒度代理点特征和多个类别的细粒度代理点特征；基于所述重建视觉特征计算重建图像中的粗粒度代理点特征和多个类别的细粒度代理点特征；基于所述真实文本特征计算真实文本中的粗粒度代理点特征和多个类别的细粒度代理点特征；基于所述重建文本特征计算重建文本中的粗粒度代理点特征和多个类别的细粒度代理点特征。 6.根据权利要求5所述的一种基于视觉语言交互式学习的AI图像检测模型优化方法，其特征在于，计算粗粒度代理点特征的过程中，包括：真实图像的粗粒度代理点特征由所有真实视觉特征求和并取平均获得；重建图像的粗粒度代理点特征由所有重建视觉特征求和并取平均获得；真实文本的粗粒度代理点特征由所有真实文本特征求和并取平均获得；重建文本的粗粒度代理点特征由所有重建文本特征求和并取平均获得。 7.根据权利要求5所述的一种基于视觉语言交互式学习的AI图像检测模型优化方法，其特征在于，计算细粒度代理点特征的过程中，包括：真实图像的细粒度代理点特征由该类别的真实视觉特征求和并取平均获得；重建图像的粗粒度代理点特征由该类别的重建视觉特征求和并取平均获得；真实文本的粗粒度代理点特征由该类别的真实文本特征求和并取平均获得；重建文本的粗粒度代理点特征由该类别的重建文本特征求和并取平均获得。 8.根据权利要求5所述的一种基于视觉语言交互式学习的AI图像检测模型优化方法，其特征在于，基于所述代理点特征分别构建四个字典的过程中，包括：基于真实图像的多个类别的细粒度代理点特征和粗粒度代理点特征构建真实图像字典；基于重建图像的多个类别的细粒度代理点特征和粗粒度代理点特征构建重建图像字典；基于真实文本的多个类别的细粒度代理点特征和粗粒度代理点特征构建真实文本字典；基于重建文本的多个类别的细粒度代理点特征和粗粒度代理点特征构建重建文本字典。 9.根据权利要求1所述的一种基于视觉语言交互式学习的AI图像检测模型优化方法，其特征在于，基于余弦相似性损失函数拉近图像和文本模态之间的空间分布，包括：对于输入的图像样本和其文本描述，通过图像编码器和文本编码器得到第二图像特征和第二文本特征；通过最小化第二图像特征和该类别细粒度代理点特征之间的余弦损失来优化相同图像模态的细粒度特征，并通过最小化第二图像特征和文本的粗粒度代理点特征优化视觉特征；通过最小化第二文本特征和该类别细粒度代理点特征之间的余弦损失来优化相同文本模态的细粒度特征，并通过最小化第二文本特征和真实图像的粗粒度代理点特征优化文本特征；基于视觉特征及文本特征的优化拉近图像和文本模态之间的空间分布。 10.根据权利要求1所述的一种基于视觉语言交互式学习的AI图像检测模型优化方法，其特征在于，在每个训练轮次后基于动量更新机制更新所述四个字典的过程中，更新公式如下所示：；其中，为通过动量更新计算得到的第个训练轮次的最终字典，为加权系数，是当前训练轮次结束时，基于编码器输出特征计算得到的暂存字典，是上一轮结束后，按比例系数得到的最新状态字典。

CN118170938ACN118170938A CN119722838ACN119722838A