1.一种基于多模态动态神经网络的无人机在线目标计数方法,步骤包括:首先,由无人机采用机载的可见光摄像头和热红外摄像头分别航拍可见光图像和热红外图像;然后,这些图像经过基于尺度估计进行分割;经分割后的图像作为目标计数模型的输入,进行目标计数;其特征是目标计数模型是基于多模态动态神经网络DyNN的目标计数模型;目标计数模型的架构包括特征提取网络、解码器、多模态门控网络以及模态转换网络;在目标计数模型中:S1、在无法获取热红外图像时,基于由模态转换网络把可见光图像转换成热红外图像,为目标计数模型的热红外模态分支提供生成的热红外图像;S2、多模态门控网络分析图像所在场景光照;如果光照良好,则仅选择目标计数模型中的可见光模态分支,如果光照不足,则选择可见光模态分支和热红外模态分支,热红外图像作为辅助数据;S3、特征提取网络提取所选模态分支的模态特征,并融合多模态推理流的特征;S4、步骤S3得到的特征经解码器后得到目标计数模型的输出;在步骤S1中,模态转换网络是基于密度图损失的模态转换网络DMMT;DMMT包括循环生成对抗网络CycleGAN和预训练的目标计数器模型;在模态转换过程中,预训练的目标计数模型被视为空间映射转换器;由CycleGAN生成的热红外图像和真实的热红外图像分别被转换到密度图空间中;在额外引入的密度图空间中使用密度图均方损失来迫使生成的图像接近真实图像;CycleGAN的生成器和判别器分别表示为G和D,R和T分别代表可见光域和热红外域,r和t代表可见光域的数据和热红外域的数据;对抗性损失 和循环一致性损失 分别表示为: ,和 ;密度图均方损失表示为: ,其中, 表示通过预训练的计数模型进行的空间映射, 表示在密度图空间中生成的图像与真实图像之间的均方误差;则密度图生成DMG的损失函数表示为: ,其中, 和 分别是循环一致性损失和密度图损失的权重;步骤S2中,多模态门控网络是解码器辅助的多模态门控网络,其中,多模态门控网络是二分类神经网络,用于决断模态分支的打开与关闭;解码器的输出结果作为多模态门控网络训练的依据;S2.1、在解码器中,首先,对S3得到的特征进行上采样操作,将图像恢复到初始大小;然后,可见光模态和热红外模态的密度图分支被分离出,得到可见光模态和热红外模态的密度图;最后,对两张密度图进行卷积操作,得到两种模态信息融合的密度图;三张密度图分别表示为:可见光图像生成的密度图PR RGB 、热红外图像生成的密度图PR T 和两种模态图像信息融合后的密度图PR final ;PR RGB 、PR T 和PR final 的对比结果决定多模态门控网络在训练过程中的标签取值;当只使用可见光模态数据时,PR RGB 作为输出;当使用两种模态数据时,PR final 作为输出;S2.2、在多模态门控网络中,它的输入为可见光图像;浅层卷积提取的特征进入全连接层,输出模态选择的置信度,指导热红外支线的打开与关闭;卷积采用Resnet50的第一个块,用于分析图像中的光照强弱;多模态门控网络在训练时的标签 ,其中, 代表标签的阈值;标签p=1,则意味着热红外模态分支可以检测到足够多的可见光分支未识别出的目标;标签p=0,则关闭热红外模态分支。
2.根据权利要求1所述的基于多模态动态神经网络的无人机在线目标计数方法,其特征是在步骤S3中,特征提取网络是模态融合的特征提取网络,多模态特征融合依赖生成对抗网络GAN,它包括生成器generator和判别器discriminator;生成器生成模态相关的特征,特征经过尺度感知的卷积操作后进入判别器;判别器判断生成器生成的特征从属的模态;在对抗性训练过程中,判别器将可见光图像的特征与热红外图像的特征对齐到同一个域,使得生成器具有模态一致性表达的能力;判别器仅用于训练阶段,用来支持模态特征之间的对抗学习;推理阶段只使用生成器和解码器。
3.根据权利要求2所述的基于多模态动态神经网络的无人机在线目标计数方法,其特征是特征提取网络中,GAN是条件生成对抗网络CGAN。
4.根据权利要求3所述的基于多模态动态神经网络的无人机在线目标计数方法,其特征是在CGAN中:S3.1、生成器Mobilenet v3被用来构建主干网络;两个低参数量的模态提取器被增加到主干网络中,分别提取可见光图像数据和热红外图像数据的模态特征;在主干网络提取完模态一致性特征之后,与模态提取器的特征进行逐像素相加;对于任一条热红外图像数据,它的热红外模态特征被计算为 ,其中, 和 分别代表热红外图像数据的通用特征提取器和模态特征提取器; 和 则分别代表通用特征提取器和模态特征提取器的参数;带入卷积函数后,上式被简化为 ,其中, 代表通用特征提取器的参数, 代表模态特征提取器的参数,卷积操作指代为×,生成的新矩阵 代表与模态相关的参数;对于任一条可见光图像数据,采用与上述热红外图像数据的特征提取相同的方法得到可见光模态特征 ;S3.1、判别器首先, 和 它们经过1×1的卷积层后,再通过Sigmoid函数转化为对应的特征图 和 ;随后, 和 与RGB图像被合并成一个4通道的特征图,并被传递给判别器,用于判断输入样本的原始模态类型;S3.3、对抗性训练k根优化的欧几里得损失和对抗损失被用于训练;参与对抗学习的 和 被映射到相同的特征空间,并经过卷积层以及 Sigmoid 函数得到判别器的判别结果;在训练判别器时,生成器被锁定;在训练生成器时,生成器的参数被更新,同时,判别器的损失被梯度反传;判别器的损失函数表示为: ,其中 表示CGAN中作为辅助信息的真实标签,即原始可见光图像;1和0分别表示可见光模态和热红外模态的对应分类;训练得到最终密度图的总体损失表示为 。