CN116523987B一种语义引导的单目深度估计方法-转果果

宛

宛传兵机构暂无

技术领域暂无

金

金福生机构暂无

技术领域暂无

徐

徐源机构暂无

技术领域暂无

向

向哲机构暂无

技术领域暂无

金

金振中机构暂无

技术领域暂无

袁

袁野机构暂无

技术领域暂无

摘要

本发明公开了一种语义引导的单目深度估计方法，包括以下步骤：获取单目图像并提取图像特征；对图像特征分别进行深度解码和语义分割，得到深度特征和语义特征；采用注意力机制计算深度特征和语义特征的注意力权重系数，并对深度特征进行优化，得到优化深度特征；根据源图像和所述优化深度特征，计算得到重建图像；根据重建图像和输入的单目图像计算损失函数，并通过损失函数训练模型；通过训练好的模型预测单目图像深度信息；本发明采用注意力机制完成语义分割对深度信息的引导，从而产生语义一致的中间深度表示，实现跨任务的特征融合，以此克服光度重建损失的局限性。

1.一种语义引导的单目深度估计方法，其特征在于，包括以下步骤：获取单目图像并提取图像特征；对图像特征分别进行深度解码和语义分割，得到深度特征和语义特征；其中，通过深度解码器进行深度解码，深度解码器由多个第一解码器块组成；通过语义分割解码器进行语义分割，语义分割解码器由多个第二解码器块组成；采用注意力机制计算深度特征和语义特征的注意力权重系数，并对深度特征进行优化，得到优化深度特征；步骤包括：获取每对第一解码器和第二解码器输出的特征图，作为待融合的深度特征F d ∈R H×W×C 和语义特征F s ∈R H×W×C ；其中H和W代表特征图的宽度和高度，C代表特征图的维度；通过线性投影φ将深度特征F d 和语义特征F s 进行维度统一，并通过级联层进行拼接，得到混合特征F ds ；根据混合特征F ds ，计算注意力分数，并对深度特征F d 和语义特征F s 加权优化；将优化后的深度特征和语义特征输入至下一对第一解码器和第二解码器，分别进行深度解码和语义分割，以此类推，输出最终的优化特征图；根据源图像和所述优化深度特征，计算得到重建图像；根据重建图像和输入的单目图像计算损失函数，并通过损失函数训练模型；通过训练好的模型预测单目图像深度信息。 2.根据权利要求1所述的一种语义引导的单目深度估计方法，其特征在于，获取单目图像并提取图像特征，步骤包括：将单目图像序列输入至共享编码器，使用Conv-stem将图像划分成相同大小的图像块；使用多路径Transformer提取图像块的局部特征和全局特征进行混合得到图像特征。 3.根据权利要求1所述的一种语义引导的单目深度估计方法，其特征在于，所述第一解码器和所述第二解码器均由依次连接的双线性采样层、级联层和卷积层构成。 4.根据权利要求1所述的一种语义引导的单目深度估计方法，其特征在于，注意力分数计算式为：其中，φ k 和φ q 为注意力计算参数，φ k 为键，φ q 为查询；C′为统一后的维度。 5.根据权利要求1所述的一种语义引导的单目深度估计方法，其特征在于，根据源图像和所述优化深度特征，计算得到重建图像，步骤包括：将源图像和单目图像输入至位姿估计网络，并通过位姿估计网络预测相对位姿变化；根据相对位姿变化和优化深度特征对单目图像进行重建，重建公式为：其中，D t 为优化深度特征，I t 为输入的单目图像，I′ t 为和源图像；T t→t′ 为相对位姿变化；I t′→t 为重建图像，D_t为预测的深度图像，K是已知的相机内在参数，[]是采样算子，reproj返回相机的3D点云，proj输出将点云投影到I t′ 的2D坐标。 6.根据权利要求1所述的一种语义引导的单目深度估计方法，其特征在于，所述损失函数包括重建损失、平滑损失、语义分割损失和语义引导损失中的一种或多种；当为多种时，对多种损失进行加权求和，得到最终的损失函数。 7.根据权利要求6所述的一种语义引导的单目深度估计方法，其特征在于，计算重建损失和平滑损失：其中，SSIM为结构相似度范式，α代表权重参数，和分别代表x方向与y方向的深度梯度， D t 为预测的优化深度特征。 8.根据权利要求6所述的一种语义引导的单目深度估计方法，其特征在于，语义分割损失的计算步骤为：通过语义分割解码器预测语义分割信息S t 与已知标签S’ t 计算语义分割损失L CE ，计算方法如下：其中，N表示像素数量，C表示类别数，对于每个像素i和每个类别c，S t (i,c)表示模型对像素i分配为类别c的预测概率，S′ t (i,c)表示像素i的真实标签是否为类别c。 9.根据权利要求6所述的一种语义引导的单目深度估计方法，其特征在于，语义引导损失的计算步骤为：将优化深度特征D t 输入至深度-语义转换网络Θ D2S ，得到其输出S D2S ＝Θ(D t )，并使用下述公式计算语义引导损失：其中，N表示像素点的个数，y i 表示真实值，p i 表示Θ D2S 预测分割结果中第i个像素点的预测值。

CN115035171ACN115035171A CN115908793ACN115908793A