CN117218174B一种基于自监督深度学习的室内单目深度估计方法-转果果

赵

赵慧洁机构暂无

技术领域暂无

郭

郭晓彤机构暂无

技术领域暂无

邵

邵树威机构暂无

技术领域暂无

李

李旭东机构暂无

技术领域暂无

张

张宝昌机构暂无

技术领域暂无

摘要

本发明公开了一种基于自监督深度学习的室内单目深度估计方法，用于从单幅图像预测室内场景的深度，涉及计算机视觉领域。本发明引入自监督光流估计网络，为深度估计提供有效的监督信息。首先，将光流估计网络的原始光度损失优化为基于局部像素块的光度损失，采用公开的室内场景数据集对光流估计网络进行微调，并固定微调后的光流网络参数；然后，利用光流网络预测的光流，设计光流一致性损失，并基于光流网络生成的特征金字塔，设计多尺度特征图合成损失，监督深度估计网络的训练；最后，基于训练好的深度估计模型，对单张图像进行深度预测。本发明通过设计有效的损失函数项，提升室内低纹理区域的深度估计精度。

1.一种基于自监督深度学习的室内单目深度估计方法，其特征在于，包括以下步骤：(1)将拍摄于室内的单目序列图像数据集划分为训练集及测试集，并对数据进行预处理；(2)构建基于自监督光流学习的深度估计网络整体框架，利用光流网络预测的光流及多尺度特征图，设计相应的损失函数项；(3)将光流网络的原始光度损失优化为基于局部像素块的光度损失，在预训练过的光流估计网络基础上，使用划分好的训练集，结合优化后的光度损失对其进行微调；(4)将训练集作为输入，用微调后的光流网络进行预测，得到的光流作为深度估计的监督信息之一，并设计相应的光流一致性损失；(5)将训练集作为输入，用微调后的光流网络计算多尺度特征图，作为深度估计的另一个监督信息，并设计相应的多尺度特征图合成损失；(6)基于构建的深度估计网络框架和设计的损失函数，用训练集对网络进行训练；(7)将单张图像作为输入，经模型预测即可得到深度结果；所述的(3)中，对光流估计网络的光度损失进行优化，优化后的光度损失仅采用具有显著特征的特征点及其邻域的像素参与计算；首先采用直接稀疏里程计算法提取特征点，并选择特征点周围3×3的局部像素块参与光度损失的计算，所述像素块表示为：P＝{(x+x k ,y+y k ),x k ∈{-N,0,N},y k ∈{-N,0,N}}；其中，(x,y)是特征点的像素坐标，通过调整N可以设置像素块的大小；对于从目标图像到源图像的预测光流f t→s ，所述的基于局部像素块的光度损失表示为：其中，F(·)表示用于计算像素间相似性的函数，为了尽可能降低环境光照变化对光度一致性的影响，采用三元Census变换损失来描述像素间相似性；I s (P i )表示源图像中像素块的像素亮度，表示被重映射的像素亮度，其计算公式为 I t (P i )是目标图像中像素块的像素亮度；光流估计网络的损失函数由基于局部像素块的光度损失和平滑性损失组成，表示为：L flow ＝L patch (f t→s )+λL sm (f t→s )；其中，f t→s 表示从目标图像到源图像的预测光流，λ在训练中设置为50，平滑性损失定义为：其中，I t 表示目标图像；基于在光流数据集上预训练过的模型参数，结合优化后的损失函数，采用步骤1中划分的训练集对光流估计网络进行微调，每组序列图像中的第0帧和第+1帧作为目标图像和源图像；所述的(4)中，将微调后的光流网络预测的光流作为深度估计的监督信息，并设计光流一致性损失，光流一致性损失表示为：L rigid ＝|f rigid (p t )-f flow (p t )|；其中，f rigid (p t )表示深度估计网络在训练过程中计算的刚性流，f flow (p t )表示光流估计网络预测的光流；所述的(5)中，将训练集输入网络，经过Siamese特征金字塔网络进行卷积，得到目标图像和源图像的多尺度特征图，作为深度估计网络的另一个监督信息；将刚性流降采样至和特征图相同的尺度，目标图像的特征图通过相应尺度的刚性流进行重映射，得到合成的源图像特征图，计算其与源图像的实际特征图之间的差别，作为多尺度特征图合成损失，该损失可以表示为：其中，F src (p t )表示源图像的实际特征图，表示源图像的合成特征图，计算公式为：其中，F tgt (p t )表示目标图像的特征图。 2.根据权利要求1所述的一种基于自监督深度学习的室内单目深度估计方法，其特征在于：所述的(2)中，为深度估计引入光流学习进行监督，将光流估计网络生成的光流和多尺度特征图均作为深度估计的监督信息；深度估计网络的损失函数表示为：L depth ＝L ph +λ 1 L sm +λ 2 L spp +L rigid +λ 3 L feature ；其中，L ph 表示基于像素块的光度一致性损失，L sm 表示平滑性损失，L spp 表示平面一致性损失，L rigid 为光流一致性损失，L feature 为多尺度特征图合成损失；λ 1 、λ 2 和λ 3 分别是平滑性损失、平面一致性损失、特征图合成损失的权重。

WO2021107254A1WO2021107254A1 CN111783582ACN111783582A