CN119027967B基于密度图的古籍图像检测方法及系统-转果果

徐

徐昊机构暂无

技术领域暂无

岳

岳明哲机构暂无

技术领域暂无

刁

刁晓蕾机构暂无

技术领域暂无

郭

郭淑贞机构暂无

技术领域暂无

史

史大千机构暂无

技术领域暂无

摘要

本发明公开了基于密度图的古籍图像检测方法及系统，涉及计算机视觉及深度学习技术领域，方法包括：获取原始古籍文字图像，将所述原始古籍文字图像输入古籍图像检测网络进行检测，输出检测结果；其中，所述古籍图像检测网络由古文字检测子网络和基于语义的密度图生成子网络构成，所述古文字检测子网络用于对输入的原始古籍文字图像进行检测，获得初始检测结果；所述基于语义的密度图生成子网络用于生成密度图，并基于所述密度图对所述原始古籍文字图像进行裁剪，获得候选区域与原始图像的预测边界框。本发明提高了古籍图像中小文字的检测效果。

1.基于密度图的古籍图像检测方法，其特征在于，包括：获取原始古籍文字图像，将所述原始古籍文字图像输入古籍图像检测网络进行检测，输出检测结果；其中，所述古籍图像检测网络由古文字检测子网络和基于语义的密度图生成子网络构成，所述古文字检测子网络用于对输入的原始古籍文字图像进行检测，获得初始检测结果；所述基于语义的密度图生成子网络用于生成密度图，并基于所述密度图对所述原始古籍文字图像进行裁剪，获得候选区域与原始图像的预测边界框；所述基于语义的密度图生成子网络包括骨架网络层和视觉注意力机制层；其中，所述骨架网络层用于提取图像在不同尺度下的特征，所述视觉注意力机制层用于计算每个区域的视觉特征，并度量不同区域视觉特征与语义向量之间的相似程度，确定每个区域存在文字的概率；所述骨架网络层为ResNet50骨架网络层，所述ResNet50骨架网络层提取第二、第三、第四模块的特征，通过卷积层对不同尺度下的特征进行融合，输出融合特征图；所述视觉注意力机制层利用通道注意力机制计算所述融合特征图中每个通道的注意力得分，并计算所述融合特征图与语义向量之间的注意力得分，获得基于语义的视觉特征；计算所述基于语义的视觉特征与所述语义向量之间的相似度得分，并通过通道注意力机制对所述相似度得分进行调整，输出密度图；输出所述密度图的方法为：，其中， , 分别为可学习的参数矩阵，为语义向量，为融合视觉特征，为sigmoid函数，为每个通道的注意力得分，为基于语义的视觉特征，为密度图，为卷积计算，为每一个通道上的基于语义的视觉特征，为向量转置运算，为遍历每一个通道，为语义向量。 2.根据权利要求1所述的基于密度图的古籍图像检测方法，其特征在于，所述古文字检测子网络采用Yolo系列检测器模型作为检测器，并在公开数据集上进行训练。 3.根据权利要求1所述的基于密度图的古籍图像检测方法，其特征在于，基于所述密度图对所述原始古籍文字图像进行裁剪，包括：基于所述密度图设置阈值，在所述密度图中选择任意区域，过滤掉所选区域内背景或强度较低的区域，获得密度掩码图，其中，若所选区域的像素强度低于所述阈值，即所述背景或强度较低的区域，则将所选区域的像素值修改为0，若所选区域的像素强度高于所述阈值，则将所选区域的像素值修改为1；根据所述密度掩码图选择所有值为1的连通像素进行合并，获得矩形候选区域，根据所述矩形候选区域对所述原始古籍文字图像进行裁剪，获得候选检测结果；分别对所述候选检测结果和所述原始古籍文字图像进行检测，获得所述候选区域与原始图像的预测边界框。 4.根据权利要求1所述的基于密度图的古籍图像检测方法，其特征在于，输出所述检测结果，包括：将所述初始检测结果、所述候选区域与原始图像的预测边界框进行融合，并进行极大抑制，输出所述检测结果。 5.基于密度图的古籍图像检测系统，应用于权利要求1-4任一项所述的基于密度图的古籍图像检测方法，其特征在于，包括：古籍文字图像获取模块：用于获取原始古籍文字图像；古籍文字检测模块：用于通过古籍图像检测网络对原始古籍文字图像进行检测，输出检测结果，其中，所述古籍图像检测网络由古文字检测子网络和基于语义的密度图生成子网络构成，所述古文字检测子网络用于对输入的原始古籍文字图像进行检测，获得初始检测结果；所述基于语义的密度图生成子网络用于生成密度图，并基于所述密度图对所述原始古籍文字图像进行裁剪，获得候选区域与原始图像的预测边界框；其中，所述基于语义的密度图生成子网络包括骨架网络层和视觉注意力机制层；其中，所述骨架网络层用于提取图像在不同尺度下的特征，所述视觉注意力机制层用于计算每个区域的视觉特征，并度量不同区域视觉特征与语义向量之间的相似程度，确定每个区域存在文字的概率；所述骨架网络层为ResNet50骨架网络层，所述ResNet50骨架网络层提取第二、第三、第四模块的特征，通过卷积层对不同尺度下的特征进行融合，输出融合特征图；所述视觉注意力机制层利用通道注意力机制计算所述融合特征图中每个通道的注意力得分，并计算所述融合特征图与语义向量之间的注意力得分，获得基于语义的视觉特征；计算所述基于语义的视觉特征与所述语义向量之间的相似度得分，并通过通道注意力机制对所述相似度得分进行调整，输出密度图；输出所述密度图的方法为：，其中， , 分别为可学习的参数矩阵，为语义向量，为融合视觉特征，为sigmoid函数，为每个通道的注意力得分，为基于语义的视觉特征，为密度图，为卷积计算，为每一个通道上的基于语义的视觉特征，为向量转置运算，为遍历每一个通道，为语义向量。 6.根据权利要求5所述的基于密度图的古籍图像检测系统，其特征在于，所述古籍文字检测模块包括融合单元，所述融合单元用于将所述初始检测结果、所述候选区域与原始图像的预测边界框进行融合，并进行极大抑制，输出所述检测结果。

CN114092700ACN114092700A CN116630609ACN116630609A