有效
文本检测方法、模型训练方法、装置、电子设备
汪京晔、刘威威、李晨霞、杜宇宁、赖宝华、马艳军、于佃海
北京百度网讯科技有限公司
汪
汪京晔机构 暂无
技术领域 暂无
刘
刘威威机构 暂无
技术领域 暂无
李
李晨霞机构 暂无
技术领域 暂无
杜
杜宇宁机构 暂无
技术领域 暂无
赖
赖宝华机构 暂无
技术领域 暂无
马
马艳军机构 暂无
技术领域 暂无
于
于佃海机构 暂无
技术领域 暂无
摘要
本公开提供了一种文本检测方法、模型训练方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、图像处理、文本检测等领域。具体实现方案为:根据用于表征轻量大卷积核的至少一个第一卷积块,对携带文本信息的第一图像进行卷积处理,得到文本信息中与文本检测相关的特征;基于注意力机制,对文本信息中与文本检测相关的特征进行评估,得到用于表征特征重要程度的评估结果;根据评估结果进行文本检测,得到文本检测结果。采用本公开,可以提高文本检测精度。
1.一种文本检测方法,包括:根据用于表征轻量大卷积核的至少一个第一卷积块,对携带文本信息的第一图像进行卷积处理,得到所述文本信息中与文本检测相关的特征;其中,所述第一卷积块包括多层卷积核,所述多层卷积核中的第一卷积核为逐层卷积核、且所述第一卷积核相对于所述多层卷积核中的其他卷积核而言属于大卷积核;基于注意力机制,对所述文本信息中与文本检测相关的特征进行评估,得到用于表征特征重要程度的评估结果;根据所述评估结果进行文本检测,得到文本检测结果。
2.根据权利要求1所述的方法,其中,所述根据用于表征轻量大卷积核的至少一个第一卷积块,对携带文本信息的第一图像进行卷积处理,得到所述文本信息中与文本检测相关的特征,包括:对所述携带文本信息的第一图像,根据所述至少一个第一卷积块中的多层卷积核进行逐层卷积处理,得到所述文本信息中与文本检测相关的特征。
3.根据权利要求2所述的方法,还包括:在文本检测模型的特征金字塔结构中设置所述至少一个第一卷积块;根据卷积核尺寸,对所述至少一个第一卷积块中的所述多层卷积核进行配置;其中,所述多层卷积核还包括:接受所述第一卷积核输入的第二卷积核、接受所述第二卷积核经激活函数处理后输入的第三卷积核、与所述第三卷积核共同执行相加处理的第四卷积核。
4.根据权利要求3所述的方法,其中,对所述携带文本信息的第一图像,根据所述至少一个第一卷积块中的多层卷积核进行逐层卷积处理,得到所述文本信息中与文本检测相关的特征,包括:将所述携带文本信息的第一图像输入所述第一卷积核,经所述第一卷积核进行卷积处理后输入所述第二卷积核,经所述第二卷积核进行卷积处理及激活函数处理后输入所述第三卷积核;将所述携带文本信息的第一图像输入所述第四卷积核进行卷积处理后与所述第三卷积核进行相加处理,得到所述文本信息中与文本检测相关的特征。
5.根据权利要求3或4所述的方法,还包括:基于所述文本检测模型的所述特征金字塔结构,对所述携带文本信息的第一图像进行特征提取,得到多个特征层;对所述多个特征层进行拼接处理,得到拼接特征;其中,所述多个特征层中的至少一个特征层,通过所述至少一个第一卷积块执行的卷积处理得到。
6.根据权利要求5所述的方法,其中,所述基于注意力机制,对所述文本信息中与文本检测相关的特征进行评估,得到用于表征特征重要程度的评估结果,包括:所述文本信息中与文本检测相关的特征为所述拼接特征的情况下,基于所述注意力机制对所述拼接特征进行用于特征评估的归一化处理,得到归一化特征;根据所述归一化特征和所述拼接特征,得到目标特征;将所述目标特征作为所述用于表征特征重要程度的评估结果。
7.根据权利要求6所述的方法,其中,所述根据所述评估结果进行文本检测,得到文本检测结果,包括:在所述文本检测模型中设置头部网络结构的情况下,根据所述目标特征和头部网络结构进行文本检测,得到所述文本检测结果。
8.一种模型训练方法,包括:将携带文本信息的图像样本输入待训练的文本检测模型中;在所述待训练的文本检测模型中,根据用于表征轻量大卷积核的至少一个第一卷积块,对所述携带文本信息的图像样本进行卷积处理,得到所述文本信息中与文本检测相关的特征;其中,所述第一卷积块包括多层卷积核,所述多层卷积核中的第一卷积核为逐层卷积核、且所述第一卷积核相对于所述多层卷积核中的其他卷积核而言属于大卷积核;在所述待训练的文本检测模型中,采用辅助检测头对所述文本信息中与文本检测相关的特征进行预测,得到第一预测结果;在所述待训练的文本检测模型中,基于注意力机制对所述第一预测结果进行评估,得到用于表征特征重要程度的评估结果;根据所述评估结果和预训练目标,对所述待训练的文本检测模型中进行模型训练,得到训练好的文本检测模型。
9.根据权利要求8所述的方法,还包括:在所述待训练的文本检测模型的特征金字塔结构中设置所述至少一个第一卷积块;在所述特征金字塔结构的输出部分设置所述辅助检测头;在所述特征金字塔结构的输出部分应用所述注意力机制。
10.根据权利要求8或9所述的方法,其中,所述至少一个第一卷积块还包括:接受所述第一卷积核输入的第二卷积核、接受所述第二卷积核经激活函数处理后输入的第三卷积核、与所述第三卷积核共同执行相加处理的第四卷积核。
11.根据权利要求9所述的方法,其中,所述特征金字塔结构包括多个特征层,其中,所述多个特征层中的至少一个特征层,通过所述至少一个第一卷积块执行的卷积处理得到。
12.根据权利要求10所述的方法,其中,所述在所述待训练的文本检测模型中,根据所述至少一个第一卷积块,对所述携带文本信息的图像样本进行卷积处理,得到所述文本信息中与文本检测相关的特征,包括:将所述携带文本信息的图像样本输入所述第一卷积核,经所述第一卷积核进行卷积处理后输入所述第二卷积核,经所述第二卷积核进行卷积处理及激活函数处理后输入所述第三卷积核;将所述携带文本信息的图像样本输入所述第四卷积核进行卷积处理后与所述第三卷积核进行相加处理,得到所述文本信息中与文本检测相关的特征。
13.根据权利要求11所述的方法,还包括:基于所述特征金字塔结构,对所述携带文本信息的第一图像进行特征提取,得到所述多个特征层;对所述多个特征层进行拼接处理,得到拼接特征。
14.根据权利要求13所述的方法,其中,所述在所述待训练的文本检测模型中,采用辅助检测头对所述文本信息中与文本检测相关的特征进行预测,得到第一预测结果,包括:所述文本信息中与文本检测相关的特征为所述拼接特征的情况下,对所述拼接特征进行预测,得到所述第一预测结果。
15.根据权利要求13所述的方法,其中,所述基于注意力机制对所述第一预测结果进行评估,得到用于表征特征重要程度的评估结果,包括:基于所述注意力机制对所述第一预测结果进行用于特征评估的归一化处理,得到归一化特征;根据所述归一化特征和所述第一预测结果,得到待输入头部网络结构的特征;将所述待输入头部网络结构的特征作为所述用于表征特征重要程度的评估结果。
16.一种文本检测装置,包括:第一处理模块,用于根据用于表征轻量大卷积核的至少一个第一卷积块,对携带文本信息的第一图像进行卷积处理,得到所述文本信息中与文本检测相关的特征;其中,所述第一卷积块包括多层卷积核,所述多层卷积核中的第一卷积核为逐层卷积核、且所述第一卷积核相对于所述多层卷积核中的其他卷积核而言属于大卷积核;第一评估模块,用于基于注意力机制,对所述文本信息中与文本检测相关的特征进行评估,得到用于表征特征重要程度的评估结果;检测模块,用于根据所述评估结果进行文本检测,得到文本检测结果。
17.根据权利要求16所述的装置,其中,所述第一处理模块,用于:对所述携带文本信息的第一图像,根据所述至少一个第一卷积块中的多层卷积核进行逐层卷积处理,得到所述文本信息中与文本检测相关的特征。
18.根据权利要求17所述的装置,还包括:配置模块,用于:在文本检测模型的特征金字塔结构中设置所述至少一个第一卷积块;根据卷积核尺寸,对所述至少一个第一卷积块中的所述多层卷积核进行配置;其中,所述多层卷积核还包括:接受所述第一卷积核输入的第二卷积核、接受所述第二卷积核经激活函数处理后输入的第三卷积核、与所述第三卷积核共同执行相加处理的第四卷积核。
19.根据权利要求18所述的装置,其中,所述第一处理模块,用于:将所述携带文本信息的第一图像输入所述第一卷积核,经所述第一卷积核进行卷积处理后输入所述第二卷积核,经所述第二卷积核进行卷积处理及激活函数处理后输入所述第三卷积核;将所述携带文本信息的第一图像输入所述第四卷积核进行卷积处理后与所述第三卷积核进行相加处理,得到所述文本信息中与文本检测相关的特征。
20.根据权利要求18或19所述的装置,还包括:提取模块,用于:基于所述文本检测模型的所述特征金字塔结构,对所述携带文本信息的第一图像进行特征提取,得到多个特征层;对所述多个特征层进行拼接处理,得到拼接特征;其中,所述多个特征层中的至少一个特征层,通过所述至少一个第一卷积块执行的卷积处理得到。
21.根据权利要求20所述的装置,其中,所述第一评估模块,用于:所述文本信息中与文本检测相关的特征为所述拼接特征的情况下,基于所述注意力机制对所述拼接特征进行用于特征评估的归一化处理,得到归一化特征;根据所述归一化特征和所述拼接特征,得到目标特征;将所述目标特征作为所述用于表征特征重要程度的评估结果。
22.根据权利要求21所述的装置,其中,所述检测模块,用于:在所述文本检测模型中设置头部网络结构的情况下,根据所述目标特征和头部网络结构进行文本检测,得到所述文本检测结果。
23.一种模型训练装置,包括:输入模块,用于将携带文本信息的图像样本输入待训练的文本检测模型中;第二处理模块,用于在所述待训练的文本检测模型中,根据用于表征轻量大卷积核的至少一个第一卷积块,对所述携带文本信息的图像样本进行卷积处理,得到所述文本信息中与文本检测相关的特征;其中,所述第一卷积块包括多层卷积核,所述多层卷积核中的第一卷积核为逐层卷积核、且所述第一卷积核相对于所述多层卷积核中的其他卷积核而言属于大卷积核;预测模块,用于在所述待训练的文本检测模型中,采用辅助检测头对所述文本信息中与文本检测相关的特征进行预测,得到第一预测结果;第二评估模块,用于在所述待训练的文本检测模型中,基于注意力机制对所述第一预测结果进行评估,得到用于表征特征重要程度的评估结果;训练模块,用于根据所述评估结果和预训练目标,对所述待训练的文本检测模型中进行模型训练,得到训练好的文本检测模型。
24.根据权利要求23所述的装置,还包括:设置模块,用于:在所述待训练的文本检测模型的特征金字塔结构中设置所述至少一个第一卷积块;在所述特征金字塔结构的输出部分设置所述辅助检测头;在所述特征金字塔结构的输出部分应用所述注意力机制。
25.根据权利要求23或24所述的装置,其中,所述至少一个第一卷积块还包括:接受所述第一卷积核输入的第二卷积核、接受所述第二卷积核经激活函数处理后输入的第三卷积核、与所述第三卷积核共同执行相加处理的第四卷积核。
26.根据权利要求24所述的装置,其中,所述特征金字塔结构包括多个特征层,其中,所述多个特征层中的至少一个特征层,通过所述至少一个第一卷积块执行的卷积处理得到。
27.根据权利要求25所述的装置,其中,所述第二处理模块,用于:将所述携带文本信息的图像样本输入所述第一卷积核,经所述第一卷积核进行卷积处理后输入所述第二卷积核,经所述第二卷积核进行卷积处理及激活函数处理后输入所述第三卷积核;将所述携带文本信息的图像样本输入所述第四卷积核进行卷积处理后与所述第三卷积核进行相加处理,得到所述文本信息中与文本检测相关的特征。
28.根据权利要求26所述的装置,还包括:第三处理模块,用于:基于所述特征金字塔结构,对所述携带文本信息的第一图像进行特征提取,得到所述多个特征层;对所述多个特征层进行拼接处理,得到拼接特征。
29.根据权利要求28所述的装置,其中,所述预测模块,用于:所述文本信息中与文本检测相关的特征为所述拼接特征的情况下,对所述拼接特征进行预测,得到所述第一预测结果。
30.根据权利要求28所述的装置,其中,所述第二评估模块,用于:基于所述注意力机制对所述第一预测结果进行用于特征评估的归一化处理,得到归一化特征;根据所述归一化特征和所述第一预测结果,得到待输入头部网络结构的特征;将所述待输入头部网络结构的特征作为所述用于表征特征重要程度的评估结果。
31.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-15中任一项所述的方法。
32.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-15中任一项所述的方法。



