首页 / 专利库 / 专利权 / 实施例 / 一种文字行检测方法及装置

一种文字行检测方法及装置

阅读:737发布:2023-01-30

专利汇可以提供一种文字行检测方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 实施例 提供了一种文字行检测方法及装置。在本发明实施例中,使用预设YOLO模型同时检测待检测图像中的文字行在待检测图像中的 位置 、文字行的倾斜 角 度、文字行中包括的文字的正反方向以及文字行中包括的文字的语种。本发明实施例无需使用自适应二值化方法提取图像中的文字,从而可以避免由于光照或者阴影而降低文字行的检测准确度,也无需使用袋式特征分类器确定文本行中的文字方向和文字语种,避免由其泛化能 力 较低的而降低文字行的检测准确度。在本发明实施例的YOLO模型的泛化能力强于袋式特征分类器,因此,相比于 现有技术 ,本发明实施例可以提高文字行的检测准确度。,下面是一种文字行检测方法及装置专利的具体信息内容。

1.一种文字行检测方法,其特征在于,所述方法包括:
获取预设YOLO模型,所述YOLO模型包括24层卷积堆栈,一层完整的卷积堆栈包含卷积层、池化层、批归一化和激活层,所述YOLO模型中有4个完整的卷积堆栈和20个只含有卷积层和激活层的卷积堆栈,卷积堆栈激活函数选用线性整流单元,且卷积堆栈间采用残差跳线结构,所述YOLO模型还包括8个输出卷积层,所述8个输出卷积层包括1个置信分层、4个文字行的位置层,1个文字行的倾斜度层、1个文字行的正反方向层以及1个文字行的语种层;
将所述待检测图像输入至所述YOLO模型中,得到所述YOLO模型在所述8个输出卷积层分别输出的矩阵;
根据所述8个输出卷积层分别输出的矩阵确定所述待检测图像中的文字行在所述待检测图像中的位置、文字行的倾斜角度、文字行中包括的文字的正反方向以及文字行中包括的文字的语种。
2.根据权利要求1所述的方法,其特征在于,所述根据所述8个输出卷积层分别输出的矩阵确定所述待检测图像中的文字行在所述待检测图像中的位置、文字行的倾斜角度、文字行中包括的文字的正反方向以及文字行中包括的文字的语种,包括:
解析所述置信分层输出的矩阵,得到置信分;
判断所述置信分是否大于第一预设阈值
如果所述置信分大于所述第一预设阈值,则解析4个所述位置层分别输出的矩阵以及解析所述倾斜角度层输出的矩阵,得到包含文字行的预测矩形框;
根据所述预测矩形框确定文字行在所述待检测图像中的位置以及文字行的倾斜角度;
解析所述正反方向层输出的矩阵,得到所述待检测图像中的文字行中包括的文字的正反方向;
解析所述语种层输出的矩阵,得到所述待检测图像中的文字行中包括的文字的语种。
3.根据权利要求2所述的方法,其特征在于,在解析4个所述位置层分别输出的矩阵以及解析所述倾斜角度层输出的矩阵之后,得到包含文字行的1个预测矩形框;
所述根据所述预测矩形框确定文字行在所述待检测图像中的位置以及文字行的倾斜角度,包括:
将所述预测矩形框在所述待检测图像中的位置确定为文字行在所述待检测图像中的位置;
将所述预测矩形框的倾斜角度确定为文字行的倾斜角度。
4.根据权利要求2所述的方法,其特征在于,在解析4个所述位置层分别输出的矩阵以及解析所述倾斜角度层输出的矩阵之后,得到包含文字行的1个预测矩形框;
所述根据所述预测矩形框确定文字行在所述待检测图像中的位置以及文字行的倾斜角度,包括:
从所述多个预测矩形框中选择两个预测矩形框;
计算所述两个预测矩形框之间的重合部分的面积;
计算所述两个预测矩形框的面积之和;
计算所述重合部分的面积与所述两个预测矩形框的面积之和之间的比值;
判断所述比值是否大于第二预设阈值;
如果所述比值大于所述第二预设阈值,则在所述两个预测矩形框中,将置信分最大的预测矩形框的位置确定为文字行的位置,以及,将置信分最大的预测矩形框的倾斜角度确定为文字行的倾斜角度。
5.一种文字行检测装置,其特征在于,所述装置包括:
获取模,用于获取预设YOLO模型,所述YOLO模型包括24层卷积堆栈,一层完整的卷积堆栈包含卷积层、池化层、批归一化和激活层,所述YOLO模型中有4个完整的卷积堆栈和20个只含有卷积层和激活层的卷积堆栈,卷积堆栈激活函数选用线性整流单元,且卷积堆栈间采用残差跳线结构,所述YOLO模型还包括8个输出卷积层,所述8个输出卷积层包括1个置信分层、4个文字行的位置层,1个文字行的倾斜角度层、1个文字行的正反方向层以及1个文字行的语种层;
输入模块,用于将所述待检测图像输入至所述YOLO模型中,得到所述YOLO模型在所述8个输出卷积层分别输出的矩阵;
确定模块,用于根据所述8个输出卷积层分别输出的矩阵确定所述待检测图像中的文字行在所述待检测图像中的位置、文字行的倾斜角度、文字行中包括的文字的正反方向以及文字行中包括的文字的语种。
6.根据权利要求5所述的装置,其特征在于,所述确定模块包括:
第一解析单元,用于解析所述置信分层输出的矩阵,得到置信分;
判断单元,用于判断所述置信分是否大于第一预设阈值;
第二解析单元,用于如果所述置信分大于所述第一预设阈值,则解析4个所述位置层分别输出的矩阵以及解析所述倾斜角度层输出的矩阵,得到包含文字行的预测矩形框;
确定单元,用于根据所述预测矩形框确定文字行在所述待检测图像中的位置以及文字行的倾斜角度;
第三解析单元,用于解析所述正反方向层输出的矩阵,得到所述待检测图像中的文字行中包括的文字的正反方向;
第四解析单元,用于解析所述语种层输出的矩阵,得到所述待检测图像中的文字行中包括的文字的语种。
7.根据权利要求6所述的装置,其特征在于,在解析4个所述位置层分别输出的矩阵以及解析所述倾斜角度层输出的矩阵之后,得到包含文字行的1个预测矩形框;
所述确定单元包括:
第一确定子单元,用于将所述预测矩形框在所述待检测图像中的位置确定为文字行在所述待检测图像中的位置;
第二确定子单元,用于将所述预测矩形框的倾斜角度确定为文字行的倾斜角度。
8.根据权利要求6所述的装置,其特征在于,在解析4个所述位置层分别输出的矩阵以及解析所述倾斜角度层输出的矩阵之后,得到包含文字行的1个预测矩形框;
所述确定单元包括:
选择子单元,用于从所述多个预测矩形框中选择两个预测矩形框;
第一计算子单元,用于计算所述两个预测矩形框之间的重合部分的面积;
第二计算子单元,用于计算所述两个预测矩形框的面积之和;
第三计算子单元,用于计算所述重合部分的面积与所述两个预测矩形框的面积之和之间的比值;
判断子单元,用于判断所述比值是否大于第二预设阈值;
第三确定子单元,用于如果所述比值大于所述第二预设阈值,则在所述两个预测矩形框中,将置信分最大的预测矩形框的位置确定为文字行的位置,以及,将置信分最大的预测矩形框的倾斜角度确定为文字行的倾斜角度。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4中任一项所述的一种文字行检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的一种文字行检测方法的步骤。

说明书全文

一种文字行检测方法及装置

技术领域

[0001] 本发明涉及计算机技术领域,特别是涉及一种文字行检测方法及装置。

背景技术

[0002] 当前,很多场合中都有对图像中的文字进行检测的需求,例如采集包含身份证,行驶证,驾驶证或者名片的图像,然后检测图像中的诸如姓名、编号或者职位等文字信息。其中,每一个文字信息中都包含排列为一行的多个文字,例如姓名“张三”中包含两个汉字,身份证号中包含十八个数字,以及职位通过包含两个以上的汉字等等。
[0003] 其中,每一个文字信息都是由多个文字组成的文字行,当需要识别图像中的文字信息时,通常需要先在图像中确定出文字行,然后使用OCR(Optical Character Recognition,光学文字识别)技术识别文字行中的文字信息。
[0004] 现有技术提供了一种文字行检测方法,包括:使用自适应二值化方法提取图像中的文字,再根据文字的大小和位置使用聚类版面分析方法生成文本行,然后使用袋式特征分类器确定文本行中的文字方向和文字语种。
[0005] 然而,发明人在实现本发明实施例的过程中发现,现有技术中存在以下缺陷
[0006] 首先,在使用自适应二值化方法提取图像中的文字时,往往会受到光照或者阴影的影响导致漏字,或者,导致提取出的文字中包含有非文字噪声,进而可能导致检测出的文字行与图像中实际的文字行不完全一致,从而降低了文字行的检测准确度。
[0007] 其次,袋式特征分类器的泛化能受限于字典的大小及其相应的特征向量,是一种无顺序的分类方向,不能够表征图像的结构信息,从而使得袋式特征分类器的泛化能力较低,进而降低了文字行的检测准确度。

发明内容

[0008] 为解决上述技术问题,本发明实施例示出了一种文字行检测方法及装置。
[0009] 第一方面,本发明实施例示出了一种文字行检测方法,所述方法包括:
[0010] 获取预设YOLO模型,获取预设YOLO模型,所述YOLO模型包括24层卷积堆栈,一层完整的卷积堆栈包含卷积层、池化层、批归一化和激活层,所述YOLO模型中有4个完整的卷积堆栈和20个只含有卷积层和激活层的卷积堆栈,卷积堆栈激活函数选用线性整流单元,且卷积堆栈间采用残差跳线结构,所述YOLO模型还包括8个输出卷积层,所述8个输出卷积层包括1个置信分层、4个文字行的位置层,1个文字行的倾斜度层、1个文字行的正反方向层以及1个文字行的语种层;
[0011] 将所述待检测图像输入至所述YOLO模型中,得到所述YOLO模型在所述8个输出卷积层分别输出的矩阵;
[0012] 根据所述8个输出卷积层分别输出的矩阵确定所述待检测图像中的文字行在所述待检测图像中的位置、文字行的倾斜角度、文字行中包括的文字的正反方向以及文字行中包括的文字的语种。
[0013] 在一个可选的实现方式中,所述根据所述8个输出卷积层分别输出的矩阵确定所述待检测图像中的文字行在所述待检测图像中的位置、文字行的倾斜角度、文字行中包括的文字的正反方向以及文字行中包括的文字的语种,包括:
[0014] 解析所述置信分层输出的矩阵,得到置信分;
[0015] 判断所述置信分是否大于第一预设阈值
[0016] 如果所述置信分大于所述第一预设阈值,则解析4个所述位置层分别输出的矩阵以及解析所述倾斜角度层输出的矩阵,得到包含文字行的预测矩形框;
[0017] 根据所述预测矩形框确定文字行在所述待检测图像中的位置以及文字行的倾斜角度;
[0018] 解析所述正反方向层输出的矩阵,得到所述待检测图像中的文字行中包括的文字的正反方向;
[0019] 解析所述语种层输出的矩阵,得到所述待检测图像中的文字行中包括的文字的语种。
[0020] 在一个可选的实现方式中,在解析4个所述位置层分别输出的矩阵以及解析所述倾斜角度层输出的矩阵之后,得到包含文字行的1个预测矩形框;
[0021] 所述根据所述预测矩形框确定文字行在所述待检测图像中的位置以及文字行的倾斜角度,包括:
[0022] 将所述预测矩形框在所述待检测图像中的位置确定为文字行在所述待检测图像中的位置;
[0023] 将所述预测矩形框的倾斜角度确定为文字行的倾斜角度。
[0024] 在一个可选的实现方式中,在解析4个所述位置层分别输出的矩阵以及解析所述倾斜角度层输出的矩阵之后,得到包含文字行的1个预测矩形框;
[0025] 所述根据所述预测矩形框确定文字行在所述待检测图像中的位置以及文字行的倾斜角度,包括:
[0026] 从所述多个预测矩形框中选择两个预测矩形框;
[0027] 计算所述两个预测矩形框之间的重合部分的面积;
[0028] 计算所述两个预测矩形框的面积之和;
[0029] 计算所述重合部分的面积与所述两个预测矩形框的面积之和之间的比值;
[0030] 判断所述比值是否大于第二预设阈值;
[0031] 如果所述比值大于所述第二预设阈值,则在所述两个预测矩形框中,将置信分最大的预测矩形框的位置确定为文字行的位置,以及,将置信分最大的预测矩形框的倾斜角度确定为文字行的倾斜角度。
[0032] 第二方面,本发明实施例示出了一种文字行检测装置,所述装置包括:
[0033] 获取模,用于获取预设YOLO模型,所述YOLO模型包括24层卷积堆栈,一层完整的卷积堆栈包含卷积层、池化层、批归一化和激活层,所述YOLO模型中有4个完整的卷积堆栈和20个只含有卷积层和激活层的卷积堆栈,卷积堆栈激活函数选用线性整流单元,且卷积堆栈间采用残差跳线结构,所述YOLO模型还包括8个输出卷积层,所述8个输出卷积层包括1个置信分层、4个文字行的位置层,1个文字行的倾斜角度层、1个文字行的正反方向层以及1个文字行的语种层;
[0034] 输入模块,用于将所述待检测图像输入至所述YOLO模型中,得到所述YOLO模型在所述8个输出卷积层分别输出的矩阵;
[0035] 确定模块,用于根据所述8个输出卷积层分别输出的矩阵确定所述待检测图像中的文字行在所述待检测图像中的位置、文字行的倾斜角度、文字行中包括的文字的正反方向以及文字行中包括的文字的语种。
[0036] 在一个可选的实现方式中,所述确定模块包括:
[0037] 第一解析单元,用于解析所述置信分层输出的矩阵,得到置信分;
[0038] 判断单元,用于判断所述置信分是否大于第一预设阈值;
[0039] 第二解析单元,用于如果所述置信分大于所述第一预设阈值,则解析4个所述位置层分别输出的矩阵以及解析所述倾斜角度层输出的矩阵,得到包含文字行的预测矩形框;
[0040] 确定单元,用于根据所述预测矩形框确定文字行在所述待检测图像中的位置以及文字行的倾斜角度;
[0041] 第三解析单元,用于解析所述正反方向层输出的矩阵,得到所述待检测图像中的文字行中包括的文字的正反方向;
[0042] 第四解析单元,用于解析所述语种层输出的矩阵,得到所述待检测图像中的文字行中包括的文字的语种。
[0043] 在一个可选的实现方式中,在解析4个所述位置层分别输出的矩阵以及解析所述倾斜角度层输出的矩阵之后,得到包含文字行的1个预测矩形框;
[0044] 所述确定单元包括:
[0045] 第一确定子单元,用于将所述预测矩形框在所述待检测图像中的位置确定为文字行在所述待检测图像中的位置;
[0046] 第二确定子单元,用于将所述预测矩形框的倾斜角度确定为文字行的倾斜角度。
[0047] 在一个可选的实现方式中,在解析4个所述位置层分别输出的矩阵以及解析所述倾斜角度层输出的矩阵之后,得到包含文字行的1个预测矩形框;
[0048] 所述确定单元包括:
[0049] 选择子单元,用于从所述多个预测矩形框中选择两个预测矩形框;
[0050] 第一计算子单元,用于计算所述两个预测矩形框之间的重合部分的面积;
[0051] 第二计算子单元,用于计算所述两个预测矩形框的面积之和;
[0052] 第三计算子单元,用于计算所述重合部分的面积与所述两个预测矩形框的面积之和之间的比值;
[0053] 判断子单元,用于判断所述比值是否大于第二预设阈值;
[0054] 第三确定子单元,用于如果所述比值大于所述第二预设阈值,则在所述两个预测矩形框中,将置信分最大的预测矩形框的位置确定为文字行的位置,以及,将置信分最大的预测矩形框的倾斜角度确定为文字行的倾斜角度。
[0055] 第三方面,本发明实施例示出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的一种文字行检测方法的步骤。
[0056] 第四方面,本发明实施例示出了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的一种文字行检测方法的步骤。
[0057] 与现有技术相比,本发明实施例包括以下优点:
[0058] 在本发明实施例中,使用预设YOLO模型同时检测待检测图像中的文字行在待检测图像中的位置、文字行的倾斜角度、文字行中包括的文字的正反方向以及文字行中包括的文字的语种。本发明实施例无需使用自适应二值化方法提取图像中的文字,从而可以避免由于光照或者阴影而降低文字行的检测准确度,也无需使用袋式特征分类器确定文本行中的文字方向和文字语种,避免由其泛化能力较低的而降低文字行的检测准确度。在本发明实施例的YOLO模型的泛化能力强于袋式特征分类器,因此,相比于现有技术,本发明实施例可以提高文字行的检测准确度。附图说明
[0059] 图1是本发明的一种文字行检测方法实施例的步骤流程图
[0060] 图2是本发明的一种文字行的示意图;
[0061] 图3是本发明的一种文字行的示意图;
[0062] 图4是本发明的一种文字行检测装置实施例的结构框图

具体实施方式

[0063] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0064] 参照图1,示出了本发明的一种文字行检测方法实施例的步骤流程图,具体可以包括如下步骤:
[0065] 在步骤S101中,获取预设YOLO模型,该YOLO模型包括24层卷积堆栈,一层完整的卷积堆栈包含卷积层、池化层、批归一化和激活层,该YOLO模型中有4个完整的卷积堆栈和20个只含有卷积层和激活层的卷积堆栈,卷积堆栈激活函数选用线性整流单元,且卷积堆栈间采用残差跳线结构,该YOLO模型还包括8个输出卷积层,该8个输出卷积层包括1个置信分层、4个文字行的位置层,1个文字行的倾斜角度层、1个文字行的正反方向层以及1个文字行的语种层;
[0066] 在YOLO模型中,可以将待检测图像划分为16*16个网格,也可以将待检测图像划分为32*32个网格或者8*8个网格,本发明实施例对此不加以限定。
[0067] 在本发明实施例中,事先需要合成大量的统一大小的图像,然后使用图像训练出YOLO模型,例如采用自适应随机梯度下降法进行训练,初始化学习速率为0.00002,训练轮数为800,为了增强尺度鲁棒性,每隔一轮训练时将图片大小放大2倍,收敛后的模型在2000张标注图像上调优。深度学习框架可以选用theano等。然后使用基于LOSS设计的损失函数优化训练出的YOLO模型,然后将最终得到的YOLO模型作为预设YOLO模型存储在本地。
[0068] 总的loss等于分类和回归文字行在图像中的位置的loss、文字行的倾斜角度的loss、文字行中包括的文字的正反方向的loss以及文字行中包括的文字的语种的loss的加权组合,例如:
[0069] loss=lobj+0.1*lnonObj+5*lbnd+lori+lscript
[0070] 其中lobj和lnonObj为是否存在文字的分类损失,对应8个输出卷积层包括的1个置信分层,lbnd为最小旋转外接矩形的回归损失,对应8个输出卷积层包括的4个文字行的位置层和1个文字行的倾斜角度层,lori为文字的正反方向损失,对应8个输出卷积层包括的1个文字行的正反方向层,lscript是语种损失,对应8个输出卷积层包括的1个文字行的语种层。
[0071] 在步骤S102中,将待检测图像输入至该YOLO模型中,得到该YOLO模型在该8个输出卷积层分别输出的矩阵;
[0072] 在步骤S103中,根据该8个输出卷积层分别输出的矩阵确定待检测图像中的文字行在待检测图像中的位置、文字行的倾斜角度、文字行中包括的文字的正反方向以及文字行中包括的文字的语种。
[0073] 在本发明实施例中,待检测图像为矩形。文字行包括一行排列的多个文字,每一个文字的中心点连成的线段与待检测图像的横边之间的夹角为文字行的倾斜角度。文字行中包括的文字的语种包括中文、英文、日文、韩文、拉丁文俄文以及俄文等等。文字行中包括的文字的正反方向为文字是正的还是反的,例如,图2所示的文字行中包括的文字的正方方向为正向,图3所示的文字行中包括的文字的正方方向为反向。
[0074] 具体地,可以解析该置信分层输出的矩阵,得到置信分,然后判断该置信分是否大于第一预设阈值,如果该置信分大于该第一预设阈值,则解析4个该位置层分别输出的矩阵以及解析该倾斜角度层输出的矩阵,得到包含文字行的预测矩形框,然后根据所述预测矩形框确定文字行在所述待检测图像中的位置以及文字行的倾斜角度,再解析该正反方向层输出的矩阵,得到待检测图像中的文字行中包括的文字的正反方向,以及解析该语种层输出的矩阵,得到待检测图像中的文字行中包括的文字的语种。
[0075] 在本发明一个实施例中,在解析4个该位置层分别输出的矩阵以及解析该倾斜角度层输出的矩阵之后,如果得到包含文字行的1个预测矩形框,则根据该预测矩形框确定文字行在待检测图像中的位置以及文字行的倾斜角度,可以为:将该预测矩形框在待检测图像中的位置确定为文字行在待检测图像中的位置,以及,将该预测矩形框的倾斜角度确定为文字行的倾斜角度。
[0076] 在本发明另一实施例中,在解析4个该位置层分别输出的矩阵以及解析该倾斜角度层输出的矩阵之后,如果得到包含文字行的多个预测矩形框,则根据该预测矩形框确定文字行在待检测图像中的位置以及文字行的倾斜角度,可以为:从多个预测矩形框中选择两个预测矩形框,计算所述两个预测矩形框之间的重合部分的面积,再计算所述两个预测矩形框的面积之和,然后计算所述重合部分的面积与所述两个预测矩形框的面积之和之间的比值,之后判断该比值是否大于第二预设阈值;如果该比值大于该第二预设阈值,则在该两个预测矩形框中,将置信分最大的预测矩形框的位置确定为文字行的位置,以及,将置信分最大的预测矩形框的倾斜角度确定为文字行的倾斜角度。
[0077] 如果该比值小于或等于该第二预设阈值,则将两个预测矩形框合并为新的预测矩形框,例如,创建一个能够同时包含该两个预测矩形框的、且面积最小的新的预测矩形框,然后再从多个预测矩形框中的剩余的预测矩形框中再选择一个预测矩形框,再将新的预测矩形框与选择的一个预测矩形框继续进行上述操作,具体流程在此不做详述。
[0078] 在本发明实施例中,使用预设YOLO模型同时检测待检测图像中的文字行在待检测图像中的位置、文字行的倾斜角度、文字行中包括的文字的正反方向以及文字行中包括的文字的语种。本发明实施例无需使用自适应二值化方法提取图像中的文字,从而可以避免由于光照或者阴影而降低文字行的检测准确度,也无需使用袋式特征分类器确定文本行中的文字方向和文字语种,避免由其泛化能力较低的而降低文字行的检测准确度。在本发明实施例的YOLO模型的泛化能力强于袋式特征分类器,因此,相比于现有技术,本发明实施例可以提高文字行的检测准确度。
[0079] 需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
[0080] 参照图4,示出了本发明一种文字行检测装置实施例的结构框图,该装置具体可以包括如下模块:
[0081] 获取模块11,用于获取预设YOLO模型,所述YOLO模型包括24层卷积堆栈,一层完整的卷积堆栈包含卷积层、池化层、批归一化和激活层,所述YOLO模型中有4个完整的卷积堆栈和20个只含有卷积层和激活层的卷积堆栈,卷积堆栈激活函数选用线性整流单元,且卷积堆栈间采用残差跳线结构,所述YOLO模型还包括8个输出卷积层,所述8个输出卷积层包括1个置信分层、4个文字行的位置层,1个文字行的倾斜角度层、1个文字行的正反方向层以及1个文字行的语种层;
[0082] 输入模块12,用于将所述待检测图像输入至所述YOLO模型中,得到所述YOLO模型在所述8个输出卷积层分别输出的矩阵;
[0083] 确定模块13,用于根据所述8个输出卷积层分别输出的矩阵确定所述待检测图像中的文字行在所述待检测图像中的位置、文字行的倾斜角度、文字行中包括的文字的正反方向以及文字行中包括的文字的语种。
[0084] 在一个可选的实现方式中,所述确定模块13包括:
[0085] 第一解析单元,用于解析所述置信分层输出的矩阵,得到置信分;
[0086] 判断单元,用于判断所述置信分是否大于第一预设阈值;
[0087] 第二解析单元,用于如果所述置信分大于所述第一预设阈值,则解析4个所述位置层分别输出的矩阵以及解析所述倾斜角度层输出的矩阵,得到包含文字行的预测矩形框;
[0088] 确定单元,用于根据所述预测矩形框确定文字行在所述待检测图像中的位置以及文字行的倾斜角度;
[0089] 第三解析单元,用于解析所述正反方向层输出的矩阵,得到所述待检测图像中的文字行中包括的文字的正反方向;
[0090] 第四解析单元,用于解析所述语种层输出的矩阵,得到所述待检测图像中的文字行中包括的文字的语种。
[0091] 在一个可选的实现方式中,在解析4个所述位置层分别输出的矩阵以及解析所述倾斜角度层输出的矩阵之后,得到包含文字行的1个预测矩形框;
[0092] 所述确定单元包括:
[0093] 第一确定子单元,用于将所述预测矩形框在所述待检测图像中的位置确定为文字行在所述待检测图像中的位置;
[0094] 第二确定子单元,用于将所述预测矩形框的倾斜角度确定为文字行的倾斜角度。
[0095] 在一个可选的实现方式中,在解析4个所述位置层分别输出的矩阵以及解析所述倾斜角度层输出的矩阵之后,得到包含文字行的1个预测矩形框;
[0096] 所述确定单元包括:
[0097] 选择子单元,用于从所述多个预测矩形框中选择两个预测矩形框;
[0098] 第一计算子单元,用于计算所述两个预测矩形框之间的重合部分的面积;
[0099] 第二计算子单元,用于计算所述两个预测矩形框的面积之和;
[0100] 第三计算子单元,用于计算所述重合部分的面积与所述两个预测矩形框的面积之和之间的比值;
[0101] 判断子单元,用于判断所述比值是否大于第二预设阈值;
[0102] 第三确定子单元,用于如果所述比值大于所述第二预设阈值,则在所述两个预测矩形框中,将置信分最大的预测矩形框的位置确定为文字行的位置,以及,将置信分最大的预测矩形框的倾斜角度确定为文字行的倾斜角度。
[0103] 在本发明实施例中,使用预设YOLO模型同时检测待检测图像中的文字行在待检测图像中的位置、文字行的倾斜角度、文字行中包括的文字的正反方向以及文字行中包括的文字的语种。本发明实施例无需使用自适应二值化方法提取图像中的文字,从而可以避免由于光照或者阴影而降低文字行的检测准确度,也无需使用袋式特征分类器确定文本行中的文字方向和文字语种,避免由其泛化能力较低的而降低文字行的检测准确度。在本发明实施例的YOLO模型的泛化能力强于袋式特征分类器,因此,相比于现有技术,本发明实施例可以提高文字行的检测准确度。
[0104] 对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0105] 本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0106] 本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0107] 本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0108] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0109] 这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0110] 尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0111] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0112] 以上对本发明所提供的一种文字行检测方法及装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈