首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 人工神经网络 / 前馈神经网络 / 深度神经网络 / 卷积神经网络 / 一种基于修正网络的不规则文本识别系统及方法

一种基于修正网络的不规则文本识别系统及方法

阅读:1032发布:2020-06-20

专利汇可以提供一种基于修正网络的不规则文本识别系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于修正网络的不规则文本识别系统及方法,本发明的识别系统包括文本修正网络和文本识别网络本发明还涉及一种基于修正网络的不规则文本识别方法,包括如下步骤:通过文本修正网络将不规则文本图片转换成规则文本图片;通过文本识别网络识别上述规则文本图片并输出相对应的文本信息。本发明的识别方法先通过文本修正网络对不规则文本进行修正,如使图片中的文本在 水 平方向上呈现、去除图片中不相关的噪音信息,再通过后续文本识别网络进行识别,基于修正网络对不规则文本图片进行处理能够避免几何约束,可以对各种复杂的不规则的文本图片进行修正,降低了后序文本识别的难度,进而识别效率也就更高。,下面是一种基于修正网络的不规则文本识别系统及方法专利的具体信息内容。

1.一种基于修正网络的不规则文本识别系统,其特征在于:包括文本修正网络和文本识别网络,其中:
文本修正网络:用于将不规则文本图片转换为规则文本图片;
文本识别网络:用于识别上述规则的文本图片并生成文本信息。
2.根据权利要求1所述的基于修正网络的不规则文本识别系统,其特征在于:所述文本修正网络包括预测网络和图片网格化模,其中:
预测网络:基于卷积神经网络获取由不规则文本图片转换成规则文本图片时所对应的每个像素位置偏差;
图片网格化模块:将不规则文本图片生成网格图,获得不规则文本图片上的每个像素的坐标信息,综合每个像素的坐标信息与相对应的位置偏差,输出每个像素的转换后的坐标信息,进而获得规则文本图片。
3.根据权利要求1所述的基于修正网络的不规则文本识别系统,其特征在于:所述文本识别网络采用编码器-解码器结构,编码器采用卷积神经网络和循环神经网络进行特征提取,解码器采用双向LSTM,并结合注意机制。
4.一种基于修正网络的不规则文本识别方法,其特征在于:包括如下步骤:
通过文本修正网络将不规则文本图片转换成规则文本图片;
通过文本识别网络识别上述规则文本图片并输出相对应的文本信息。
5.根据权利要求4所述的基于修正网络的不规则文本识别方法,其特征在于:所述将不规则文本图片转换成规则的文本图片的步骤包括:
基于卷积神经网络获得由不规则文本图片转换成规则文本图片时所对应的每个像素的位置偏差坐标;
基于正则化的处理方式获得原始的不规则文本图片上每个像素的原始位置坐标;
将上述每个像素的原始位置坐标做归一化处理获得每个像素的归一化坐标;
将每个像素的归一化坐标与相应的位置偏差坐标做求和处理获得每个像素的转换位置坐标。
6.根据权利要求5所述的基于修正网络的不规则文本识别方法,其特征在于:所述基于卷积神经网络获得由不规则文本图片转换成规则文本图片时所对应的每个像素的位置偏差坐标的步骤包括:
以不规则文本图片的像素值作为输入,通过预测网络得到一个双通道的特征图,其中一个通道对应X轴偏差坐标,另一个通道对应Y轴偏差坐标,所述预测网络基于卷积神经网络建立;
所述特征图的尺寸小于不规则文本图片的尺寸,通过resize函数将所述特征图转换成不规则文本图片的大小尺寸,获得不规则文本图片上每个像素对应的位置偏差坐标。
7.根据权利要求6所述的基于修正网络的不规则文本识别方法,其特征在于:所述预测网络包括五层:第一层包括一层最大池化层组成,第二层包括一层卷积层和一层最大池化层,第三层包括一层卷积层和一层最大池化层,第四层包括三层卷积层和一层最大池化层,第五层包括一层卷积层,其中:第二层至第四层的卷积层均跟随有一层批归一化层和一层RELU激活函数层,第五层的卷积层跟随有一层批归一化层和一层Tanh激活函数层。
8.根据权利要求6所述的基于修正网络的不规则文本识别方法,其特征在于:将上述每个像素的原始位置坐标做归一化处理获得每个像素的归一化坐标的步骤包括:
获取原始图片的宽度w和高度h,将每个像素的原始位置坐标分别除以[w/2,h/2]获得归一化坐标。
9.根据权利要求4所述的基于修正网络的不规则文本识别方法,其特征在于:所述识别上述规则文本图片并输出相对应的文本信息的步骤中:所述文本识别网络采用编码器-解码器结构,编码器采用卷积神经网络进行特征提取,解码器采用双向LSTM循环神经网络,并结合注意力机制,最终获得基于字符概率分布的输出。
10.根据权利要求4所述的基于修正网络的不规则文本识别方法,其特征在于:所述文本修正网络和文本识别网络的建立包括如下步骤:
搭建文本修正网络结构:基于卷积神经网络搭建文本修正网络的预测网路,以不规则文本图片的像素值为输出,搭建五层结构层,第一层包括一层最大池化层组成,第二层包括一层卷积层和一层最大池化层,第三层包括一层卷积层和一层最大池化层,第四层包括三层卷积层和一层最大池化层,第五层包括一层卷积层,其中:第二层至第四层的卷积层均跟随有一层批归一化层和一层RELU激活函数层,第五层的卷积层跟随有一层批归一化层和一层Tanh激活函数层,输出为两通道的偏差预测信息;
搭建文本识别网络结构:基于编码器-解码器结构建立文本识别网络,基于卷积神经网络和循环神经网络搭建编码器,基于双向LSTM搭建解码器,结合注意力机制,基于字符概率分布输出字符;
建立数据集:选择数据集,并将数据集划分为训练集和测试集;
网络训练:采用课程学习的策略对文本修正网络和文本识别网络进行网络参数的学习,通过规则文本图片先对文本识别网络进行训练,然后固定文本识别网络,通过不规则文本对文本修正网络进行训练,最后采用端到端的方式同时训练文本修正网络和文本识别网络。

说明书全文

一种基于修正网络的不规则文本识别系统及方法

技术领域

[0001] 本发明涉及计算机视觉技术领域,具体地说是一种基于修正网络的不规则文本识别系统及方法。

背景技术

[0002] 自然场景中文本识别技术可以帮助人们更好更便捷地获取现实生活中的信息,帮助人们了解周围的环境。然而,自然场景中的所包含的文本大都是不规则的文本,可能是弯曲的、切斜的,或者包含大量噪音信息的文本形式。目前,针对规则文本的识别技术借助于深度网络的优势已经取得了很好的进展,但无法使其直接应用于不规则文本的识别问题中,现在针对不规则文本图片大都采用基于注意机制的方法,此类方法不需要对不规则的文本进行修正,直接在原始的图片上结合注意力图定位每一步所需要关注的文本信息位置,直接识别出图片中的文本信息。由于之前方法的一些局限性,例如,在训练的过程中需要更多的监督信息,采用放射变换可能引入更多的噪声等问题,

发明内容

[0003] 本发明的目的是针对以上不足,提供一种更高效的识别基于修正网络的不规则文本识别系统,还提供一种更高效的基于修正网络的不规则文本识别方法。
[0004] 本发明所采用技术方案是:
[0005] 一种基于修正网络的不规则文本识别系统,包括文本修正网络和文本识别网络,其中:
[0006] 文本修正网络:用于将不规则文本图片转换为规则文本图片;
[0007] 文本识别网络:用于识别上述规则的文本图片并生成文本信息。
[0008] 作为优化,本发明所述文本修正网络包括预测网络和图片网格化模,其中:
[0009] 预测网络:基于卷积神经网络获得由不规则文本图片转换成规则文本图片时所对应的每个像素的位置偏差;
[0010] 图片网格化模块:将不规则文本图片生成网格图,获得不规则文本图片上的每个像素的坐标信息,综合每个像素的坐标信息与相对应的位置偏差,输出每个像素的转换后的坐标信息。
[0011] 作为优化,本发明所述文本识别网络采用编码器-解码器结构,编码器采用卷积神经网络和循环神经网络进行特征提取,解码器采用双向LSTM,并结合注意力机制。
[0012] 本发明还涉及一种基于修正网络的不规则文本识别方法,包括如下步骤:
[0013] 通过文本修正网络将不规则文本图片转换成规则文本图片;
[0014] 通过文本识别网络识别上述规则文本图片并输出相对应的文本信息。
[0015] 作为优化,本发明所述将不规则文本图片转换成规则的文本图片的步骤包括:
[0016] 基于卷积神经网络获得由不规则文本图片转换成规则文本图片时所对应的每个像素的位置偏差坐标;
[0017] 基于正则化的处理方式获得原始的不规则文本图片上每个像素的原始位置坐标;
[0018] 将上述每个像素的原始位置坐标做归一化处理获得每个像素的归一化坐标;
[0019] 将每个像素的归一化坐标与相应的位置偏差坐标做求和处理获得每个像素的转换位置坐标。
[0020] 作为优化,本发明所述基于卷积神经网络获得由不规则文本图片转换成规则文本图片时所对应的每个像素的位置偏差坐标的步骤包括:
[0021] 以不规则文本图片的像素值作为输入,通过预测网络得到一个双通道的特征图,其中一个通道对应X轴偏差坐标,另一个通道对应Y轴偏差坐标,所述预测网络基于卷积神经网络建立;
[0022] 所述特征图的尺寸小于不规则文本图片的尺寸,通过resize函数将所述特征图转换成不规则文本图片的大小尺寸,获得不规则文本图片上每个像素对应的位置偏差坐标。
[0023] 作为优化,本发明所述预测网络包括五层:第一层包括一层最大池化层组成,第二层包括一层卷积层和一层最大池化层,第三层包括一层卷积层和一层最大池化层,第四层包括三层卷积层和一层最大池化层,第五层包括一层卷积层,其中:第二层至第四层的卷积层均跟随有一层批归一化层和一层RELU激活函数层,第五层的卷积层跟随有一层批归一化层和一层Tanh激活函数层。
[0024] 作为优化,本发明将上述每个像素的原始位置坐标做归一化处理获得每个像素的归一化坐标的步骤包括:
[0025] 获取原始图片的宽度w和高度h,将每个像素的原始位置坐标分别除以[w/2,h/2]获得归一化坐标。
[0026] 作为优化,本发明所述识别上述规则文本图片并输出相对应的文本信息的步骤中:所述文本识别网络采用编码器-解码器结构,编码器采用卷积神经网络和循环神经网络进行特征提取,解码器采用双向LSTM,并结合注意力机制,最终获得基于字符概率分布的输出。
[0027] 作为优化,本发明所述文本修正网络和文本识别网络的建立包括如下步骤:
[0028] 搭建文本修正网络结构:基于卷积神经网络搭建文本修正网络的预测网路,以不规则文本图片的像素值为输出,搭建五层结构层,第一层包括一层最大池化层组成,第二层包括一层卷积层和一层最大池化层,第三层包括一层卷积层和一层最大池化层,第四层包括三层卷积层和一层最大池化层,第五层包括一层卷积层,其中:第二层至第四层的卷积层均跟随有一层批归一化层和一层RELU激活函数层,第五层的卷积层跟随有一层批归一化层和一层Tanh激活函数层,输出为两通道的偏差预测信息;
[0029] 搭建文本识别网络结构:基于编码器-解码器结构建立文本识别网络,基于卷积神经网络和循环神经网络搭建编码器,基于双向LSTM搭建解码器,结合注意力机制,基于字符概率分布输出字符;
[0030] 建立数据集:选择数据集,并将数据集划分为训练集和测试集;
[0031] 网络训练:采用课程学习的策略对文本修正网络和文本识别网络进行网络参数的学习,通过规则文本图片先对文本识别网络进行训练,然后固定文本识别网络,通过不规则文本对文本修正网络进行训练,最后采用端到端的方式同时训练文本修正网络和文本识别网络。
[0032] 本发明具有以下优点:
[0033] 1、本发明的识别方法先通过文本修正网络对不规则文本进行修正,如使图片中的文本在平方向上呈现、去除图片中不相关的噪音信息,再通过后续文本识别网络进行识别,基于修正网络对不规则文本图片进行处理能够避免几何约束,可以对各种复杂的不规则的文本图片进行修正,降低了后序文本识别的难度,进而识别效率也就更高;
[0034] 2、本发明的文本识别网络中结构注意力机制,能够获得更多的上下文的文本信息和更强的鲁棒性,提高识别的准确率;
[0035] 3、本发明在网络训练时以一种弱监督的方式对网络结构进行训练,只需要原始的图片和对应的文本标签,不需要其他额外的监督信息。
[0036] 4、本发明在训练时采用课程学习的策略,迭代地训练更新网络结构,使网络训练效果更好,效率更高。附图说明
[0037] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038] 下面结合附图对本发明进一步说明:
[0039] 图1为本发明的流程示意图。

具体实施方式

[0040] 下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
[0041] 需要理解的是,在本发明实施例的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。在本发明实施例中的“多个”,是指两个或两个以上。
[0042] 本发明实施例中的属于“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B这三种情况。另外,本文中字符“/”一般表示前后关联对象是一种“或”关系。
[0043] 实施例一
[0044] 如图1所示,本实施例提供一种基于修正网络的不规则文本识别系统,包括文本修正网络和文本识别网络,其中:
[0045] 文本修正网络:用于将不规则文本图片转换为规则文本图片;具体的,所述文本修正网络包括预测网络和图片网格化模块,其中:预测网络是基于卷积神经网络获得由不规则文本图片转换成规则文本图片时所对应的每个像素的位置偏差;图片网格化模块是将不规则文本图片生成网格图,获得不规则文本图片上的每个像素的坐标信息,综合每个像素的坐标信息与相对应的位置偏差,输出每个像素的转换后的坐标信息。
[0046] 文本识别网络:用于识别上述规则文本图片并生成文本信息,所述文本识别网络采用编码器-解码器结构,编码器采用卷积神经网络和循环神经网络进行特征提取,解码器采用双向LSTM,并结合注意力机制。
[0047] 实施例二
[0048] 本实施例提供一种基于修正网络的不规则文本识别系统的构建方法,包括如下步骤:
[0049] 搭建文本修正网络结构:基于卷积神经网络搭建文本修正网络的预测网络,以不规则文本图片的像素值为输出,搭建五层结构层,第一层包括一层最大池化层组成,第二层包括一层卷积层和一层最大池化层,第三层包括一层卷积层和一层最大池化层,第四层包括三层卷积层和一层最大池化层,第五层包括一层卷积层,其中:第二层至第四层的卷积层均跟随有一层批归一化层和一层RELU激活函数层,第五层的卷积层跟随有一层批归一化层和一层Tanh激活函数层,输出为两通道的偏差预测信息;
[0050] 搭建文本识别网络结构:基于编码器-解码器结构建立文本识别网络,基于卷积神经网络和循环神经网络搭建编码器,基于双向LSTM搭建解码器,结合注意力机制,基于字符概率分布输出字符;
[0051] 建立数据集:选择数据集,如IIIT5K-Words,Street View Text,ICDAR2003,ICDAR2013,CUTE80,ICDAR2015等,并将数据集划分为训练集和测试集;
[0052] 网络训练:采用课程学习的策略对文本修正网络和文本识别网络进行网络参数的学习,通过规则文本图片先对文本识别网络进行训练,然后固定文本识别网络,通过不规则文本对文本修正网络进行训练,最后采用端到端的方式同时训练文本修正网络和文本识别网络。
[0053] 实施例三
[0054] 如图1所示,本实施例基于实施例二训练好的不规则文本识别系统提供一种基于修正网络的不规则文本识别方法,包括如下步骤:
[0055] S1、通过文本修正网络将不规则文本图片转换成规则文本图片;该步骤具体具体包括如下内容:
[0056] S11、基于卷积神经网络获得由不规则文本图片转换成规则文本图片时所对应的每个像素的位置偏差坐标:具体的,将不规则文本图片输入至预测网络中,以不规则文本图片的像素值作为输入,通过预测网络得到一个双通道的特征图,其中一个通道对应X轴偏差坐标,另一个通道对应Y轴偏差坐标,通道与X轴和Y轴的对应关系通过处理方式进行对应判断,X轴对应不规则文本图片的宽度方向,Y轴对应不规则图片的高度方向;前述生成的两通道的特征图的尺寸小于不规则文本图片的尺寸,通过双线性插值法将所述特征图转resize不规则文本图片的大小尺寸,获得不规则文本图片上每个像素对应的位置偏差坐标。这里需要注意的是,经过预测网络输出的特征图上对应的通道值均位于[-1,1]范围内,通过线性插值法将特征图resize原始的不规则文本图片的大小时,不规则文本图片的大小通过像素值表示,即通过线性插法将特征图的像素等量为原始的不规则文本图片的像素值,因此获得的每个像素的位置偏差坐标位于[-1,1]范围;
[0057] 上述中,所述预测网络基于卷积神经网络建立,所述预测网络包括五层:第一层包括一层最大池化层组成,第二层包括一层卷积层和一层最大池化层,第三层包括一层卷积层和一层最大池化层,第四层包括三层卷积层和一层最大池化层,第五层包括一层卷积层,其中:第二层至第四层的卷积层均跟随有一层批归一化层和一层RELU激活函数层,第五层的卷积层跟随有一层批归一化层和一层Tanh激活函数层;
[0058] S12、基于正则化的处理方式获得原始的不规则文本图片上每个像素的原始位置坐标;该处所得的原始位置坐标是以不规则文本图片的中心为坐标原点,与上述特征图保持一致性,以不规则文本图片的宽度方向为X轴方向,且向右为X轴的正向方向,以不规则文本图片的高度方向为Y轴方向,且向下为Y轴的正向方向。该处理过程中不规则文本图片的大小是以长度单位来计量的,因此,所获得的像素的原始位置坐标值基于长度单位的数值;
[0059] S13、将上述每个像素的原始位置坐标做归一化处理获得每个像素的归一化坐标,具体处理过程为获取原始图片的宽度w和高度h,将每个像素的原始位置坐标分别除以[w/2,h/2]获得归一化坐标,将像素的原始位置坐标归一化后,使获得的归一化坐标与位置偏差坐标相对应,便于后续求和处理;
[0060] S14、将每个像素的归一化坐标与相应的位置偏差坐标做求和处理获得每个像素的转换位置坐标,所有转换后的像素拼接成规则文本图片;
[0061] S2、通过文本识别网络识别上述规则文本图片并输出相对应的文本信息,所述文本识别网络采用编码器-解码器结构,编码器基于卷积神经网络和循环神经网络,卷积神经网络的可以采用可以采用AlexNet、VGG、ResNet等网络结构,解码器基于双向LSTM,并结合注意力机制,最终获得基于字符概率分布的输出。由规则文本图片生成文本信息的技术已较为成熟,可以参考现有技术中理解优化本实施例技术方案。
[0062] 以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈