专利汇可以提供一种基于修正网络的不规则文本识别系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于修正网络的不规则文本识别系统及方法,本发明的识别系统包括文本修正网络和文本识别网络本发明还涉及一种基于修正网络的不规则文本识别方法,包括如下步骤:通过文本修正网络将不规则文本图片转换成规则文本图片;通过文本识别网络识别上述规则文本图片并输出相对应的文本信息。本发明的识别方法先通过文本修正网络对不规则文本进行修正,如使图片中的文本在 水 平方向上呈现、去除图片中不相关的噪音信息,再通过后续文本识别网络进行识别,基于修正网络对不规则文本图片进行处理能够避免几何约束,可以对各种复杂的不规则的文本图片进行修正,降低了后序文本识别的难度,进而识别效率也就更高。,下面是一种基于修正网络的不规则文本识别系统及方法专利的具体信息内容。
1.一种基于修正网络的不规则文本识别系统,其特征在于:包括文本修正网络和文本识别网络,其中:
文本修正网络:用于将不规则文本图片转换为规则文本图片;
文本识别网络:用于识别上述规则的文本图片并生成文本信息。
2.根据权利要求1所述的基于修正网络的不规则文本识别系统,其特征在于:所述文本修正网络包括预测网络和图片网格化模块,其中:
预测网络:基于卷积神经网络获取由不规则文本图片转换成规则文本图片时所对应的每个像素的位置偏差;
图片网格化模块:将不规则文本图片生成网格图,获得不规则文本图片上的每个像素的坐标信息,综合每个像素的坐标信息与相对应的位置偏差,输出每个像素的转换后的坐标信息,进而获得规则文本图片。
3.根据权利要求1所述的基于修正网络的不规则文本识别系统,其特征在于:所述文本识别网络采用编码器-解码器结构,编码器采用卷积神经网络和循环神经网络进行特征提取,解码器采用双向LSTM,并结合注意力机制。
4.一种基于修正网络的不规则文本识别方法,其特征在于:包括如下步骤:
通过文本修正网络将不规则文本图片转换成规则文本图片;
通过文本识别网络识别上述规则文本图片并输出相对应的文本信息。
5.根据权利要求4所述的基于修正网络的不规则文本识别方法,其特征在于:所述将不规则文本图片转换成规则的文本图片的步骤包括:
基于卷积神经网络获得由不规则文本图片转换成规则文本图片时所对应的每个像素的位置偏差坐标;
基于正则化的处理方式获得原始的不规则文本图片上每个像素的原始位置坐标;
将上述每个像素的原始位置坐标做归一化处理获得每个像素的归一化坐标;
将每个像素的归一化坐标与相应的位置偏差坐标做求和处理获得每个像素的转换位置坐标。
6.根据权利要求5所述的基于修正网络的不规则文本识别方法,其特征在于:所述基于卷积神经网络获得由不规则文本图片转换成规则文本图片时所对应的每个像素的位置偏差坐标的步骤包括:
以不规则文本图片的像素值作为输入,通过预测网络得到一个双通道的特征图,其中一个通道对应X轴偏差坐标,另一个通道对应Y轴偏差坐标,所述预测网络基于卷积神经网络建立;
所述特征图的尺寸小于不规则文本图片的尺寸,通过resize函数将所述特征图转换成不规则文本图片的大小尺寸,获得不规则文本图片上每个像素对应的位置偏差坐标。
7.根据权利要求6所述的基于修正网络的不规则文本识别方法,其特征在于:所述预测网络包括五层:第一层包括一层最大池化层组成,第二层包括一层卷积层和一层最大池化层,第三层包括一层卷积层和一层最大池化层,第四层包括三层卷积层和一层最大池化层,第五层包括一层卷积层,其中:第二层至第四层的卷积层均跟随有一层批归一化层和一层RELU激活函数层,第五层的卷积层跟随有一层批归一化层和一层Tanh激活函数层。
8.根据权利要求6所述的基于修正网络的不规则文本识别方法,其特征在于:将上述每个像素的原始位置坐标做归一化处理获得每个像素的归一化坐标的步骤包括:
获取原始图片的宽度w和高度h,将每个像素的原始位置坐标分别除以[w/2,h/2]获得归一化坐标。
9.根据权利要求4所述的基于修正网络的不规则文本识别方法,其特征在于:所述识别上述规则文本图片并输出相对应的文本信息的步骤中:所述文本识别网络采用编码器-解码器结构,编码器采用卷积神经网络进行特征提取,解码器采用双向LSTM循环神经网络,并结合注意力机制,最终获得基于字符概率分布的输出。
10.根据权利要求4所述的基于修正网络的不规则文本识别方法,其特征在于:所述文本修正网络和文本识别网络的建立包括如下步骤:
搭建文本修正网络结构:基于卷积神经网络搭建文本修正网络的预测网路,以不规则文本图片的像素值为输出,搭建五层结构层,第一层包括一层最大池化层组成,第二层包括一层卷积层和一层最大池化层,第三层包括一层卷积层和一层最大池化层,第四层包括三层卷积层和一层最大池化层,第五层包括一层卷积层,其中:第二层至第四层的卷积层均跟随有一层批归一化层和一层RELU激活函数层,第五层的卷积层跟随有一层批归一化层和一层Tanh激活函数层,输出为两通道的偏差预测信息;
搭建文本识别网络结构:基于编码器-解码器结构建立文本识别网络,基于卷积神经网络和循环神经网络搭建编码器,基于双向LSTM搭建解码器,结合注意力机制,基于字符概率分布输出字符;
建立数据集:选择数据集,并将数据集划分为训练集和测试集;
网络训练:采用课程学习的策略对文本修正网络和文本识别网络进行网络参数的学习,通过规则文本图片先对文本识别网络进行训练,然后固定文本识别网络,通过不规则文本对文本修正网络进行训练,最后采用端到端的方式同时训练文本修正网络和文本识别网络。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种解析房产证照片内容的方法 | 2020-09-06 | 1 |
一种三维模具缺陷检测方法及装置 | 2020-12-11 | 0 |
基于深度学习的鱼类细粒度分类方法 | 2021-04-08 | 2 |
卷积神经网络压缩方法及人脸检测方法 | 2022-10-24 | 0 |
一种基于改进卷积神经网络的焊缝缺陷识别方法 | 2022-09-21 | 1 |
用于面部识别和视频分析以识别上下文视频流中的个人的装置和方法 | 2023-03-13 | 0 |
基于多标签分类的道路交通标志的识别方法 | 2021-06-20 | 1 |
一种面向智慧社区的多摄像机联动多目标追踪方法及系统 | 2020-09-04 | 0 |
基于卷积注意力的矩阵分解方法、装置及电子设备 | 2021-10-30 | 1 |
用於類神經網路計算的旋轉資料 | 2023-11-04 | 0 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。