首页 / 专利库 / 人工智能 / 线性分类器 / 一种基于多任务深度学习的票据文本检测方法

一种基于多任务深度学习的票据文本检测方法

阅读:451发布:2020-05-12

专利汇可以提供一种基于多任务深度学习的票据文本检测方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种基于多任务 深度学习 的票据文本检测方法,所述方法包括:构建多层 卷积神经网络 作为图像特征提取骨干网络,实现票据图像的特征提取;在卷积特征图上标注票据文本区域及区域中心线并训练,实现票据文本信息区域分割与文本中心线检测;在票据文本信息区域内通过滑动窗口方法沿着文本中心线前行,实现票据文本信息区域的单字符分割;依次对分割后的单个字符进行分类识别,形成完成票据文本信息。本发明利用深度学习强大的特征提取、归纳能 力 ,提出采用端到端的多任务学习方法,实现票据文本区域分割、文本字符分割、文本字符识别,解决经典票据文本信息检测方法适用性不足、效率不高的问题。,下面是一种基于多任务深度学习的票据文本检测方法专利的具体信息内容。

1.一种基于多任务深度学习的票据文本检测方法,其特征在于,所述方法包括:
A构建多层卷积神经网络作为图像特征提取骨干网络,实现票据图像的特征提取;
B在卷积特征图上标注票据文本区域及区域中心线,并对票据文本区域及区域中心线进行训练,实现票据文本信息区域分割与文本中心线检测;
C在票据文本信息区域内通过滑动窗口方法沿着文本中心线前行,实现票据文本信息区域的单字符分割;
D依次对分割后的单个字符进行分类识别,形成完成票据文本信息。
2.如权利要求1所述的基于多任务深度学习的票据文本检测方法,其特征在于,所述步骤A中,在特征提取骨干网络的卷积层中引入空洞卷积,即对上一层卷积运算后的特征图进行双线性差值,扩大卷积特征图的分辨率,再进行本卷积层的卷积运算,在保证卷积核参数不变情况下,扩大卷积感受野,以得到更加丰富的票据图像特征。
3.如权利要求1所述的基于多任务深度学习的票据文本检测方法,其特征在于,所述步骤A中,在多卷积层神经网络提取票据图像特征过程中,拼接低层卷积层输出特征向量、高层卷积层输出向量,形成最终的输出特征图,以保留低层卷积层中的边缘、纹理特征,高级卷积层中的语义特征。
4.如权利要求1所述的基于多任务深度学习的票据文本检测方法,其特征在于,所述步骤B中,以票据文本信息区域分割与文本中心线检测中的参数为输出目标训练网络,获取票据文本信息区域分割、文本区域中心线检测结果;所述票据文本信息区域分割与文本中心线检测中的参数包括中心线像素点坐标(xi,yi)、中心线像素点到文本区域上边界偏移量中心线像素点到文本区域下边界偏移量
5.如权利要求1所述的基于多任务深度学习的票据文本检测方法,其特征在于,所述步骤C中,通过文本中心线上的每个像素(xi,yi),预测每个字符左上、右上、左下、后下四个顶点与中心线像素的距离分别为 每个字符与中心线的真实距离
为 构建损失函数:
其中,αlt、αrt、αld、αrd为各项距离损失修正项,以控制各项距离损失的比重。
6.如权利要求1所述的基于多任务深度学习的票据文本检测方法,其特征在于,所述步骤D中,通过字符图像数据集预训练字符Softmax多分类器,对步骤C中分割得到的单个字符依次进行分类识别,形成完整票据文本信息。

说明书全文

一种基于多任务深度学习的票据文本检测方法

技术领域

[0001] 本发明涉及票据防伪鉴别领域,尤其涉及一种基于多任务深度学习的票据文本检测方法。

背景技术

[0002] 视觉检测鉴别技术因准确性高、非接触、适用性好而得到广泛应用。票据图像文本信息具有文本信息区域繁多、汉字数字英文交叉混合等特点,目前票据图像文本信息多由人工进行读取,工作枯燥、重复性高,在疲劳工作下易由于精神不集中出现误读、漏读情况,研究机器代人的票据图像文本信息获取方法是该领域的研究重点。
[0003] 近年来,随着电子硬件行业与信息行业迅速发展,计算机计算能飞速提高,使大规模的图像计算与推理成为可能。基于深度学习的图像检测方法开始应用于图像文本信息获取领域并取得显著成效。基于深度学习的文本信息检测方法利用多层卷积运算对图像逐层提取图像特征,并进行特征运算、处理、归纳,通过文本信息区域定位、文本字符分割、文本字符分类识别等多任务组合,形成高效、泛用性强的文本信息读取方法。人工检测与传统图像分类方法在票据文本信息检测领域均有其短板,而基于深度学习的票据文本信息获取技术具有泛用性强、检测效率高的优势,将有助于提高金融行业数字化、智能化的发展与进步。

发明内容

[0004] 为解决上述存在的问题与缺陷,本发明提供一种基于多任务深度学习的票据文本检测方法,将票据文本检测分为票据文本区域分割、票据文本字符分割、票据文本字符分类与识别三个任务,并统一于深度学习框架中,采用监督学习方法实现票据文本信息获取,解决目前票据文本信息获取中依赖人工等问题。
[0005] 本发明的目的通过以下的技术方案来实现:
[0006] 一种基于多任务深度学习的票据文本检测方法,该方法包括:
[0007] A构建多层卷积神经网络作为图像特征提取骨干网络,实现票据图像的特征提取;
[0008] B在卷积特征图上标注票据文本区域及区域中心线并训练,实现票据文本信息区域分割与文本中心线检测;
[0009] C在票据文本信息区域内通过滑动窗口方法沿着文本中心线前行,实现票据文本信息区域的单字符分割;
[0010] D依次对分割后的单个字符进行分类识别,形成完成票据文本信息。
[0011] 本发明有益效果是:
[0012] 利用深度学习在特征提取、归纳、推理的优势,将票据文本检测分为票据文本区域分割、票据文本字符分割、票据文本字符分类与识别三个任务,在大量标注数据支持下训练深度神经网络,实现票据文本信息的高效、准确检测与识别。附图说明
[0013] 图1是本发明所述的一种基于多任务深度学习的票据文本检测方法流程框图

具体实施方式

[0014] 下面结合实施例及附图对本发明作进一步详细的描述。
[0015] 本发明是一种基于多任务深度学习的票据文本检测方法,如图1所示,该方法包括如下步骤:
[0016] 步骤10、构建多层卷积神经网络作为图像特征提取骨干网络,实现票据图像的特征提取:
[0017] 在特征提取骨干网络的卷积层中引入空洞卷积,即对上一层卷积运算后的特征图进行双线性差值,扩大卷积特征图的分辨率,再进行本卷积层的卷积运算,在保证卷积核参数不变情况下,扩大卷积感受野,以得到更加丰富的票据图像特征;
[0018] 在多卷积层神经网络提取票据图像特征过程中,拼接低层卷积层输出特征向量、高层卷积层输出向量,形成最终的输出特征图,以保留低层卷积层中的边缘、纹理特征,高级卷积层中的语义特征。
[0019] 步骤20、在卷积特征图上标注票据文本区域及区域中心线并训练,实现票据文本信息区域分割与文本中心线检测;
[0020] 票据文本信息区域分割与文本中心线检测参数包括中心线像素点坐标(xi,yi)、中心线像素点到文本区域上边界偏移量 中心线像素点到文本区域下边界偏移量 以上述参数为输出目标训练网络,获取票据文本信息区域分割、文本区域中心线检测结果。
[0021] 步骤30、在票据文本信息区域内通过滑动窗口方法沿着文本中心线前行,实现票据文本信息区域的单字符分割;
[0022] 在票据文本信息区域以滑动窗口方法沿着文本中心线前行,对于中心线上每个像素(xi,yi),预测每个字符左上、右上、左下、后下四个顶点与中心线像素的距离分别为每个字符与中心线的真实距离为 构建损失函数:
[0023]
[0024] 其中,αlt、αrt、αld、αrd为各项距离损失修正项,以控制各项距离损失的比重。
[0025] 步骤40、依次对分割后的单个字符进行分类识别,形成完成票据文本信息:
[0026] 在字符图像数据集预训练字符Softmax多分类器,对步骤30中分割得到的单个字符依次采用Softmax多分类器进行分类识别,形成完整票据文本信息。
[0027] 虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈