首页 / 专利库 / 电子零件及设备 / 二极管 / 光电二极管 / PIN光电二极管 / 本征区 / 基于OCR与文本挖掘的机动车数字电子档案分类方法

基于OCR与文本挖掘的机动车数字电子档案分类方法

阅读:446发布:2024-02-18

专利汇可以提供基于OCR与文本挖掘的机动车数字电子档案分类方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于OCR与 文本挖掘 的机动车数字 电子 档案分类方法,包括以下步骤:S1,建立机动车业务电子档案表头 数据库 ;S2,对待分类数字图像进行图像二值化处理;S3,对待分类数字照片进行截取,截取需要识别的表头区域;S4,利用tesseract-OCR文字识别引擎识别步骤S3中截取的图片区域,并利用文本挖掘技术处理得到的识别结果,得到文字序列;S5,计算步骤S4中的文字序列与步骤S1中数据库中表头的相似度;S6,选择相似度最大对应的数据库表头作为待分类数字照片的分类结果。本发明可以对机动车业务电子档案进行智能分类,实现机动车业务的信息化,从而提高机动车业务的办事效率、降低人工成本。,下面是基于OCR与文本挖掘的机动车数字电子档案分类方法专利的具体信息内容。

1.一种基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,包括以下步骤:
S1,建立机动车业务电子档案表头数据库
S2,对待分类数字图像进行图像二值化处理;
S3,对待分类数字照片进行截取,截取需要识别的表头区域;
S4,利用tesseract-OCR文字识别引擎识别步骤S3中截取的图片区域,并利用文本挖掘技术处理得到的识别结果,得到文字序列;
S5,计算步骤S4中的文字序列与步骤S1中数据库中表头的相似度;
S6,选择相似度最大对应的数据库表头作为待分类数字照片的分类结果。
2.根据权利要求1所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S1中,建立的表头数据库采用mysql数据库,对所有业务种类照片表头进行存储。
3.根据权利要求2所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S2中,图像二值化处理采用Bernsen局部二值化方法。
4.根据权利要求3所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S3中,数字照片表头截取采用矩阵分析法进行切取。
5.根据权利要求4所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S5中,相似度计算采用改进的Jaccard系数计算方法。
6.根据权利要求1所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S2具体包括:
设图像在像素点(i,j)处的灰度值f(i,j),以像素点(i,j)为中心的(2ω+1)×(2ω+1)窗口,其中2ω+1表示窗口的边长,则Bernsen算法描述为:
采用下式对图像中个像素点(i,j)用b(i,j)值逐点进行二值化:
7.根据权利要求6所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S3具体包括:
步骤S2中二值化后的图像为二维数组,用二维数组X表示;
首先,求出数组X的高与宽,记为size_X,即
size_X=[h,w]
其中w,h分别表示数组X的宽度与高度大小;
构造维度大小为[w,1]的全1向量V:
V=[1,1,……,1]1×w
计算矩阵乘积:
R=XVT=[r1,r2,……,rh]T
对R中的数据利用下式进行归一化操作:
其中M=max{r1,r2,……,rh},表示“记为”;
其次,统计R中数据分布,并依据分布规律,选择一个阈值H,使得该阈值能将空白区行与含有相当文字的行区别开来;
当ri1>H(i∈{1,2……,h})时,行i几乎空白;当ri1<H(i∈{1,2……,h})时,行i含有相当多的黑色像素;表头文字出现在表单的开头,找到R1中第一次不少于连续四次小于H的区域记为表头出现的区域,设R1中从n1到n2第一次连续出现小于H区域,则截取的区域HR为X的n1到n2行。
8.根据权利要求7所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S4具体包括:
搭建tesseract文字识别引擎,对步骤S3中截取的表头区域HR进行文字识别,设识别结果为W;
W=a1a2……an
将识别结果分割成单个字符序列,记为W1,即W1={a1,a2,……,an}。
9.根据权利要求8所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S5具体包括:
采用与分别计算数据库中各表头数据与步骤S4中W1的相似度,以数据库中相似度最高
1
的表头作为待分类图片的表头,以数据库中表头W=b1b2……bm进行相似度的计算;
首先,将W1处理成W1的形式,不放仍然记为W1,即
W1={b1,b2,……,bm}
然后,计算W1与W1中共同文字的个数|W1∩W1|,W1∩W1为集合W1={b1,b2,……,bm}与W1={a1,a2,……,an}交集;
通过以下改进的Jaccard系数计算相似系数l1
其中|W1|表示表头W1的字符长度;
对数据库中所有表头数据进行同样操作,得到相似系数序列S;
S={l1,l2,……,lk}
其中k为数据库中表头的个数。

说明书全文

基于OCR与文本挖掘的机动车数字电子档案分类方法

技术领域

[0001] 本发明涉及电子信息技术领域,特别是涉及一种基于OCR与文本挖掘的机 动车数字电子档案分类方法。

背景技术

[0002] 据公安部交通管理局官方发布统计数据,截至2019年1月全国机动车保有 量已达3.27亿辆,机动车驾驶人达4.09亿人,且每年以5%-7%的速度增长。交 警支队车辆管理所作为机动车和驾驶人业务管理部,承担着庞大的业务办理 和档案管理工作。
[0003] 目前后台的档案分类、审核与管理工作基本采用人工操作模式,人工逐张 分类、审核机动车与驾驶人员的相关信息。由于电子化的档案照片需要人工逐 张识别照片名称,这一办事方式普遍存在效率低下,工作强度大、处理周期长、 人工成本高等诸多问题。随着机动车数量的增加,这种处理方式将不能满足机 动车业务办理的需要。

发明内容

[0004] 本发明的目的在于提出一种基于OCR与文本挖掘的机动车数字电子档案分 类方法,以提高机动车业务的办事效率、降低人工成本。
[0005] 一种基于OCR与文本挖掘的机动车数字电子档案分类方法,包括以下步骤:
[0006] S1,建立机动车业务电子档案表头数据库
[0007] S2,对待分类数字图像进行图像二值化处理;
[0008] S3,对待分类数字照片进行截取,截取需要识别的表头区域;
[0009] S4,利用tesseract-OCR文字识别引擎识别步骤S3中截取的图片区域,并利 用文本挖掘技术处理得到的识别结果,得到文字序列;
[0010] S5,计算步骤S4中的文字序列与步骤S1中数据库中表头的相似度;
[0011] S6,选择相似度最大对应的数据库表头作为待分类数字照片的分类结果。
[0012] 上述基于OCR与文本挖掘的机动车数字电子档案分类方法,其中,步骤S1 中,建立的表头数据库采用mysql数据库,对所有业务种类照片表头进行存储。
[0013] 上述基于OCR与文本挖掘的机动车数字电子档案分类方法,其中,步骤S2 中,图像二值化处理采用Bernsen局部二值化方法。
[0014] 上述基于OCR与文本挖掘的机动车数字电子档案分类方法,其中,步骤S3 中,数字照片表头截取采用矩阵分析法进行切取。
[0015] 上述基于OCR与文本挖掘的机动车数字电子档案分类方法,其中,步骤S5 中,相似度计算采用改进的Jaccard系数计算方法。
[0016] 上述基于OCR与文本挖掘的机动车数字电子档案分类方法,其中,步骤S2 具体包括:
[0017] 设图像在像素点(i,j)处的灰度值f(i,j),以像素点(i,j)为中心的(2ω+1)×(2ω+1) 窗口,其中2ω+1表示窗口的边长,则Bernsen算法描述为:
[0018]
[0019] 采用下式对图像中个像素点(i,j)用b(i,j)值逐点进行二值化:
[0020]
[0021] 上述基于OCR与文本挖掘的机动车数字电子档案分类方法,其中,步骤S3 具体包括:
[0022] 步骤S2中二值化后的图像为二维数组,用二维数组X表示;
[0023] 首先,求出数组X的高与宽,记为size_X,即
[0024] size_X=[h,w]
[0025] 其中w,h分别表示数组X的宽度与高度大小;
[0026] 构造维度大小为[w,1]的全1向量V:
[0027] V=[1,1,……,1]1×w
[0028] 计算矩阵乘积:
[0029] R=XVT=[r1,r2,……,rh]T
[0030] 对R中的数据利用下式进行归一化操作:
[0031]
[0032] 其中M=max{r1,r2,……,rh},表示“记为”;
[0033] 其次,统计R中数据分布,并依据分布规律,选择一个阈值H,使得该阈值 能将空白区行与含有相当文字的行区别开来;
[0034] 当ri1>H(i∈{1,2……,h})时,行i几乎空白;当 时, 行i含有相当多的黑色像素;表头文字出现在表单的开头,找到R1中第一次不少 于连续四次小于H的区域记为表头出现的区域,设R1中从n1到n2第一次连续出现 小于H区域,则截取的区域HR为X的n1到n2行。
[0035] 上述基于OCR与文本挖掘的机动车数字电子档案分类方法,其中,步骤S4 具体包括:
[0036] 搭建tesseract文字识别引擎,对步骤S3中截取的表头区域HR进行文字识 别,设识别结果为W;
[0037] W=a1a2……an
[0038] 将识别结果分割成单个字符序列,记为W1,即W1={a1,a2,……,an}。
[0039] 上述基于OCR与文本挖掘的机动车数字电子档案分类方法,其中,步骤S5 具体包括:
[0040] 采用与分别计算数据库中各表头数据与步骤S4中W1的相似度,以数据库中 相似度最高的表头作为待分类图片的表头,以数据库中表头W1=b1b2……bm进行 相似度的计算;
[0041] 首先,将W1处理成W1的形式,不放仍然记为W1,即
[0042] W1={b1,b2,……,bm}
[0043] 然后,计算W1与W1中共同文字的个数|W1∩W1|,W1∩W1为集合 W1={b1,b2,……,bm}与W1={a1,a2,……,an}交集;
[0044] 通过以下改进的Jaccard系数计算相似系数l1
[0045]
[0046] 其中|W1|表示表头W1的字符长度;
[0047] 对数据库中所有表头数据进行同样操作,得到相似系数序列S;
[0048] S={l1,l2,……,lk}
[0049] 其中k为数据库中表头的个数。
[0050] 根据本发明提供的基于OCR与文本挖掘的机动车数字电子档案分类方法, 将tesseract文字识别引擎与文本挖掘技术结合,利用Bernsen算法进行局部二值 化,避免全局二值化而影响局部性质,大大提高了二值化后的图像的清晰度, 通过矩阵分析方法实现精准截取,提高了图片的分类效率,节省了处理时间, 并在一定程度上提高了匹配准确率,利用改进的Jaccard系数计算识别结果与数 据库中表头的相似性,以适应不同Jaccard系数的比较问题,其结果可以用来对 机动车业务电子档案进行智能分类,实现机动车业务的信息化,使得本发明提 供的方法能够提高机动车业务的办事效率、降低人工成本,对于机动车业务办 理的信息化、智能化有一定的推动作用。附图说明
[0051] 本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描 述中将变得明显和容易理解,其中:
[0052] 图1为本发明实施例提供的基于OCR与文本挖掘的机动车数字电子档案分 类方法的流程示意图。

具体实施方式

[0053] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明 实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然, 所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中 的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其 他实施例,都属于本发明保护的范围。
[0054] 请参阅图1,对本实施例提供的基于OCR与文本挖掘的机动车数字电子档 案分类方法,包括:
[0055] S1:建立机动车业务电子档案表头数据库。
[0056] 其中,获取机动车业务所有类型的表单,将其表单表头存储到mysql数据库, 为后续数据获取与存储提供数据基础
[0057] S2:对待分类数字图像进行图像二值化处理。
[0058] 首先对图像进行灰度化处理,然后利用Bernsen算法将图片二值化处理。 Bernsen算法是一种典型的局部阈值算法,其将窗口中各个像素灰度级最大最小 值得平均值作为一个窗口的中心像素的阈值。
[0059] 具体地,设图像在像素点(i,j)处的灰度值f(i,j),考虑以像素点(i,j)为中心的 (2ω+1)×(2ω+1)窗口,其中2ω+1表示窗口的边长,则Bernsen算法可以描述为:
[0060]
[0061] 对图像中个像素点(i,j)用b(i,j)值逐点进行二值化
[0062]
[0063] S3:对待分类数字照片进行截取,精准截取需要识别的表头区域。
[0064] 对于待分类的数字照片,图片较大,所含的文字较多,直接进行文字识别, 需要较长的时间,同时多余的文字对于文本分类会产生一定的干扰,为此,有 必要精准提取需要识别的表头区域。步骤S2中二值化后的图像为二维数组,用 二维数组X表示。
[0065] 首先,求出数组X的高与宽,记为size_X,即
[0066] size_X=[h,w]
[0067] 其中w,h分别表示数组X的宽度与高度大小。
[0068] 构造维度大小为[w,1]的全1向量V,
[0069] V=[1,1,……,1]1×w
[0070] 计算矩阵乘积
[0071] R=XVT=[r1,r2,……,rh]T
[0072] 并对R中的数据利用下式进行归一化操作、
[0073]
[0074] 其中M=max{r1,r2,……,rh},表示“记为”。
[0075] 其次,统计R中数据分布,并依据分布规律,选择一个阈值H,使得该阈值 能将空白区行与含有相当文字的行区别开来。
[0076] 具体地,当ri1>H(i∈{1,2……,h})时,行i几乎空白;当时,行i含有相当多的黑色像素。表头文字出现在表单的开头,找到R1中第一次 不少于连续四次小于H的区域记为表头出现的区域,不妨设R1中从n1到n2第一次 连续出现小于H区域,则截取的区域HR为X的n1到n2行。
[0077] S4:利用tesseract-OCR引擎进行文字识别步骤S3中截取的图片区域HR,并处 理成文字序列。
[0078] 首先搭建tesseract文字识别引擎,对步骤S3中截取的表头区域HR进行文 字识别,不妨设识别结果为W
[0079] W=a1a2……an
[0080] 为了后续进行相似度计算,将识别结果分割成单个字符序列。记为W1,即[0081] W1={a1,a2,……,an}。
[0082] S5:计算步骤S4中的文字序列与步骤S1中数据库中表头的相似度。
[0083] 由于文字识别都存在一定的错误概率,因此不能直接以步骤S4中的识别结 果作为最终分类名称。采用与分别计算数据库中各表头数据与步骤S4中W1的相 似度,以数据库中相似度最高的表头作为待分类图片的表头。下面以数据库中 表头W1=b1b2……bm为例进行相似度的计算说明。
[0084] 首先,将W1处理成W1的形式,不放仍然记为W1,即
[0085] W1={b1,b2,……,bm}
[0086] 然后,计算W1与W1中共同文字的个数|W1∩W1|,W1∩W1为集合 W1={b1,b2,……,bm}与W1={a1,a2,……,an}交集。
[0087] 通过以下改进的Jaccard系数计算相似系数l1
[0088]
[0089] 其中|W1|表示表头W1的字符长度。
[0090] 对数据库中所有表头数据进行同样操作,得到相似系数序列S
[0091] S={l1,l2,……,lk}
[0092] 其中k为数据库中表头的个数。
[0093] S6:选择相似系数最大对应的数据库表头作为待分类数字照片的分类结果。
[0094] 选择步骤S5中相似系数最大数据库中对应的表头作为待分类表单的分类结 果。通过软件开发机动车电子档案分类系统,输入数据待分类表单图片,实现 快速对机动车电子档案分类。
[0095] 需要指出的是,本实施例中步骤S2~S5可以通过Python,C++等软件实现。
[0096] 根据本实施例提供的基于OCR与文本挖掘的机动车数字电子档案分类方 法,将tesseract文字识别引擎与文本挖掘技术结合,利用Bernsen算法进行局部 二值化,避免全局二值化而影响局部性质,大大提高了二值化后的图像的清晰 度,通过矩阵分析方法实现精准截取,提高了图片的分类效率,节省了处理时 间,并在一定程度上提高了匹配准确率,利用改进的Jaccard系数计算识别结果 与数据库中表头的相似性,以适应不同Jaccard系数的比较问题,其结果可以用 来对机动车业务电子档案进行智能分类,实现机动车业务的信息化,使得本发 明提供的方法能够提高机动车业务的办事效率、降低人工成本,对于机动车业 务办理的信息化、智能化有一定的推动作用。
[0097] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、 “具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特 征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明 书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描 述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中 以合适的方式结合。
[0098] 尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解: 在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、 替换和变型,本发明的范围由权利要求及其等同物限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈