专利汇可以提供基于OCR与文本挖掘的机动车数字电子档案分类方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于OCR与 文本挖掘 的机动车数字 电子 档案分类方法,包括以下步骤:S1,建立机动车业务电子档案表头 数据库 ;S2,对待分类数字图像进行图像二值化处理;S3,对待分类数字照片进行截取,截取需要识别的表头区域;S4,利用tesseract-OCR文字识别引擎识别步骤S3中截取的图片区域,并利用文本挖掘技术处理得到的识别结果,得到文字序列;S5,计算步骤S4中的文字序列与步骤S1中数据库中表头的相似度;S6,选择相似度最大对应的数据库表头作为待分类数字照片的分类结果。本发明可以对机动车业务电子档案进行智能分类,实现机动车业务的信息化,从而提高机动车业务的办事效率、降低人工成本。,下面是基于OCR与文本挖掘的机动车数字电子档案分类方法专利的具体信息内容。
1.一种基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,包括以下步骤:
S1,建立机动车业务电子档案表头数据库;
S2,对待分类数字图像进行图像二值化处理;
S3,对待分类数字照片进行截取,截取需要识别的表头区域;
S4,利用tesseract-OCR文字识别引擎识别步骤S3中截取的图片区域,并利用文本挖掘技术处理得到的识别结果,得到文字序列;
S5,计算步骤S4中的文字序列与步骤S1中数据库中表头的相似度;
S6,选择相似度最大对应的数据库表头作为待分类数字照片的分类结果。
2.根据权利要求1所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S1中,建立的表头数据库采用mysql数据库,对所有业务种类照片表头进行存储。
3.根据权利要求2所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S2中,图像二值化处理采用Bernsen局部二值化方法。
4.根据权利要求3所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S3中,数字照片表头截取采用矩阵分析法进行切取。
5.根据权利要求4所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S5中,相似度计算采用改进的Jaccard系数计算方法。
6.根据权利要求1所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S2具体包括:
设图像在像素点(i,j)处的灰度值f(i,j),以像素点(i,j)为中心的(2ω+1)×(2ω+1)窗口,其中2ω+1表示窗口的边长,则Bernsen算法描述为:
采用下式对图像中个像素点(i,j)用b(i,j)值逐点进行二值化:
7.根据权利要求6所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S3具体包括:
步骤S2中二值化后的图像为二维数组,用二维数组X表示;
首先,求出数组X的高与宽,记为size_X,即
size_X=[h,w]
其中w,h分别表示数组X的宽度与高度大小;
构造维度大小为[w,1]的全1向量V:
V=[1,1,……,1]1×w
计算矩阵乘积:
R=XVT=[r1,r2,……,rh]T
对R中的数据利用下式进行归一化操作:
其中M=max{r1,r2,……,rh},表示“记为”;
其次,统计R中数据分布,并依据分布规律,选择一个阈值H,使得该阈值能将空白区行与含有相当文字的行区别开来;
当ri1>H(i∈{1,2……,h})时,行i几乎空白;当ri1<H(i∈{1,2……,h})时,行i含有相当多的黑色像素;表头文字出现在表单的开头,找到R1中第一次不少于连续四次小于H的区域记为表头出现的区域,设R1中从n1到n2第一次连续出现小于H区域,则截取的区域HR为X的n1到n2行。
8.根据权利要求7所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S4具体包括:
搭建tesseract文字识别引擎,对步骤S3中截取的表头区域HR进行文字识别,设识别结果为W;
W=a1a2……an
将识别结果分割成单个字符序列,记为W1,即W1={a1,a2,……,an}。
9.根据权利要求8所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S5具体包括:
采用与分别计算数据库中各表头数据与步骤S4中W1的相似度,以数据库中相似度最高
1
的表头作为待分类图片的表头,以数据库中表头W=b1b2……bm进行相似度的计算;
首先,将W1处理成W1的形式,不放仍然记为W1,即
W1={b1,b2,……,bm}
然后,计算W1与W1中共同文字的个数|W1∩W1|,W1∩W1为集合W1={b1,b2,……,bm}与W1={a1,a2,……,an}交集;
通过以下改进的Jaccard系数计算相似系数l1
其中|W1|表示表头W1的字符长度;
对数据库中所有表头数据进行同样操作,得到相似系数序列S;
S={l1,l2,……,lk}
其中k为数据库中表头的个数。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种室外中继器的密封壳体及室外中继器 | 2020-05-08 | 519 |
一种智能路由方法 | 2020-05-08 | 932 |
特别是用于计轴器的应变测量设备 | 2020-05-08 | 632 |
固态电解质电池和用于制造固态电解质电池的方法 | 2020-05-08 | 159 |
分析板的置放用支架和分析套件 | 2020-05-08 | 400 |
一种受前面帧目标信息约束的相关滤波目标跟踪算法 | 2020-05-08 | 339 |
存储地形特征估计程序的介质、地形特征估计方法及装置 | 2020-05-08 | 734 |
基于阻抗实部为零材料的长时间存储电磁波的方法 | 2020-05-08 | 165 |
用于确定电线位置的方法和设备以及存储介质 | 2020-05-11 | 817 |
通用动量方法、基于通用动量方法的目标检测与识别方法 | 2020-05-11 | 265 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。