首页 / 专利库 / 图形技术 / 图像对比度 / 一种图像增强方法和装置

一种图像增强方法和装置

阅读:866发布:2020-05-08

专利汇可以提供一种图像增强方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种图像增强方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:在第一 颜色 空间内计算待增强图像的 波动 图像,以及所述待增强图像对应区域的背景底纹图像;在第二颜色空间内计算所述待增强图像对应区域的文字图像;按照预设规则将所述波动图像、所述背景底纹图像、所述文字图像进行融合,以得到增强后图像。该实施方式能够充分利用待增强图像的颜色信息,避免待增强图像与背景底纹一起增强,解决待增强图像 对比度 低、待增强图像文字分割不完整以及采用 图像分割 算法 后待增强图像区域往往残存大量干扰的问题,降低计算复杂度,提高文字检测的精确度以及文字识别的准确率,进而提升图像OCR识别结果数据结构化输出 水 平。,下面是一种图像增强方法和装置专利的具体信息内容。

1.一种图像增强方法,其特征在于,包括:
利用待增强图像在第一颜色空间内的各通道分量数值,计算待增强图像的波动图像;
利用所述待增强图像在所述第一颜色空间内选定的两个通道分量数值,计算所述待增强图像对应区域的背景底纹图像;
计算所述待增强图像在第二颜色空间内的预设通道分量图像,得到所述待增强图像对应区域的文字图像;
按照预设规则将所述波动图像、所述背景底纹图像、所述文字图像进行融合,以得到增强后图像。
2.根据权利要求1所述的方法,其特征在于,所述利用待增强图像在第一颜色空间内的各通道分量数值,计算待增强图像的波动图像,包括:
RGB颜色空间内,计算所述待增强图像中每个像素点的R、G、B三通道数值的方差,以得到方差矩阵形式的所述待增强图像的波动图像。
3.根据权利要求1所述的方法,其特征在于,所述利用待增强图像在第一颜色空间内的各通道分量数值,计算待增强图像的波动图像,包括:
在RGB颜色空间内,计算所述待增强图像的RGB三通道均值;
利用R、G、B每个单通道数值和所述三通道均值,计算所述待增强图像的RGB三通道数值的方差,得到所述待增强图像的波动图像。
4.根据权利要求1所述的方法,其特征在于,所述利用所述待增强图像在所述第一颜色空间内选定的两个通道分量数值,计算所述待增强图像对应区域的背景底纹图像,包括:
在RGB颜色空间内,计算所述待增强图像的G分量和B分量;
根据所述G分量与所述B分量的差值,得到所述待增强图像对应区域的背景底纹图像。
5.根据权利要求1所述的方法,其特征在于,所述计算所述待增强图像在第二颜色空间内的预设通道分量图像,得到所述待增强图像对应区域的文字图像,包括:
在CMYK颜色空间内计算所述待增强图像的M分量和/或C分量图像,根据所述M分量和/或C分量图像得到所述待增强图像对应区域的文字图像。
6.根据权利要求1所述的方法,其特征在于,计算所述波动图像、所述背景底纹图像以及所述文字图像之前,还包括:
通过预设检测算法检测所述待增强图像的轮廓区域,得到轮廓区域图像;
统计所述轮廓区域图像每个像素点的所述第一颜色空间各通道数值,以标记出所述轮廓区域图像每个像素点的数值最大通道;
确认标记出的数量最多的一种通道为指定通道,且所述标记出的数量最多的一种通道对应的像素个数占所述轮廓区域图像像素总数的比例大于预设的比例阈值
7.根据权利要求1所述的方法,其特征在于,按照预设规则将所述波动图像、所述背景底纹图像、所述文字图像进行融合,以得到增强后图像的步骤,包括:
对所述文字图像进行数据类型转换,得到转换后的文字图像;
将所述波动图像、所述背景底纹图像和所述转换后的文字图像进行加权求和,其中,所述转换后的文字图像的加权系数为1,所述波动图像的加权系数为正值,所述背景底纹图像的加权系数为负值。
8.一种图像增强装置,其特征在于,包括:
波动图像计算模,用于利用待增强图像在第一颜色空间内的各通道分量数值,计算待增强图像的波动图像;
背景底纹图像计算模块,用于利用所述待增强图像在所述第一颜色空间内选定的两个通道分量数值,计算所述待增强图像对应区域的背景底纹图像;
文字图像计算模块,用于计算所述待增强图像在第二颜色空间内的预设通道分量图像,得到所述待增强图像对应区域的文字图像;
图像融合模块,用于按照预设规则将所述波动图像、所述背景底纹图像、所述文字图像进行融合,以得到增强后图像。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。

说明书全文

一种图像增强方法和装置

技术领域

[0001] 本发明涉及计算机技术领域,尤其涉及一种图像增强方法和装置。

背景技术

[0002] 印章作为企业授权的一种形式,普遍存在于各种各样的发票票面上,只有压盖企业印章,才能证明发票的有效性。印章中一般刻有企业名称、印章类型以及印章编号等信息,虽然OCR(Optical Character Recognition,光学字符识别)技术已经相当成熟并应用在多个领域,例如医院化验单、个人体检单等识别,但医疗收费票据依然是OCR技术难以覆盖的领域,其中有个重要的原因是票据OCR系统要求在同一张票据中识别多个关键字段难以完全满足。例如多个省或直辖市(北京、广东、重庆等)的众多医疗收费票据中开票机器没有直接机打“医院名称”这一关键信息,而是以印章文字的形式出现,几乎所有的医疗票据OCR系统都因为印章图像对比度低、文字难以提取识别印章图像。
[0003] 在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
[0004] 传统的图像增强方法(例如直方图均衡、同态滤波等),不仅计算复杂,而且没有充分利用待增强图像的颜色信息,导致待增强图像与背景底纹一起增强,后续待增强图像文字难以有效分割。

发明内容

[0005] 有鉴于此,本发明实施例提供一种图像增强方法和装置,能够充分利用待增强图像的颜色信息,避免待增强图像与背景底纹一起增强,解决待增强图像对比度低、待增强图像文字分割不完整以及采用图像分割算法后待增强图像区域往往残存大量干扰的问题,降低计算复杂度,提高文字检测的精确度以及文字识别的准确率,进而提升图像OCR识别结果数据结构化输出平。
[0006] 为实现上述目的,根据本发明实施例的一个方面,提供了一种图像增强方法。
[0007] 一种图像增强方法,包括:利用待增强图像在第一颜色空间内的各通道分量数值,计算待增强图像的波动图像;利用所述待增强图像在所述第一颜色空间内选定的两个通道分量数值,计算所述待增强图像对应区域的背景底纹图像;计算所述待增强图像在第二颜色空间内的预设通道分量图像,得到所述待增强图像对应区域的文字图像;按照预设规则将所述波动图像、所述背景底纹图像、所述文字图像进行融合,以得到增强后图像。
[0008] 可选地,所述利用待增强图像在第一颜色空间内的各通道分量数值,计算待增强图像的波动图像,包括:在RGB颜色空间内,计算所述待增强图像中每个像素点的R、G、B三通道数值的方差,以得到方差矩阵形式的所述待增强图像的波动图像。
[0009] 可选地,所述利用待增强图像在第一颜色空间内的各通道分量数值,计算待增强图像的波动图像,包括:在RGB颜色空间内,计算所述待增强图像的RGB三通道均值;利用R、G、B每个单通道数值和所述三通道均值,计算所述待增强图像的RGB三通道数值的方差,得到所述待增强图像的波动图像。
[0010] 可选地,所述利用所述待增强图像在所述第一颜色空间内选定的两个通道分量数值,计算所述待增强图像对应区域的背景底纹图像,包括:在RGB颜色空间内,计算所述待增强图像的G分量和B分量;根据所述G分量与所述B分量的差值,得到所述待增强图像对应区域的背景底纹图像。
[0011] 可选地,所述计算所述待增强图像在第二颜色空间内的预设通道分量图像,得到所述待增强图像对应区域的文字图像,包括:在CMYK颜色空间内计算所述待增强图像的M分量和/或C分量图像,根据所述M分量和/或C分量图像得到所述待增强图像对应区域的文字图像。
[0012] 可选地,计算所述波动图像、所述背景底纹图像以及所述文字图像之前,还包括:通过预设检测算法检测所述待增强图像的轮廓区域,得到轮廓区域图像;统计所述轮廓区域图像每个像素点的所述第一颜色空间各通道数值,以标记出所述轮廓区域图像每个像素点的数值最大通道;确认标记出的数量最多的一种通道为指定通道,且所述标记出的数量最多的一种通道对应的像素个数占所述轮廓区域图像像素总数的比例大于预设的比例阈值
[0013] 可选地,按照预设规则将所述波动图像、所述背景底纹图像、所述文字图像进行融合,以得到增强后图像的步骤,包括:对所述文字图像进行数据类型转换,得到转换后的文字图像;将所述波动图像、所述背景底纹图像和所述转换后的文字图像进行加权求和,其中,所述转换后的文字图像的加权系数为1,所述波动图像的加权系数为正值,所述背景底纹图像的加权系数为负值。
[0014] 根据本发明实施例的另一方面,提供了一种图像增强装置。
[0015] 一种图像增强装置,包括:波动图像计算模,用于利用待增强图像在第一颜色空间内的各通道分量数值,计算待增强图像的波动图像;背景底纹图像计算模块,用于利用所述待增强图像在所述第一颜色空间内选定的两个通道分量数值,计算所述待增强图像对应区域的背景底纹图像;文字图像计算模块,用于计算所述待增强图像在第二颜色空间内的预设通道分量图像,得到所述待增强图像对应区域的文字图像;图像融合模块,用于按照预设规则将所述波动图像、所述背景底纹图像、所述文字图像进行融合,以得到增强后图像。
[0016] 可选地,所述波动图像计算模块还用于:在RGB颜色空间内,计算所述待增强图像中每个像素点的R、G、B三通道数值的方差,以得到方差矩阵形式的所述待增强图像的波动图像。
[0017] 可选地,所述波动图像计算模块还用于:在RGB颜色空间内,计算所述待增强图像的RGB三通道均值;利用R、G、B每个单通道数值和所述三通道均值,计算所述待增强图像的RGB三通道数值的方差,得到所述待增强图像的波动图像。
[0018] 可选地,所述背景底纹图像计算模块还用于:在RGB颜色空间内,计算所述待增强图像的G分量和B分量;根据所述G分量与所述B分量的差值,得到所述待增强图像对应区域的背景底纹图像。
[0019] 可选地,所述文字图像计算模块还用于:在CMYK颜色空间内计算所述待增强图像的M分量和/或C分量图像,根据所述M分量和/或C分量图像得到所述待增强图像对应区域的文字图像。
[0020] 可选地,还包括图像增强判断模块,用于:通过预设检测算法检测所述待增强图像的轮廓区域,得到轮廓区域图像;统计所述轮廓区域图像每个像素点的所述第一颜色空间各通道数值,以标记出所述轮廓区域图像每个像素点的数值最大通道;确认标记出的数量最多的一种通道为指定通道,且所述标记出的数量最多的一种通道对应的像素个数占所述轮廓区域图像像素总数的比例大于预设的比例阈值。
[0021] 可选地,所述图像融合模块还用于:对所述文字图像进行数据类型转换,得到转换后的文字图像;将所述波动图像、所述背景底纹图像和所述转换后的文字图像进行加权求和,其中,所述转换后的文字图像的加权系数为1,所述波动图像的加权系数为正值,所述背景底纹图像的加权系数为负值。
[0022] 根据本发明实施例的又一方面,提供了一种电子设备。
[0023] 一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本发明实施例所提供的图像增强方法。
[0024] 根据本发明实施例的又一方面,提供了一种计算机可读介质。
[0025] 一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例所提供的图像增强方法。
[0026] 上述发明中的一个实施例具有如下优点或有益效果:在第一颜色空间内计算待增强图像的波动图像,以及待增强图像对应区域的背景底纹图像,在第二颜色空间内计算待增强图像对应区域的文字图像,将该波动图像、背景底纹图像、文字图像融合得到增强后图像。能够充分利用待增强图像的颜色信息,避免待增强图像与背景底纹一起增强,解决待增强图像对比度低、待增强图像文字分割不完整以及采用图像分割算法后待增强图像区域往往残存大量干扰的问题,降低计算复杂度,提高文字检测的精确度以及文字识别的准确率,进而提升图像OCR识别结果数据结构化输出水平。
[0027] 上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明
[0028] 附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
[0029] 图1是根据本发明一个实施例的图像增强方法的主要步骤示意图;
[0030] 图2是根据本发明一个实施例的印章图像增强流程示意图;
[0031] 图3a、图3b、图3c是根据本发明一个实施例的各类印章图像的增强及分割效果示意图;
[0032] 图4是根据本发明一个实施例的图像增强装置的主要模块示意图;
[0033] 图5是本发明实施例可以应用于其中的示例性系统架构图;
[0034] 图6是适于用来实现本发明实施例的终端设备或服务器计算机系统的结构示意图。

具体实施方式

[0035] 以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0036] 图1是根据本发明一个实施例的图像增强方法的主要步骤示意图。
[0037] 如图1所示,本发明一个实施例的图像增强方法主要包括如下的步骤S101至步骤S104。
[0038] 步骤S101:利用待增强图像在第一颜色空间内的各通道分量数值,计算待增强图像的波动图像。
[0039] 步骤S102:利用待增强图像在第一颜色空间内选定的两个通道分量数值,计算待增强图像对应区域的背景底纹图像。
[0040] 步骤S103:计算待增强图像在第二颜色空间内的预设通道分量图像,得到待增强图像对应区域的文字图像。
[0041] 步骤S104:按照预设规则将待增强图像的波动图像、待增强图像对应区域的背景底纹图像、待增强图像对应区域的文字图像进行融合,以得到增强后图像。
[0042] 待增强图像可以为印章图像,例如票据上的印章图像,票据可以为增值税发票、医疗票据等各种用途的票据。
[0043] 本发明实施例的上述步骤S101、步骤S102、步骤S103之间的执行顺序可以互换。
[0044] 第一颜色空间具体可以为RGB颜色空间,第二颜色空间具体可以为CMYK颜色空间,CMYK代表印刷上用的四种颜色,C代表青色(Cyan),M代表洋红色(Magenta),Y代表黄色(Yellow),K代表黑色(Black)。
[0045] 在一个实施例中,在计算波动图像、背景底纹图像以及文字图像之前,可以先判断待增强图像是否符合设定的图像增强条件。具体地,可以通过预设检测算法检测待增强图像的轮廓区域,得到轮廓区域图像;统计轮廓区域图像每个像素点的第一颜色空间各通道数值,以标记出轮廓区域图像每个像素点的数值最大通道;判断标记出的数量最多的一种通道是否为指定通道,若不是,则不对该待增强图像进行图像增强的操作,即不执行上述步骤S101至步骤S104的图像增强步骤。若标记出的数量最多的一种通道为指定通道,则计算该标记出的数量最多的一种通道对应的像素个数占轮廓区域图像像素总数的比例,并判断该比例是否大于预设的比例阈值,如果大于,则对待增强图像进行图像增强的操作,即执行上述步骤S101至步骤S104的图像增强步骤,否则,不对该待增强图像进行图像增强的操作。
[0046] 预设检测算法可以为基于弧支撑线段的椭圆检测算法,该算法可以检测椭圆和圆形,其输入是图像,输出是检测到的椭圆的参数(cx,cy,a,b),其中,cx和cy分别是圆心的横、纵坐标,a和b分别是椭圆的长、短轴半径(a与b数值相同时为圆)。以待增强图像为椭圆形轮廓的印章图像为例,通过该算法可以检测到印章图像的椭圆形轮廓的内边缘和外边缘(即椭圆环形),进而确定椭圆形印章的轮廓区域图像,即椭圆环形之间的区域图像。
[0047] 本发明实施例通过预先判断待增强图像是否符合设定的图像增强条件,使得可以有针对性地对指定颜色类型的印章进行图像增强。例如,在需要对红色印章图像进行图像增强的场景中,以第一颜色空间为RGB颜色空间为例,在按照上述方法检测出待增强印章图像的轮廓区域,并得到轮廓区域图像之后,确定轮廓区域图像中每个像素R、G、B三通道数值大小关系,以标记出轮廓区域图像每个像素点的数值最大通道,例如某个像素点的R、G、B每个通道数值中,R通道数值最大,则标记该像素点的数值最大通道为R通道,按照这种方法对轮廓区域图像的每个像素点都会标记一种通道,统计标记出的数量最多的一种通道是哪一种通道。由于要对红色印章图像进行图像增强,即指定通道为R通道,那么,判断标记出的数量最多的一种通道是否为R通道,如果是,则统计轮廓区域图像中标记出R通道的像素个数占轮廓区域图像像素总数的比例,如果该比例大于预设的比例阈值,则确定该待增强的印章图像为预先指定的红色印章图像,则继续该该红色印章图像进行图像增强处理。如果标记出的数量最多的一种通道不是R通道,或者上述比例不大于预设的比例阈值,则不进行图像增强处理。通过本发明实施例可以充分满足对特定颜色类型的印章图像进行图像增强的需要。
[0048] 在一个实施例中,利用待增强图像在第一颜色空间内的各通道分量数值,计算待增强图像的波动图像的步骤,可以包括:在RGB颜色空间内,计算待增强图像中每个像素点的R、G、B三通道数值的方差,以得到方差矩阵形式的待增强图像的波动图像。
[0049] 方差矩阵Mstd可以为如下形式:
[0050]
[0051] 其中,每个像素点的方差为:
[0052]
[0053] 其中,i∈[0,m-1];j∈[0,n-1];
[0054] 在另一个实施例中,采用一种更加简化的波动图像计算方式,可以减小运算的耗时。具体地,先在RGB颜色空间内,计算待增强图像的RGB三通道均值,然后利用R、G、B每个单通道数值和三通道均值,计算待增强图像中RGB三通道数值的方差,得到待增强图像的波动图像。
[0055] 例如,用Mean_rgb表示待增强图像的RGB三通道均值,用R_img、G_img、B_img分别表示待增强图像的R、G、B的单通道数值,那么通过如下运算得到待增强图像的RGB三通道数值的方差S,即波动图像:
[0056] R_mean=abs(R_img-Mean_rgb);
[0057] G_mean=abs(G_img-Mean_rgb);
[0058] B_mean=abs(B_img-Mean_rgb);
[0059] S=(R_mean+G_mean+B_mean)./sqrt(3);
[0060] 其中,abs表示求绝对值,sqrt表示开平方根。
[0061] 在颜色空间RGB内计算R、G、B三通道分量的方差图像,可以有效地将印章图像颜色变化信息体现出来,而票据高亮背景、票据机打文字(铅字)等干扰因素通常三通道数值差异较小,这些干扰因素可以通过计算方差图像而消除,从而改善图像增强效果。
[0062] 利用待增强图像在第一颜色空间内选定的两个通道分量数值,计算待增强图像对应区域的背景底纹图像的步骤,可以包括:在RGB颜色空间内,计算待增强图像的G分量和B分量;根据该G分量与该B分量的差值,得到待增强图像对应区域的背景底纹图像。在颜色空间RGB内计算G、B分量的差值图像,可以有效地将印章图像的背景底纹信息体现出来。
[0063] 在一个实施例中,计算待增强图像在第二颜色空间内的预设通道分量图像,得到待增强图像对应区域的文字图像,具体包括:在CMYK颜色空间内计算待增强图像的M分量图像,得到待增强图像对应区域的文字图像。
[0064] 在另一个实施例中,计算待增强图像在第二颜色空间内的预设通道分量图像,得到待增强图像对应区域的文字图像,具体包括:在CMYK颜色空间内计算待增强图像的C分量图像,得到待增强图像对应区域的文字图像。
[0065] 在又一个实施例中,计算待增强图像在第二颜色空间内的预设通道分量图像,得到待增强图像对应区域的文字图像,具体包括:在CMYK颜色空间内计算待增强图像的M分量和C分量图像,将M分量图像和C分量图像相加,得到待增强图像对应区域的文字图像。
[0066] 按照预设规则将上述波动图像、背景底纹图像、文字图像进行融合,以得到增强后图像的步骤,可以包括:对待增强图像对应区域的文字图像进行数据类型转换,得到转换后的文字图像;将待增强图像的波动图像、待增强图像对应区域的背景底纹图像和上述转换后的文字图像进行加权求和,其中,转换后的文字图像的加权系数为1,背景底纹图像的加权系数与波动图像的加权系数可以根据经验值来设置,具体设置的规则满足:波动图像的加权系数为正值,且背景底纹图像的加权系数为负值。
[0067] 在一个优选实施例中,波动图像的加权系数与背景底纹图像的加权系数分别为1和-1。在这种情况下,图像融合效果最佳,从而图像增强效果也最佳。
[0068] 对待增强图像对应区域的文字图像进行数据类型转换,是指将文字图像的原有的数据类型(double型)调整到无符号整型,以满足图像融合运算的需要。
[0069] 现有技术票据图像印章图像对比度低、印章文字分割不完整以及采用图像分割算法后印章区域往往残存大量干扰的问题,原因主要分为两个方面:一是票据图像往往具有复杂的纹理背景;二是印章一般压盖在票据预打印字以及机打文字上方,造成印章文字难以区分。本发明实施例的图像增强方法应用于票据图像印章分割时,能够解决因票据背景底纹复杂、票面文字多样造成印章文字对比度低、难以有效分割提取的技术问题。
[0070] 本发明实施例的图像增强方法利用印章图像在颜色空间RGB内三通道分量数值差异较大的特点,计算印章的方差图像,然后计算G、B分量的差值图像,再在颜色空间CMYK内计算M分量和/或C分量图像,最后将各环节计算结果进行融合,即可获得印章文字图像的增强效果。
[0071] 图2示出了本发明一个实施例的印章图像增强流程。
[0072] 根据本发明的一个实施例,在接收到输入的印章图像之后,如图2所示,印章图像增强流程包括如下的步骤S201至步骤S204。
[0073] 步骤S201:在RGB颜色空间内,计算印章图像的方差,获取印章图像的R、G、B三通道分量的波动图像。
[0074] 步骤S202:在RGB颜色空间内,计算印章图像G、B分量的差值,获取印章区域的背景底纹图像。
[0075] 步骤S203:在CMYK颜色空间内,计算印章图像的M分量,获取印章区域的文字图像。
[0076] 步骤S204:将波动图像、底纹图像以及文字图像做加权求和,从而获得印章增强图像。
[0077] 以医疗(急)诊收费票据印章图像为例,在RGB颜色空间计算印章图像每个像素点R、G、B三通道数值的方差,得到方差矩阵Mstd:
[0078]
[0079] 每个像素点的方差为:
[0080] 其中,
[0081] i∈[0,m-1];j∈[0,n-1];
[0082] 在RGB颜色空间内,计算印章图像G、B分量的差值Mgb:
[0083] Mgb=|G-B|
[0084] 在CMYK颜色空间计算印章图像M分量图像Mm:
[0085]
[0086] 其中,
[0087] R'=R/255.0
[0088] G'=G/255.0
[0089] B'=B/255.0
[0090] K=1-max(R',G',B')
[0091] 计算方差图像Mstd、差值图像Mgb以及M分量图像Mm的加权和,即可获得印章增强图像Men:
[0092] Men=Mm×255+α×Mstd+β×Mgb
[0093] 其中,α和β是加权系数,为经验值,本实施例中分别设置为1和-1。Mm×255为对M分量图像Mm的数据类型转换,目的在于将Mm原有的数据类型(double型)调整到无符号整型,以便进行图像融合。
[0094] 作为替换实施方式,在CMYK颜色空间计算印章图像C分量图像Mc:
[0095]
[0096] 上述获得印章增强图像Men的公式中的Mm可以替换为Mc。
[0097] 作为另一替换实施方式,上述获得印章增强图像Men的公式中的Mm可以替换为Mc+Mm。
[0098] 本发明实施例的印章图像可以为红色印章,也可以为蓝色印章,对各种印章的图像增强及分割效果如图3a、图3b、图3c所示,其中,图3a为医疗门急诊收费票据红色印章图像增强及分割效果图,图3b为国家增值税专用发票红色印章图像增强及分割效果图,图3c为医疗门急诊收费票据蓝色印章图像增强及分割效果图,图3a、图3b、图3c中,每一附图中的第一个图为印章的原始图像,第二个图为印章的增强效果图,第三个图为印章的分割效果图。本发明实施例针对当前医疗理赔、财务报销等领域票据普遍存在的红色、蓝色印章均有较好的图像增强效果。
[0099] 本发明实施例基于颜色空间RGB和CMYK相结合的方法,可极大抑制票据底纹以及票面文字对印章文字分割造成的干扰,提高印章图像文字的对比度,而且计算复杂度低,满足票据OCR系统的实时处理要求,为后续票据OCR系统对印章文字检测和识别打下基础,适用于大部分票据OCR系统,有利于提高印章文字识别率,并有效提升票据识别结果数据结构化输出的水平,进而提升票据OCR系统的人工替代率。
[0100] 图4是根据本发明一个实施例的图像增强装置的主要模块示意图。
[0101] 如图4所示,本发明一个实施例的图像增强装置400主要包括:波动图像计算模块401、背景底纹图像计算模块402、文字图像计算模块403、图像融合模块404。
[0102] 波动图像计算模块401,用于利用待增强图像在第一颜色空间内的各通道分量数值,计算待增强图像的波动图像。
[0103] 背景底纹图像计算模块402,用于利用待增强图像在第一颜色空间内选定的两个通道分量数值,计算待增强图像对应区域的背景底纹图像。
[0104] 文字图像计算模块403,用于计算待增强图像在第二颜色空间内的预设通道分量图像,得到待增强图像对应区域的文字图像。
[0105] 图像融合模块404,用于按照预设规则将待增强图像的波动图像、待增强图像对应区域的背景底纹图像、待增强图像对应区域的文字图像进行融合,以得到增强后图像。
[0106] 待增强图像可以为印章图像,例如票据上的印章图像,票据可以为增值税发票、医疗票据等各种用途的票据。
[0107] 在一个实施例中,图像增强装置400还可以包括图像增强判断模块,用于:通过预设检测算法检测待增强图像的轮廓区域,得到轮廓区域图像;统计轮廓区域图像每个像素点的第一颜色空间各通道数值,以标记出轮廓区域图像每个像素点的数值最大通道;确认标记出的数量最多的一种通道为指定通道,且标记出的数量最多的一种通道对应的像素个数占轮廓区域图像像素总数的比例大于预设的比例阈值。
[0108] 在一个实施例中,波动图像计算模块401具体用于:在RGB颜色空间内,计算待增强图像中每个像素点的R、G、B三通道数值的方差,以得到方差矩阵形式的待增强图像的波动图像。
[0109] 在另一个实施例中,波动图像计算模块401还可以通过更加简化的波动图像计算方式计算波动图像,从而减小运算的耗时。具体地,先在RGB颜色空间内,计算待增强图像的RGB三通道均值,然后利用R、G、B每个单通道数值和三通道均值,计算待增强图像中RGB三通道数值的方差,得到待增强图像的波动图像。
[0110] 背景底纹图像计算模块402具体用于:在RGB颜色空间内,计算待增强图像的G分量和B分量;根据该G分量与B分量的差值,得到待增强图像对应区域的背景底纹图像。
[0111] 在一个实施例中,文字图像计算模块403具体可以用于:在CMYK颜色空间内计算待增强图像的M分量,以得到待增强图像对应区域的文字图像。
[0112] 在另一个实施例中,文字图像计算模块403具体可以用于:在CMYK颜色空间内计算待增强图像的C分量图像,得到待增强图像对应区域的文字图像。
[0113] 在又一个实施例中,文字图像计算模块403具体可以用于:在CMYK颜色空间内计算待增强图像的M分量和C分量图像,将M分量图像和C分量图像相加,得到待增强图像对应区域的文字图像。
[0114] 图像融合模块404具体可以用于:对待增强图像对应区域的文字图像进行数据类型转换,得到转换后的文字图像;将待增强图像的波动图像、待增强图像对应区域的背景底纹图像和上述转换后的文字图像进行加权求和,其中,转换后的文字图像的加权系数为1,背景底纹图像的加权系数与波动图像的加权系数可以根据经验值来设置,具体设置的规则满足:波动图像的加权系数为正值,且背景底纹图像的加权系数为负值。
[0115] 作为优选实施方式,波动图像的加权系数与背景底纹图像的加权系数分别为1和-1。
[0116] 对待增强图像对应区域的文字图像进行数据类型转换,是指将文字图像的原有的数据类型(double型)调整到无符号整型,以满足图像融合运算的需要。
[0117] 另外,在本发明实施例中图像增强装置的具体实施内容,在上面所述图像增强方法中已经详细说明了,故在此重复内容不再说明。
[0118] 图5示出了可以应用本发明实施例的图像增强方法或图像增强装置的示例性系统架构500。
[0119] 如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0120] 用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
[0121] 终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
[0122] 服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
[0123] 需要说明的是,本发明实施例所提供的图像增强方法一般由服务器505执行,相应地,图像增强装置一般设置于服务器505中。
[0124] 应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
[0125] 下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。图6示出的终端设备或服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
[0126] 如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
[0127] 以下部件连接至I/O接口605:包括键盘鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
[0128] 特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的系统中限定的上述功能。
[0129] 需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
[0130] 附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0131] 描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括波动图像计算模块、背景底纹图像计算模块、文字图像计算模块、图像融合模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,波动图像计算模块还可以被描述为“用于利用待增强图像在第一颜色空间内的各通道分量数值,计算待增强图像的波动图像的模块”。
[0132] 作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:利用待增强图像在第一颜色空间内的各通道分量数值,计算待增强图像的波动图像;利用所述待增强图像在所述第一颜色空间内选定的两个通道分量数值,计算所述待增强图像对应区域的背景底纹图像;计算所述待增强图像在第二颜色空间内的预设通道分量图像,得到所述待增强图像对应区域的文字图像;按照预设规则将所述波动图像、所述背景底纹图像、所述文字图像进行融合,以得到增强后图像。
[0133] 根据本发明实施例的技术方案,在第一颜色空间内计算待增强图像的波动图像,以及待增强图像对应区域的背景底纹图像,在第二颜色空间内计算待增强图像对应区域的文字图像,将该波动图像、背景底纹图像、文字图像融合得到增强后图像。能够充分利用待增强图像的颜色信息,避免待增强图像与背景底纹一起增强,解决待增强图像对比度低、待增强图像文字分割不完整以及采用图像分割算法后待增强图像区域往往残存大量干扰的问题,降低计算复杂度,提高文字检测的精确度以及文字识别的准确率,进而提升图像OCR识别结果数据结构化输出水平。
[0134] 上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈