技术领域
[0001] 本
发明涉及
数据处理领域及
图像处理领域,尤其涉及一种对图像型财务数据表格信息的处理方法。
背景技术
[0002] PDF全称为Portable Document Format,译为可移植文档格式,是一种常用的
电子文件格式。在多类型
操作系统具有较高的通用性和兼容性,可保证文件传输过程中数据信息不被
修改或不因为编码类型导致发生变化,因此PDF被作为一种文件信息传递的主流形式。PDF文件中包含有大量的数据信息,尤其在财务数据处理领域,承载大量的关键数据表格信息。但由于PDF文件的封闭性,常用的处理数据方法只能对照图像将内容输入到
数据库,低效且容易出错。因此需要提供一种能够自动识别PDF表格,并能满足财务业务处理需要,解决现阶段数据快速增长和系统处理速度急需提高的问题,因此本发明实现了一种识别财务表格图像的解决方案,高效并准确提取PDF中财务数据表关键信息。
发明内容
[0003] 针对于PDF中具有较多且复杂的企业财务信息,业务处理要求不仅要把表格撷取出来,还要根据实际的业务需求对表格进行分析,并且能够快速、准确识别处理文件中的表格、文字、图片等内容,本发明
实施例的一个目的旨在提供一种对图像型PDF财务数据关键表格信息的处理方法,其处理效果较为高效准确,并能在大量处理后系统可进行
迭代优化,提高自身识别率和准确率。
[0004] 为解决上述技术问题,本发明实施例提供以下技术方案:
[0005] 本发明实施例提供一种对图像型PDF财务数据关键表格信息的处理方法,所述方法包括:
[0006] 步骤一:加载PDF财务数据表识别系统,该系统运行加载在
云化
服务器上,多用户可异地多
进程登录并行使用,用户上传需要解析的PDF文件后,等待系统处理完毕即可获得该PDF文件中所需要的财务表格数据,云化系统的实现可更好地满足用户提高使用效率的需求。
[0007] 步骤二:扫描PDF文件并提取表格页,对用户上传的PDF文件全量扫描,调用系统中的通用OCR(光学字符识别)
接口,初步识别里面表格内容中的财务信息关键字和所需数据表头文本,提取表格所在PDF页,初步完成筛选所需要处理的PDF页;
[0008] 步骤三:对图像表格进行特征分析,对表格进行跨页合并;财务数据表具有深度较大,跨页的特征,需要建立跨页表格合并分析系统,实施表格版面跨页合并分析
算法,将分布在不同PDF页上的数据表进行合并;基于相连两页PDF中的两个表格的明显特征,列举不可能为跨页表格的特征,使用特征快速过滤不可能是跨页的表格;过滤后剩余的表格,根据综合表格属性判断表格是否是跨页表格;此处本发明提供一种加权特征
阈值比较法,综合前期系统进行的
大数据标注,满足大数据中所收敛的公式进行对跨页表格的合并。
[0009] 步骤四:对图像文件进行预处理;待处理的PDF表格图像由于原始图像的自身
像素噪声较大或文件传输过程中失真,对后续表格信息识别和处理造成一定干扰,需要尽可能排除阴影和失真像素等原因造成的影响;本发明使用图像噪声去除、二值法、倾斜校正等方法对表格图像信息进行预处理;对图像进行灰度化,灰度化图像使用中值
滤波器,进行滤波排除墨点和边缘像素;处理后的图像进行二值法凸显区分
前景像素和
背景像素,适合处理白底黑字的表格;同时为解决图像中表格线存在倾斜的
缺陷,对前景象素点进行Hough变换,对表格线进行倾斜校正。
[0010] 步骤五:利用
深度学习的图像处理模型对财务表格进行几何分析,提取连通域并切割;模型识别表格线,并根据表格线排布,对图像进行几何分析,提取连通域并切割,包括:提取线段坐标,合并线段,识别框线;分割的目的是对表格信息进行细分,区域
块位置坐标进行提取,单元格行高和列宽数值提取,数据表信息字号大小及字符坐标获取。
[0011] 步骤六:对步骤五中分割的各个区域块,使用OCR接口对切割的财务表格进行提取财务特征字符;对字符图像提取多维的特征用于后面的特征匹配
模式识别算法。将当前字符提取的
特征向量与特征模板库进行模板粗分类和模板细匹配,识别出字符的算法,提取财务数据,并根据财务表格逻辑关系对数据结果进行校正。
[0012] 步骤七:对恢复数据进行版面恢复,并将表格的图像向量和字符数据实现序列化,以结构化形式输出为JSON格式数据;根据步骤五,得到每个单元格的坐标和每个字符的坐标,接下来将步骤六提取得到的字符数据按照坐标填写到对应表格即可恢复原来的图像数据表;自定义数据结构,使用JSON输出页面中所有财务表格关键信息。
[0013] 步骤八:对JSON格式数据调用数据库接口,并将所有财务表格信息入库存储,提供用户下载接口,用户可下载该PDF中包含的全量财务表格数据信息;
[0014] 步骤九:根据最终数据库中的财务数据建立数据集,建立评价PDF识别财务数据表格性能的系统;表格识别系统的效率以及准确率高低,要量化评价。表格结构识别过程,可看成是对单元格的检测,我们关注检测的precision(准确率)和recall(召回率)指标,根据指标实时调整系统中跨页合并于表格几何分析参数,使系统处于迭代优化中,趋向于提高系统识别准确率。
附图说明
[0015] 图1是本发明实施例架构示意图;
[0016] 图2是本发明实施例流程示意图;
[0017] 图3是本发明跨页合并表格算法流程示意图;
[0018] 图4是本发明实施例深度学习模型算法流程示意图;
[0019] 图5是本发明实施例深度学习处理结果示意图。
具体实施方式
[0020] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0021] 本发明实施例PDF文件提取图表数据信息方法可以应用于财务数据处理领域。
[0022] 本发明所描述的方法承载在服务器上,在云化服务器上加载PDF财务数据表识别系统,所需处理图表信息的用户可登录服务器进行对系统的使用,服务器承载的方式可支持多用户异地多进程登录并行使用,用户上传需要解析的PDF后,等待系统处理完毕后,即可获取系统返回该PDF文件中所需要的财务表格数据,该实施例架构可最大化地提高该系统的使用效率。具体可见附图1本发明实施例架构示意图所示;
[0023] 本发明具体
流程图可见图2是本发明实施例流程示意图;
[0024] 本发明中需要扫描PDF文件并提取表格页,具体实施方式:对用户上传的PDF文件全量扫描,调用系统中的通用OCR(光学字符识别)接口,初步识别里面表格内容中的财务信息关键字和所需数据表头文本。
[0025] 具体实施方式:若识别关键字如:资产负债表、利润分配表、现金流量表、权益变动表等关键字识别为表格标题;识别如:资产,注释,期末余额,期初余额作为表头关键字;识别如:
货币资金,交易性金融资产等财务指标关键字;若出现上述关键字特征匹配条件,提取财务关键字所在PDF页,初步完成筛选所需要处理的PDF页;上述实施步骤完成初步筛选可简化后面
图像识别的工作量。
[0026] 本发明对图像表格进行特征分析,财务数据表具有深度较大,跨页的特征,需要对表格进行跨页合并具体实施方式:利用深度学习图像处理模型,初步识别关键特征,实施跨页分析合并算法。
[0027] 根据综合表格属性判断表格是否是跨页表格;此处本发明提供一种加权特征阈值比较法:
[0028] 基于两张PDF页中的两个表格的明显特征,列举不可能跨页表格的特征:
[0029] (1)前后两页的表格线方向未保持一致性,分别为纵向和横向;
[0030] (2)前后表格的边线类型不一致,两表格不同有线表格或同为无线表格;
[0031] (3)前后两表处于不合理的位置,即前一张表格的底部位置未处在页面的下方20%的区域位置,后一表格的顶部位置未处在后一页面有效区域的上方40%的区域位置;
[0032] (4)判断前一表格的底部是否其余非表格内容,或者判断后一表格的顶部是否有非表格内容,如果存在则两表格不是跨页表格。
[0033] (5)如果前一页面以表格结束、后一页面以表格开始,同时前一表格的末行的列数和后一表格的首行列数不相等则两表格不是跨页表格;
[0034] 使用非合并表格特征快速过滤不可能是跨页的表格;过滤后剩余的表格,如果不满足非跨页表格所有特征,则两格表格的特征属性根据重要程度进行加权,记为wi,设定一个认为表格可进行合并处理的阈值,记为θ,则判断两表格为跨页表格,必须满足以下公式:θ<Пwi;具体实施方法如下:
[0035] 列举需要合并表格的特征:
[0036] 权重判断标准如下:
[0037] (1)如果两个表格中其中存在相似关键字一个或以上,则权重记为0.3;
[0038] (2)如果两表格的列数相同,则权重记为0.6;
[0039] (3)如果两表格的宽度相同,则权重记为0.6;
[0040] (4)如果两表格前表最后一行和后表第一行,纯文字单元格、数字单元格对应,则权重记为0.6;
[0041] (5)如果两表格有相同的表头,则权重记为0.8;
[0042] (6)如果后一表格不存在表头,则权重记为0.5;
[0043] (7)如果前后表格对应的前后不存在内容,则权重记为0.5。
[0044] 计算满足以上公式:θ<Пwi,则两相连跨页表格为合并表格。
[0045] 综合前期系统进行的大数据标注设置初始阈值,该阈值满足大数据中所收敛的公式进行对跨页表格的合并的实施。实施跨页合并分析算法,将分布在不同PDF页上的数据表进行合并,上述实施步骤提高表格数据识别的准确率,以免对相连数据进行误拆分操作。具体可见图3是本发明跨页合并表格算法流程示意图。
[0046] 本发明对图像文件进行预处理,其具体实施方式:本发明使用图像噪声去除、二值法、倾斜校正对表格图像信息进行预处理;
[0047] 图像噪声去除的具体实施方式:
[0048] 先对图像进行灰度化处理,由于字符的
颜色不是字符识别关心的,故可以把彩色输入图像转换为灰度图像以节省空间和简化处理;
[0049] 灰度处理本发明建议了以下公式:Y=0.309R+0.609G+0.082B;其中R、G、B、Y分别为红、绿、蓝、灰度值;根据公式处理表格图像后得到灰度图。
[0050] 经灰度化图像使用中值滤波器,进行滤波排除墨点和边缘像素,其具体实施方式:
[0051] 对每个非边缘像素,以其相邻中像素的灰度中位数代替其灰度,由此去除图像中的孤立点。中值滤波对细节保持较好,处理后的图像进行二值法凸显区分前景像素和背景像素,适合处理白底黑字的表格
[0052] 同时为解决图像中表格线存在倾斜的缺陷,需要对表格线进行倾斜校准,其具体实施方式如下:利用现有的数学模型,对前景象素点进行Hough变换,Hough变换的主要思想为寻找局部
密度较大的点以估计倾斜
角,对表格线进行倾斜校正。
[0053] 通过以上预处理方法,可消除原始图像表格失真,阴影墨点和噪声的消除,同时表格线进行倾斜校正后,有利于后续的几何分析和单元格切割,上述步骤实施目的在于以免对后续表格的信息识别和处理造成干扰。
[0054] 本发明对财务表格进行几何分析,提取连通域并切割,其具体实施方式:本方法采用深度学习图像处理模型旨在对图像的每个像素赋予标签。本发明分割的目的是对表格线部分进行标注,分割类别是4类:横向的表格线,竖向的表格线,横向的不可见线,竖向的不可见线,因线和线之间有交点,交点处的像素是同属多条线的,每个像素可能同时属于多种类别。
[0055] 为了提取上述各种线所在的像素,提取线段坐标,合并线段,识别框线,本发明采用深度学习图像表格分割的方式。目前较常用的深度学习
图像分割模型有DeepLab系列,fcn,Unet,SegNet等,经过实验对比,由于表格图像语义较为简单、结构较为固定,本发明选择收敛速度最快的Unet。
[0056] Unet模型中包含up-conv的操作,该操作属于auto encoder的架构,可达到全连接自变码器可以添加或去除噪音的目的。这个CNN的自变码器学了局部特征然后压缩,再解压缩,最后获得边界识别能
力,是最为适合处理表格的深度学习图像处理模型。Unet方法先全局观察,大致判断表格框线目标区域位置,然后进一步考虑细节的信息,把分割做得更精确。Unet模型结构示意图,具体可见图4是本发明实施例深度学习模型算法流程示意图。
[0057] 同时由于各类像素数量
不平衡,本发明的损失函数采用加权交叉熵。
训练数据采用人工标注+仿真生成结合。示例图为深度学习模型识别框线和分割结果,具体可见图5是本发明实施例深度学习处理结果示意图。
[0058] 本发明利用深度学习模型分割图形表格后。从模型分析结果中,表格信息进行细分,区域块位置进行标注,分析获得所有单元格起始行,结束行,起始列和结束列坐标,以及行高和列宽数值以及单元格内信息的字号大小。上述实施步骤,将表格拆分单元格,后续步骤可并发进行对各个子单元格操作,可提高后续财务关键信息字符识别的效率。
[0059] 本发明将图表分割多个区域块后,将各个区域块分别使用OCR接口对切割的财务表格进行提取财务特征字符;其具体实施方式:
[0060] OCR接口返回每个子区域块中每个字符的坐标,对字符图像提取多维的特征用于后面的特征匹配模式识别算法。将当前字符提取的特征向量与特征模板库进行模板粗分类和模板细匹配,识别出字符的算法。对于字段中存在失真的字符未能准确提取的情况,结合财务表格的逻辑关系,使用字典关键词匹配的方法,提高失真字符识别的准确率。上述实施步骤最终返回每个字符信息及字符坐标。
[0061] 本发明对恢复数据进行版面恢复,其具体实施方式:本发明进行表格图形几何分析、连通域分析和表格分割后,可得到各个单元格坐标;各个单元格中的字符图像进行OCR字符识别后得到每个单元格中的字符的信息和每个字符的坐标,接下来将提取得到的字符数据按照坐标填写到对应表格即可恢复原来的图像数据表。
[0062] 本发明对恢复版面后将数据实现序列化,以结构化形式输出为JSON格式数据,其具体实施方式:自定义数据结构,使用JSON输出页面中所有表格。并返回一个嵌套列表,其结构层次为table→row→cell。此时,页面上的整个表格被放入一个大列表中,原表格中的各行组成该大列表中的各个子列表。
[0063] 本发明对JSON格式数据调用数据库接口,其具体实施方式:调用jsonToExcel函数,将所有财务表格信息数据转换为excel数据入库存储,同时系统提供用户下载接口,下载数据库中的财务信息。
[0064] 本发明建立评价PDF识别财务数据表格系统,并根据量化结果实时调整系统中合并表格算法和深度学习分割表格算法的参数;其具体实施方式:根据最终数据库中的财务数据建立数据集,建立评价PDF识别财务数据表格系统;表格识别系统的效率以及准确率高低,要量化评价。表格结构识别过程,可看成是对单元格的检测,本发明关注检测的precision(准确率)和recall(召回率)指标,precision指标反映了重建结果中,单元格真实存在的数目,单元格错置的数目;recall指标反映重建结果中表格单元格遗漏的数目;根据关键指标实时调整系统中跨页合并表格算法和深度学习分割表格算法的参数,上述实施步骤可使系统处于迭代优化中,趋向于提高识别准确率。
[0065] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本
申请各实施例技术方案的范围。