首页 / 专利库 / 电脑编程 / 算法 / 金融文档信息智能提取系统及方法

金融文档信息智能提取系统及方法

阅读:338发布:2021-06-06

专利汇可以提供金融文档信息智能提取系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种金融文档信息智能提取系统,包括 服务器 ,服务器包括文档数据接收端口、数据归一化模 块 、文档 数据库 、资源加载端口、资源数据库、数据提取模块、文档提取信息数据库,文档数据库包括文本数据库、表格数据库,文档提取信息数据库包括文本提取信息数据库、表格提取信息数据库、文本表格合并信息数据库。本发明还公开了一种金融文档信息智能提取方法,包括数据归一化、数据提取等过程,本发明采用 人工智能 进行文档信息的智能分析、提取,具有效率高、成本低的特点。,下面是金融文档信息智能提取系统及方法专利的具体信息内容。

1.金融文档信息智能提取系统,其特征是包括服务器,所述服务器包括文档数据接收端口、数据归一化模、文档数据库、资源加载端口、资源数据库、数据提取模块、文档提取信息数据库,所述文档数据库包括文本数据库、表格数据库,所述文档提取信息数据库包括文本提取信息数据库、表格提取信息数据库、文本表格合并信息数据库,所述文档数据接收端口用于接收外部文档数据,所述数据归一化模块用于将外部文档数据归一化处理成统一格式,所述文本数据库用于存储、管理统一格式的文本数据,所述表格数据库用于存储、管理统一格式的表格数据,所述资源加载端口用于加载外部资源数据,所述资源数据库用于存储、管理加载的外部资源,所述数据提取模块用于提取文档信息,所述文本提取信息数据库用于存储、管理提取的文本信息,所述表格提取信息数据库用于存储、管理提取的表格信息,所述文本表格合并信息数据库用于存储、管理合并的提取文本、表格信息。
2.金融文档信息智能提取方法,所述金融文档信息智能提取方法基于金融文档信息智能提取系统,所述金融文档信息智能提取系统包括服务器,所述服务器包括文档数据接收端口、数据归一化模块、文档数据库、资源加载端口、资源数据库、数据提取模块、文档提取信息数据库,所述文档数据库包括文本数据库、表格数据库,所述文档提取信息数据库包括文本提取信息数据库、表格提取信息数据库、文本表格合并信息数据库,其特征是包括步骤:
⑴数据归一化模块将通过文档数据接收端口获取的外部文档数据分类成Excel文档、Word文档、OCR识别文档,数据归一化模块将Excel文档转换成设定格式的表格数据,数据归一化模块将Word文档分解成文本部分、表格部分,数据归一化模块将文本部分合并转换成设定格式的文本数据,数据归一化模块将表格部分转换成设定格式的表格数据,数据归一化模块将OCR识别文档的文本区域合并转换成设定格式的文本数据,数据归一化模块将OCR识别文档的表格区域重组成Excel格式后转换成设定格式的表格数据,文本数据存入文本数据库,表格数据存入表格数据库;
⑵数据提取模块根据资源数据库的业务配置数据生成待提取字段的正则表达式,数据提取模块将文本数据与正则表达式进行全文匹配来过滤提取文本数据,组合匹配结果得到提取的文本信息存入文本提取信息数据库,数据提取模块根据排版方式将表格数据分为横版表格数据、竖版表格数据,数据提取模块分别提取横版表格数据、竖版表格数据进行模糊匹配、格式化得到提取的表格信息存入表格提取信息数据库,数据提取模块合并提取的文本信息、表格信息存入文本表格合并信息数据库。
3.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑴还包括过程:数据归一化模块按照OCR识别文档的表格区域的位置信息的Y轴坐标将表格区域排序,然后定义行对象、单元格对象、表格区域对象,遍历表格区域列表,如果表格区域与当前创建的行对象存在Y轴坐标重合,则根据表格区域创建当前行对象的单元格对象,将表格区域添加到当前行对象中,更新行对象当前实际上下沿坐标来添加新行对象作为当前行对象,判断当前行对象是否与表格区域存在Y轴坐标重合,最后遍历行对象列表,从右至左判断单元格对象是否与前面单元格对象存在X轴坐标重合,如果存在X轴坐标重合则合并单元格对象。
4.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑵还包括过程:通过NLP技术获取正则表达式使用的语料,通过词性标注找到所有非名词短语,通过词向量找到非名词短语的同义词,通过非名词短语作为字段值的边界条件进行全文匹配,根据业务配置数据中的上下文信息过滤提取数据。
5.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑵还包括过程:数据提取模块同时判断表格数据中的上下两行是否存在字段值,如果上一行存在字段值,同时下一行没有字段值,则判断当前表格数据是竖版表格数据,如果上一行与下一行都存在字段名,则判断当前表格数据是横版表格数据。
6.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑵还包括过程:数据提取模块根据资源数据库的字段语料库遍历横版表格数据,找出所有的字段名,同时记录字段名出现的顺序,确定两个字段名之间的内容即为对应字段名的值映射,根据字段名出现的顺序分析出所有歧义字段的准确字段名。
7.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑵还包括过程:数据提取模块根据资源数据库的字段语料库遍历竖版表格数据,判断当前行的类型,如果判断结果是字段名行,则缓存字段名,如果是字段名的值行,则按照顺序将字段名的值与当前缓存的字段名形成映射关系,如果判断结果是字段名、字段名的值行,则找出当前行所有的字段名,同时记录字段名出现的顺序,确定两个字段名之间的内容即为对应字段名的值映射。
8.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑵的模糊匹配采用编辑距离算法,编辑距离算法的编辑距离是从目标字符串变换成目的字符串需要的步骤,数据提取模块根据资源数据库的与提取字段名匹配的语料库与字段值提取结果计算编辑距离获取最短编辑距离的语料数据,如果编辑距离超过阈值,则返回原提取结果,如果编辑距离未超过阈值,则返回最短编辑距离的语料数据。
9.根据权利要求8所述的金融文档信息智能提取方法,其特征在于,步骤⑵还包括过程:数据提取模块根据资源数据库的金额易错字映射表、四编码形近字映射算法将提取数据中输入的大写金额的错别字映射覆盖得到映射结果集,将映射结果集中的大写金额字符串的大学金额转换成小写金额得到小写金额数据集,将小写金额数据集与输入的小写金额运用逻辑距离算法进行模糊匹配,判断是否存在最优大写金额结果,如果存在最优大写金额结果,则将最优大写金额结果、对应的小写金额作为最后的输出结果,如果不存在最优大写金额结果,则将输入的小写金额转换成大写金额作为最后的输出结果。
10.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑵还包括过程:数据提取模块从资源数据库的业务配置数据获取字段值格式正则表达式,数据提取模块将字段值提取结果与字段值格式正则表达式进行匹配,如果字段值提取结果符合字段值格式正则表达式,则返回字段值提取结果,如果字段值提取结果不符合字段值格式正则表达式,则数据提取模块处理字段值提取结果直至符合字段值格式正则表达式后返回处理结果。

说明书全文

金融文档信息智能提取系统及方法

技术领域

[0001] 本发明涉及一种金融文档信息提取系统及方法,特别涉及一种采用人工智能的金融文档信息提取系统及方法,属于金融管理领域。

背景技术

[0002] 目前,金融领域产生新数据的速率越来越快,每日可以生成海量的文档,包括文本形式的Excel、Word、PDF以及各类图片,因此行、基金公司每天需要处理的文档也就大量增加,用人成本大幅度提升。目前,金融大数据时代已经到来,而大部分金融机构还在使用传统的手敲文本录入手段,同时金融领域人工智能技术也越来越成熟。
[0003] 人工智能最近几年获得了飞速发展,人工智能在金融领域的广泛应用也获得了广泛关注。目前内容提取的主要应用的是NLP(Natural Language Processing,自然语言处理)相关的技术,用于词性标注、关键字提取以及同义词提取(多采用词向量)。随着需求的增加,技术的提高完善,内容提取系统越来越多地被开发出来。不过,金融领域内容提取系统最基础的功能是根据不同业务类型、数据来源提取不同字段,以及和它匹配的字段值,实现文档录入的自动化。
[0004] 由于金融机构客户繁多,文档格式没有统一标准,导致目前金融领域同一种业务类型文档结构千差万别,更何况不同机构提供的业务类型多种多样,从而导致现有的内容提取系统很难满足金融领域的提取需求,提取精度都很差,甚至采用传统方式实现提取系统的提取手法僵化,文档结构稍有变化,则系统无法正常工作。而且,对于歧义字段,现有同类系统无法正确辨识其真正所属字段类型,比如,银行系统的划款指令存在“开户行”字段,直接提取无法分辨是“收款人开户行”还是“付款人开户行”。此外,目前现有的同类内容提取系统都无法直接和OCR(Optical Character Recognition,光学字符识别)系统对接,无法利用OCR识别结果提取结构化数据。

发明内容

[0005] 本发明金融文档信息智能提取系统及方法公开了新的方案,采用人工智能进行文档信息的智能分析、提取,解决了现有方案采用人工处理带来的效率低、成本高的问题。
[0006] 本发明金融文档信息智能提取系统包括服务器,服务器包括文档数据接收端口、数据归一化模、文档数据库、资源加载端口、资源数据库、数据提取模块、文档提取信息数据库,文档数据库包括文本数据库、表格数据库,文档提取信息数据库包括文本提取信息数据库、表格提取信息数据库、文本表格合并信息数据库,文档数据接收端口用于接收外部文档数据,数据归一化模块用于将外部文档数据归一化处理成统一格式,文本数据库用于存储、管理统一格式的文本数据,表格数据库用于存储、管理统一格式的表格数据,资源加载端口用于加载外部资源数据,资源数据库用于存储、管理加载的外部资源,数据提取模块用于提取文档信息,文本提取信息数据库用于存储、管理提取的文本信息,表格提取信息数据库用于存储、管理提取的表格信息,文本表格合并信息数据库用于存储、管理合并的提取文本、表格信息。
[0007] 本发明还公开了一种金融文档信息智能提取方法,金融文档信息智能提取方法基于金融文档信息智能提取系统,金融文档信息智能提取系统包括服务器,服务器包括文档数据接收端口、数据归一化模块、文档数据库、资源加载端口、资源数据库、数据提取模块、文档提取信息数据库,文档数据库包括文本数据库、表格数据库,文档提取信息数据库包括文本提取信息数据库、表格提取信息数据库、文本表格合并信息数据库。方法包括步骤:
[0008] ⑴数据归一化模块将通过文档数据接收端口获取的外部文档数据分类成Excel文档、Word文档、OCR识别文档,数据归一化模块将Excel文档转换成设定格式的表格数据,数据归一化模块将Word文档分解成文本部分、表格部分,数据归一化模块将文本部分合并转换成设定格式的文本数据,数据归一化模块将表格部分转换成设定格式的表格数据,数据归一化模块将OCR识别文档的文本区域合并转换成设定格式的文本数据,数据归一化模块将OCR识别文档的表格区域重组成Excel格式后转换成设定格式的表格数据,文本数据存入文本数据库,表格数据存入表格数据库;
[0009] ⑵数据提取模块根据资源数据库的业务配置数据生成待提取字段的正则表达式,数据提取模块将文本数据与正则表达式进行全文匹配来过滤提取文本数据,组合匹配结果得到提取的文本信息存入文本提取信息数据库,数据提取模块根据排版方式将表格数据分为横版表格数据、竖版表格数据,数据提取模块分别提取横版表格数据、竖版表格数据进行模糊匹配、格式化得到提取的表格信息存入表格提取信息数据库,数据提取模块合并提取的文本信息、表格信息存入文本表格合并信息数据库。
[0010] 进一步,本方案方法的步骤⑴还包括过程:数据归一化模块按照OCR识别文档的表格区域的位置信息的Y轴坐标将表格区域排序,然后定义行对象、单元格对象、表格区域对象,遍历表格区域列表,如果表格区域与当前创建的行对象存在Y轴坐标重合,则根据表格区域创建当前行对象的单元格对象,将表格区域添加到当前行对象中,更新行对象当前实际上下沿坐标来添加新行对象作为当前行对象,判断当前行对象是否与表格区域存在Y轴坐标重合,最后遍历行对象列表,从右至左判断单元格对象是否与前面单元格对象存在X轴坐标重合,如果存在X轴坐标重合则合并单元格对象。
[0011] 进一步,本方案方法的步骤⑵还包括过程:通过NLP技术获取正则表达式使用的语料,通过词性标注找到所有非名词短语,通过词向量找到非名词短语的同义词,通过非名词短语作为字段值的边界条件进行全文匹配,根据业务配置数据中的上下文信息过滤提取数据。
[0012] 进一步,本方案方法的步骤⑵还包括过程:数据提取模块同时判断表格数据中的上下两行是否存在字段值,如果上一行存在字段值,同时下一行没有字段值,则判断当前表格数据是竖版表格数据,如果上一行与下一行都存在字段名,则判断当前表格数据是横版表格数据。
[0013] 进一步,本方案方法的步骤⑵还包括过程:数据提取模块根据资源数据库的字段语料库遍历横版表格数据,找出所有的字段名,同时记录字段名出现的顺序,确定两个字段名之间的内容即为对应字段名的值映射,根据字段名出现的顺序分析出所有歧义字段的准确字段名。
[0014] 进一步,本方案方法的步骤⑵还包括过程:数据提取模块根据资源数据库的字段语料库遍历竖版表格数据,判断当前行的类型,如果判断结果是字段名行,则缓存字段名,如果是字段名的值行,则按照顺序将字段名的值与当前缓存的字段名形成映射关系,如果判断结果是字段名、字段名的值行,则找出当前行所有的字段名,同时记录字段名出现的顺序,确定两个字段名之间的内容即为对应字段名的值映射。
[0015] 进一步,本方案方法的步骤⑵的模糊匹配采用编辑距离算法,编辑距离算法的编辑距离是从目标字符串变换成目的字符串需要的步骤,数据提取模块根据资源数据库的与提取字段名匹配的语料库与字段值提取结果计算编辑距离获取最短编辑距离的语料数据,如果编辑距离超过阈值,则返回原提取结果,如果编辑距离未超过阈值,则返回最短编辑距离的语料数据。
[0016] 更进一步,本方案方法的步骤⑵还包括过程:数据提取模块根据资源数据库的金额易错字映射表、四编码形近字映射算法将提取数据中输入的大写金额的错别字映射覆盖得到映射结果集,将映射结果集中的大写金额字符串的大学金额转换成小写金额得到小写金额数据集,将小写金额数据集与输入的小写金额运用逻辑距离算法进行模糊匹配,判断是否存在最优大写金额结果,如果存在最优大写金额结果,则将最优大写金额结果、对应的小写金额作为最后的输出结果,如果不存在最优大写金额结果,则将输入的小写金额转换成大写金额作为最后的输出结果。
[0017] 进一步,本方案方法的步骤⑵还包括过程:数据提取模块从资源数据库的业务配置数据获取字段值格式正则表达式,数据提取模块将字段值提取结果与字段值格式正则表达式进行匹配,如果字段值提取结果符合字段值格式正则表达式,则返回字段值提取结果,如果字段值提取结果不符合字段值格式正则表达式,则数据提取模块处理字段值提取结果直至符合字段值格式正则表达式后返回处理结果。
[0018] 本发明金融文档信息智能提取系统及方法采用人工智能进行文档信息的智能分析、提取,具有效率高、成本低的特点。附图说明
[0019] 图1是金融文档信息智能提取系统的原理图。
[0020] 图2是数据归一化的流程图
[0021] 图3是OCR识别文档中的表格区域数据统一格式的流程图。
[0022] 图4是数据提取的流程图。
[0023] 图5是数据提取中模糊匹配的流程图。
[0024] 图6是数据提取中数据格式化的流程图。
[0025] 图7是数据提取中金额数据纠错的流程图。

具体实施方式

[0026] 如图1所示,本发明金融文档信息智能提取系统包括服务器,服务器包括文档数据接收端口、数据归一化模块、文档数据库、资源加载端口、资源数据库、数据提取模块、文档提取信息数据库,文档数据库包括文本数据库、表格数据库,文档提取信息数据库包括文本提取信息数据库、表格提取信息数据库、文本表格合并信息数据库,文档数据接收端口用于接收外部文档数据,数据归一化模块用于将外部文档数据归一化处理成统一格式,文本数据库用于存储、管理统一格式的文本数据,表格数据库用于存储、管理统一格式的表格数据,资源加载端口用于加载外部资源数据,资源数据库用于存储、管理加载的外部资源,数据提取模块用于提取文档信息,文本提取信息数据库用于存储、管理提取的文本信息,表格提取信息数据库用于存储、管理提取的表格信息,文本表格合并信息数据库用于存储、管理合并的提取文本、表格信息。上述方案采用人工智能进行文档信息的智能分析、提取,有效解决了人工操作因工作量增长而带来的效率下降,成本上升的问题,以及同类系统适应性差的问题。
[0027] 本发明还公开了一种金融文档信息智能提取方法,金融文档信息智能提取方法基于金融文档信息智能提取系统,金融文档信息智能提取系统包括服务器,服务器包括文档数据接收端口、数据归一化模块、文档数据库、资源加载端口、资源数据库、数据提取模块、文档提取信息数据库,文档数据库包括文本数据库、表格数据库,文档提取信息数据库包括文本提取信息数据库、表格提取信息数据库、文本表格合并信息数据库。方法包括步骤:⑴数据归一化模块将通过文档数据接收端口获取的外部文档数据分类成Excel文档、Word文档、OCR识别文档,数据归一化模块将Excel文档转换成设定格式的表格数据,数据归一化模块将Word文档分解成文本部分、表格部分,数据归一化模块将文本部分合并转换成设定格式的文本数据,数据归一化模块将表格部分转换成设定格式的表格数据,数据归一化模块将OCR识别文档的文本区域合并转换成设定格式的文本数据,数据归一化模块将OCR识别文档的表格区域重组成Excel格式后转换成设定格式的表格数据,文本数据存入文本数据库,表格数据存入表格数据库;⑵数据提取模块根据资源数据库的业务配置数据生成待提取字段的正则表达式,数据提取模块将文本数据与正则表达式进行全文匹配来过滤提取文本数据,组合匹配结果得到提取的文本信息存入文本提取信息数据库,数据提取模块根据排版方式将表格数据分为横版表格数据、竖版表格数据,数据提取模块分别提取横版表格数据、竖版表格数据进行模糊匹配、格式化得到提取的表格信息存入表格提取信息数据库,数据提取模块合并提取的文本信息、表格信息存入文本表格合并信息数据库。上述方案采用人工智能进行文档信息的智能分析、提取,采用NLP技术收集各类语料数据丰富语料库资源,利用上下文信息,筛选、确认提取结果,可以支持新业务,适应金融领域多变的文档结构,同时引入了模糊匹配与数据格式化过程,有效解决了OCR文档信息提取的问题,大幅提高了信息提取的效率,缩减了人工录入成本。
[0028] 如图3所示,为了实现OCR识别文档的表格区域的数据格式统一化,本方案方法的步骤⑴还包括过程:数据归一化模块按照OCR识别文档的表格区域的位置信息的Y轴坐标将表格区域排序,然后定义行对象、单元格对象、表格区域对象,遍历表格区域列表,如果表格区域与当前创建的行对象存在Y轴坐标重合,则根据表格区域创建当前行对象的单元格对象,将表格区域添加到当前行对象中,更新行对象当前实际上下沿坐标来添加新行对象作为当前行对象,判断当前行对象是否与表格区域存在Y轴坐标重合,最后遍历行对象列表,从右至左判断单元格对象是否与前面单元格对象存在X轴坐标重合,如果存在X轴坐标重合则合并单元格对象。
[0029] 为了实现文本数据的提取,如图4所示,本方案方法的步骤⑵还包括过程:通过NLP技术获取正则表达式使用的语料,通过词性标注找到所有非名词短语,通过词向量找到非名词短语的同义词,通过非名词短语作为字段值的边界条件进行全文匹配,根据业务配置数据中的上下文信息过滤提取数据。
[0030] 为了实现表格数据的提取,如图4所示,本方案方法的步骤⑵还包括过程:数据提取模块同时判断表格数据中的上下两行是否存在字段值,如果上一行存在字段值,同时下一行没有字段值,则判断当前表格数据是竖版表格数据,如果上一行与下一行都存在字段名,则判断当前表格数据是横版表格数据。为了实现横版表格数据的提取,本方案方法的步骤⑵还包括过程:数据提取模块根据资源数据库的字段语料库遍历横版表格数据,找出所有的字段名,同时记录字段名出现的顺序,确定两个字段名之间的内容即为对应字段名的值映射,根据字段名出现的顺序分析出所有歧义字段的准确字段名。为了实现竖版表格数据的提取,本方案方法的步骤⑵还包括过程:数据提取模块根据资源数据库的字段语料库遍历竖版表格数据,判断当前行的类型,如果判断结果是字段名行,则缓存字段名,如果是字段名的值行,则按照顺序将字段名的值与当前缓存的字段名形成映射关系,如果判断结果是字段名、字段名的值行,则找出当前行所有的字段名,同时记录字段名出现的顺序,确定两个字段名之间的内容即为对应字段名的值映射。
[0031] 如图5所示,为了实现模糊匹配过程,本方案方法的步骤⑵的模糊匹配采用编辑距离算法,编辑距离算法的编辑距离是从目标字符串变换成目的字符串需要的步骤,数据提取模块根据资源数据库的与提取字段名匹配的语料库与字段值提取结果计算编辑距离获取最短编辑距离的语料数据,如果编辑距离超过阈值,则返回原提取结果,如果编辑距离未超过阈值,则返回最短编辑距离的语料数据。如图7所示,为了对提取数据中的金额数据进行纠错,本方案方法的步骤⑵还包括过程:数据提取模块根据资源数据库的金额易错字映射表、四角编码形近字映射算法将提取数据中输入的大写金额的错别字映射覆盖得到映射结果集,将映射结果集中的大写金额字符串的大学金额转换成小写金额得到小写金额数据集,将小写金额数据集与输入的小写金额运用逻辑距离算法进行模糊匹配,判断是否存在最优大写金额结果,如果存在最优大写金额结果,则将最优大写金额结果、对应的小写金额作为最后的输出结果,如果不存在最优大写金额结果,则将输入的小写金额转换成大写金额作为最后的输出结果。
[0032] 如图6所示,为了实现数据提取的格式化过程,本方案方法的步骤⑵还包括过程:数据提取模块从资源数据库的业务配置数据获取字段值格式正则表达式,数据提取模块将字段值提取结果与字段值格式正则表达式进行匹配,如果字段值提取结果符合字段值格式正则表达式,则返回字段值提取结果,如果字段值提取结果不符合字段值格式正则表达式,则数据提取模块处理字段值提取结果直至符合字段值格式正则表达式后返回处理结果。
[0033] 本方案公开了一种金融文档智能提取系统,主要是Excel和Word内容提取,同时与OCR系统结合,完成图片或PDF文档的内容提取任务。本方案提供更灵活的提取方案,降低对文档结构的依赖程度,并且对于歧义字段能根据上下文数据自行判断其实际所属字段类型。此外,为了提取图片上的文本内容,本发明还提供应用接口,接收外部OCR系统的识别结果,然后从中提取结构化数据。如图1所示,金融文档智能提取系统包括数据接收端、数据归一化模块、资源加载端和数据提取模块。其中数据接收端可以与外部的OCR系统连接,数据归一化模块与数据接收端连接,资源加载端与外部系统资源服务器连接,数据提取模块和数据归一化模块、资源加载端连接。数据提取模块是本发明系统的主要模块,它负责判断数据类型、应用NLP技术积累的词库资源构造自由的正则表达式、应用复杂的算法解决表格提取、模糊匹配、数据格式化、OCR数据转结构化数据等难题。数据提取模块能从自由文本中提取任意字段,同一个字段不同的表达形式也能完全适应。数据提取模块提取表格数据能将待提取字段从错字连篇的OCR识别结果中准确提取出来,而且结合模糊匹配与数据格式化能对错误字段值有一定的纠错能。数据接收端可以直接接收用户上传的Excel或Word文档,同时提供外接接口,可以接收OCR系统的识别结果。数据归一化模块负责将多类型的数据格式统一化,方便提取模块处理,其中OCR识别结果(文本块&位置信息)转Excel的算法属于该模块的核心模块,使得本方案能外接OCR系统,提取图片文档内容。资源加载端外接资源服务器,并从中加载业务相关资源,包括字段名语料库(含字段名OCR易出现的识别结果)、字段值语料库(如银行名列表、基金名称/代码映射表等)、业务配置信息,加载资源后提供给提取模块使用。
[0034] 如图2、图3所示,数据归一化模块的具体工作流程:
[0035] ⑴判断输入数据的具体类型,分为Excel文档、Word文档以及OCR识别结果。
[0036] ⑵对于Excel文档,直接将文档的Sheet转成Table对象(代码中定义的表格数据的统一格式)。
[0037] ⑶对于Word文档,将“.doc”文件转成“.docx”文件,然后将其中内容分为text和table,合并所有文本区域,并将文档中表格转成Table对象。
[0038] ⑷对于OCR识别结果,其中包括文本区域,以及表格区域(OCR系统可以判断),每个区域由文本块,以及该文本块在原图中的坐标组成,根据文本块以及坐标,将表格区域数据重组为Excel,进而转化成统一的Table对象,文本区域则直接按顺序合并。
[0039] ⑸关于OCR识别结果转Table对象,本方案采用独有算法:首先,按照位置信息的Y轴坐标对文本块排序,然后定义Row(行)对象、Cell(单元格)对象以及Block(文本块,表格区域)对象,遍历Block列表,如果Block与当前创建的Row在纵轴相交,则根据Block创建Cell对象,并添加到Row对象中,并更新Row当前实际上下沿坐标(用来判断是否和Block相交),最后遍历Row列表,从右至左判断Cell是否和其前面Cell在横轴相交,如果相交则合并单元格。
[0040] 如图4~7所示,数据提取模块的具体工作流程:
[0041] ⑴首先判断数据类型(文本/表格)。
[0042] ⑵根据数据类型不同,进入不同的处理流程:首先,自由文本处理流程中,根据业务配置文档生成待提取字段的正则表达式,生成正则使用的语料由NLP技术获取,分别是词性标注找到所有非名词短语,以及通过词向量找到他们的同义词,通过这些非名词作为字段值的边界条件,然后全文匹配,并根据配置文件中提到的上下文信息过滤提取数据(比如,甲乙方信息的辨别,和“甲方信息”及其同义词距离近的则为甲方数据,反之为乙方数据);其次,判断表格数据是横版还是竖版,找出表格中所有字段名,为了增加判断精度,采用上下两行同时判断的方式,首先判断上面的行是否存在字段名,如果存在,则继续看下一行,如果下一行没有字段值,则判定上面的行是“Title行”,进而判定当前表格是竖版表格。
[0043] ⑶横版表格数据处理流程中,首先根据字段语料库遍历表格,找出所有的字段名(包括OCR可能识别出来的字段错误变形,如“划款H期”),并记录字段出现的顺序,然后根据两个字段之间的内容即为字段值的理论基础,找到字段名的值映射,随后根据字段出现的顺序,分析出所有歧义字段的准确字段类型(比如,同时出现两个“开户行”,根据前面已经出现的信息,“开户行”和收款人数据近,来判断它是“收款人开户行”)。
[0044] ⑷竖版表格处理流程中,遍历每一行,判断当前行的类型(分为三类,Title行、Title&Value行以及Value行),如果是Title行,则缓存这一行,并继续读取下一行,如果是Value行,则按照顺序将Value与当前缓存的Title一一映射,如果是Title&Value行,则表示这一行是类似于横版的行,采用Title之间夹Value的逻辑处理,遍历至表格最后结束。
[0045] ⑸金融业务文档中,部分待提取字段存在匹配的语料库,比如开户行,它的值都是银行名称,因此预先构造一个银行语料库,诸如此类,本方案系统提供了大量的类似语料库数据,这些语料库主要用于模糊匹配过程,本方案采用的是编辑距离算法的模糊匹配,编辑距离是从字符串A变成B需要的步骤,包括增删改,此外,由于个别数据是存在固定格式的,比如日期,因此本系统也加入了数据格式化,保证数据处理后能符合其格式需求。
[0046] ⑹由于金融行业对于资金问题敏感程度很高,因此,为了提高提取准确率(尤其是OCR识别结果中可能存在噪音或者错字),本方案采用了大写金额与小写金额互相匹配的方式,首先输入大写金额与小写金额,先通过收集的金额易错字(主要是OCR容易识别错误的错别字)映射表,将部分出现的错别字映射成正确的,但是这种映射表很难做到全覆盖,因此,再配合四角编码的方式,做形近字映射,然后得到一个映射结果集,里面包含多个大写金额字符串,随后,大写金额转小写金额,以转出的小写金额作为数据集,以输入的小写金额作为匹配数据,运用编辑距离算法做模糊匹配,找出大写金额的最优结果,最后,将这个最优大写金额以及对应的小写金额作为最后的输出结果。假如没有得到最优解(处理后的大写金额转小写金额没有成功,或者最小编辑距离大于阈值),则将输入的小写金额转成大写金额,并将其作为输出。
[0047] 本方案提取各类金融文档字段名/值映射,减少金融领域人工录入的成本,提供统一实时数据接口,能接收客户上传文档,并支持外接OCR系统的结构化OCR识别结果。本方案采用NLP技术,收集各类语料数据丰富语料库资源,可以支持新业务,适应金融领域多变的文档结构。本方案利用上下文信息筛选、确认提取结果。由于对OCR识别结果提取的支持,本方案引入了模糊匹配与数据格式化,尤其是针对金融领域的特点,对于金额数据进行了大小写交叉验证的操作,大幅提高了金额数据的提取精度。基于以上特点,本方案金融文档信息智能提取系统及方法相比现有同类方案具有突出的实质性特点和显著的进步。本方案金融文档信息智能提取系统及方法并不限于具体实施方式中公开的内容,实施例中出现的技术方案可以基于本领域技术人员的理解而延伸,本领域技术人员根据本方案结合公知常识作出的简单替换方案也属于本方案的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈