首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 半监督学习 / 适用于物流行业的智能单证结构化提取方法

适用于物流行业的智能单证结构化提取方法

阅读:1276发布:2020-05-08

专利汇可以提供适用于物流行业的智能单证结构化提取方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了适用于物流行业的智能单证结构化提取方法,包括以下步骤:S1: 机器学习 ;a:半监督机器学习,让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能;b:人工纠错,已知数据和其一一对应的标签,训练一个智能 算法 ;c:规则调优;S2:结构化提取引擎包含基于机器学习以及其它方式定义的识别模型;S3:建立物流行业单证录入时常见录入错误纠错库。本发明主要针对适用于物流行业的智能单证结构化提取方法,本发明通过引入完整的纠错系统和半监督机器学习,解决实际使用过程中物流类单据提取结果人工标注答案不准确,OCR识别准确率无法满足智能单证提取的实际应用需求。,下面是适用于物流行业的智能单证结构化提取方法专利的具体信息内容。

1.适用于物流行业的智能单证结构化提取方法,其特征在于,包括以下步骤:
S1:机器学习
a:半监督机器学习,让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,基于半监督学习将物流行业非结构化单证对应结构化提取的少量人工标注答案进行鉴别,快速警示疑似人工标注错误,同时利用部分已标记样本和部分未标记样本训练提取引擎;疑似人工标注错误可以是整体标注错误、部分片段标注错误、半监督学习中发现的少量孤立样本和半监督学习中发现的针对某个片段的少量孤立样本中的一种或几种;
b:人工纠错,为后续的规则调优准备了大量的正确标记样本,人工纠错的路径为:由半监督学习训练的提取引擎对大量样本进行标记,由机器学习算法判定是否需要启用人工纠错、系统可通过机器学习提供疑似正确答案供人工选择;
c:规则调优,设置已知数据和其一一对应的标签,训练一个智能算法,将输入数据映射到标签的过程;
S2:结构化提取引擎包含基于机器学习以及其它方式定义的识别模型、基于大数据挖掘获取的智能纠错知识库与对于OCR结果,分析OCR提取的置信度,评出合适的提取结果;
S3:建立物流行业单证录入时常见录入错误纠错库,基于大数据挖掘的智能纠错库有两个领域的纠错,分别为:录入人员粗心引入的错误与OCR识别错误;单证提取纠错系统的组成为:单证内容初步提取、单证结构纠错、常见录入错误纠错、常见OCR错误纠错、专家知识库纠错与人工纠错。
2.根据权利要求1的适用于物流行业的智能单证结构化提取方法,其特征在于:在S1的c中,规则调优的标签数据从两个方面获取,分别有:学习阶段人工标记的样本数据;上线系统中发现的各种单证,经半监督学习训练的提取引擎进行标记以及人工校正后引入规则调优模
3.根据权利要求1的适用于物流行业的智能单证结构化提取方法,其特征在于:在S2中,基于机器学习以及其它方式定义的识别模型,在专家知识库的辅助下快速分析和提取结构化内容;基于大数据挖掘获取的智能纠错知识库,对结构化内容进行规范、纠正,避免因录入人员人工误差导致的原始信息错误;对于OCR结果,分析OCR提取的置信度,对于那些置信度低于阈值的结构化内容进行区域位置信息标记,为后续的人工疑似分析提供数据支持。
4.根据权利要求1的适用于物流行业的智能单证结构化提取方法,其特征在于:在S2中,评出合适的提取结果的标准有:符合指定信息的编码规范、对片段内容重复出现的每个信息片段OCR结果计算平均置信度,取平均置信度最高的信息片段OCR结果作为提取结果与比对所有信息片段相同位置字符的OCR识别置信度,同时考虑各个信息片段的平均置信度,为每个位置选择最可信的OCR提取结果,最终还原完整信息,判决模型可采用机器学习训练完成和采用决策树等机器学习模型,通过机器学习建立物流行业单证提取常见错误库。
5.根据权利要求1的适用于物流行业的智能单证结构化提取方法,其特征在于:在S3中,单证内容初步提取,基于机器学习训练的识别模型完成单证内容的初步提取为后续的纠错提供了关键的片段类型信息;单证结构纠错,系统根据机器学习训练的结果,可以在这些重复出现的关键信息片段中挑选OCR正确率最高的识别结果作为片段提取内容;常见录入错误纠错,明确提取内容的片段类型信息;常见OCR错误纠错,明确提取内容的片段类型信息结合常见OCR识别错误组合、专家知识库两个信息,可以准确的完成常见OCR错误纠错;
专家知识库纠错,使用专家知识库通过模糊匹配进行进一步纠错;人工纠错,对于那些前序手段无法识别的错误,采取警示的方法要求人工完成最后的纠错。
6.根据权利要求1的适用于物流行业的智能单证结构化提取方法,其特征在于:在S3中,建立物流行业单证OCR时常见OCR错误库,OCR错误纠错库针对不同企业不同单证分别建立、OCR错误纠错库基于OCR结果和人工标准结果训练建立、OCR错误纠错库基于OCR结果和专家知识库训练建立、OCR错误纠错库模型由机器训练完成与纠错模型可采用决策树等机器学习模型。
7.根据权利要求1的适用于物流行业的智能单证结构化提取方法,其特征在于:在S3中,单证提取纠错系统是基于单证结构冗余的纠错、针对人工录入错误的纠错、针对OCR识别错误的纠错、基于专家知识库的纠错。
8.根据权利要求7的适用于物流行业的智能单证结构化提取方法,其特征在于:在S3中,专家知识库有;国家代码、货币代码、港口信息、船名信息、日期格式、重量单位、尺寸单位、包装方式、集装箱编码规范、集装箱箱型、空运单号编码规范、付费方式、运输方式、船名船期书写规范与集装箱箱型数量编写规范。

说明书全文

适用于物流行业的智能单证结构化提取方法

技术领域

[0001] 本发明涉及物流行业技术领域,具体为适用于物流行业的智能单证结构化提取方法。

背景技术

[0002] 现有的通用单证识别方法,主要是基于OCR光学技术针对特定领域的文件进行识别和提取,但是单证识别面临如下的困难:
[0003] 单据的样式非常多,某些单据既没有任何关键词,也没有任何固定的绝对位置关系,只能从语义和版式度进行内容提取分析;
[0004] 虽然经过训练,OCR全局识别率可以提高到95%左右,但是结构化提取并不需要分析并获取全部的数据,当原始图片在某些关键位置的模糊、字号变小等因素会导致与智能提取相关区域的OCR识别率可能会降低到90%,因此如何应用更多的信息进行模糊适应成为提高识别准确率的一个关键手段;
[0005] 人工是最容易出错的环节,由人工标注的正确答案准确率大约在75%左右,因此不能简单粗暴的采用人工标记加机器学习的方式来训练模型,必须要寻找一条新的机器学习的途径;
[0006] 在实际使用场景中,受到图片质量的影响,OCR识别率只能达到95%左右,单证结构化提取只需要提取图片的部分内容,这部分内容经常是在印刷表格之上再打印的内容,使得这部分关键内容的识别率往往达不到整张的平均识别率,而单证结构化的实际使用场景要求提取内容的准确率达到99%以上,否则缺乏实际使用价值。
[0007] 训练样本的质量往往决定了机器学习训练模型的效果,由人工对大量单证进行标准答案标注的准确率大约在75%左右,因此由人工标注答案进行单证智能提取机器学习是无法达到实际使用场景要求的。

发明内容

[0008] 本发明的目的在于提供适用于物流行业的智能单证结构化提取方法,以解决上述背景技术中提出的问题。
[0009] 为实现上述目的,本发明提供如下技术方案:适用于物流行业的智能单证结构化提取方法,包括以下步骤:
[0010] S1:机器学习;
[0011] a:半监督机器学习,让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,基于半监督学习将物流行业非结构化单证对应结构化提取的少量人工标注答案进行鉴别,快速警示疑似人工标注错误,同时利用部分已标记样本和部分未标记样本训练提取引擎,疑似人工标注错误可以是整体标注错误、部分片段标注错误、半监督学习中发现的少量孤立样本和半监督学习中发现的针对某个片段的少量孤立样本中的一种或几种。
[0012] b:人工纠错,为后续的规则调优准备了大量的正确标记样本,人工纠错的路径为;由半监督学习训练的提取引擎对大量样本进行标记,由机器学习算法判定是否需要启用人工纠错、系统可通过机器学习提供疑似正确答案供人工选择;
[0013] c:规则调优,设置已知数据和其一一对应的标签,训练一个智能算法,将输入数据映射到标签的过程;
[0014] S2:结构化提取引擎包含基于机器学习以及其它方式定义的识别模型、基于大数据挖掘获取的智能纠错知识库与对于OCR结果,分析OCR提取的置信度,评出合适的提取结果;
[0015] S3:建立物流行业单证录入时常见录入错误纠错库,基于大数据挖掘的智能纠错库有两个领域的纠错,分别为:录入人员人工误差引入的错误与OCR识别错误;单证提取纠错系统的组成为:单证内容初步提取、单证结构纠错、常见录入错误纠错、常见OCR错误纠错、专家知识库纠错与人工纠错。
[0016] 优选的,在S1的c中,规则调优的标签数据从两个方面获取,分别有:学习阶段人工标记的样本数据;上线系统中发现的各种单证,经半监督学习训练的提取引擎进行标记以及人工校正后引入规则调优模
[0017] 优选的,在S2中,基于机器学习以及其它方式定义的识别模型,在专家知识库的辅助下快速分析和提取结构化内容;基于大数据挖掘获取的智能纠错知识库,对结构化内容进行规范、纠正,避免因录入人员人工误差导致的原始信息错误;对于OCR结果,分析OCR提取的置信度,对于那些置信度低于阈值的结构化内容进行区域位置信息标记,为后续的人工疑似分析提供数据支持。
[0018] 优选的,在S2中,评出合适的提取结果的标准有:符合指定信息的编码规范;对片段内容重复出现的每个信息片段OCR结果计算平均置信度,取平均置信度最高的信息片段OCR结果座位提取结果与比对所有信息片段相同位置字符的OCR识别置信度,同时考虑各个信息片段的平均置信度,为每个位置选择最可信的OCR提取结果,最终还原完整信息,判决模型可采用机器学习训练完成和采用决策树等机器学习模型,通过机器学习建立物流行业单证提取常见错误库。
[0019] 优选的,在S3中,单证内容初步提取,基于机器学习训练的识别模型完成单证内容的初步提取为后续的纠错提供了关键的片段类型信息;单证结构纠错,系统根据机器学习训练的结果,可以在这些重复出现的关键信息片段中挑选OCR正确率最高的识别结果作为片段提取内容;常见录入错误纠错,明确提取内容的片段类型信息;常见OCR错误纠错,明确提取内容的片段类型信息结合常见OCR识别错误组合、专家知识库两个信息,可以准确的完成常见OCR错误纠错;专家知识库纠错,使用专家知识库通过模糊匹配进行进一步纠错;人工纠错,对于那些前序手段无法识别的错误,采取警示的方法要求人工完成最后的纠错。
[0020] 优选的,在S3中,建立物流行业单证OCR时常见OCR错误库,OCR错误纠错库针对不同企业不同单证分别建立、OCR错误纠错库基于OCR结果和人工标注结果训练建立、OCR错误纠错库基于OCR结果和专家知识库训练建立、OCR错误纠错库模型由机器训练完成与纠错模型可采用决策树等机器学习模型。
[0021] 优选的,在S3中,单证提取纠错系统是基于单证结构冗余的纠错、针对人工录入错误的纠错、针对OCR识别错误的纠错、基于专家知识库的纠错。
[0022] 优选的,在S3中,专家知识库有;国家代码、货币代码、港口信息、船名信息、日期格式、重量单位、尺寸单位、包装方式、集装箱编码规范、集装箱箱型、空运单号编码规范、付费方式、运输方式、船名船期书写规范与集装箱箱型数量编写规范。
[0023] 与现有技术相比,本发明的有益效果是:通过让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,经过半监督学习之后大幅度减少了人工的工作量,避免了人工因大量无谓重复工作导致的大量错误,通过在这个阶段引入人工纠错,为后续的规则调优准备了大量的正确标记样本,基于机器学习以及其它方式定义的识别模型,在专家知识库的辅助下快速分析和提取结构化内容,基于大数据挖掘获取的智能纠错知识库,对结构化内容进行规范、纠正,避免因录入人员人工误差导致的原始信息错误,对于OCR结果,分析OCR提取的置信度,对于那些置信度低于阈值的结构化内容进行区域位置信息标记,为后续的人工疑似分析提供数据支持,通过引入半监督学习和聚类分析,解决的人工标记只有75%准确率的关键问题,再建立物流行业单证录入时常见录入错误纠错库,通过引入完整的纠错系统,使得智能单证系统的提取准确率达到99%,解决实际使用过程中物流类单据提取结果由于人工标注答案不准确,OCR识别准确率无法满足智能单证提取的实际应用需求。
附图说明
[0024] 图1为本发明的整体流程框图
[0025] 图2为本发明的机器学习训练及调优的流程框图;
[0026] 图3为本发明的纠错系统流程框图。

具体实施方式

[0027] 下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0028] 请参阅图1,本发明提供一种技术方案:适用于物流行业的智能单证结构化提取方法,包括以下步骤:
[0029] S1:机器学习,在过往的智能单证结构化提取中,在提取结果和人工正确答案比对时,我们发现如下的现象:针对某个片段,如果全部样本的提取的结果完全错误,往往是训练的结果有错;针对某个片段,如果提取的结果部分正确(缺失边界内容),那么就是训练结果需要调优;针对某个片段,如果有的样本提取结果完全正确,有的样本提取结果完全错误,那么往往是人工标记时采用了拷贝粘贴等方式,使得人工标记的正确答案引入了大量错误,如果采用这种质量的标记答案进行机器学习,可能会导致机器学习的失败,因此我们认为简单粗暴的假设人工标记正确答案没有错误的前提下进行机器学习时是不适合智能单证提取的,针对某个片段,如果有的样本标注结果与提取内容完全一致,有的样本标注结果和提取内容完全错误(差异极大),则完全错误的人工标注需要人工检验;针对某个片段,如果有的样本标注结果与提取内容完全一致,有的样本标注结果和提取内容类似(模糊匹配),且差异内容要么OCR识别置信度低或者可在其它相关区域中找到,则需要后续机器学习进一步处理。
[0030] a:半监督机器学习:让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,在现实任务中,未标记样本多、有的标记样本少是一个比较普遍现象,如何利用好未标记样本来提升模型泛化能,就是半监督学习研究的重点,要利用未标记样本,需假设未标记样本所揭示的数据分布信息与类别标记之间存在的联系;因此智能单证结构化提取是在假设基础上,利用少量标注样本和大量未标注样本进行机器学习,从概率学习角度可理解为研究怎样利用训练样本的输入边缘概率P(x)和条件输出概率P(y|x)的联系设计具有良好性能的分类;
[0031] b:人工纠错:经过半监督学习,结构化提取可以达到比较高的准确率(85%以上),但是距离目标还有比较大的差距,但是基于这个比较准确的提取结果,引入人工针对错误的结果进行标记,使得大幅度减少了人工的工作量;避免了人工因大量无谓重复工作导致了大量的错误;通过这个阶段引入人工纠错,为后续的规则调优准备了大量的正确标记样本;
[0032] c:规则调优:监督学习,设置已知数据和其一一对应的标签,训练一个智能算法,将输入数据映射到标签的过程;智能单证结构化提取通过针对性的监督学习完成提取规则的优化,从而满足智能单证结构化的准确率要求;规则调优的标签数据从两个方面获取:学习阶段人工标记的样本数据;上线系统中发现的各种单证(新的单证,局部结构化错误的单证),经半监督学习训练的提取引擎进行标记及人工校正后引入规则调优模块;
[0033] S2:提取引擎:这个模块是线上生产系统的核心模块,它主要涉及三个方面的功能:基于机器学习以及其它方式定义的识别模型,在专家知识库的辅助下快速分析和提取结构化内容;基于大数据挖掘获取的智能纠错知识库,对结构化内容进行规范、纠正,避免因录入人员人工误差导致的原始信息错误;对于OCR结果,分析OCR提取的置信度,对于那些置信度低于阈值的结构化内容进行区域位置信息标记,为后续的人工疑似分析提供数据支持;物流行业的单证中,有些重要信息会在多个信息片段中出现,因此需要比对多个信息片段OCR结果,评出合适的提取结果,对每个信息片段OCR结果计算平均置信度,取平均置信度最高的信息片段OCR结果座位提取结果,比对所有信息片段中相同位置字符的OCR识别置信度,同时考虑各个信息片段的平均置信度,为每个位置选择最可信的OCR提取结果,最终还原完整信息;判决模型可采用机器学习训练完成,判决模型可采用决策树等机器学习模型,通过机器学习建立物流行业单证提取常见错误库;
[0034] S3:建立物流行业单证录入时常见录入错误纠错库,智能纠错主要涉及两个领域的纠错:1、录入人员粗心引入的错误,这类错误与正确数据具有极高的相似性和重复性;2、OCR识别错误,这类错误是由OCR引擎引入的,因此也觉有极高的重复性;这两个层面引入的错误都是有迹可循的,所以系统基于初期样本以及生产过程中持续单证数据的反馈(目前年处理单证已经达到百万量级),可以通过大数据挖掘的关联分析完成智能纠错库的持续更新和完善,不断提高智能纠错的效果,建立物流行业单证录入时常见录入错误纠错库;建立物流行业单证OCR时常见OCR错误库;OCR错误纠错库针对不同企业不同单证分别建立;OCR错误纠错库基于OCR结果和人工标准结果训练建立;OCR错误纠错库基于OCR结果和专家知识库训练建立;OCR错误纠错库模型由机器训练完成;纠错模型可采用决策树等机器学习模型;
[0035] 物流行业智能单证提取纠错系统是基于单证结构冗余的纠错、针对人工录入错误的纠错、针对OCR识别错误的纠错、基于专家知识库的纠错;
[0036] 人工纠错实现路径:由机器学习算法判定是否需要启用人工纠错;人工纠错时,系统可通过机器学习提供疑似正确答案供人工选择;
[0037] 单证内容初步提取:由于大量的错误是和单证的片段挂钩的,因此基于机器学习训练的识别模型完成单证内容的初步提取为后续的纠错提供了关键的片段类型信息;
[0038] 单证结构纠错:由于很多单证都存在关键信息片段重复出现的现象,因此系统根据机器学习训练的结果,可以在这些重复出现的关键信息片段中挑选OCR正确率最高的识别结果作为片段提取内容;
[0039] 常见录入错误纠错:由于录入人员习惯性的会将某些片段的内容录入错误,因此明确提取内容的片段类型信息以后,可以高效的完成录入错误的纠错;
[0040] 常见OCR错误纠错:OCR对于某些内容组合容易产生类似的错误,因此明确提取内容的片段类型信息以后,系统结合常见OCR识别错误组合、专家知识库两个信息,可以准确的完成常见OCR错误纠错;
[0041] 专家知识库纠错:对于前序纠错无法识别的错误(新错误),还可以使用专家知识库通过模糊匹配进行进一步纠错,专家知识库的纠错规则也是通过机器学习训练的;
[0042] 人工纠错:对于那些前序手段无法识别的错误(新错误),但是OCR结果的正确率较低的片段,采取警示的方法要求人工完成最后的纠错;
[0043] 专家知识库:国家代码、货币代码、港口信息、船名信息、日期格式(中文,英文)、重量单位、尺寸单位、包装方式、集装箱编码规范、集装箱箱型、空运单号编码规范、付费方式、运输方式、船名船期书写规范与集装箱箱型数量编写规范。
[0044] 本发明主要针对适用于物流行业的智能单证结构化提取方法通过让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,经过半监督学习之后大幅度减少了人工的工作量,避免了人工因大量无谓重复工作导致了大量的错误,通过这个阶段引入人工纠错,为后续的规则调优准备了大量的正确标记样本,基于机器学习以及其它方式定义的识别模型,在专家知识库的辅助下快速分析和提取结构化内容,基于大数据挖掘获取的智能纠错知识库,对结构化内容进行规范、纠正,避免因录入人员人工误差导致的原始信息错误,对于OCR结果,分析OCR提取的置信度,对于那些置信度低于阈值的结构化内容进行区域位置信息标记,为后续的人工疑似分析提供数据支持,通过引入半监督学习和聚类分析,解决的人工标记只有75%准确率的关键问题,再建立物流行业单证录入时常见录入错误纠错库,通过引入完整的纠错系统,使得智能单证系统的提取准确率达到99%,解决实际使用过程中物流类单据提取结果人工标注答案不准确,OCR识别准确率无法满足智能单证提取的实际应用需求。
[0045] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈