首页 / 专利库 / 软件 / 逻辑文件 / 一种基于人工智能的高校招生数据采集方法及系统

一种基于人工智能的高校招生数据采集方法及系统

阅读:1发布:2020-07-12

专利汇可以提供一种基于人工智能的高校招生数据采集方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 人工智能 的高校招生 数据采集 方法及系统,涉及人工智能技术领域。本发明包括智能识别、智能纠错的过程,依次按上述过程进行 数据处理 和运算,采用人工智能、 机器学习 、 图像处理 、 数据挖掘 、坐标 定位 和语义识别的技术方法,对高校招生数据进行深度挖掘和分析,智能识别的过程,通过OCR识别模 块 、人工校对模块、数据入库模块来实现;智能纠错的过程,通过智能纠错模块来实现。本发明通过智能识别的过程,提高了识别过程的专业化、智能化,显著地提高了高校招生数据识别的正确率;通过智能纠错的过程,极大地提高了高考志愿填报辅助平台数据采集的效率和正确率。,下面是一种基于人工智能的高校招生数据采集方法及系统专利的具体信息内容。

1.一种基于人工智能的高校招生数据采集方法,其特征在于,包括智能识别过程、智能纠错过程,所述智能识别过程、智能纠错过程均对高校招生数据进行深度挖掘和分析;
所述智能识别过程包括以下步骤:
步骤1:扫描:将各省教育考试院的高校招生计划纸质文件扫描成电子文档;
步骤2:切片:对步骤1中所述电子文档进行切片处理,切取与招生计划相关的信息,并切成单列排版形式的切片文件,所述切片文件为图片格式;
步骤3:OCR导入:将步骤2中所述切片文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据,所述DCS原始数据为文本格式;
步骤4:初步标签化:对步骤3中所述DCS原始数据进行智能识别,采用人工智能技术,对招生数据进行初步标签化;
步骤5:自动检测:系统自动检测步骤3中所述DCS原始数据的页数和步骤4中所述初步标签化的条数,并生成自动检测报告;
若其页数或条数有异常,则系统报警,将有异常的页面,返回步骤3,重新进行OCR识别、导入;若没有异常的则进入下一步骤;
步骤6:完整标签化:在步骤4中所述初步标签化和步骤5中所述自动检测的基础上,采用人工智能技术,对招生数据进行完整标签化,并去除不必要的信息;
步骤7:校对:
a:对比步骤2中所述切片文件上的信息与步骤3中所述DCS原始数据的信息,若所述DCS原始数据的信息有错、漏,则输入校对结果;
b:校对步骤4中所述初步标签化、步骤6中所述完整标签化的结果是否正确、完整;完整标签化的结果是否包含了关键的备注信息,若完整标签化的信息有错、漏,则输入校对结果;
c:是否有系统报警的内容,若有,则输入校对结果;
d:是否有多余的信息,若有,则删除多余的信息;
步骤8:格式化数据:将通过步骤7校对好的数据,按照规定的结构、格式化处理,并排序;
步骤9:数据入库:将步骤8中所述格式化数据导入DCS数据库,以便存放、调用、管理;
所述智能纠错过程包括以下步骤:
S001:建立“招生院校名称标准数据库”;
S002:将DCS数据系统中的每个“院校名称”字段与所述“招生院校名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;
S003:依据教育部制订的《普通高等学校本科专业目录》和《普通高等学校高等职业教育(专科)专业目录》,建立“专业设置名称标准数据库”,并保持与教育部的最新修订版本同步更新;
S004:将DCS数据系统中的每个“专业名称”字段与所述“专业设置名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;
S005:建立DCS数据系统中“计划”数据之间的逻辑关系;
S006:依据步骤S005中所述逻辑关系,系统自动对DCS数据系统中的每个“计划”数据进行验算,检验其数据是否正确、信息是否完整,对于有错、漏的字段,系统报警;
S007:建立DCS数据系统中,标签字段的数据规范,所述数据规范包括是否允许“为空”;
S008:对DCS数据系统中的每个标签的字段,检查其数据信息是否符合步骤S007所述数据规范,对于不符合规范的字段,系统报警;
S009:对系统报警的内容进行判断、校对,并将数据输入系统。
2.根据权利要求1所述的一种基于人工智能的高校招生数据采集方法,其特征在于,所述步骤3中OCR导入的算法具体包括:采用人工智能、机器学习图像处理、坐标定位的方法,针对不同省的切片文件有不同的排版格式,获取其坐标信息,然后提取视觉特征值,通过视觉特征值进行版面分析,建立不同的识别模型,去除无关信息,通过OCR识别,将切片文件导入为DCS原始数据。
3.根据权利要求1所述的一种基于人工智能的高校招生数据采集方法,其特征在于,所述步骤4中初步标签化的算法具体包括:采用人工智能、机器学习、坐标定位的方法,针对不同省的DCS原始数据有不同的布局特征和视觉特征,提取视觉特征值,分析其数据特征、数据结构和属性,建立不同的数据结构模型,对所述DCS原始数据加上初步标签。
4.根据权利要求1所述的一种基于人工智能的高校招生数据采集方法,其特征在于,步骤6中所述完整标签化的算法具体包括:
601:采用人工智能、机器学习、数据挖掘、坐标定位和语义识别中的一种或多种组合,针对不同省的DCS原始数据有不同的布局特征和视觉特征,提取视觉特征值,分析其数据特征、数据结构和属性,并针对不同字段的特殊语义,细化步骤4所建立的数据结构模型,给招生数据加上标签,对招生数据进行完整标签化;
602:针对DCS原始数据中的备注信息,采用人工智能、机器学习、数据挖掘和语义识别中的一种或多种组合,识别和提取完整标签化所需要的关键信息,将其加入到对应的标签中,然后去除不必要的备注信息;
603:DCS系统通过机器学习、坐标定位和语义识别的方法,依据完整标签数据之间存在的逻辑关系,自动地识别和检验步骤3中所述DCS原始数据;
6031:若原始数据结构有缺失,则DCS系统自动赋值,补齐其数据结构中缺失的内容,并加上对应的标签;
6032:若检验发现DCS原始数据之间逻辑关系有错误,则系统报警。
5.根据权利要求1所述的一种基于人工智能的高校招生数据采集方法,其特征在于,所述步骤S002中自动纠错的算法具体包括:
S0021:将“院校名称”字段与“招生院校名称标准数据库”字段进行比对,计算其匹配相似度S,若S≥Sth,则该“招生院校名称标准数据库”字段是该“院校名称”字段的“匹配结果”;
S0022:如果“院校名称”字段有且只有一个“匹配结果”,则系统将“院校名称”自动纠正为“匹配结果”;
S0023:如果“院校名称”字段有n(n≥2)个“匹配结果”,则系统列出n个“匹配结果”,按S值降序排列,并选择正确的结果;
S0024:如果“院校名称”字段没有“匹配结果”,则系统报警。
6.根据权利要求1所述的一种基于人工智能的高校招生数据采集方法,其特征在于,所述步骤S004中自动纠错的算法具体包括:
S0041:将“专业名称”字段与“专业设置名称标准数据库”字段进行比对,计算其匹配相似度S,若S≥Sth,则该“专业设置名称标准数据库”字段是该“专业名称”字段的“匹配结果”;
0042:如果“专业名称”字段有且只有一个“匹配结果”,则系统将“专业名称”自动纠正为“匹配结果”;
S0043:如果“专业名称”字段有n(n≥2)个“匹配结果”,则系统列出n个“匹配结果”,按S值降序排列,并选择正确的结果;
S0044:如果“专业名称”字段没有“匹配结果”,则系统报警。
7.如权利要求1-6任意一项所述的一种基于人工智能的高校招生数据采集系统,其特征在于,包括:
OCR识别模:将扫描、切片的文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据,并对招生数据进行初步标签化和自动检测;
校对模块:在初步标签化和自动检测的基础上,对招生数据进行完整标签化,并对数据进行检查、校对,按照规定的结构、格式化处理,并排序;
数据入库模块:将格式化数据导入DCS数据库;
智能纠错模块:对DCS数据系统中的每个“院校名称”字段、“专业名称”字段以及各标签的字段进行自动的检查并纠错,对于系统不能自动纠错的字段,则系统报警。
8.根据权利要求7所述的一种基于人工智能的高校招生数据采集系统,其特征在于,所述OCR识别模块具体包括:
原始数据模块:将切片的文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据;
初步标签化模块:对DCS原始数据进行智能识别,对招生数据进行初步标签化,加上初步标签;
自动检测模块:系统自动检测从OCR导入的DCS原始数据的页数和初步标签化的条数,生成自动检测报告;若其页数或条数有异常,则系统报警,重新进行OCR识别、导入。
9.根据权利要求7所述的一种基于人工智能的高校招生数据采集系统,其特征在于,所述校对模块具体包括:
完整标签化模块:在初步标签化和自动检测的基础上,对招生数据进行完整标签化,去除不必要的信息,并检查、校对;
格式化数据模块:将校对好的数据,按照规定的结构、格式化处理,并排序。
10.根据权利要求7所述的一种基于人工智能的高校招生数据采集系统,其特征在于,所述智能纠错模块具体包括:
“院校名称”纠错模块;
“专业名称”纠错模块;
“计划”字段纠错模块:检验每个“计划”数据之间的逻辑关系是否正确、信息是否完整,并自动纠错;
标签字段纠错模块:检查每个标签的数据信息是否符合标签字段的数据规范,并自动纠错。

说明书全文

一种基于人工智能的高校招生数据采集方法及系统

技术领域

[0001] 本发明属于人工智能技术领域,特别是涉及一种基于人工智能的高校招生数据采集方法及系统。

背景技术

[0002] 随着深化高等学校考试招生制度综合改革的持续推进,近几年的高校招生政策变化较大(志愿填报规则、录取批次设置、招生计划都有较大的变化),而且各省之间差异很大。在普通高等学校招生过程中,从各省教育考试院公布当年招生计划,到考生提交志愿填报,其时间间隔非常紧,通常只有约一周时间。为了将当年招生计划输入高考志愿填报辅助平台,传统的方式是由人工用键盘输入,这样的方式效率低、人工成本高,而且数据出错率很高。目前的很多高考志愿填报辅助平台都没有能使用当年的招生计划,导致其志愿推荐的精准度不高,不能为考生和家长提供更精准、更量化的升学判断。
[0003] 有些平台尝试采用OCR(Optical Character Recognition,光学字符识别)技术来采集高校招生计划数据。而现有的OCR软件,由于受其算法的局限,存在以下问题和缺点:专业化、智能化程度低,识别正确率低,导致数据采集效率低,不能满足实用需求。

发明内容

[0004] 本发明的目的在于提供一种基于人工智能的高校招生数据采集方法及系统,通过智能识别过程、智能纠错过程,并依次按上述过程进行数据处理和运算,对高校招生数据进行深度挖掘和分析,采用人工智能、机器学习图像处理数据挖掘、坐标定位和语义识别的技术方法,提高了识别过程的专业化、智能化,显著地提高了高校招生数据识别的正确率,极大地提高了高考志愿填报辅助平台数据采集的效率和正确率。
[0005] 为解决上述技术问题,本发明是通过以下技术方案实现的:
[0006] 本发明为一种基于人工智能的高校招生数据采集方法,包括智能识别过程、智能纠错过程,所述智能识别过程、智能纠错过程均对高校招生数据进行深度挖掘和分析;
[0007] 所述智能识别过程包括以下步骤:
[0008] 步骤1:扫描:将各省教育考试院的高校招生计划纸质文件扫描成电子文档;
[0009] 步骤2:切片:对步骤1中所述电子文档进行切片处理,切取与招生计划相关的信息,并切成单列排版形式的切片文件,所述切片文件为图片格式;
[0010] 步骤3:OCR导入:将步骤2中所述切片文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据,所述DCS原始数据为文本格式;
[0011] 步骤4:初步标签化:对步骤3中所述DCS原始数据进行智能识别,采用人工智能技术,对招生数据进行初步标签化,所述初步标签具有纲领性的作用,是检索的重要依据;
[0012] 步骤5:自动检测:系统自动检测步骤3中所述DCS原始数据的页数和步骤4中所述初步标签化的条数,并生成自动检测报告;
[0013] 若其页数或条数有异常,则系统报警,由人工干预,将有异常的页面,返回步骤3,重新进行OCR识别、导入;
[0014] 若没有异常的则进入下一步骤;
[0015] 步骤6:完整标签化:在步骤4中所述初步标签化和步骤5中所述自动检测的基础上,采用人工智能技术,对招生数据进行完整标签化,并去除不必要的信息;完整标签具有关键字段的作用,包含了构成院校招生计划的所有关键数据;
[0016] 步骤7:校对:
[0017] a:对比步骤2中所述切片文件上的信息与步骤3中所述DCS原始数据的信息,若所述DCS原始数据的信息有错、漏,则由人工输入校对结果;
[0018] b:校对步骤4中所述初步标签化、步骤6中所述完整标签化的结果是否正确、完整;完整标签化的结果是否包含了关键的备注信息,若完整标签化的信息有错、漏,则由人工输入校对结果;
[0019] c:是否有系统报警的内容,若有,则由人工输入校对结果;
[0020] d:是否有多余的信息,若有,则手动删除多余的信息;
[0021] 步骤8:格式化数据:将通过步骤7校对好的数据,按照规定的结构、格式化处理,并排序;
[0022] 步骤9:数据入库:将步骤8中所述格式化数据导入DCS数据库,以便存放、调用、管理;
[0023] 所述智能纠错过程包括以下步骤:
[0024] S001:建立“招生院校名称标准数据库”;
[0025] S002:将DCS数据系统中的每个“院校名称”字段与所述“招生院校名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;
[0026] S003:依据教育部制订的《普通高等学校本科专业目录》和《普通高等学校高等职业教育(专科)专业目录》,建立“专业设置名称标准数据库”,并保持与教育部的最新修订版本同步更新;
[0027] S004:将DCS数据系统中的每个“专业名称”字段与所述“专业设置名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;
[0028] S005:建立DCS数据系统中“计划”数据之间的逻辑关系;
[0029] S006:依据步骤S005中所述逻辑关系,系统自动对DCS数据系统中的每个“计划”数据进行验算,检验其数据是否正确、信息是否完整,对于有错、漏的字段,系统报警,提示人工干预、校对;
[0030] S007:建立DCS数据系统中,标签字段的数据规范,所述数据规范包括是否允许“为空”;
[0031] S008:对DCS数据系统中的每个标签的字段,检查其数据信息是否符合步骤S007所述数据规范,对于不符合规范的字段,系统报警,提示人工干预、校对;
[0032] S009:对系统报警的内容,由人工判断、校对,数据输入系统。
[0033] 进一步地,所述步骤3中OCR导入的算法具体包括:采用人工智能、机器学习、图像处理、坐标定位的方法,针对不同省的切片文件有不同的排版格式,获取其坐标信息,然后提取视觉特征值,通过视觉特征值进行版面分析,建立不同的识别模型,去除无关信息,通过OCR识别,将切片文件导入为DCS原始数据。
[0034] 进一步地,所述步骤4中初步标签化的算法具体包括:采用人工智能、机器学习、坐标定位的方法,针对不同省的DCS原始数据有不同的布局特征和视觉特征,提取视觉特征值,分析其数据特征、数据结构和属性,建立不同的数据结构模型,对所述DCS原始数据加上初步标签。
[0035] 进一步地,步骤6中所述完整标签化的算法具体包括:
[0036] 601:采用人工智能、机器学习、数据挖掘、坐标定位和语义识别中的一种或多种组合,针对不同省的DCS原始数据有不同的布局特征和视觉特征,提取视觉特征值,分析其数据特征、数据结构和属性,并针对不同字段的特殊语义,细化步骤4所建立的数据结构模型,给招生数据加上标签,对招生数据进行完整标签化;
[0037] 602:针对DCS原始数据中的备注信息,采用人工智能、机器学习、数据挖掘和语义识别中的一种或多种组合,识别和提取完整标签化所需要的关键信息,将其加入到对应的标签中,然后去除不必要的备注信息;
[0038] 603:DCS系统通过机器学习、坐标定位和语义识别的方法,依据完整标签数据之间存在的逻辑关系,自动地识别和检验步骤3中所述DCS原始数据;
[0039] 6031:若原始数据结构有缺失,则DCS系统自动赋值,补齐其数据结构中缺失的内容,并加上对应的标签;
[0040] 6032:若检验发现DCS原始数据之间逻辑关系有错误,则系统报警,提示人工干预、校对。
[0041] 进一步地,所述步骤S002中自动纠错的算法具体包括:
[0042] S0021:将某个“院校名称”字段与“招生院校名称标准数据库”字段进行比对,计算其匹配相似度S,若S≥Sth,则该“招生院校名称标准数据库”字段是该“院校名称”字段的“匹配结果”;
[0043] S0022:如果某个“院校名称”字段有且只有一个“匹配结果”,则系统将“院校名称”自动纠正为“匹配结果”;
[0044] S0023:如果某个“院校名称”字段有n(n≥2)个“匹配结果”,则系统列出n个“匹配结果”,按S值降序排列,并由人工选择正确的结果;
[0045] S0024:如果某个“院校名称”字段没有“匹配结果”,则系统报警,提示人工校对。
[0046] 进一步地,所述步骤S004中自动纠错的算法具体包括:
[0047] S0041:将某个“专业名称”字段与“专业设置名称标准数据库”字段进行比对,计算其匹配相似度S,若S≥Sth,则该“专业设置名称标准数据库”字段是该“专业名称”字段的“匹配结果”;
[0048] 0042:如果某个“专业名称”字段有且只有一个“匹配结果”,则系统将“专业名称”自动纠正为“匹配结果”;
[0049] S0043:如果某个“专业名称”字段有n(n≥2)个“匹配结果”,则系统列出n个“匹配结果”,按S值降序排列,并由人工选择正确的结果;
[0050] S0044:如果某个“专业名称”字段没有“匹配结果”,则系统报警,提示人工校对。
[0051] 一种基于人工智能的高校招生数据采集系统,包括:
[0052] OCR识别模:将扫描、切片的文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据,并对招生数据进行初步标签化和自动检测;
[0053] 校对模块:在初步标签化和自动检测的基础上,对招生数据进行完整标签化,并由人工对数据进行检查、校对,按照规定的结构、格式化处理,并排序;
[0054] 数据入库模块:将格式化数据导入DCS数据库,以便存放、调用和管理;
[0055] 智能纠错模块:对DCS数据系统中的每个“院校名称”字段、“专业名称”字段以及各标签的字段进行自动的检查并纠错,对于系统不能自动纠错的字段,则系统报警,提示人工干预、校对。
[0056] 进一步地,所述OCR识别模块具体包括:
[0057] 原始数据模块:将切片的文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据;
[0058] 初步标签化模块:对DCS原始数据进行智能识别,对招生数据进行初步标签化,加上初步标签;
[0059] 自动检测模块:系统自动检测从OCR导入的DCS原始数据的页数和初步标签化的条数,生成自动检测报告;若其页数或条数有异常,则系统报警,由人工干预,重新进行OCR识别、导入。
[0060] 进一步地,所述校对模块具体包括:
[0061] 完整标签化模块:在初步标签化和自动检测的基础上,对招生数据进行完整标签化,去除不必要的信息,并由人工检查、校对;
[0062] 格式化数据模块:将人工校对好的数据,按照规定的结构、格式化处理,并排序。
[0063] 进一步地,所述智能纠错模块具体包括:
[0064] “院校名称”纠错模块;
[0065] “专业名称”纠错模块;
[0066] “计划”字段纠错模块:检验每个“计划”数据之间的逻辑关系是否正确、信息是否完整,并自动纠错;
[0067] 标签字段纠错模块:检查每个标签的数据信息是否符合标签字段的数据规范,并自动纠错。
[0068] 本发明具有以下有益效果:
[0069] 本发明采用人工智能、机器学习、图像处理、数据挖掘、坐标定位和语义识别的技术方法,通过智能识别的过程,提高了识别过程的专业化、智能化,显著地提高了高校招生数据识别的正确率;通过智能纠错的过程,极大地提高了高考志愿填报辅助平台数据采集的效率和正确率,为考生和家长提供更精准、更量化的升学判断。
[0070] 当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。附图说明
[0071] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0072] 图1为本发明数据采集系统DCS的模块框图
[0073] 图2为本发明中智能识别过程的流程图
[0074] 图3为本发明中智能纠错过程的流程图。

具体实施方式

[0075] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0076] 具体实施例一:
[0077] 一种基于人工智能的高校招生数据采集方法,包括智能识别过程、智能纠错过程,依次按上述过程进行数据处理和运算,对高校招生数据进行深度挖掘和分析;
[0078] 为了提高OCR(Optical Character Recognition,光学字符识别)技术的专业化、智能化,智能识别过程采用人工智能、机器学习、图像处理、数据挖掘、坐标定位和语义识别的技术方法,如图2所示,智能识别过程包括以下步骤:
[0079] 步骤1:扫描:将各省教育考试院的高校招生计划纸质文件扫描成电子文档;
[0080] 步骤2:切片:对步骤1中电子文档进行切片处理,切取与招生计划相关的信息,并切成单列排版形式的切片文件,切片文件为图片格式;
[0081] 步骤3:OCR导入:将步骤2中切片文件通过OCR识别,导入高校招生数据采集系统DCS(Data Collection System),形成DCS原始数据,DCS原始数据为文本格式;
[0082] 步骤4:初步标签化:对步骤3中DCS原始数据进行智能识别,采用人工智能技术,对招生数据进行初步标签化,初步标签具有纲领性的作用,是检索的重要依据;
[0083] 优选的,初步标签包括:
[0084] 【P:】切片文件对应的页码;
[0085] 【T:】招生类别:文史类、理工类;
[0086] 【U:】招生院校代码;
[0087] 【M:】招生专业代码;
[0088] 步骤5:自动检测:系统自动检测步骤3中DCS原始数据的页数和步骤4中初步标签化的条数,并生成自动检测报告;
[0089] 若其页数或条数有异常,则系统报警,由人工干预,将有异常的页面,返回步骤3,重新进行OCR识别、导入;若没有异常的则进入下一步骤;
[0090] 步骤6:完整标签化:在步骤4中初步标签化和步骤5中自动检测的基础上,采用人工智能技术,对招生数据进行完整标签化,并去除不必要的信息;完整标签具有关键字段的作用,包含了构成院校招生计划的所有关键数据;
[0091] 优选的,完整标签化的标签包括:
[0092] 【计划:】包括院校招生计划人数、专业招生计划人数;
[0093] 【学制:】学习年限;
[0094] 【学费:】元/年;
[0095] 【理:】院校理工类招生计划人数;
[0096] 【文:】院校文史类招生计划人数;
[0097] 步骤7:校对:
[0098] a:对比步骤2中切片文件上的信息与步骤3中DCS原始数据的信息,若DCS原始数据的信息有错、漏,则由人工输入校对结果;
[0099] b:校对步骤4中初步标签化、步骤6中完整标签化的结果是否正确、完整;完整标签化的结果是否包含了关键的备注信息,若完整标签化的信息有错、漏,则由人工输入校对结果;
[0100] c:是否有系统报警的内容,若有,则由人工输入校对结果;
[0101] d:是否有多余的信息,若有,则手动删除多余的信息;
[0102] 步骤8:格式化数据:将通过步骤7校对好的数据,按照规定的结构、格式化处理,并排序;
[0103] 步骤9:数据入库:将步骤8中格式化数据导入DCS数据库,以便存放、调用、管理。
[0104] 其中,步骤3中OCR导入的算法具体包括:采用人工智能、机器学习、图像处理、坐标定位的方法,针对不同省的切片文件有不同的排版格式,获取其坐标信息,然后提取视觉特征值,通过视觉特征值进行版面分析,建立不同的识别模型,去除无关信息,通过OCR识别,将切片文件导入为DCS原始数据。
[0105] 其中,步骤4中初步标签化的算法具体包括:采用人工智能、机器学习、坐标定位的方法,针对不同省的DCS原始数据有不同的布局特征和视觉特征,提取视觉特征值,分析其数据特征、数据结构和属性,建立不同的数据结构模型,对DCS原始数据加上初步标签。
[0106] 其中,步骤6中完整标签化的算法具体包括:
[0107] 601:采用人工智能、机器学习、数据挖掘、坐标定位和语义识别中的一种或多种组合,针对不同省的DCS原始数据有不同的布局特征和视觉特征,提取视觉特征值,分析其数据特征、数据结构和属性,并针对不同字段的特殊语义,细化步骤4所建立的数据结构模型,给招生数据加上标签,对招生数据进行完整标签化;
[0108] 602:针对DCS原始数据中的备注信息,采用人工智能、机器学习、数据挖掘和语义识别中的一种或多种组合,识别和提取完整标签化所需要的关键信息,将其加入到对应的标签中,然后去除不必要的备注信息;
[0109] 603:DCS系统通过机器学习、坐标定位和语义识别的方法,依据完整标签数据之间存在的逻辑关系,自动地识别和检验步骤3中DCS原始数据;
[0110] 6031:若原始数据结构有缺失,则DCS系统自动赋值,补齐其数据结构中缺失的内容,并加上对应的标签;
[0111] 6032:若检验发现DCS原始数据之间逻辑关系有错误,则系统报警,提示人工干预、校对;
[0112] 优选的,603所述完整标签的数据之间存在的逻辑关系包括:
[0113] 【计划:】(院校)=Σ【计划:】(该院校各专业);
[0114] 【理:】(院校)=Σ【计划:】(该院校各理工类专业);
[0115] 【文:】(院校)=Σ【计划:】(该院校各文史类专业)。
[0116] 为了提高智能识别的正确率、提高数据采集的效率,智能纠错过程采用人工智能、机器学习、数据挖掘、坐标定位和语义识别的技术方法,如图3所示,智能纠错过程包括以下步骤:
[0117] S001:建立“招生院校名称标准数据库”;
[0118] S002:将DCS数据系统中的每个“院校名称”字段与“招生院校名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;
[0119] S003:依据教育部制订的《普通高等学校本科专业目录》和《普通高等学校高等职业教育(专科)专业目录》,建立“专业设置名称标准数据库”,并保持与教育部的最新修订版本同步更新;
[0120] S004:将DCS数据系统中的每个“专业名称”字段与“专业设置名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;
[0121] S005:建立DCS数据系统中“计划”数据之间的逻辑关系;
[0122] 优选的,这些逻辑关系包括:
[0123] 【计划:】(院校)=Σ【计划:】(该院校各专业);
[0124] 【理:】(院校)=Σ【计划:】(该院校各理工类专业);
[0125] 【文:】(院校)=Σ【计划:】(该院校各文史类专业);
[0126] S006:依据步骤S005中逻辑关系,系统自动对DCS数据系统中的每个“计划”数据进行验算,检验其数据是否正确、信息是否完整,对于有错、漏的字段,系统报警,提示人工干预、校对;
[0127] S007:建立DCS数据系统中,标签字段的数据规范,数据规范包括是否允许“为空”;
[0128] 优选的,这些标签包括:【T:】、【U:】、【M:】、【学制:】、【学费:】;
[0129] S008:对DCS数据系统中的每个标签的字段,检查其数据信息是否符合步骤S007数据规范,对于不符合规范的字段,系统报警,提示人工干预、校对;
[0130] S009:对系统报警的内容,由人工判断、校对,数据输入系统。
[0131] 步骤S002中自动纠错的算法具体包括:
[0132] S0021:将某个“院校名称”字段与“招生院校名称标准数据库”字段进行比对,计算其匹配相似度S,若S≥Sth,则该“招生院校名称标准数据库”字段是该“院校名称”字段的“匹配结果”,优选的,取值Sth=75%;
[0133] S0022:如果某个“院校名称”字段有且只有一个“匹配结果”,则系统将“院校名称”自动纠正为“匹配结果”;
[0134] S0023:如果某个“院校名称”字段有n(n≥2)个“匹配结果”,则系统列出n个“匹配结果”,按S值降序排列,并由人工选择正确的结果;
[0135] S0024:如果某个“院校名称”字段没有“匹配结果”,则系统报警,提示人工校对。
[0136] 步骤S004中自动纠错的算法具体包括:
[0137] S0041:将某个“专业名称”字段与“专业设置名称标准数据库”字段进行比对,计算其匹配相似度S,若S≥Sth,则该“专业设置名称标准数据库”字段是该“专业名称”字段的“匹配结果”,优选的,取值Sth=75%;
[0138] 0042:如果某个“专业名称”字段有且只有一个“匹配结果”,则系统将“专业名称”自动纠正为“匹配结果”;
[0139] S0043:如果某个“专业名称”字段有n(n≥2)个“匹配结果”,则系统列出n个“匹配结果”,按S值降序排列,并由人工选择正确的结果;
[0140] S0044:如果某个“专业名称”字段没有“匹配结果”,则系统报警,提示人工校对。
[0141] 具体实施例二:
[0142] 参阅图1所示,一种基于人工智能的高校招生数据采集系统,包括OCR识别模块、校对模块、数据入库模块、智能纠错模块,智能识别的过程,通过OCR识别模块、校对模块、数据入库模块来实现;智能纠错的过程,通过智能纠错模块来实现;
[0143] OCR识别模块:将扫描、切片的文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据,并对招生数据进行初步标签化和自动检测;
[0144] 校对模块:在初步标签化和自动检测的基础上,对招生数据进行完整标签化,并由人工对数据进行检查、校对,按照规定的结构、格式化处理,并排序;
[0145] 数据入库模块:将格式化数据导入DCS数据库,以便存放、调用和管理;
[0146] 智能纠错模块:对DCS数据系统中的每个“院校名称”字段、“专业名称”字段以及各标签的字段进行自动的检查并纠错,对于系统不能自动纠错的字段,则系统报警,提示人工干预、校对。
[0147] 其中,OCR识别模块具体包括:
[0148] 原始数据模块:将切片的文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据;
[0149] 初步标签化模块:对DCS原始数据进行智能识别,对招生数据进行初步标签化,加上初步标签;
[0150] 自动检测模块:系统自动检测从OCR导入的DCS原始数据的页数和初步标签化的条数,生成自动检测报告;若其页数或条数有异常,则系统报警,由人工干预,重新进行OCR识别、导入;
[0151] 优选的,初步标签包括:
[0152] 【P:】切片文件(图片格式)对应的页码;
[0153] 【T:】招生类别:文史类、理工类;
[0154] 【U:】招生院校代码;
[0155] 【M:】招生专业代码。
[0156] 其中,校对模块具体包括:
[0157] 完整标签化模块:在初步标签化和自动检测的基础上,对招生数据进行完整标签化,去除不必要的信息,并由人工检查、校对;
[0158] 格式化数据模块:将人工校对好的数据,按照规定的结构、格式化处理,并排序;
[0159] 优选的,完整标签化的标签包括:
[0160] 【计划:】包括院校招生计划人数、专业招生计划人数;
[0161] 【学制:】学习年限;
[0162] 【学费:】元/年;
[0163] 【理:】院校理工类招生计划人数;
[0164] 【文:】院校文史类招生计划人数。
[0165] 其中,智能纠错模块具体包括:
[0166] “院校名称”纠错模块;
[0167] “专业名称”纠错模块;
[0168] “计划”字段纠错模块:检验每个“计划”数据之间的逻辑关系是否正确、信息是否完整,并自动纠错;
[0169] 标签字段纠错模块:检查每个标签的数据信息是否符合标签字段的数据规范,并自动纠错;
[0170] 优选的,“计划”字段包括【计划:】、【理:】、【文:】等,标签字段包括【T:】、【U:】、【M:】、【学制:】、【学费:】等。
[0171] 具体实施例三:
[0172] 由于受到纸张杂质点的影响,经过扫描和OCR导入后,DCS原始数据中的“院校名称”被识别为“北京交通太学”,经过初步标签化和完整标签化的步骤之后,进入人工校对,这样的错误,用传统的人工方式校对,漏检的概率很大,采用本发明的方法,经S002:将DCS数据系统中的每个“院校名称”字段与“招生院校名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错,院校名称字段“北京交通太学”被自动纠正为“北京交通大学”。
[0173] 本发明提供一种基于人工智能的高校招生数据采集方法,通过智能识别+智能纠错的过程,极大地提高了高考志愿填报辅助平台数据采集的效率和正确率。
[0174] 经使用,高考志愿填报辅助平台数据识别的正确率达到了99.99%以上,某省高考志愿填报辅助平台数据采集的效率提高了十倍。
[0175] 在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0176] 以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈