首页 / 专利库 / 显示技术 / 图像比例 / 一种适用于电子助视器的错题本生成方法

一种适用于电子助视器的错题本生成方法

阅读:1038发布:2020-07-01

专利汇可以提供一种适用于电子助视器的错题本生成方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种适用于 电子 助视器的错题本生成方法,电子助视器采集完整的非分栏格式试卷图像,预处理、 图像分割 后存入缓冲区,以神经网络模型识别试卷中的批改标识,对比识别到的批改标识的目标框的坐标中点和分割的试卷图像的各个题目的坐标点、识别错题,对错题图像进行手写字体和印刷字体的区分、文字识别,处理后的错题图像拼接生成错题本。本发明克服用神经网络来分割的 精度 不确定性和 训练数据 收集和标注的复杂性,解决了 现有技术 中无法自动截取错区域、擦除批改标识和错误答案的问题,提高错题本精度,可以植入电子助视器,低视 力 患者不用手抄生成错题本或手动截取错题区域、擦除做题区域和批改标识,节约时间,可以阅读错题本并重新做题。,下面是一种适用于电子助视器的错题本生成方法专利的具体信息内容。

1.一种适用于电子助视器的错题本生成方法,其特征在于:所述方法包括以下步骤:
步骤1:电子助视器采集完整的非分栏格式试卷图像,对采集到的试卷图像进行预处理;
步骤2:对预处理后的试卷图像进行图像分割,将分割后的图像存入电子助视器的缓冲区;
步骤3:读取缓冲区中图像的像素值,识别批改标识;
步骤4:获得训练好的识别批改标识的神经网络模型,用于识别试卷中的批改标识;
步骤5:对比识别到的批改标识的目标框的坐标中点和分割的试卷图像的各个题目的坐标点;若存在任一中点坐标落入任一题目的坐标范围内,则认为当前题目是错题;
步骤6:对于错题对应的错题图像进行手写字体和印刷字体的区分,对错题进行文字识别;
步骤7:识别完成,则电子助视器对处理后的错题图像进行拼接,生成错题本。
2.根据权利要求1所述的一种适用于电子助视器的错题本生成方法,其特征在于:所述步骤1中,预处理包括以下步骤:
步骤1.1:对试卷图像进行倾斜校正,使得试卷图像的左边缘和下边缘与标准线齐平;
步骤1.2:对倾斜校正后的试卷图像进行灰度化处理,以灰度值作为阈值,将处理后的图像进行二值化处理;
步骤1.3:将处理后的试卷图像的长和宽等比例放大至N倍,N≥1。
3.根据权利要求1所述的一种适用于电子助视器的错题本生成方法,其特征在于:所述步骤2包括以下步骤:
步骤2.1:对预处理后的试卷图像按顺序在Y轴上进行平投影,基于水平投影的图像进行分割,得到若干行图像;
步骤2.2:将所有的行图像按顺序进行存储,得到完整的待处理行图像集合;
步骤2.3:按照顺序将每一行图像在X轴上进行垂直投影,结合OCR识别判定试卷图像中各个题目的切割位置坐标;以各个题目的切割位置坐标切割试卷图像,得到试卷的各个题目的目标图像。
4.根据权利要求3所述的一种适用于电子助视器的错题本生成方法,其特征在于:所述步骤2.1包括以下步骤:
步骤2.1.1:对预处理后的试卷图像从上到下逐行扫描,计算每个扫描行的像素;
步骤2.1.2:获取图像的水平投影,根据水平投影值确定文字行的位置;
步骤2.1.3:以水平投影的空白间隙识别文字行与文字行之间的间隔,按行分割得到若干行图像;
步骤2.1.4:以初始试卷图像的左上为原点,记录每一行图像的左上角坐标和右下角坐标。
5.根据权利要求3所述的一种适用于电子助视器的错题本生成方法,其特征在于:所述步骤2.3包括以下步骤:
步骤2.3.1:调用电子助视器自带的OCR识别单元对分割得到的行图像进行垂直投影,以每一行从左至右第一个出现像素值的位置为当前行图像的起始位置,获得对应的起始位置OCR识别结果;以第一个行图像为当前行;
步骤2.3.2:OCR识别单元处理当前行,获得当前行的行图像进行垂直投影后的识别结果;
若起始位置的识别结果为主题干,则记录当前行图像的左上角坐标点和和右下角坐标点,进行下一步;
否则,不记录坐标点,直接进行下一步;
步骤2.3.3:以下一行为当前行,OCR识别单元处理当前行,获得当前行的行图像进行垂直投影后的识别结果;
若当前行的起始位置的识别结果中存在连续的小写数字和符号、或起始位置的横向坐标值大于上一行的行图像的起始位置的横向坐标值,则当前行是一道支题干开始的第一行,以当前行的左上角坐标为新的左上角坐标、以当前行的右下角坐标为新的右下角坐标,进行下一步;
否则,直接记录当前行的右下角坐标点,重复步骤2.3.3;
步骤2.3.4:以下一行为当前行,OCR识别单元处理当前行,获得当前行的行图像进行垂直投影后的识别结果;
若当前行起始位置的识别结果中不存在连续的小写数字和符号且起始位置的横向坐标值小于等于上一行的行图像的起始位置的横向坐标值,则当前行与上一行是同一道题,以当前行的右下角坐标为更新的右下角坐标,重复步骤2.3.4;
若当前行起始位置的识别结果为连续的英文及符号且起始位置的横向坐标值大于等于上一行的行图像的起始位置的横向坐标值,则认为当前行与上一行是同一道题且为选择题的选项,以当前行的右下角坐标为更新的右下角坐标,重复步骤2.3.4;
若当前行起始位置的识别结果中存在连续的小写数字和符号、或者起始位置的横向坐标值大于上一行的行图像的起始位置的横向坐标值,则认为当前行是下一道支题干开始的第一行,返回步骤2.3.3;
若当前行起始位置的识别结果为主题干,则返回步骤2.3.2;
若当前的行图像为空,则进行下一步;
步骤2.3.5:按所有的左上角坐标点和对应的右下角坐标点为一组,分割出每个主题干和支题干,并将分割后的所有主题干和支题干进行排序,按顺序进行存储;
步骤2.3.6:对每个主题干和支题干进行对应的标记。
6.根据权利要求5所述的一种适用于电子助视器的错题本生成方法,其特征在于:当任一行的起始位置的识别结果为存在连续的一大写数字和符号、为中文文字或中文文字与数字和/或英文的组合、为以特殊符号开头,则为主题干的起始行。
7.根据权利要求1所述的一种适用于电子助视器的错题本生成方法,其特征在于:所述步骤3包括以下步骤:
步骤3.1:基于阈值,对输入图像区分前景和背景;
步骤3.2:根据阈值确定前景和背景的颜色并生成颜色表;
步骤3.3:获取电子助视器缓冲区内存储像素的地址,确定每个像素点值;
步骤3.4:通过像素点值确定颜色范围,确定图像中的批改标识颜色的像素点,利用连通区域把图像中的批改标识颜色区域找出并标记;
步骤3.5:提取批改标识颜色区域的轮廓,记录当前轮廓在图像中对应的位置,并置于输出的地址中。
8.根据权利要求7所述的一种适用于电子助视器的错题本生成方法,其特征在于:所述步骤4中,识别试卷中的批改标识包括以下步骤:
步骤4.1:以训练好的模型对试卷图像进行测试,记录识别到的错误标识的坐标点;
步骤4.2:以批改标识颜色区域在输出的缓冲区的地址值读取对应的坐标点;
步骤4.3:以步骤4.1和步骤4.2的坐标点IoU来确定试卷图像内的错题标识;
步骤4.4:获取确定的错题标识对应的目标框的4个角点坐标值和目标框的中点。
9.根据权利要求1所述的一种适用于电子助视器的错题本生成方法,其特征在于:所述步骤6包括以下步骤:
步骤6.1:训练用于区分手写字体和印刷字体的神经网络模型,以印刷字体为试卷题目;
步骤6.2:输入步骤5的错题图像;当模型识别到手写字体后,对字体进行颜色判断,若手写字体在批改标识颜色区域内,则不对该字体进行擦除;将处理后的错题图像另存至电子助视器的图片文件管理库;
步骤6.3:以电子助视器自带的OCR功能对步骤6.2处理后的图片进行OCR文字识别,将对应的OCR文字识别结果按一定格式存储到电子助视器的图片文件管理库。
10.根据权利要求1所述的一种适用于电子助视器的错题本生成方法,其特征在于:所述步骤7包括以下步骤:
步骤7.1:确认所有图像识别完成;
步骤7.2:获取步骤2处理后的主题干对应的图像及步骤6处理后的错题图像;
步骤7.3:将错题图像按顺序排列;以第一个错题图像为当前错题图像;
步骤7.4:以当前错题图像的坐标点开始向上寻找的第一个主题干对应的图像为对应当前错题的主题干;若主题干对应的图像被调用的次数为0,则将当前错题图像与所述主题干对应的图像进行拼接,进行下一步,否则,将当前错题图像拼接在前一个错题图像下,进行下一步;
步骤7.5:若存在下一个错题图像,则取下一个错题图像为当前错题图像,返回步骤
7.4,否则,拼接结束,进行下一步;
步骤7.6:生成错题本。

说明书全文

一种适用于电子助视器的错题本生成方法

技术领域

[0001] 本发明属于数据识别;数据表示;记录载体;记录载体的处理的技术领域,特别涉及一种可作为学习辅助工具的适用于电子助视器的错题本生成方法。

背景技术

[0002] 错题本是一种能够提高学习效率、提升学习质量、巩固学习基础的重要手段。
[0003] 目前,大部分学生仍是通过手抄的方式将错题抄写到笔记本中来生成错题本,以这种方式生成错题本会花费学生大量时间,降低学习效率;而对于低视者来说,手抄会更加麻烦。一般情况下,低视力者需佩戴助视器才能进行手抄;如果用手机拍照完之后进行错题识别,则每次都需要自己去调整度和高度进行拍照,这是极不方便的;如果用扫描仪获取试卷图像传输到计算机或者手机上,过程复杂且不具有便携性。
[0004] 现有许多错题本软件可以通过安装到智慧终端并拍照生成错题本,但这些软件需要自己手动截取错题区域、擦除批改标识和错误答案,不能全智能自动地生成错题本,现有技术中也没有把这类错题本软件和助视器结合在一起,无法直接辅助低视力者。公开号为CN109472014A的专利是通过用户拍照或扫描获取图像信息,使用基于A.I算法的识别模进行文字和图片识别技术,获取错题的题干和答案,将错题题干与试题库题目进行对比,并标注出试题库中题目与错题的相似度评价值,将相似度高的题目存入用户错题库,形成用户错题本;这种生成错题本的方法只能获取错题区域,而且需要有试题库题目,还需用户自己手动擦除答案部分和其他手写项来保留题干,在没有试题库或传入整张试卷的时候,便不能生成错题本。公开号为CN109710590A的专利通过基于神经网络的第一区域模型来识别已批改试卷中各个题目的区域,再用预先训练好的错题识别模型识别已批改结果为错误的题目作为错题,继而根据预先训练的第二区域识别模型识别所述错题的答案区域和/或批改区域,将错题的答案区域和/或批改区域进行遮盖处理,从而来生成错题本;这种生成错题本的方式能够摈除错题本软件和公开号为CN109472014A的专利无法自动识别错题区域和擦除批改标识和错误答案的弊端,但这个方法生成错题本需要训练3个基于神经网络的模型,需要收集大量的已批改样本进行训练,而且各个年级各个科目的试卷题目类型都有存在区别,复杂性高,无法保证训练所得模型的精度,且第二区域模型对错题批改标识进行遮盖处理,会遮盖掉批改标识在题目上的题目文字。

发明内容

[0005] 本发明解决了现有技术中存在的问题,提供了一种优化的适用于电子助视器的错题本生成方法,通过数字图像处理技术和神经网络技术,实现试卷题目分割、对错题的识别,使低视力者可以直接使用电子助视器生成错题本并阅读,实现自动识别错题区域,擦除答案区域和批改标识,低视力患者还能对OCR识别后的错题原题使用TTS语音功能来进行阅读,提高学习效率。
[0006] 本发明所采用的技术方案是,一种适用于电子助视器的错题本生成方法,所述方法包括以下步骤:步骤1:电子助视器采集完整的非分栏格式试卷图像,对采集到的试卷图像进行预处
理;
步骤2:对预处理后的试卷图像进行图像分割,将分割后的图像存入电子助视器的缓冲
区;
步骤3:读取缓冲区中图像的像素值,识别批改标识;
步骤4:获得训练好的识别批改标识的神经网络模型,用于识别试卷中的批改标识;
步骤5:对比识别到的批改标识的目标框的坐标中点和分割的试卷图像的各个题目的
坐标点;若存在任一中点坐标落入任一题目的坐标范围内,则认为当前题目是错题;
步骤6:对于错题对应的错题图像进行手写字体和印刷字体的区分,对错题进行文字识
别;
步骤7:识别完成,则电子助视器对处理后的错题图像进行拼接,生成错题本。
[0007] 优选地,所述步骤1中,预处理包括以下步骤:步骤1.1:对试卷图像进行倾斜校正,使得试卷图像的左边缘和下边缘与标准线齐平;
步骤1.2:对倾斜校正后的试卷图像进行灰度化处理,以灰度值作为阈值,将处理后的
图像进行二值化处理;
步骤1.3:将处理后的试卷图像的长和宽等比例放大至N倍,N≥1。
[0008] 优选地,所述步骤2包括以下步骤:步骤2.1:对预处理后的试卷图像按顺序在Y轴上进行平投影,基于水平投影的图像
进行分割,得到若干行图像;
步骤2.2:将所有的行图像按顺序进行存储,得到完整的待处理行图像集合;
步骤2.3:按照顺序将每一行图像在X轴上进行垂直投影,结合OCR识别判定试卷图像中
各个题目的切割位置坐标;以各个题目的切割位置坐标切割试卷图像,得到试卷的各个题目的目标图像。
[0009] 优选地,所述步骤2.1包括以下步骤:步骤2.1.1:对预处理后的试卷图像从上到下逐行扫描,计算每个扫描行的像素;
步骤2.1.2:获取图像的水平投影,根据水平投影值确定文字行的位置;
步骤2.1.3:以水平投影的空白间隙识别文字行与文字行之间的间隔,按行分割得到若
干行图像;
步骤2.1.4:以初始试卷图像的左上角为原点,记录每一行图像的左上角坐标和右下角
坐标。
[0010] 优选地,所述步骤2.3包括以下步骤:步骤2.3.1:调用电子助视器自带的OCR识别单元对分割得到的行图像进行垂直投影,
以每一行从左至右第一个出现像素值的位置为当前行图像的起始位置,获得对应的起始位置OCR识别结果;以第一个行图像为当前行;
步骤2.3.2:OCR识别单元处理当前行,获得当前行的行图像进行垂直投影后的识别结
果;
若起始位置的识别结果为主题干,则记录当前行图像的左上角坐标点和和右下角坐标
点,进行下一步;
否则,不记录坐标点,直接进行下一步;
步骤2.3.3:以下一行为当前行,OCR识别单元处理当前行,获得当前行的行图像进行垂
直投影后的识别结果;
若当前行的起始位置的识别结果中存在连续的小写数字和符号、或起始位置的横向坐
标值大于上一行的行图像的起始位置的横向坐标值,则当前行是一道支题干开始的第一
行,以当前行的左上角坐标为新的左上角坐标、以当前行的右下角坐标为新的右下角坐标,进行下一步;
否则,直接记录当前行的右下角坐标点,重复步骤2.3.3;
步骤2.3.4:以下一行为当前行,OCR识别单元处理当前行,获得当前行的行图像进行垂
直投影后的识别结果;
若当前行起始位置的识别结果中不存在连续的小写数字和符号且起始位置的横向坐
标值小于等于上一行的行图像的起始位置的横向坐标值,则当前行与上一行是同一道题,以当前行的右下角坐标为更新的右下角坐标,重复步骤2.3.4;
若当前行起始位置的识别结果为连续的英文及符号且起始位置的横向坐标值大于等
于上一行的行图像的起始位置的横向坐标值,则认为当前行与上一行是同一道题且为选择题的选项,以当前行的右下角坐标为更新的右下角坐标,重复步骤2.3.4;
若当前行起始位置的识别结果中存在连续的小写数字和符号、或者起始位置的横向坐
标值大于上一行的行图像的起始位置的横向坐标值,则认为当前行是下一道支题干开始的第一行,返回步骤2.3.3;
若当前行起始位置的识别结果为主题干,则返回步骤2.3.2;
若当前的行图像为空,则进行下一步;
步骤2.3.5:按所有的左上角坐标点和对应的右下角坐标点为一组,分割出每个主题干
和支题干,并将分割后的所有主题干和支题干进行排序,按顺序进行存储;
步骤2.3.6:对每个主题干和支题干进行对应的标记。
[0011] 优选地,当任一行的起始位置的识别结果为存在连续的一大写数字和符号、为中文文字或中文文字与数字和/或英文的组合、为以特殊符号开头,则为主题干的起始行。
[0012] 优选地,所述步骤3包括以下步骤:步骤3.1:基于阈值,对输入图像区分前景和背景;
步骤3.2:根据阈值确定前景和背景的颜色并生成颜色表;
步骤3.3:获取电子助视器缓冲区内存储像素的地址,确定每个像素点值;
步骤3.4:通过像素点值确定颜色范围,确定图像中的批改标识颜色的像素点,利用连
通区域把图像中的批改标识颜色区域找出并标记;
步骤3.5:提取批改标识颜色区域的轮廓,记录当前轮廓在图像中对应的位置,并置于
输出的地址中。
[0013] 优选地,所述步骤4中,识别试卷中的批改标识包括以下步骤:步骤4.1:以训练好的模型对试卷图像进行测试,记录识别到的错误标识的坐标点;
步骤4.2:以批改标识颜色区域在输出的缓冲区的地址值读取对应的坐标点;
步骤4.3:以步骤4.1和步骤4.2的坐标点IoU来确定试卷图像内的错题标识;
步骤4.4:获取确定的错题标识对应的目标框的4个角点坐标值和目标框的中点。
[0014] 优选地,所述步骤6包括以下步骤:步骤6.1:训练用于区分手写字体和印刷字体的神经网络模型,以印刷字体为试卷题
目;
步骤6.2:输入步骤5的错题图像;当模型识别到手写字体后,对字体进行颜色判断,若
手写字体在批改标识颜色区域内,则不对该字体进行擦除;将处理后的错题图像另存至电子助视器的图片文件管理库;
步骤6.3:以电子助视器自带的OCR功能对步骤6.2处理后的图片进行OCR文字识别,将
对应的OCR文字识别结果按一定格式存储到电子助视器的图片文件管理库。
[0015] 优选地,所述步骤7包括以下步骤:步骤7.1:确认所有图像识别完成;
步骤7.2:获取步骤2处理后的主题干对应的图像及步骤6处理后的错题图像;
步骤7.3:将错题图像按顺序排列;以第一个错题图像为当前错题图像;
步骤7.4:以当前错题图像的坐标点开始向上寻找的第一个主题干对应的图像为对应
当前错题的主题干;若主题干对应的图像被调用的次数为0,则将当前错题图像与所述主题干对应的图像进行拼接,进行下一步,否则,将当前错题图像拼接在前一个错题图像下,进行下一步;
步骤7.5:若存在下一个错题图像,则取下一个错题图像为当前错题图像,返回步骤
7.4,否则,拼接结束,进行下一步;
步骤7.6:生成错题本。
[0016] 本发明提供了一种优化的适用于电子助视器的错题本生成方法,通过电子助视器采集完整的非分栏格式试卷图像并进行预处理、图像分割后,存入电子助视器的缓冲区,基于缓冲区中图像的像素值识别批改标识,以训练好的神经网络模型用于识别试卷中的批改标识,对比识别到的批改标识的目标框的坐标中点和分割的试卷图像的各个题目的坐标点,当存在任一中点坐标落入任一题目的坐标范围内,则认为当前题目为错题,对错题图像进行手写字体和印刷字体的区分,对错题进行文字识别,识别完成后,对处理后的错题图像进行拼接,生成错题本。
[0017] 本发明通过图像处理技术中的水平投影和垂直投影方法分割试卷的各个题目,克服用神经网络来分割的精度不确定性和训练数据收集和标注的复杂性;以目标检测网络识别批改标识,结合图像处理技术识别错题,通过二分类神经网络区分印刷字体和手写字体,对手写字体进行擦除,通过电子助视器自带的OCR识别功能对擦除手写字体后的错题进行识别,去除批改标识,解决了现有技术中无法自动截取错区域、擦除批改标识和错误答案的问题,并能提高错题本的精度,且能把错题识别这个功能植入到电子助视器中,使得低视力患者不用通过手抄的方式生成错题本,也不用手动截取错题区域和擦除做题区域和批改标识,有效节约时间,并有多种方式可以阅读错题本并重新做题。附图说明
[0018] 图1为本发明的流程图

具体实施方式

[0019] 下面结合实施例对本发明做进一步的详细描述,但本发明的保护范围并不限于此。
[0020] 本发明涉及一种适用于电子助视器的错题本生成方法,现有的助视器中,电子助视器是最有效且功能丰富的装置,符合人体工学,通过一次性调整电子助视器的角度和高度并固定、通过电子助视器的后置摄像头采集图像完成工作;电子助视器具有图像实时显示,无极缩放、多模式变色、OCR识别和TTS语音阅读等功能,且易便携,能实时进行错题识别并利用电子助视器原有的功能来辅助生成低视力者的错题本。
[0021] 本发明主要采用了此适用于电子助视器的错题本生成方法的电子助视器,包括助视器本体,助视器内设有控制器,助视器上设有显示屏,显示屏背后配合设置后置摄像头和LED,显示屏侧边有USB端口,显示屏、后置摄像头、LED和USB与控制器连接;其中,为了在低光条件下也能采集到良好的图像质量,在电子助视器的后置摄像头侧加装了LED,为了使错题本导出电子助视器打印保存下来,电子助视器旁设有USB端口。
[0022] 本发明通过电子助视器的后置摄像头获取试卷图像,然后对采集的试卷图像进行倾斜校正,通过水平投影对图像进行分割,获取每一行的坐标,通过垂直投影结合电子助视器的OCR功能获取试卷各个题目的右上角坐标点和左下角坐标点,分割出试卷的各个题目,通过批改标识识别模型识别错题标识来确认错题题目,通过区分手写字体和印刷字体的模型来擦除学生的做题区域,通过电子助视器的OCR识别功能来降低甚至消除批改标识对题目的影响,进而结合OCR识别功能和图像拼接来生成错题本。
[0023] 本发明中,电子助视器开机后,会进入实时模式,低视力患者可以通过按键进入模式选择界面,选择对应的模式控件,进入对应的模式;如选择点击浏览图像,电子助视器的摄像头开始采集图像,并将图像经过放大、变色等处理后显示到屏幕,供低视力患者阅读;如选择点击错题识别,则进入错题识别模式,电子助视器的摄像头开始采集图像,对采集的图像进行错题识别,生成错题本。
[0024] 所述方法包括以下步骤。
[0025] 步骤1:电子助视器采集完整的非分栏格式试卷图像,对采集到的试卷图像进行预处理。
[0026] 所述步骤1中,预处理包括以下步骤:步骤1.1:对试卷图像进行倾斜校正,使得试卷图像的左边缘和下边缘与标准线齐平;
步骤1.2:对倾斜校正后的试卷图像进行灰度化处理,以灰度值作为阈值,将处理后的
图像进行二值化处理;
步骤1.3:将处理后的试卷图像的长和宽等比例放大至N倍,N≥1。
[0027] 本发明中,首先约定试卷为常规低年级用试卷,如小学三年级;试卷中,约定“大题”、“主题干”为如“一、填空。(每空1分,共22分)”、“二、判断。(对的打√,错的打×)(5分)”的内容,约定小题为每一大题下且缩进后开始的题目。
[0028] 本发明中,试卷格式需要为非分栏格式,若为分栏格式,则需对折之后再放置到摄像头之下进行采集。
[0029] 本发明中,图像倾斜校正为本领域常用技术,可以由多种处理手段实现,主要针对低视力患者在采集图像时不能把试卷摆放的和摄像在同一个角度,导致试卷图像在输出显示或者送入错题识别模块时产生的一定角度的倾斜进行校正;图像倾斜校正使得试卷图像端正、易于识别且是水平投影的必要预处理。
[0030] 本发明中,图像倾斜校正一般包括两种倾斜,一种是平面倾斜,这种情况下电子助视器与试卷平行,另一种是z轴倾斜,在这种情况下拍照设备与试卷存在一定的角度,拍出来的图像存在扭曲现象;将校正后的图像与标准线齐平进行对比,保证试题的分割效果。
[0031] 本发明中,有些试卷中,文字行与行之间的空隙较小,需要将试卷图像进行总体处理,使文字行与行之间的空隙变大,减少水平分割时把两行文字甚至更多行文字分割在一起的错误率;其中,放大倍数可固定在一个默认值,低视力患者可视试卷情况,通过电子助视器上的放大按键直接对试卷的放大倍数进行调整。
[0032] 步骤2:对预处理后的试卷图像进行图像分割,将分割后的图像存入电子助视器的缓冲区。
[0033] 本发明中,对预处理后的试卷图像进行水平投影分割出行图像,通过对行图像进行垂直投影,并结合OCR识别来判定试卷图像各个题目的切割位置坐标,用该坐标切割试卷图像,得到目标图像,即试卷的各个题目。
[0034] 所述步骤2包括以下步骤:步骤2.1:对预处理后的试卷图像按顺序在Y轴上进行水平投影,基于水平投影的图像
进行分割,得到若干行图像;
所述步骤2.1包括以下步骤:
步骤2.1.1:对预处理后的试卷图像从上到下逐行扫描,计算每个扫描行的像素;
步骤2.1.2:获取图像的水平投影,根据水平投影值确定文字行的位置;
步骤2.1.3:以水平投影的空白间隙识别文字行与文字行之间的间隔,按行分割得到若
干行图像;
步骤2.1.4:以初始试卷图像的左上角为原点,记录每一行图像的左上角坐标和右下角
坐标。
[0035] 本发明中,对预处理后的图像从上到下逐行扫描并同时计算每个扫描行的像素,以获取图像的水平投影,根据水平投影值确定文字行的位置。
[0036] 本发明中,水平投影主要统计每一行像素的数量,其特点表明了图像在水平方向上的特征。
[0037] 本发明中,投影值是指一个像素行(列)的黑色数的总和,根据水平投影值确认文字行对象即是根据统计的黑色数确定这一行的起点和终点,然后再根据空白间隙将其分割。
[0038] 本发明中,文字行之间的空白间隙造成的水平投影空白间隙为波谷,可把图像按行分割出来,以图片的左上角为原点,记录下每一行的左上角坐标和右下角坐标。
[0039] 步骤2.2:将所有的行图像按顺序进行存储,得到完整的待处理行图像集合。
[0040] 本发明中,将所有的行图像按顺序进行存储,即表示当试卷具有多页时,首先对所有具有实际意义的行进行整理,除去了每页试卷的顶部和底部可能有的大面积空白,同时将由于分页而导致断开的题目进行预先的拼接。
[0041] 步骤2.3:按照顺序将每一行图像在X轴上进行垂直投影,结合OCR识别判定试卷图像中各个题目的切割位置坐标;以各个题目的切割位置坐标切割试卷图像,得到试卷的各个题目的目标图像。
[0042] 所述步骤2.3包括以下步骤:步骤2.3.1:调用电子助视器自带的OCR识别单元对分割得到的行图像进行垂直投影,
以每一行从左至右第一个出现像素值的位置为当前行图像的起始位置,获得对应的起始位置OCR识别结果;以第一个行图像为当前行;
步骤2.3.2:OCR识别单元处理当前行,获得当前行的行图像进行垂直投影后的识别结
果;
若起始位置的识别结果为主题干,则记录当前行图像的左上角坐标点和和右下角坐标
点,进行下一步;
否则,不记录坐标点,直接进行下一步;由于步骤2.2的处理且此处由试卷的第一行开
始识别,故此处可能出现的内容是试卷的页眉部分,此为可以略过的内容,故进行下一步。
[0043] 步骤2.3.3:以下一行为当前行,OCR识别单元处理当前行,获得当前行的行图像进行垂直投影后的识别结果;若当前行的起始位置的识别结果中存在连续的小写数字和符号、或起始位置的横向坐
标值大于上一行的行图像的起始位置的横向坐标值,则当前行是一道支题干开始的第一
行,以当前行的左上角坐标为新的左上角坐标、以当前行的右下角坐标为新的右下角坐标,进行下一步;
否则,直接记录当前行的右下角坐标点,重复步骤2.3.3;这种情况可能是前序的主题
干仍在进行中,故以新记录的右下角坐标点进行更新,并继续验证下一行。
[0044] 步骤2.3.4:以下一行为当前行,OCR识别单元处理当前行,获得当前行的行图像进行垂直投影后的识别结果;若当前行起始位置的识别结果中不存在连续的小写数字和符号且起始位置的横向坐
标值小于等于上一行的行图像的起始位置的横向坐标值,则当前行与上一行是同一道题,以当前行的右下角坐标为更新的右下角坐标,重复步骤2.3.4;
若当前行起始位置的识别结果为连续的英文及符号且起始位置的横向坐标值大于等
于上一行的行图像的起始位置的横向坐标值,则认为当前行与上一行是同一道题且为选择题的选项,以当前行的右下角坐标为更新的右下角坐标,重复步骤2.3.4;
若当前行起始位置的识别结果中存在连续的小写数字和符号、或者起始位置的横向坐
标值大于上一行的行图像的起始位置的横向坐标值,则认为当前行是下一道支题干开始的第一行,返回步骤2.3.3;为了避免每次分割的题目过长,对于支题干也需要进行分割,故当识别到下一道支题干时,进行切分,即不记录任何坐标点,而是返回到步骤2.3.3进行新的划分。
[0045] 若当前行起始位置的识别结果为主题干,则返回步骤2.3.2;若当前的行图像为空,则进行下一步;这里表示已经识别到尽头。
[0046] 步骤2.3.5:按所有的左上角坐标点和对应的右下角坐标点为一组,分割出每个主题干和支题干,并将分割后的所有主题干和支题干进行排序,按顺序进行存储;步骤2.3.6:对每个主题干和支题干进行对应的标记;此处的标记主要是指标记主题干
和支题干,便于后续作业的区分。
[0047] 当任一行的起始位置的识别结果为存在连续的一大写数字和符号、为中文文字或中文文字与数字和/或英文的组合、为以特殊符号开头,则为主题干的起始行。
[0048] 本发明中,垂直投影主要统计每一列像素的数量,其特征表示文字图像垂直方向的特征。
[0049] 本发明中,要按顺序对行图像进行垂直投影,根据垂直投影中出现第一黑色像素的位置和对行图像进行OCR文字识别的结果来确定上一行与当前行的关系和当前行与下一行的关系,确认是否属于同一道题。
[0050] 本发明中,主题干的条件包括起始位置的识别结果为存在连续的一大写数字和符号、为中文文字或中文文字与数字和/或英文的组合、为以特殊符号开头,后两种为附加题的题目开头存在的情况,其中,特殊字符是指既非数字、中文、英文,也非括号、标点符号的字符。
[0051] 本发明中,步骤2.3.2讨论了起始行的识别,其可能是主题干,也可能是不必要的信息,故对主题干进行正常标记,对于不必要的信息则略过。
[0052] 本发明中,步骤2.3.3中的情况为支题干的识别,若不是支题干则为主题干的延续,则更新右下角并重复下一行的处理即可。
[0053] 本发明中,步骤2.3.4则讨论了正常未完的支题干、选择题的选项、新开始的支题干、新的主题干、最后一行的情况。
[0054] 本发明中,横向坐标值大于上一行的行图像的起始位置的横向坐标值是指当前行相对于上一行进行了缩进。
[0055] 本发明中,识别结果不是以小写数字加符号(顿号或者点)开头或者其第一次出现像素值为零的位置大于上一行图像第一次出现像素值为零的位置(相对于上一行进行了缩进),这是大题题目过长的情况。
[0056] 本发明中,每道题目的开头记录左上角左边,结束或者未结束都要记录右下角坐标点,如果还未结束,要用下一行的右下角坐标点顶替掉当前行的右下角坐标点,实时更新。
[0057] 本发明中,最后按左上角左边点和右下角坐标点来分割出每道题,把分割出来各个题目图片按顺序传入下一步骤。
[0058] 本发明中,由于投影分割的图像时经放大的图像,而接下来的步骤所处理的图像是原图像,所以记录坐标值时应按放大图像和原图像之间的比例来记录。
[0059] 步骤3:读取缓冲区中图像的像素值,识别批改标识。
[0060] 所述步骤3包括以下步骤:步骤3.1:基于阈值,对输入图像区分前景和背景;
步骤3.2:根据阈值确定前景和背景的颜色并生成颜色表;
步骤3.3:获取电子助视器缓冲区内存储像素的地址,确定每个像素点值;
步骤3.4:通过像素点值确定颜色范围,确定图像中的批改标识颜色的像素点,利用连
通区域把图像中的批改标识颜色区域找出并标记;
步骤3.5:提取批改标识颜色区域的轮廓,记录当前轮廓在图像中对应的位置,并置于
输出的地址中。
[0061] 本发明中,连通区域分析和提取轮廓为本领取常用技术,可以由多种处理手段实现。
[0062] 本发明中,对于颜色的处理等为电子助视器自带的功能,本领域技术人员可以依据需求自行实现。
[0063] 步骤4:获得训练好的识别批改标识的神经网络模型,用于识别试卷中的批改标识。
[0064] 所述步骤4中,识别试卷中的批改标识包括以下步骤:步骤4.1:以训练好的模型对试卷图像进行测试,记录识别到的错误标识的坐标点;
步骤4.2:以批改标识颜色区域在输出的缓冲区的地址值读取对应的坐标点;
步骤4.3:以步骤4.1和步骤4.2的坐标点IoU来确定试卷图像内的错题标识;
步骤4.4:获取确定的错题标识对应的目标框的4个角点坐标值和目标框的中点。
[0065] 本发明中,训练神经网络模型的原理为:选择现有技术中目标检测网络识别精度高的神经网络,按照需求修改网络的基本参
数;
收集已批改的试卷,通过扫描或者手机相机等拍照设备获取试卷图像,对图像进行倾
斜校正,再把试卷图像按比例分成训练集和测试集;
对试卷图像中的批改标识进行数据标识,正确答案的批改标识为“√”,错误答案的批
改标识为“×”,一般批改标识的颜色为红色,正确答案和错误答案的批改标识都要进行数据标注,如果只标注错误答案标识,神经网络会把是红色的标识当作错误答案标识,其他当成背景,造成目标检测网络模型把正确的题也识别为错题;用训练好的模型对采集的试卷图像进行测试,并记录下识别到的错误标识的坐标点,再通过步骤3记录的红色区域在输出缓冲区的地址值读取其坐标点,根据上述两者的IOU来确定红色的错题标识,避免把选择题的“√”和“×”错认为是老师的批改标识;
修改目标检测网络生成测试结果的代码,使测试结果中包含有识别到的目标框的4个
坐标,计算这4个坐标的中点,即目标框的中点。
[0066] 步骤5:对比识别到的批改标识的目标框的坐标中点和分割的试卷图像的各个题目的坐标点;若存在任一中点坐标落入任一题目的坐标范围内,则认为当前题目是错题。
[0067] 步骤6:对于错题对应的错题图像进行手写字体和印刷字体的区分,对错题进行文字识别。
[0068] 所述步骤6包括以下步骤:步骤6.1:训练用于区分手写字体和印刷字体的神经网络模型,以印刷字体为试卷题
目;
步骤6.2:输入步骤5的错题图像;当模型识别到手写字体后,对字体进行颜色判断,若
手写字体在批改标识颜色区域内,则不对该字体进行擦除;将处理后的错题图像另存至电子助视器的图片文件管理库;
步骤6.3:以电子助视器自带的OCR功能对步骤6.2处理后的图片进行OCR文字识别,将
对应的OCR文字识别结果按一定格式存储到电子助视器的图片文件管理库。
[0069] 本发明中,需要对学生的手写字体进行有选择性的擦除。
[0070] 本发明中,对于可以区分手写字体和印刷字体的神经网络模型需要进行训练,由于模型可能会把老师的批改标识误认为手写字体,而老师的批改标识部分会叠加在试卷的题目上,所以该模型识别到手写字体后,需对该字体做一个颜色判断,可通过调用记录的红色区域进行比较,或手写字体在红色区域内,则不对该字体进行擦除,避免误把试卷题目擦除掉,把识别的错题图片传入区分手写字体和印刷字体的神经网络模型并按一定格式命名存储到电子助视器的图片文件管理下。
[0071] 本发明中,调用电子助视器自带的OCR功能对存储的图片进行OCR文字识别,OCR识别能降低甚至消除没有擦除的批改标识对题目识别的影响,把OCR文字识别结果另存为图片、按一定格式存储到电子助视器的图片文件管理夹下。
[0072] 本发明中,印刷字体为试卷题目,手写字体为学生作答字体。
[0073] 本发明中,低视力患者可以连续地把自己所需生成错题本的已批改试卷进行错题识别,每识别完一张试卷图像,电子助视器显示器会弹出一条提醒消息或者语音提醒低视力患者采集下一张图像或者是结束错题识别或者是使用电子助视器的冻屏功能来阅读图像。其中冻屏功能是把画面定格在那张图像,使用放缩和变色功能进行阅读,当低视力患者选择冻屏功能阅读图像时,会用矩形框把步骤5确认的错题用与背景色有对比度的颜色框选出来,其中背景色是指低视力患者阅读时采用变色功能来找到适合自己阅读的颜色,框选错题能让低视力患者快速找到自己做错的题目。
[0074] 步骤7:识别完成,则电子助视器对处理后的错题图像进行拼接,生成错题本。
[0075] 所述步骤7包括以下步骤:步骤7.1:确认所有图像识别完成;
步骤7.2:获取步骤2处理后的主题干对应的图像及步骤6处理后的错题图像;
步骤7.3:将错题图像按顺序排列;以第一个错题图像为当前错题图像;
步骤7.4:以当前错题图像的坐标点开始向上寻找的第一个主题干对应的图像为对应
当前错题的主题干;若主题干对应的图像被调用的次数为0,则将当前错题图像与所述主题干对应的图像进行拼接,进行下一步,否则,将当前错题图像拼接在前一个错题图像下,进行下一步;
步骤7.5:若存在下一个错题图像,则取下一个错题图像为当前错题图像,返回步骤
7.4,否则,拼接结束,进行下一步;
步骤7.6:生成错题本。
[0076] 本发明中,识别完所有已批改试卷后,退出错题识别模式,退出这一操作会触发图像拼接,电子助视器会自动调用图像拼接模块对保存的图像进行拼接,拼接成一个长图并按一定格式命名存储,该长图是已批改试卷中的错题集合,即是本发明生成的错题本,该错题本已擦除答题区域,低视力患者可重新做题,巩固知识点。
[0077] 本发明中,由于错题图像是按顺序排列的,故可以按序对每个支题干进行查询主题干的操作,每个主题干第一次被访问到时,与支题干进行拼接,若不是第一次被访问到,则说明存在同一个主题干下的上一个支题干,则直接拼在上一个错题图像下即可;这种操作可以保留每个支题干对应的主题干,便于错题本在被使用过程中的逻辑清晰。
[0078] 本发明中,低视力患者可在图片管理中删掉除错题本长图外的图片,只保留该长图。低视力患者可打开长图,用变色、放大等功能找到适合自己阅读的方式对该长图进行阅读并重新做题,也可使用电子助视器的TTS语音功能进行阅读,也可通过USB把图片导出并打印。由于电子助视器的TTS语音功能读取数学公式准确度不高,可安装专显示数学公式的插件来结合TTS语音功能进行读取数学公式,提高准确度。
[0079] 本发明中,方法主要针对有一定排版格式的试卷,成功率高,适用性好。
[0080] 本发明通过电子助视器采集完整的非分栏格式试卷图像并进行预处理、图像分割后,存入电子助视器的缓冲区,基于缓冲区中图像的像素值识别批改标识,以训练好的神经网络模型用于识别试卷中的批改标识,对比识别到的批改标识的目标框的坐标中点和分割的试卷图像的各个题目的坐标点,当存在任一中点坐标落入任一题目的坐标范围内,则认为当前题目为错题,对错题图像进行手写字体和印刷字体的区分,对错题进行文字识别,识别完成后,对处理后的错题图像进行拼接,生成错题本。
[0081] 本发明通过图像处理技术中的水平投影和垂直投影方法分割试卷的各个题目,克服用神经网络来分割的精度不确定性和训练数据收集和标注的复杂性;以目标检测网络识别批改标识,结合图像处理技术识别错题,通过二分类神经网络区分印刷字体和手写字体,对手写字体进行擦除,通过电子助视器自带的OCR识别功能对擦除手写字体后的错题进行识别,去除批改标识,解决了现有技术中无法自动截取错区域、擦除批改标识和错误答案的问题,并能提高错题本的精度,且能把错题识别这个功能植入到电子助视器中,使得低视力患者不用通过手抄的方式生成错题本,也不用手动截取错题区域和擦除做题区域和批改标识,有效节约时间,并有多种方式可以阅读错题本并重新做题。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈