首页 / 专利库 / 电脑编程 / 别名 / 一种X光机图片采集辅助装置和处理方法

一种X光机图片采集辅助装置和处理方法

阅读:488发布:2020-05-14

专利汇可以提供一种X光机图片采集辅助装置和处理方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种X光机图片采集辅助装置,包括:图片采集单元,用于采集X光机中的物品图像;和工业电脑;本发明还公开了一种X光机图片处理方法,应用于上述X光机图片采集辅助装置,包括:S1:得到一个目标检测类别的模型;S2:形成X光机训练、测试图片集;S3:人工检查将处理后标注正确的图片数据集存放到 指定 路径;S4:得到类别均衡数据集;S5:对所述类别均衡数据集进行 深度学习 训练。本发明的有益效果为:可以在深度学习目标检测、分割等 算法 模型训练过程中,能快速生成训练、测试数据集,同时消除类别不均衡的影响,减少人工操作和降低人工工作量。,下面是一种X光机图片采集辅助装置和处理方法专利的具体信息内容。

1.一种X光机图片采集辅助装置,其特征在于,包括:
图片采集单元,用于采集物品图像;和
工业电脑,所述工业电脑包括:
图片处理单元,用于对所述物品图像进行目标类别检测;
数据存储单元,用于将检测到的所述物品图片进行存储;和
数据处理单元,用于标注所述数据存储单元中的物品图片;
所述图片采集单元、数据存储单元、图片处理单元、数据处理单元依次电连接。
2.根据权利要求1所述的X光机图片采集辅助装置,其特征在于,所述图片采集单元为X光机,所述X光机包括OPENCV库。
3.根据权利要求2所述的X光机图片采集辅助装置,其特征在于,所述数据存储单元与所述数据处理单元通信连接。
4.一种X光机图片处理方法,其特征在于,应用于如权利要求1-3中任意一项所述的X光机图片采集辅助装置,包括:
S1:选择数据集,初筛得到目标类别的训练数据集,然后用所述训练数据集训练,得到一个目标检测类别的模型;
S2:根据所述目标检测类别的模型,处理X光机图片,筛选所述X光机图片中存在的目标类别的图片,存放到指定路径,形成X光机训练、测试图片集;
S3:人工检查和干预获取的所述X光机训练、测试图片集,将处理后标注正确的图片数据集存放到指定路径;
S4:用类别均衡算法对所述图片数据集进行统计和预处理,得到类别均衡数据集;
S5:对所述类别均衡数据集进行深度学习训练。
5.根据权利要求4所述的X光机图片处理方法,其特征在于,所述S1:选择数据集,初筛得到目标类别的训练数据集,包括:初筛将错标漏标图片的标注的xml或json文件,修正成对应图片的正确xml或json文件。
6.根据权利要求4所述的X光机图片处理方法,其特征在于,所述S4:对所述图片数据集进行统计和预处理,包括:对各类别目标数、只包含单一类别的标注文件,按类别名文件存放;标注文件中包含两个类别目标,且每一类目标数均为1等统计值和图片名称的标注文件,按照类别-名称文件名存放。
7.根据权利要求4所述的X光机图片处理方法,其特征在于,S2和S3中所述指定路径为相同或不同路径,如果为相同路径,则文件名标注不同。
8.根据权利要求4所述的X光机图片处理方法,其特征在于,所述S3:人工检查和干预 ,包括:将误检的目标物删除,将漏检的目标物进行手工标注。
9.根据权利要求4或5所述的X光机图片处理方法,其特征在于,所述初筛包括人工筛选和/或自动筛选。

说明书全文

一种X光机图片采集辅助装置和处理方法

技术领域

[0001] 本发明涉及图像采集技术领域,特别是涉及一种X光机图片采集辅助装置和处理方法。

背景技术

[0002] 目前,公知的X光机图片采集,主要是调用OPENCV获取光机照片,然后手工标注训练集和测试集。在最终标注的训练集中,经常出现某些类别物品数量较多,而某些类别物品数量较少。标注后的xml文件集合(或json文件集合),后续用于深度学习算法模型的训练、验证和测试。训练集的不均衡,会直接影响到模型训练的难易程度和最终检测效果。
[0003] 图像分类,就是判断图片的类别,给待分类图片打一个预测标签。分类数据集,一般每个图片只有一个标签。如有一千张图,一共两个类别(如猫和狗),则每张图片的标签可以量化为0和1,如果有多个类别,以此类推。
[0004] 图像目标检测,就是检测一张图片中是否包含有待检测类别的物体,并给待检测图片中检出的目标物画出位置和打上目标物的标签。目标检测数据集,一般用xml格式文件存放各目标物的位置和类别信息,一个图片对应一个同名的xml文件。
[0005] 假设用于训练检测猫、狗和的模型,这批数据集一共1000张图片,现在统计这批数据的标注文件xml得到,只包含猫的图片有200张,只包含狗的图片100张,只包含鸟的图片300张,剩下400张图片,每张都同时包含至少两种目标(如同时包含猫和狗、同时包含猫和鸟、同时包含狗和鸟、同时包含猫狗鸟),最后统计得到这批数据集中各类别个数:猫:500,狗:987,鸟:1100。这个数据集因为各类别数量不均衡,容易导致检测模型容易有偏向,如检测鸟的效果最好,检测猫的效果较差。
[0006] 类别不平衡的数据集,对模型的训练有不好的影响,因此需要在是整理训练数据集时就要对数据预处理。
[0007] 消除类别不均衡,主要有两种方式解决。一种方法是通过数据扩充的思想,将所有类别中目标统计,并按降序排序,目标个数最少的类别,通过复制的方式,加大在整个数据集中的比例;再对反复采用此方法,直到所有类别尽量达到均衡。另一种方法是通过统计所有类别的目标个数,在训练过程中增加所有类别中目标个数最少类别的权重,尽量多次采用目标数少的类别进行训练,减少类别不均衡导致的干扰。这两种方式,都可以一定程度降低数据集类别不均衡导致的不利影响,但数据扩充的方式简单粗暴,扩充目标数少的类别,使整体类别保持大体均衡同时,却也可能在训练过程中因多次重复使用同一张图片导致模型有偏向。而增加或减少类别权重的方式,则可能因权重设置的不合理,导致模型出现偏向。两种方式都有一定的适用性和局限性。

发明内容

[0008] 有鉴于此,为了克服现有的消除类别不均衡对训练效果的方法的不足,采集X光机图片并形成一个类别均衡的样本,本发明提出了一种X光机图片采集辅助装置和处理方法。具体内容如下:
一种X光机图片采集辅助装置,包括:
图片采集单元,用于采集物品图像;和
工业电脑,所述工业电脑包括:
图片处理单元,用于对所述物品图像进行目标类别检测;
数据存储单元,用于将检测到的所述物品图片进行存储;和
数据处理单元,用于标注所述数据存储单元中的物品图片;
所述图片采集单元、图片处理单元、数据存储单元、数据处理单元依次电连接。
[0009] 进一步的,所述图片采集单元为X光机,所述X光机包括OPENCV库。
[0010] 进一步的,所述数据存储单元与所述数据处理单元通信连接。
[0011] 一种X光机图片处理方法,应用于上述X光机图片采集辅助装置,包括:S1:选择数据集,初筛得到目标类别的训练数据集,然后用所述训练数据集训练,得到一个目标检测类别的模型;
S2:根据所述目标检测类别的模型,处理X光机图片,筛选所述X光机图片中存在的目标类别的图片,存放到指定路径,形成X光机训练、测试图片集;
S3:人工检查和干预获取的所述X光机训练、测试图片集,将处理后标注正确的图片数据集存放到指定路径;
S4:用类别均衡算法对所述图片数据集进行统计和预处理,得到类别均衡数据集;
S5:对所述类别均衡数据集进行深度学习训练。
[0012] 进一步的,所述S1:选择数据集,初筛得到目标类别的训练数据集,包括:初筛将错标漏标图片的标注的xml或json文件,修正成对应图片的正确xml或json文件。
[0013] 进一步的,所述S4:对所述图片数据集进行统计和预处理,包括:对各类别目标数、只包含单一类别的标注文件,按类别名文件存放;标注文件中包含两个类别目标,且每一类目标数均为1等统计值和图片名称的标注文件,按照类别-名称文件名存放。
[0014] 进一步的,S2和S3中所述指定路径为相同或不同路径,如果为相同路径,则文件名标注不同。
[0015] 进一步的,所述S3:人工检查和干预,包括:将误检的目标物删除,将漏检的目标物进行手工标注。
[0016] 进一步的,所述初筛包括人工筛选和/或自动筛选。
[0017] 本发明的有益效果在于:可以在深度学习目标检测、分割等算法模型训练过程中,能快速生成训练、测试数据集,同时消除类别不均衡的影响,减少人工操作和降低人工工作量。

具体实施方式

[0018] 下面将更加详细地描述本公开的示例性实施例。应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0019] 一种X光机图片采集辅助装置,包括:图片采集单元,用于采集物品图像;和
工业电脑,所述工业电脑包括:
图片处理单元,用于对所述物品图像进行目标类别检测;
数据存储单元,用于将检测到的所述物品图片进行存储;和
数据处理单元,用于标注所述数据存储单元中的物品图片;
所述图片采集单元、图片处理单元、数据存储单元、数据处理单元依次电连接。
[0020] 进一步的,所述图片采集单元为X光机,所述X光机包括OPENCV库。OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而且高效——由一系列 C 函数和少量 C++ 类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。图片采集装置调用opencv图片处理库,才能获取图片。调用opencv采集图片后,保存到指定文件夹中。
[0021] 进一步的,所述数据存储单元与所述数据处理单元通信连接。
[0022] 以目前X光机多类别目标检测数据集为例:假设,现在有一批数据集用于训练刀具违禁品数据集。统计得到:
图片10000万张
刀具:62500个,
锤子:76500个,
锯子:70000个,
钝器:59000个。
[0023] 其中,只包含一个类别目标物的图片合计:65000张刀具:30000张图片,刀具个数40000个;
锤子:10000张图片,锤子个数55000个;
锯子:20000张图片,锯子个数40000个;
钝器:5000张图片,钝器30000个。
[0024] 其中,同时包含两个不同类别目标物的图片合计:20000张刀具和锤子:3000张图片,刀具:3000个,锤子:3500个;
刀具和锯子:5000张图片,刀具:5000个,锯子:5500个;
刀具和钝器:2000张图片,刀具:2000个,钝器:2500个;
锤子和锯子:2500张图片,锤子:2500个,锯子:3000个;
锤子和钝器:1800张图片,锤子:2000个,钝器:2500个;
锯子和钝器:5700张图片,锯子:6000个,钝器:6500个;
其中,同时包含三个不同类别目标物的图片合计:10000张
刀具、锤子、锯子:2000张图片,刀具:2000,锤子:2500,锯子:3000;
刀具、锤子、钝器:2500张图片,刀具:2500,锤子:3000,钝器:3500;
刀具、锯子、钝器:3000张图片,刀具:3000,锯子:3500,钝器:4000;
锤子、锯子、钝器:2500张图片,锤子:2500,锯子:3000,钝器:3500;
其中,同时包含四个不同类别目标的图片合计:5000张
刀具、锤子、锯子、钝器:5000张图片,刀具:5000,锤子:5500,锯子:6000,钝器:6500。
[0025] 综上,100000=65000+20000+10000+5000刀具:62500=40000+3000+5000+2000+2000+2500+3000+5000
锤子:76500=55000+3500+2500+2000+2500+3000+2500+5500
锯子:70000=40000+5500+3000+6000+3000+3500+3000+6000
钝器:59000=30000+2500+2500+6500+3500+4000+3500+6500
从上述数据集可以看出类别的不平衡。现在需要从总共上述100000图片中找到一个子样本集,即X光机训练、测试图片集,使得四个类别的目标物都尽量均衡,即每个类别目标物的样本数都尽量一样多。本次最终希望得到子样本集:刀具:62500,锤子:62500,锯子:
62500,钝器:59000。
[0026] 对上述数据集进行处理,本发明提供了一种X光机图片采集辅助方法,包括:S1:选择数据集,初筛得到目标类别的训练数据集,然后用所述训练数据集训练,得到一个目标检测类别的模型。
[0027] 选择的数据集中包含待检测的类别,数据集可以是开源也可以是非开源的X光机违禁品数据集。根据本发明的实施例,数据集包含刀具这一类别。初筛将错标漏标图片的标注的xml或json文件,修正成对应图片的正确xml或json文件。所述初筛包括人工筛选和/或自动筛选。
[0028] 根据本发明的一个实施例,图片中将“目标物”用标注框圈出,表示“目标物”在图片中的位置信息。对应的标注xml或json文件打开之后,会有该误检标注框的元组信息,现在需要将这个误检信息从xml或json文件中删除。如果有漏检的,则在对应的xml或json文件中,把不存在的漏检目标物的标注框的元组信息,手工补上。简而言之,就是需要对xml或json文件进行修正:误检,就删除xml中的目标物信息;漏检,就补上xml中不存在的目标物信息。
[0029] 根据本发明的另一个实施例,“初筛将错标漏标图片的标注的xml或json文件,修正成对应图片的正确xml或json文件”这一过程,还可以根据目标检测的类别名,从原始图片集的标注xml或json文件中,自动筛选出目标类别名的标注矩形框,重新生成对应图片的标注xml或json文件。
[0030] S2:用所述目标检测类别的模型,处理X光机图片,筛选所述X光机图片中存在的目标类别的图片,存放到指定路径,形成X光机训练、测试图片集。
[0031] S3:人工检查和干预获取的所述X光机训练、测试图片集,将处理后标注正确的图片数据集存放到指定路径;用目标检测类别模型检测获取的X光机图片,可能存在误检和漏检的情况,需要人工干预,将误检的目标物删除,将漏检的目标物手工标注上。一个xml或json文件可以同时正确检测目标物和错误检测目标物。将误检的目标物删除后,该xml或json文件仍然可用。
[0032] 此过程与S2的初筛过程相同:人工将错标漏标图片的标注的xml或json文件,修正成对应图片的正确xml或json文件。
[0033] S2和S3中所述的指定路径可以为相同路径也可以为不同路径,如果是相同路径,则将文件夹名称加以区分S4:用类别均衡算法对所述图片数据集进行统计和预处理,得到类别均衡数据集。
[0034] 类别平衡具体过程如下:1、排序:【59000,62500,70000,76500】,并选择合适的阈值,此处选择有序序列的中值序列号62500。如果是奇数个类别,则选择(n+1)/2处的值为阈值。如果为偶数个类别,则选择序列号(n/2)处的值为阈值,n为类别数。
[0035] 2、对所述图片数据集进行统计和预处理,包括:对各类别目标数、只包含单一类别的标注文件并按类别名文件存放;标注文件中包含两个类别目标且每一类目标数均为1等统计值和图片名称,按照类别-名称文件名存放。例如:有的图片包含两个锤子,有的图片包含两个锯子,有的图片既包含锤子也包含锯子……还有的图片只包含一个锯子或者只包含一个锤子。
[0036] 具体操作为:根据统计,创建4个大文件夹(单一类别、同时两类、同时三类、同时四类),大文件夹又包含了子文件夹,存放不同子类标注文件(单一类别大文件夹:刀具子文件夹、锤子子文件夹、锯子子文件夹、钝器子文件夹)。其他大文件夹同理。
[0037] 3、第一轮:单一类别比较和移动:由于只包含单一类别的刀具40000,锤子45000,锯子40000,钝器30000,这个子样本集个数都少于62500个。所以,本次将所有单一类别的标注文件移动到一个临时文件夹,并统计得到:刀具:40000,锤子:45000,锯子:40000,钝器:30000。需要补充:刀具:22500,锤子:
17500,锯子:22500,钝器:32500。
[0038] 4、第二轮:将其他文件夹中所有包含刀具或钝器类别的标注文件全部移动到临时文件夹;并统计每个类别的图片数、目标物个数;此时,刀具:62500,钝器:59000。
[0039] 5、第三轮:根据第二轮的统计结果,如果抽取出的包含刀具和钝器的所有xml标注文件,每个单一类别的目标物个数全部超过了阈值62500,则从只包含锤子和锯子单一类别的xml文件中抽取多余的个数,移除到原始文件夹。同理,锤子和锯子仍不满足62500个,则从各自只包含单一类别的xml文件中抽取少于62500的个数补齐,如果仍然不够,则从同时包含锤子和锯子两个类别的标注文件中补齐。得到类别均衡数据集。
[0040] 如果刀具:62500,钝器:59000,锤子:75000,锯子:50000,即锤子多于62500阈值,锯子少于62500阈值。则补齐锯子的不足62500的部分。因当前所有包含锤子的标注都包含了刀具或钝器,或者同时包含刀具和钝器,所以锤子的个数即便超过了阈值,也不能再作处理。
[0041] S5:对所述类别均衡数据集进行深度学习训练。
[0042] 根据上述类别均衡的算法,从所有训练数据集样本(所有训练数据集样本指的是未平衡前的原始数据集。一个未平衡数据集,可以抽取若干个平衡数据子集。)中抽取若干个类别平衡后的子样本数据集(A,B,C,…F)。用A数据集训练固定个循环,再以A的检测模型用B数据集训练固定个循环,依次类推,直到所有子样本训练数据集全部训练完毕。
[0043] 实际X光机违禁品检测中,待检测类别一般都是十几甚至更多类别,实际处理过程中,复杂度会很高。本发明不仅能在训练中降低某个类别单一目标重复使用的现象,而且能尽量少人为参与每个训练批次数据的选择。
[0044] 需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
[0045] 最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈