首页 / 专利库 / 资料储存系统 / 根哈希 / 一种图像数据集构建方法、系统及计算机可读存储设备

一种图像数据集构建方法、系统及计算机可读存储设备

阅读:682发布:2020-05-12

专利汇可以提供一种图像数据集构建方法、系统及计算机可读存储设备专利检索,专利查询,专利分析的服务。并且本 申请 公开了一种图像数据集构建方法、系统及计算机可读存储介质,其中,该方法包括:划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,哈希值子集有M个哈希值,M为大于或等于1的整数;分别从任一哈希值子集中 抽取 N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,利用第二目标哈希值集,在原始图像中获取对应的图像,以构建目标图像数据集;获得第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算原始图像的哈希值,根据计算得到的哈希值剔除重复的哈希值,得到第一目标哈希值集。本申请实现了构建差异化的图像数据集。,下面是一种图像数据集构建方法、系统及计算机可读存储设备专利的具体信息内容。

1.一种图像数据集构建方法,其特征在于,包括:
划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,所述哈希值子集有M个哈希值,M为大于或等于1的整数;
分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;
计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集;
其中,得到所述第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算所述原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到所述第一目标哈希值集。
2.根据权利要求1所述的图像数据集构建方法,其特征在于,所述划分预先得到的第一目标哈希值集,得到对应的哈希值子集的过程包括:
从所述第一目标哈希值集中抽取a个哈希值,得到第三目标哈希值集;其中,a为大于或等于1的整数;
划分所述第三目标哈希值集,得到对应的哈希值子集。
3.根据权利要求1至2任一项所述的图像数据集构建方法,其特征在于,所述分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集的过程之后还包括:
从所述第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
计算所述第一目标哈希值子集中剩余哈希值中任选第二个哈希值与所述选中的哈希值之间的距离;
判断所述第二个哈希值与所述选中的哈希值是否大于预设阈值距离,若是,则移动所述第二个哈希值至所述第二目标哈希值子集;
计算所述第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
判断第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动所述第b个哈希值至所述第二目标哈希值子集。
4.根据权利要求3所述的图像数据集构建方法,其特征在于,所述计算距离的公式为:
式中,
其中, 为任意两个哈希值 和 之间的距离; 为提取二进制串的
第p至第q位,且p≤q;i表示将 或 划分为MH段后的任一段; 为将 划分为MH段后的第i段的哈希值; 为将 划分为MH段后的第i段的哈希值;
CH为 平均分成MH段,每段包含的字符数目;NH=MH×CH; 为 转换成的二进制串, 为 转换成的二进制串;每个 含有4CH位二进制数;
为 右移k-1位后 和 的距离, 为 左移k-1位后 和 的
距离, 表示二进制的异或运算,O1表示统计二进制中1的个数,k为位移参数,且为 右移k-1位后 和 的距离和 左移k-1
位后 和 的距离的最小值。
5.根据权利要求3所述的图像数据集构建方法,其特征在于,所述计算所有第一目标哈希值子集的并集,得到第二目标哈希值集;并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集的过程包括:
计算所有第二目标哈希值子集的并集,得到第四目标哈希值集;并利用所述第四目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
6.一种图像数据集构建系统,其特征在于,包括:
哈希值子集获取模,用于划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,所述哈希值子集有M个哈希值,M为大于或等于1的整数;
目标哈希值子集获取模块,用于分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于N的正整数;
图像数据集构建模块,用于计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
7.根据权利要求6所述的图像数据集构建系统,其特征在于,所述目标哈希值子集获取模块之后还包括:
哈希值选取单元,用于从所述第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
第一距离计算单元,用于计算所述第一目标哈希值子集中剩余哈希值中任选第二个哈希值与所述选中的哈希值之间的距离;
第一距离判断单元,用于判断所述第二个哈希值与所述选中的哈希值是否大于预设阈值距离,若是,则移动所述第二个哈希值至所述第二目标哈希值子集;
第二距离计算单元,用于计算所述第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
第二距离判断单元,用于判断第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动所述第b个哈希值至所述第二目标哈希值子集。
8.根据权利要求7所述的图像数据集构建系统,其特征在于,
所述图像数据集构建模块,用于计算所有第二目标哈希值子集的并集,得到第四目标哈希值集,并利用所述第四目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像数据集构建程序,所述图像数据集构建程序被处理器执行时实现如权利要求1至5任一项所述的图像数据集构建方法的步骤。

说明书全文

一种图像数据集构建方法、系统及计算机可读存储设备

技术领域

[0001] 本发明涉及计算机技术领域,特别涉及一种图像数据集构建方法、系统及计算机可读存储设备。

背景技术

[0002] 数据、算法和计算能机器学习的三大支柱。数据对机器学习模型的性能影响巨大,充足的数据是训练性能良好的机器学习模型的基础。而数据的充足性不仅体现在数据的量上,还体现在数据的多样性上。有差异化的数据才是对问题更全面的描述,大量相同或相似的数据只是对问题某一方面的重复刻画。例如:输电线路无人机巡检通常都会采集大量图像,多种因素导致其中存在不少相同和相似的图像:(1)对于同塔多回的线路巡检,完全相同的图像通常会保存在不同线路的巡检结果中;(2)人工通过巡线图像查找输电线路缺陷时,为便于发现缺陷,有时会调整图像的饱和度对比度等参数,导致相同的图像对应效果不同的多个版本;(3)在巡线抓拍过程中,存在同一位置附近多次拍摄、连拍,这会采集到多张非常相似的图像。所以,训练机器学习模型即使采用了大量数据,但由于其中包含大量相同和相似的数据,这不仅浪费了数据标注成本,更重要的是难以训练出性能良好的机器学习模型。
[0003] 因此,如何构建差异化的图像数据集是本领域技术人员亟待解决的问题。

发明内容

[0004] 有鉴于此,本发明提供一种图像数据集构建方法、系统及计算机可读存储设备,目的在于构建差异化的图像数据集。其具体方案如下:
[0005] 一种图像数据集构建方法,包括:
[0006] 划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,所述哈希值子集有M个哈希值,M为大于或等于1的整数;
[0007] 分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;
[0008] 计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集;
[0009] 其中,得到所述第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算所述原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到所述第一目标哈希值集。
[0010] 可选的,所述划分预先得到的第一目标哈希值集,得到对应的哈希值子集的过程包括:
[0011] 从所述第一目标哈希值集中抽取a个哈希值,得到第三目标哈希值集;其中,a为大于或等于1的整数;
[0012] 划分所述第三目标哈希值集,得到对应的哈希值子集。
[0013] 可选的,所述分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集的过程之后还包括:
[0014] 从所述第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
[0015] 计算所述第一目标哈希值子集中剩余哈希值中任选第二个哈希值与所述选中的哈希值之间的距离;
[0016] 判断所述第二个哈希值与所述选中的哈希值是否大于预设阈值距离,若是,则移动所述第二个哈希值至所述第二目标哈希值子集;
[0017] 计算所述第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
[0018] 判断第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动所述第b个哈希值至所述第二目标哈希值子集。
[0019] 可选的,所述计算距离的公式为:
[0020]
[0021] 式中,
[0022]
[0023] 其中, 为任意两个哈希值 和 之间的距离; 为提取二进制串的第p至第q位,且p≤q;i表示将 或 划分为MH段后的任一段; 为将 划分为MH段后的第i段的哈希值; 为将 划分为MH段后的第i段的哈希值;
[0024] CH为 平均分成MH段,每段包含的字符数目;NH=MH×CH; 为 转换成的二进制串, 为 转换成的二进制串;每个 含有4CH位二进制数;
[0025] 为 右移k-1位后 和 的距离, 为 左移k-1位后 和的距离,表示二进制的异或运算,O1表示统计二进制中1的个数,k为位移参数,且为 右移k-1位后 和 的距离和 左移k-
1位后 和 的距离的最小值。
[0026] 可选的,所述计算所有第一目标哈希值子集的并集,得到第二目标哈希值集;并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集的过程包括:
[0027] 计算所有第二目标哈希值子集的并集,得到第四目标哈希值集;并利用所述第四目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
[0028] 相应的,本发明还提供了一种图像数据集构建系统,包括:
[0029] 哈希值子集获取模,用于划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,所述哈希值子集有M个哈希值,M为大于或等于1的整数;
[0030] 目标哈希值子集获取模块,用于分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于N的正整数;
[0031] 图像数据集构建模块,用于计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
[0032] 可选的,所述目标哈希值子集获取模块之后还包括:
[0033] 哈希值选取单元,用于从所述第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
[0034] 第一距离计算单元,用于计算所述第一目标哈希值子集中剩余哈希值中任选第二个哈希值与所述选中的哈希值之间的距离;
[0035] 第一距离判断单元,用于判断所述第二个哈希值与所述选中的哈希值是否大于预设阈值距离,若是,则移动所述第二个哈希值至所述第二目标哈希值子集;
[0036] 第二距离计算单元,用于计算所述第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
[0037] 第二距离判断单元,用于判断第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动所述第b个哈希值至所述第二目标哈希值子集。
[0038] 可选的,所述图像数据集构建模块,用于计算所有第二目标哈希值子集的并集,得到第四目标哈希值集,并利用所述第四目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
[0039] 本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有图像数据集构建程序,所述图像数据集构建程序被处理器执行时实现如上述图像数据集构建方法的步骤。
[0040] 本发明提供的图像数据集构建方法,通过划分预先得到的第一目标哈希值集,得到对应的哈希值子集;然后,分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;最后,计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集;其中,得到所述第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算所述原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到所述第一目标哈希值集。可见,本发明提供的图像数据集构建方法,通过计算原始图像的哈希值,剔除重复的哈希值,得到第一目标哈希值子集,然后通过分组的方法随机抽取每组哈希值子集中的哈希值,得到第一目标哈希值子集,最后计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,从而构建差异化的图像数据集,而有差异化的图像数据集才是对问题更全面的描述,更有利于训练性能良好的机器学习模型。
附图说明
[0041] 为了更清楚地说明本发明实施例现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0042] 图1为本发明实施例提供的一种图像数据集构建方法的流程图
[0043] 图2为本发明实施例提供的另外一种图像数据集构建方法的流程图;
[0044] 图3为本发明实施例提供的一种图像数据集构建系统的结构示意图。

具体实施方式

[0045] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0046] 本发明实施例公开了一种图像数据集构建方法,如图1所示,包括:
[0047] 步骤S11:划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,哈希值子集有M个哈希值,M为大于或等于1的整数;
[0048] 其中,得到第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到第一目标哈希值集。
[0049] 需要进行说明的是,划分预先得到的第一目标哈希值集是无重复的划分,例如,当上述第一目标哈希值集为{A,B,C,D,E}时,可以进行的划分是{A,B},{C},{D,E}。可以理解的是,上述划分第一目标哈希值集可以根据第一目标哈希值集的数目进行平均划分;当然也可以是非平均划分,例如根据用户的需要进行非平均划分。
[0050] 步骤S12:分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;
[0051] 需要进行说明的是,分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集,可以是采用随机抽取的方式,当然也可以是根据用户的需要进行有目的的抽取。
[0052] 步骤S13:计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用第二目标哈希值集,在原始图像中获取对应的图像,以构建目标图像数据集。
[0053] 可见,本发明实施例提供的图像数据集构建方法,通过计算原始图像的哈希值,剔除重复的哈希值,得到第一目标哈希值子集,然后通过分组的方法抽取每组哈希值子集中的哈希值,得到第一目标哈希值子集,最后计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,从而构建差异化的图像数据集,而有差异化的图像数据集才是对问题更全面的描述,更有利于训练性能良好的机器学习模型。
[0054] 本发明实施例还提供了另外一种图像数据集构建方法,如图2所示,包括:
[0055] 步骤S21:划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,哈希值子集有M个哈希值,M为大于或等于1的整数;
[0056] 其中,得到第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到第一目标哈希值集。
[0057] 需要进一步说明的是,上述得到第一目标哈希值集的过程具体可以是:
[0058] (a1)原始图像数据集D′I包含N′张图像,可表示为D′I=(I′1,I′2,…,I′N′)。利用基于图像内容的哈希(Hash)算法,计算每张图像的哈希值,将每张图片表示为一个与图片内容相关的字符串,得到原始图像数据集D′I对应的哈希值集D′H=(H′1,H′2,…,H′N′),其中H′i=Hash(I′i)表示图像Ii的哈希值;
[0059] (b1)从哈希值集D′H=(H′1,H′2,…,H′N′)中抽取无重复哈希值的元素,得到新的哈希值集DH={H1,H2,…,HN},其中N≤N′;
[0060] (c1)根据新的哈希值集DH,从图像数据集D′I中抽取对应的图像,得到新的图像数据集DI={I1,I2,…,IN},DH=Hash(DI)。
[0061] 此外,划分预先得到的第一目标哈希值集,得到对应的哈希值子集的过程可以是下述的方法:
[0062] (a2)对哈希值集DH中的N个元素排序,得到有序的哈希值集
[0063] 其中
[0064] (b2)计算每个子集最少可包含元素的个数 其中 表示下取整;
[0065] (c3)依次将 分割为包含不少于N′s个元素的M个哈希值子集,
[0066]
[0067] 步骤S22:分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;
[0068] 需要进行说明的是,分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集,可以是采用随机抽取的方式,当然也可以是根据用户的需要进行有目的的抽取。
[0069] 具体的,上述步骤S22的过程可以是:从D′Hi中随机抽取Ns(1≤Ns≤Ns′)个元素生成哈希值子集DHi。
[0070] 步骤S23:从第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
[0071] 计算第一目标哈希值子集中剩余哈希值中任选第二个哈希值与选中的哈希值之间的距离;
[0072] 判断第二个哈希值与选中的哈希值是否大于预设阈值距离,若是,则移动第二个哈希值至第二目标哈希值子集。
[0073] 步骤S24:计算第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
[0074] 判断第b个哈希值与第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动第b个哈希值至第二目标哈希值子集。
[0075] 需要进行说明的是,上述步骤S23和步骤S24的过程具体可以是:
[0076] (a4)初始时 为空 给定约束哈希值子集相似性的距离阈值为Δth(Δth≥0)。
[0077] (b4)从DHi中随机移动一个哈希值 到
[0078] (c4)若DHi非空 从DHi中抽取一个哈希值 并从DHi中移除
[0079] (d4)从 中抽取一个哈希值
[0080] (e4)依次将哈希值分割为长度相等的MH(1≤MH≤NH)段,每段包含CH(NH≥CH≥1)个字符,NH=MH×CH。 和 的第i(1≤i≤MH)段分别记为 和 可表示为可表示为
[0081] (f4)将 和 转换为二进制串 和 每个二进制串包含4CH个二进制位。
[0082] (g4)用 表示提取二进制串的第p至第q位(p≤q),计算 右移和左移k-1(1≤k≤4CH)位后 和 的距离:
[0083]
[0084] 其中,表示二进制的异或运算,O1表示统计二进制中1的个数。
[0085] (h4)计算 和 在位移参数k作用下的距离,
[0086]
[0087] (i4)构建位移参数集合K,满足
[0088] (j4)计算两个哈希值 和 之间的距离:
[0089]
[0090] 其中, 为任意两个哈希值 和 之间的距离; 为提取二进制串的第p至第q位,且p≤q;“i”表示将 或 划分为MH段后的任一段; 为将 划分为MH段后的第i段的哈希值; 为将 划分为MH段后的第i段的哈希值;
[0091] CH为 平均分成MH段,每段包含的字符数目;NH=MH×CH; 为 转换成的二进制串, 为 转换成的二进制串;每个 含有4CH位二进制数;
[0092] 为 右移k-1位后 和 的距离, 为 左移k-1位后 和的距离,表示二进制的异或运算,O1表示统计二进制中1的个数,k为位移参数,且为 右移k-1位后 和 的距离和 左移k-1
位后 和 的距离的最小值。
[0093] (k4)按照(d4)-(j4)的方法,计算 中每个哈希值与 之间的距离,若所有距离均大于或等于Δth,将 加入
[0094] (l4)按照(c4)-(k4)将 从DHi移至 直至DHi为空
[0095] 步骤S25:计算所有第二目标哈希值子集的并集,得到第四目标哈希值集;并利用第四目标哈希值集,在原始图像中获取对应的图像,以构建目标图像数据集。
[0096] 具体的,步骤S25的过程可以是:
[0097] (a5)计算哈希值子集 的并集,得到新的哈希值集
[0098] (b5)从图像集DI中提取哈希值属于哈希值集 的图像,构建新的图像集就是所需的差异化图像数据集,
[0099] 相应的,本发明实施例还公开了一种图像数据集构建系统,如图3所示,包括:
[0100] 哈希值子集获取模块11,用于划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,哈希值子集有M个哈希值,M为大于或等于1的整数;
[0101] 目标哈希值子集获取模块12,用于分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于N的正整数;
[0102] 图像数据集构建模块13,用于计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用第二目标哈希值集,在原始图像中获取对应的图像,以构建目标图像数据集。
[0103] 为了满足用户多样化的需求,上述目标哈希值子集获取模块之后还包括:
[0104] 哈希值选取单元,用于从第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
[0105] 第一距离计算单元,用于计算第一目标哈希值子集中剩余哈希值中任选第二个哈希值与选中的哈希值之间的距离;
[0106] 第一距离判断单元,用于判断第二个哈希值与选中的哈希值是否大于预设阈值距离,若是,则移动第二个哈希值至第二目标哈希值子集;
[0107] 第二距离计算单元,用于计算第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
[0108] 第二距离判断单元,用于判断第b个哈希值与第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动第b个哈希值至第二目标哈希值子集。
[0109] 与上述各单元相适应的图像数据集构建模块13具体用于:
[0110] 计算所有第二目标哈希值子集的并集,得到第四目标哈希值集,并利用第四目标哈希值集,在原始图像中获取对应的图像,以构建目标图像数据集。
[0111] 可见,本发明实施例提供的图像数据集构建系统,通过计算原始图像的哈希值,剔除重复的哈希值,得到第一目标哈希值子集,然后通过分组的方法抽取每组哈希值子集中的哈希值,得到第一目标哈希值子集,最后计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,从而构建差异化的图像数据集,而有差异化的图像数据集才是对问题更全面的描述,更有利于训练性能良好的机器学习模型。
[0112] 本发明实施例还公开了一种计算机可读存储介质,计算机可读存储介质上存储有图像数据集构建程序,所述图像数据集构建程序被处理器执行时实现如上述的图像数据集构建方法的步骤。
[0113] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0114] 以上对本发明所提供的一种图像数据集构建方法、系统及计算机可读存储设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈