首页 / 专利库 / 专利权 / 第I章 / 一种文章的查重方法及装置

一种文章的查重方法及装置

阅读:884发布:2020-05-16

专利汇可以提供一种文章的查重方法及装置专利检索,专利查询,专利分析的服务。并且本 申请 提供了一种文章的查重方法及装置,计算待查重文章与每个待对比文章的文章相似距离;根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述 数据库 中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章;从多个所述待比对文章中,采用文本向量距离 算法 筛选得到相似文章。解决了 现有技术 中没有对文章进行查重的方法的问题。,下面是一种文章的查重方法及装置专利的具体信息内容。

1.一种文章的查重方法,其特征在于,包括:
计算待查重文章与每个待对比文章的文章相似距离,其中,每个所述待对比文章预先存储在数据库中;
根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述数据库中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章;
从多个所述待比对文章中,采用文本向量距离算法筛选得到相似文章;
从多个所述待比对文章中,采用文本向量距离算法筛选得到相似文章,包括:
计算所述待查重文章的每个自然段落与每个所述待比对文章的每个目标自然段落的段落相似距离;
选取段落相似距离小于预设值的所述待查重文章中的所述自然段落和每个所述待比对文章中的所述目标自然段落作为所述待查重文章与每个所述待比对文章的相似段落;
计算所述待查重文章与每个所述待比对文章的每个所述相似段落之间的段落相似值;
从计算得到的所述待查重文章与每个所述待比对文章的每个所述相似段落之间的段落相似值中选取最小的段落相似值,作为所述待查重文章与每个所述待比对文章的文章相似值;
将与所述待查重文章的文章相似值大于指定数值的所述待比对文章作为相似文章。
2.根据权利要求1所述的查重方法,其特征在于,所述计算待查重文章与每个待对比文章的文章相似距离,包括:
计算所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离,
从计算得到的所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离中,选取数值最小的段落相似距离作为所述待查重文章与每个所述待对比文章的文章相似距离。
3.根据权利要求1所述的查重方法,其特征在于,所述根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述数据库中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章,包括:
判断所述数据库中存储的所述待对比文章的数量是否大于所述预设数量;
当判断出所述数据库中存储的所述待对比文章的数量不大于所述预设数量,将所述数据库中存储的所述待对比文章作为所述待比对文章;
当判断出所述数据库中存储的所述待对比文章的数量大于所述预设数量,根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离的数值大小,将多个所述待对比文章进行排序,筛选出排名前预设数值的多个所述待对比文章,作为多个所述待比对文章。
4.根据权利要求2所述的查重方法,其特征在于,计算所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离,包括:
计算所述待查重文章的每个所述自然段落的相似性哈希值Simhash值以及计算每个所述待对比文章的每个所述目标自然段落的Simhash值;
将所述待查重文章的第i个所述自然段落的Simhash值与每个所述待对比文章的每个所述目标自然段落的Simhash值做差,得到所述待查重文章的第i个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离,其中,i=1;
判断是否计算得到所述待查重文章的每个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离;
当判断出未计算得到所述待查重文章的每个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离,使i=i+1,并返回将所述待查重文章的第i个所述自然段落的Simhash值与每个所述待对比文章的每个所述目标自然段落的Simhash值做差,得到所述待查重文章的第i个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离。
5.一种文章的查重装置,其特征在于,包括:
第一计算单元,用于计算待查重文章与每个待对比文章的文章相似距离,其中,每个所述待对比文章预先存储在数据库中;
第一筛选单元,用于根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述数据库中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章;
第二筛选单元,用于从多个所述待比对文章中,采用文本向量距离算法筛选得到相似文章;
所述第二筛选单元包括:
第四计算单元,用于计算所述待查重文章的每个自然段落与每个所述待比对文章的每个目标自然段落的段落相似距离;
第三选取单元,用于选取段落相似距离小于预设值的所述待查重文章中的所述自然段落和每个所述待比对文章中的所述目标自然段落作为所述待查重文章与每个所述待比对文章的相似段落;
第五计算单元,用于计算所述待查重文章与每个所述待比对文章的每个所述相似段落之间的段落相似值;
第四选取单元,用于从计算得到的所述待查重文章与每个所述待比对文章的每个所述相似段落之间的段落相似值中选取最小的段落相似值,作为所述待查重文章与每个所述待比对文章的文章相似值;
第五选取单元,用于将与所述待查重文章的文章相似值大于指定数值的所述待比对文章作为相似文章。
6.根据权利要求5所述的查重装置,其特征在于,所述第一计算单元包括:
第二计算单元,用于计算所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离,
第一选取单元,用于从计算得到的所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离中,选取数值最小的段落相似距离作为所述待查重文章与每个所述待对比文章的文章相似距离。
7.根据权利要求5所述的查重装置,其特征在于,所述第一筛选单元包括:
第一判断单元,用于判断所述数据库中存储的所述待对比文章的数量是否大于所述预设数量;
第二选取单元,用于当所述第一判断单元判断出所述数据库中存储的所述待对比文章的数量不大于所述预设数量,将所述数据库中存储的所述待对比文章作为所述待比对文章;
排序单元,用于当所述第一判断单元判断出所述数据库中存储的所述待对比文章的数量大于所述预设数量,根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离的数值大小,将多个所述待对比文章进行排序;
第三筛选单元,用于所述排序单元将多个所述待对比文章进行排序之后,筛选出排名前预设数值的多个所述待对比文章,作为多个所述待比对文章。
8.根据权利要求6所述的查重装置,其特征在于,所述第二计算单元包括:
第三计算单元,用于计算所述待查重文章的每个所述自然段落的相似性哈希值Simhash值以及计算每个所述待对比文章的每个所述目标自然段落的Simhash值;
做差单元,用于将所述待查重文章的第i个所述自然段落的Simhash值与每个所述待对比文章的每个所述目标自然段落的Simhash值做差,得到所述待查重文章的第i个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离,其中,i=1;
第二判断单元,用于判断是否计算得到所述待查重文章的每个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离;
控制单元,用于当所述第二判断单元判断出未计算得到所述待查重文章的每个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离,使i=i+1;
所述做差单元,还用于所述控制单元使i=i+1后,将所述待查重文章的第i个所述自然段落的Simhash值与每个所述待对比文章的每个所述目标自然段落的Simhash值做差,得到所述待查重文章的第i个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离。

说明书全文

一种文章的查重方法及装置

技术领域

[0001] 本发明涉及信息处理领域,更具体的说,涉及一种文章的查重方法及装置。

背景技术

[0002] 在发表文章之前,都需要判断即将发表的文章是抄袭还是原创,即需要对即将发表的文章进行查重。但是现有技术中,还没有对文章进行查重的方法。
[0003] 因此,亟需一种能够对文章进行查重的方法。

发明内容

[0004] 有鉴于此,本发明提供一种文章的查重方法及装置,以解决现有技术中没有对文章进行查重的方法的问题。
[0005] 为解决上述技术问题,本发明采用了如下技术方案:
[0006] 一种文章的查重方法,包括:
[0007] 计算待查重文章与每个待对比文章的文章相似距离,其中,每个所述待对比文章预先存储在数据库中;
[0008] 根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述数据库中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章;
[0009] 从多个所述待比对文章中,采用文本向量距离算法筛选得到相似文章。
[0010] 优选地,所述计算待查重文章与每个待对比文章的文章相似距离,包括:
[0011] 计算所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离,
[0012] 从计算得到的所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离中,选取数值最小的段落相似距离作为所述待查重文章与每个所述待对比文章的文章相似距离。
[0013] 优选地,所述根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述数据库中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章,包括:
[0014] 判断所述数据库中存储的所述待对比文章的数量是否大于所述预设数量;
[0015] 当判断出所述数据库中存储的所述待对比文章的数量不大于所述预设数量,将所述数据库中存储的所述待对比文章作为所述待比对文章;
[0016] 当判断出所述数据库中存储的所述待对比文章的数量大于所述预设数量,根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离的数值大小,将多个所述待对比文章进行排序;
[0017] 筛选出排名前预设数值的多个所述待对比文章,作为多个所述待比对文章。
[0018] 优选地,计算所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离,包括:
[0019] 计算所述待查重文章的每个所述自然段落的相似性哈希值Simhash值以及计算每个所述待对比文章的每个所述目标自然段落的Simhash值;
[0020] 将所述待查重文章的第i个所述自然段落的Simhash值与每个所述待对比文章的每个所述目标自然段落的Simhash值做差,得到所述待查重文章的第i个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离,其中,i=1;
[0021] 判断是否计算得到所述待查重文章的每个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离;
[0022] 当判断出未计算得到所述待查重文章的每个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离,使i=i+1,并返回将所述待查重文章的第i个所述自然段落的Simhash值与每个所述待对比文章的每个所述目标自然段落的Simhash值做差,得到所述待查重文章的第i个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离。
[0023] 优选地,从多个所述待比对文章中,采用文本向量距离算法筛选得到相似文章,包括:
[0024] 计算所述待查重文章的每个自然段落与每个所述待比对文章的每个目标自然段落的段落相似距离;
[0025] 选取段落相似距离小于预设值的所述待查重文章中的所述自然段落和每个所述待比对文章中的所述目标自然段落作为所述待查重文章与每个所述待比对文章的相似段落;
[0026] 计算所述待查重文章与每个所述待比对文章的每个所述相似段落之间的段落相似值;
[0027] 从计算得到的所述待查重文章与每个所述待比对文章的每个所述相似段落之间的段落相似值中选取最小的段落相似值,作为所述待查重文章与每个所述待比对文章的文章相似值;
[0028] 将与所述待查重文章的文章相似值大于指定数值的所述待比对文章作为相似文章。
[0029] 一种文章的查重装置,包括:
[0030] 第一计算单元,用于计算待查重文章与每个待对比文章的文章相似距离,其中,每个所述待对比文章预先存储在数据库中;
[0031] 第一筛选单元,用于根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述数据库中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章;
[0032] 第二筛选单元,用于从多个所述待比对文章中,采用文本向量距离算法筛选得到相似文章。
[0033] 优选地,所述第一计算单元包括:
[0034] 第二计算单元,用于计算所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离,
[0035] 第一选取单元,用于从计算得到的所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离中,选取数值最小的段落相似距离作为所述待查重文章与每个所述待对比文章的文章相似距离。
[0036] 优选地,所述第一筛选单元包括:
[0037] 第一判断单元,用于判断所述数据库中存储的所述待对比文章的数量是否大于所述预设数量;
[0038] 第二选取单元,用于当所述第一判断单元判断出所述数据库中存储的所述待对比文章的数量不大于所述预设数量,将所述数据库中存储的所述待对比文章作为所述待比对文章;
[0039] 排序单元,用于当所述第一判断单元判断出所述数据库中存储的所述待对比文章的数量大于所述预设数量,根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离的数值大小,将多个所述待对比文章进行排序;
[0040] 第三筛选单元,用于筛选出排名前预设数值的多个所述待对比文章,作为多个所述待比对文章。
[0041] 优选地,所述第二计算单元包括:
[0042] 第三计算单元,用于计算所述待查重文章的每个所述自然段落的相似性哈希值Simhash值以及计算每个所述待对比文章的每个所述目标自然段落的Simhash值;
[0043] 做差单元,用于将所述待查重文章的第i个所述自然段落的Simhash值与每个所述待对比文章的每个所述目标自然段落的Simhash值做差,得到所述待查重文章的第i个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离,其中,i=1;
[0044] 第二判断单元,用于判断是否计算得到所述待查重文章的每个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离;
[0045] 控制单元,用于当所述第二判断单元判断出未计算得到所述待查重文章的每个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离,使i=i+1;
[0046] 所述做差单元,还用于所述控制单元使i=i+1后,将所述待查重文章的第i个所述自然段落的Simhash值与每个所述待对比文章的每个所述目标自然段落的Simhash值做差,得到所述待查重文章的第i个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离。
[0047] 优选地,所述第二筛选单元包括:
[0048] 第四计算单元,用于计算所述待查重文章的每个自然段落与每个所述待比对文章的每个目标自然段落的段落相似距离;
[0049] 第三选取单元,用于选取段落相似距离小于预设值的所述待查重文章中的所述自然段落和每个所述待比对文章中的所述目标自然段落作为所述待查重文章与每个所述待比对文章的相似段落;
[0050] 第五计算单元,用于计算所述待查重文章与每个所述待比对文章的每个所述相似段落之间的段落相似值;
[0051] 第四选取单元,用于从计算得到的所述待查重文章与每个所述待比对文章的每个所述相似段落之间的段落相似值中选取最小的段落相似值,作为所述待查重文章与每个所述待比对文章的文章相似值;
[0052] 第五选取单元,用于将与所述待查重文章的文章相似值大于指定数值的所述待比对文章作为相似文章。
[0053] 相较于现有技术,本发明具有以下有益效果:
[0054] 本发明提供了一种文章的查重方法及装置,计算待查重文章与每个待对比文章的文章相似距离;根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述数据库中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章;从多个所述待比对文章中,采用文本向量距离算法筛选得到相似文章。解决了现有技术中没有对文章进行查重的方法的问题。附图说明
[0055] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0056] 图1为本发明提供的一种文章的查重方法的方法流程图
[0057] 图2为本发明提供的另一种文章的查重方法的方法流程图;
[0058] 图3为本发明提供的第三种文章的查重方法的方法流程图;
[0059] 图4为本发明提供的第四种文章的查重方法的方法流程图;
[0060] 图5为本发明提供的一种文章的查重装置的结构示意图;
[0061] 图6为本发明提供的另一种文章的查重装置的结构示意图;
[0062] 图7为本发明提供的第三种文章的查重装置的结构示意图;
[0063] 图8为本发明提供的第四种文章的查重装置的结构示意图。

具体实施方式

[0064] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0065] 本发明实施例提供了一种文章的查重方法,参照图1,包括:
[0066] S101、计算待查重文章与每个待对比文章的文章相似距离;
[0067] 其中,每个待对比文章预先存储在数据库中。其中,文章相似距离是指待查重文章与待对比文章的最小的段落相似距离。段落相似距离是指两个段落间的相似性哈希值Simhash距离。
[0068] S102、根据计算得到的待查重文章与每个待对比文章的文章相似距离以及数据库中存储的待对比文章的数量,筛选出预设数量的多个待比对文章;
[0069] 其中,数据库中存储的待对比文章的数量为多个,筛选出预设数量的多个待比对文章是进行粗筛选的过程,执行粗筛选能够缩短筛选得到相似文章的时间。
[0070] S103、从多个待比对文章中,采用文本向量距离算法筛选得到相似文章。
[0071] 其中,从多个待比对文章中,采用文本向量距离算法筛选得到相似文章,是进行细筛选的过程。
[0072] 本实施例提供了一种文章的查重方法,计算待查重文章与每个待对比文章的文章相似距离;根据计算得到的待查重文章与每个待对比文章的文章相似距离以及数据库中存储的待对比文章的数量,筛选出预设数量的多个待比对文章;从多个待比对文章中,采用文本向量距离算法筛选得到相似文章。解决了现有技术中没有对文章进行查重的方法的问题。
[0073] 可选的,本发明的另一实施例中,参照图2,步骤S101包括:
[0074] S201、计算待查重文章的每个自然段落的Simhash值以及计算每个待对比文章的每个目标自然段落的Simhash值;
[0075] 其中,Simhash值是通过Simhash算法计算得到,Simhash算法是将一段文本转化成一个数字序列。其中,文本指的是本发明中的自然段落或者是目标自然段落,数字序列指本发明中的Simhash值。
[0076] S202、将待查重文章的第i个自然段落的Simhash值与每个待对比文章的每个目标自然段落的Simhash值做差,得到待查重文章的第i个自然段落与每个待对比文章的每个目标自然段落的段落相似距离;
[0077] 其中,i=1,具体的,当i=1时,将待查重文章的第一个自然段落的Simhash值与每个待对比文章的每个目标自然段落的Simhash值做差,得到待查重文章的第一个自然段落与每个待对比文章的每个目标自然段落的段落相似距离。
[0078] 具体的,取数据库中的一个待对比文章,将待查重文章的第一个自然段落的Simhash值与被选取的待对比文章的第一个目标自然段落的Simhash值做差,得到待查重文章的第一个自然段落与被选取的待对比文章的第一个目标自然段落的段落相似距离。
[0079] 按照这种方法,计算得到待查重文章的第一个自然段落与每个待对比文章的每个目标自然段落的段落相似距离。
[0080] S203、判断是否计算得到待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离;
[0081] 具体的,待查重文章的自然段落的数量不定,但是一般情况下,待查重文章的自然段落均大于一,当执行一次步骤S202后,执行步骤S203时,不会计算得到待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离。
[0082] S204、使i=i+1;
[0083] 具体的,当判断出未计算得到待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离,使i=i+1,并返回步骤S202,直到计算得到待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离时为止。
[0084] 具体的,当i=1时,使i=i+1,即i=2,此时,将待查重文章的第二个自然段落的Simhash值与每个待对比文章的每个目标自然段落的Simhash值做差,得到待查重文章的第二个自然段落与每个待对比文章的每个目标自然段落的段落相似距离。
[0085] S205、从计算得到的待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离中,选取数值最小的段落相似距离作为待查重文章与每个待对比文章的文章相似距离。
[0086] 具体的,待查重文章的每个自然段落与待对比文章的每个目标自然段落均有一个段落相似距离,从得到的待查重文章与待对比文章的多个段落相似距离中,选取一个数值最小的段落相似距离作为待查重文章与待对比文章的文章相似距离。
[0087] 本实施例中,通过计算得到待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离,进而将待查重文章与待对比文章的数值最小的段落相似距离作为待查重文章与待对比文章的文章相似距离。
[0088] 可选的,本发明的另一实施例中,参照图3,步骤S102包括:
[0089] S301、判断数据库中存储的待对比文章的数量是否大于预设数量;
[0090] 其中,预设数值是技术人员根据文章查重的时间以及效率进行设定的。
[0091] S302、将数据库中存储的待对比文章作为待比对文章;
[0092] 具体的,当判断出数据库中存储的待对比文章的数量不大于预设数量,将数据库中存储的待对比文章作为待比对文章。
[0093] 其中,当数据库中存储的待对比文章的数量不大于预设数量时,说明数据库中存储的待对比文章的数量较小,后期可以对每个待对比文章采用文本向量距离算法进行分析。
[0094] S303、根据计算得到的待查重文章与每个待对比文章的文章相似距离的数值大小,将多个待对比文章进行排序;
[0095] 其中,当判断出数据库中存储的待对比文章的数量大于预设数量,根据计算得到的待查重文章与每个待对比文章的文章相似距离的数值大小,将多个待对比文章进行排序。
[0096] 具体的,当数据库中存储的待对比文章的数量大于预设数量时,说明数据库中存储的待对比文章的数量较大,当待对比文章的数量较大时,后期采用文本向量距离算法分析时,需要耗费较长的时间,此时需要从待对比文章中筛选出预设数值的待对比文章作为待比对文章,后期对待比对文章采用文本向量距离算法分析。其中,预设数值技术人员根据文章查重的时间以及效率进行设定的。
[0097] 具体的,在从待对比文章中筛选出预设数值的待对比文章作为待比对文章之前,需要对待对比文章进行排序。
[0098] 其中,排序的方法是,根据计算得到的待查重文章与每个待对比文章的文章相似距离的数值大小,将多个待对比文章进行排序。
[0099] 在排序时,按照文章相似距离的数值由大到小的顺序,将待对比文章进行排序,其中,将待对比文章进行排序,是将待对比文章的文章账号ID排序。
[0100] 其中,在排序过程中可能会出现至少两个文章相似距离的数值相同的情况,例如两个文章相似距离的数值均为48,为了能够判断哪个待对比文章排在前边,哪个待对比文章排在后边。现将数值相同的文章相似距离对应的待对比文章按照待对比文章与待查重文章的相似段落数量进行排序。
[0101] 其中,相似段落数量是指相似段落的数量,其中,段落相似距离小于预设值的待查重文章中的自然段落和每个待比对文章中的目标自然段落作为待查重文章与每个待比对文章的相似段落。
[0102] 当两个或多个待对比文章与待查重文章的文章相似距离相同时,将这两个或多个待对比文章按照待对比文章与待查重文章的相似段落数量进行排序,其中,相似段落数量较大的待对比文章排在前边,相似段落数量较小的待对比文章排在后边。
[0103] 其中,将待对比文章按照待对比文章与待查重文章的相似段落数量进行排序时,可能也会出现相似段落数量相同的情况,此时,还是无法判断与待查重文章的文章相似距离、相似段落数量均相同的待对比文章的排序顺序。
[0104] 此时,将与待查重文章的文章相似距离、相似段落数量均相同的待对比文章的所有目标自然段落组成一个目标自然段落,以及将待查重文章的所有自然段落组成一个自然段落,计算所有目标自然段落组成一个目标自然段落的待对比文章与所有自然段落组成一个自然段落的待查重文章的段落相似值。
[0105] 其中,段落相似值是指段落A与段落B中出现的相同的关键词的数量与段落A、段落B中所有关键词的数量的比值。
[0106] 在确定段落A与段落B中出现的相同的关键词的数量以及段落A、段落B中所有关键词的数量之前,需要将段落A与段落B中的停用词去除,其中,停用词包括的、了、啊等无意义的词。
[0107] 段落A与段落B中出现的相同的关键词是指一个关键词在段落A与段落B中均出现,例如,只有苹果这个关键词在段落A与段落B中均出现时,则段落A与段落B中出现的相同的关键词的数量为1,当除了苹果这个关键词还有桃子这个关键词出现时,段落A与段落B中出现的相同的关键词的数量为2。
[0108] 段落A、段落B中所有关键词的数量是指,段落A中所有关键词的数量与段落B中除去与段落A相同的关键词的数量之和。
[0109] 计算得到待计算段落相似值的待对比文章与待查重文章的段落相似值后,将待对比文章按照其与待查重文章的段落相似值的数值的大小进行排序。其中,与待查重文章的段落相似值较大的待对比文章排在前边,与待查重文章的段落相似值较小的待对比文章排在后边。
[0110] S304、筛选出排名前预设数值的多个待对比文章,作为多个待比对文章。
[0111] 其中,预设数值是技术人员根据文章查重的时间以及效率进行设定的。
[0112] 本实施例中,当判断出数据库中存储的待对比文章的数量不大于预设数量,将数据库中存储的待对比文章作为待比对文章,当判断出数据库中存储的待对比文章的数量大于预设数量,筛选出排名前预设数值的多个待对比文章,作为多个待比对文章。进而能够保证采用文本向量距离算法分析时,待比对文章的数量不会过多。
[0113] 可选的,本发明的另一实施例中,参照图4,步骤S103包括:
[0114] S401、计算待查重文章的每个自然段落与每个待比对文章的每个目标自然段落的段落相似距离;
[0115] 其中,计算段落相似距离的方法见上述实施例中的内容,在此不再赘述。
[0116] S402、选取段落相似距离小于预设值的待查重文章中的自然段落和每个待比对文章中的目标自然段落作为待查重文章与每个待比对文章的相似段落;
[0117] 其中,待查重文章与每个待比对文章的相似段落的数量可以为一个,也可以为多个。
[0118] S403、计算待查重文章与每个待比对文章的每个相似段落之间的段落相似值;
[0119] 其中,段落相似值的计算方法见上述实施例中的内容,在此不再赘述。
[0120] S404、从计算得到的待查重文章与每个待比对文章的每个相似段落之间的段落相似值中选取最小的段落相似值,作为待查重文章与每个待比对文章的文章相似值;
[0121] 其中,当待查重文章与待比对文章的相似段落为一个时,相似段落之间的段落相似值即为待查重文章与待比对文章的文章相似值;
[0122] 当待查重文章与待比对文章的相似段落为多个时,相似段落之间的段落相似值中,最小的段落相似值即为待查重文章与待比对文章的文章相似值。
[0123] S405、将与待查重文章的文章相似值大于指定数值的待比对文章作为相似文章。
[0124] 其中,指定数值是技术人员根据查重所需时间以及查重效率进行设定的。与待查重文章的文章相似值大于指定数值,说明与待查重文章的文章相似值大于指定数值的待比对文章与待查重文章的相似度较高,即为相似文章。
[0125] 本实施例中,通过计算待查重文章与每个待比对文章的文章相似值,进而将与待查重文章的文章相似值大于指定数值的待比对文章作为相似文章。
[0126] 可选的,本发明的另一实施例中提供了一种文章的查重装置,参照图5,包括:
[0127] 第一计算单元101,用于计算待查重文章与每个待对比文章的文章相似距离,其中,每个待对比文章预先存储在数据库中;
[0128] 第一筛选单元102,用于根据计算得到的待查重文章与每个待对比文章的文章相似距离以及数据库中存储的待对比文章的数量,筛选出预设数量的多个待比对文章;
[0129] 第二筛选单元103,用于从多个待比对文章中,采用文本向量距离算法筛选得到相似文章。
[0130] 本实施例提供了一种文章的查重装置,计算待查重文章与每个待对比文章的文章相似距离;根据计算得到的待查重文章与每个待对比文章的文章相似距离以及数据库中存储的待对比文章的数量,筛选出预设数量的多个待比对文章;从多个待比对文章中,采用文本向量距离算法筛选得到相似文章。解决了现有技术中没有对文章进行查重的方法的问题。
[0131] 需要说明的是,本实施例中各个单元的工作过程,请参照图1对应的实施例中的内容,在此不再赘述。
[0132] 可选的,本发明的另一实施例中,参照图6,第一计算单元101包括:
[0133] 第二计算单元1011,用于计算待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离,
[0134] 第一选取单元1012,用于从计算得到的待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离中,选取数值最小的段落相似距离作为待查重文章与每个待对比文章的文章相似距离。
[0135] 其中,第二计算单元1011包括:
[0136] 第三计算单元10111,用于计算待查重文章的每个自然段落的相似性哈希值Simhash值以及计算每个待对比文章的每个目标自然段落的Simhash值;
[0137] 做差单元10112,用于将待查重文章的第i个自然段落的Simhash值与每个待对比文章的每个目标自然段落的Simhash值做差,得到待查重文章的第i个自然段落与每个待对比文章的每个目标自然段落的段落相似距离,其中,i=1;
[0138] 第二判断单元10113,用于判断是否计算得到待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离;
[0139] 控制单元10114,用于当第二判断单元10113判断出未计算得到待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离,使i=i+1;
[0140] 做差单元10112,还用于控制单元10114使i=i+1后,将待查重文章的第i个自然段落的Simhash值与每个待对比文章的每个目标自然段落的Simhash值做差,得到待查重文章的第i个自然段落与每个待对比文章的每个目标自然段落的段落相似距离。
[0141] 本实施例中,通过计算得到待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离,进而将待查重文章与待对比文章的数值最小的段落相似距离作为待查重文章与待对比文章的文章相似距离。
[0142] 需要说明的是,本实施例中各个单元的工作过程,请参照图2对应的实施例中的内容,在此不再赘述。
[0143] 可选的,本发明的另一实施例中,参照图7,第一筛选单元102包括:
[0144] 第一判断单元1021,用于判断数据库中存储的待对比文章的数量是否大于预设数量;
[0145] 第二选取单元1022,用于当第一判断单元1021判断出数据库中存储的待对比文章的数量不大于预设数量,将数据库中存储的待对比文章作为待比对文章;
[0146] 排序单元1023,用于当第一判断单元1021判断出数据库中存储的待对比文章的数量大于预设数量,根据计算得到的待查重文章与每个待对比文章的文章相似距离的数值大小,将多个待对比文章进行排序;
[0147] 第三筛选单元1024,用于筛选出排名前预设数值的多个待对比文章,作为多个待比对文章。
[0148] 本实施例中,当判断出数据库中存储的待对比文章的数量不大于预设数量,将数据库中存储的待对比文章作为待比对文章,当判断出数据库中存储的待对比文章的数量大于预设数量,筛选出排名前预设数值的多个待对比文章,作为多个待比对文章。进而能够保证采用文本向量距离算法分析时,待比对文章的数量不会过多。
[0149] 需要说明的是,本实施例中各个单元的工作过程,请参照图3对应的实施例中的内容,在此不再赘述。
[0150] 可选的,本发明的另一实施例中,参照图8,第二筛选单元103包括:
[0151] 第四计算单元1031,用于计算待查重文章的每个自然段落与每个待比对文章的每个目标自然段落的段落相似距离;
[0152] 第三选取单元1032,用于选取段落相似距离小于预设值的待查重文章中的自然段落和每个待比对文章中的目标自然段落作为待查重文章与每个待比对文章的相似段落;
[0153] 第五计算单元1033,用于计算待查重文章与每个待比对文章的每个相似段落之间的段落相似值;
[0154] 第四选取单元1034,用于从计算得到的待查重文章与每个待比对文章的每个相似段落之间的段落相似值中选取最小的段落相似值,作为待查重文章与每个待比对文章的文章相似值;
[0155] 第五选取单元1035,用于将与待查重文章的文章相似值大于指定数值的待比对文章作为相似文章。
[0156] 本实施例中,通过计算待查重文章与每个待比对文章的文章相似值,进而将与待查重文章的文章相似值大于指定数值的待比对文章作为相似文章。
[0157] 需要说明的是,本实施例中各个单元的工作过程,请参照图4对应的实施例中的内容,在此不再赘述。
[0158] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈