首页 / 专利库 / 电脑编程 / 别名 / 一种基于深度学习算法自动提取近义词的科技项目查重方法

一种基于深度学习算法自动提取近义词的科技项目查重方法

阅读:832发布:2020-05-12

专利汇可以提供一种基于深度学习算法自动提取近义词的科技项目查重方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种数据查重技术领域,特别是一种基于 深度学习 算法 自动提取近义词的科技项目查重方法,包括如下步骤:建立近义词 数据库 和项目数据库,训练检索词网络,训练科技项目网络;获取待对比的科技项目的信息,提取待对比的科技项目信息中的检索词在项目数据库进行预对比,并提取出待对比的科技项目中无法识别的检索词;提取近义词替换对应的无法识别的检索词;将训练检索词网络和训练科技项目网络级联起来,根据近义词匹配筛选出相似度超过一相似判定 阈值 的候选科技项目,实现查重。本发明采用计算机深度学习算法,运算速度快, 精度 高;采用近义词自动提取检索,检索词更加全面,避免了查漏,查全率得到保证。,下面是一种基于深度学习算法自动提取近义词的科技项目查重方法专利的具体信息内容。

1.一种基于深度学习算法自动提取近义词的科技项目查重方法,其特征在于:包括如下步骤:
步骤1、收集历史数据,建立近义词数据库和项目数据库,将所述近义词数据库中的检索词建立训练集,训练检索词网络;将项目数据库的科技项目信息作为训练集,训练科技项目网络;
步骤2、获取待对比的科技项目的信息,提取待对比的科技项目信息中的检索词在项目数据库进行预对比,并提取出待对比的科技项目中无法识别的检索词;
步骤3、在近义词数据库的中分别查找与每个无法识别的检索词的近义词,并提取所述近义词替换对应的无法识别的检索词;
步骤4、将所述训练检索词网络和所述训练科技项目网络级联起来,将所述近义词输入到所述训练检索词网络中筛选出相似度超过一相似判定阈值的候选科技项目,确定其为所述待对比科技项目的相似文本,实现查重。
2.根据权利要求1所述的一种基于深度学习算法自动提取近义词的科技项目查重方法,其特征在于:所述检索词提取来自科技项目的标题或关键词字段中。
3.根据权利要求1所述的一种基于深度学习算法自动提取近义词的科技项目查重方法,其特征在于:步骤1中检索词的提取包括以下步骤:a、对每一条科技项目信息进行分词处理,将所述科技项目信息切分成若干关键字;b、停用词过滤处理,去除关键字数组中的标点符号、特殊字符、重复元素和应过滤词,最终得到该科技项目的检索词。
4.根据权利要求1所述的一种基于深度学习算法自动提取近义词的科技项目查重方法,其特征在于:步骤2还包括将无法识别的检索词加入到所述近义词数据库中相对应的近义词组中。
5.根据权利要求2所述的一种基于深度学习算法自动提取近义词的科技项目查重方法,其特征在于:步骤2中所述近义词的定义方法包括:设置语义相近的词为近义词;设置同一个英文词不同时态和单复数为近义词;设置同一个英文词的大小写为近义词;设置同词的简称、别名和本名为近义词。

说明书全文

一种基于深度学习算法自动提取近义词的科技项目查重方法

技术领域

[0001] 本发明涉及一种数据查重技术领域,特别是一种基于深度学习算法自动提取近义词的科技项目查重方法。

背景技术

[0002] 为推动科技创新,我国科研项目的数量和经费规模均得到显著的提升,形成了多个层次的国家科技计划资助体系。据不完全统计,每年仅国家自然科学基金就有近4万项左右,国家社科基金约4千项左右,此外国家级、部委级、省市级的科技计划、研发课题难以计数,国外科技项目更是不计其数。
[0003] 然而,项目多头申报、重复立项已成为科研项目管理领域的突出问题之一。据统计,我国科研项目重复率达40%,另外60%,其中与国外重复的约占30%,以上。重复立项不仅造成科技资源的大量浪费,也导致科研活动的无序发展和大量低平重复,严重损害开拓创新的科研精神,对科技创新发展的危害极大,阻碍国家科技发展的步伐。因此,如何建立有效、可行的科技项目查重机制已经成为科技计划管理部的重要任务之一。
[0004] 现在常用的做法是人工审查或通过将科技项目申报书的关键词与项目数据库做简单比的查重方式,将重复申报的项目从大量上报的项目中筛选出来。但是该方法难以避免申报人刻意更换标题中的同义词或将项目申报书的内容稍加改变,就能能够轻而易举的避开查重系统,没有具体的人工分析难以识别同义词和近义词,可靠性较差。
[0005] 此外,在科技项目的评审查中常为查新机构的科技查新报告为参考,通过检所分析科技查新点的内容判断科技项目的新颖性创造性,更加深入到项目的内容中进行非,但科技查新机构的资质水平差异较大,科技查新报告依靠人工编写,存在个人的主观判断,查新员的业务素质水平对报告质量影响较大,难以保证得出客观公正的对比结果。

发明内容

[0006] 本发明提供一种基于深度学习算法自动提取近义词的科技项目查重方法,采用深度学习算法和近义词检索,有较高的效率、准确度和查全率。
[0007] 本发明的技术方案如下:一种基于深度学习算法自动提取近义词的科技项目查重方法,包括如下步骤:
[0008] 步骤1、收集历史数据,建立近义词数据库和项目数据库,所述近义词数据库包括有大量的近义词组,每个近义词组中存储有相同语言的词语;将所述近义词数据库中的检索词建立训练集,训练检索词网络;将项目数据库的科技项目信息作为训练集,训练科技项目网络;
[0009] 步骤2、获取待对比的科技项目的信息,提取待对比的科技项目信息中的检索词在项目数据库进行预对比,并提取出待对比的科技项目中无法识别的检索词;
[0010] 步骤3、在近义词数据库的中分别查找与每个无法识别的检索词的近义词,并提取所述近义词替换对应的无法识别的检索词;
[0011] 步骤4、将所述训练检索词网络和所述训练科技项目网络级联起来,将所述近义词输入到所述训练检索词网络中筛选出相似度超过一相似判定阈值的候选科技项目,确定其为所述待对比科技项目的相似文本,实现查重。
[0012] 本发明采用计算机深度学习算法,基于大数据进行自学习训练,智能化程度高,运算速度快,精度高。
[0013] 采用近义词自动提取检索,检索词更加全面,避免了查漏,查全率得到保证。
[0014] 优选的,所述检索词提取来自科技项目的标题或关键词字段中,可进一步提高检索的精确率,便于快速命中。
[0015] 优选的,步骤1中检索词的提取包括以下步骤:a、对每一条科技项目信息进行分词处理,将所述科技项目信息切分成若干关键字;b、停用词过滤处理,去除关键字数组中的标点符号、特殊字符、重复元素和应过滤词,最终得到该科技项目的检索词。采用切词,去噪音处理,提高检索词提取的准确率,确保查重的可靠性。
[0016] 优选的,步骤2还包括将无法识别的检索词加入到所述近义词数据库中相对应的近义词组中,不断更新项目数据库和近义词数据库,使得历史数据更加丰富,数据内容更多,保证了机器学习的数据量,更有利于深度学习算法的实现。
[0017] 优选的,所述近义词的定义方法包括:设置语义相近的词为近义词;设置同一个英文词不同时态和单复数为近义词;设置同一个英文词的大小写为近义词;设置同词的简称、别名和本名为近义词。把所有可能的近义词,同义词,都加入到近义词组中,进一步避免了查漏,提高了查重的可靠性。
[0018] 本发明的有益效果是:
[0019] 1、本发明采用计算机深度学习算法,基于大数据进行自学习训练,智能化程度高,运算速度快,精度高。
[0020] 2、采用近义词自动提取检索,检索词更加全面,避免了查漏,查全率得到保证。
[0021] 3、不断更新项目数据库和近义词数据库,使得历史数据更加丰富,数据内容更多,保证了机器学习的数据量,更有利于提高深度学习算法运行速度。附图说明
[0022] 图1是本发明所述的一种基于深度学习算法自动提取近义词的科技项目查重方法的工作流程图

具体实施方式

[0023] 为使本发明的上述特征和优点能更明显易懂,下面通过具体实施方式,并配合所附图作详细说明如下。
[0024] 如图1所示,一种基于深度学习算法自动提取近义词的科技项目查重方法,包括如下步骤:
[0025] 步骤1、收集历史数据,建立近义词数据库和项目数据库,将所述近义词数据库中的检索词建立训练集,近义词数据库包括多个近义词组,因此训练集文件包括多个近义词组训练集,近义词组训练集的数量和近义词组数量一致,然后训练检索词网络;将项目数据库的科技项目信息作为训练集,每一个科技项目建立一个训练文件夹,训练科技项目网络;
[0026] 步骤2、获取待对比的科技项目的信息,提取待对比的科技项目信息中的检索词在项目数据库进行预对比,并提取出待对比的科技项目中无法识别的检索词;
[0027] 步骤3、在近义词数据库的中分别查找与每个无法识别的检索词的近义词,并提取所述近义词替换对应的无法识别的检索词;
[0028] 步骤4、将所述训练检索词网络和所述训练科技项目网络级联起来,将近义词与每一个科技项目关联起来,将所述近义词输入到所述训练检索词网络中,采用诸如Simhash算法,将文本进行降维,生成一个SimHash值进一步生成科技项目中所提及的“指纹”,通过对不同文本的SimHash值进而比较海明距离,通过SimHash计算得到的Hash字符串会非常的相近,从而可以判断两个科技项目信息的的相似程度。筛选出相似度超过一相似判定阈值的候选科技项目,如相似度为80%,则确定其为所述待对比科技项目的相似文本,实现查重。然后输出查重结果,供技术专家参考,判断待对比科技项目是否属于重复项目。
[0029] 作为本实施例的优选方案,所述检索词提取来自科技项目的标题或关键词字段中。
[0030] 作为本实施例的优选方案,步骤1中检索词的提取采用欧拉距离算法进行计算,从维度的数值大小中体现差异两个词的的分析,基本上就是依据两个点的空间距离进行相似度匹配,提取的近义词为语义距离值最小的近义词,。对待对比科技项目信息的处理还包括以下步骤:a、对每一条科技项目信息进行分词处理,将所述科技项目信息切分成若干关键字;b、停用词过滤处理,去除关键字数组中的标点符号、特殊字符、重复元素和应过滤词,最终得到该科技项目的检索词。
[0031] 作为本实施例的优选方案,步骤2还包括将无法识别的检索词加入到所述近义词数据库中相对应的近义词组中。
[0032] 作为本实施例的优选方案,所述近义词的定义方法包括:设置语义相近的词为近义词;设置同一个英文词不同时态和单复数为近义词;设置同一个英文词的大小写为近义词;设置同词的简称、别名和本名为近义词。
[0033] 以上所述实施例仅表示本发明的几种实施方式,其描述较为具体和详细,但并不能理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈