专利汇可以提供一种基于深度学习算法自动提取近义词的科技项目查重方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种数据查重技术领域,特别是一种基于 深度学习 算法 自动提取近义词的科技项目查重方法,包括如下步骤:建立近义词 数据库 和项目数据库,训练检索词网络,训练科技项目网络;获取待对比的科技项目的信息,提取待对比的科技项目信息中的检索词在项目数据库进行预对比,并提取出待对比的科技项目中无法识别的检索词;提取近义词替换对应的无法识别的检索词;将训练检索词网络和训练科技项目网络级联起来,根据近义词匹配筛选出相似度超过一相似判定 阈值 的候选科技项目,实现查重。本发明采用计算机深度学习算法,运算速度快, 精度 高;采用近义词自动提取检索,检索词更加全面,避免了查漏,查全率得到保证。,下面是一种基于深度学习算法自动提取近义词的科技项目查重方法专利的具体信息内容。
1.一种基于深度学习算法自动提取近义词的科技项目查重方法,其特征在于:包括如下步骤:
步骤1、收集历史数据,建立近义词数据库和项目数据库,将所述近义词数据库中的检索词建立训练集,训练检索词网络;将项目数据库的科技项目信息作为训练集,训练科技项目网络;
步骤2、获取待对比的科技项目的信息,提取待对比的科技项目信息中的检索词在项目数据库进行预对比,并提取出待对比的科技项目中无法识别的检索词;
步骤3、在近义词数据库的中分别查找与每个无法识别的检索词的近义词,并提取所述近义词替换对应的无法识别的检索词;
步骤4、将所述训练检索词网络和所述训练科技项目网络级联起来,将所述近义词输入到所述训练检索词网络中筛选出相似度超过一相似判定阈值的候选科技项目,确定其为所述待对比科技项目的相似文本,实现查重。
2.根据权利要求1所述的一种基于深度学习算法自动提取近义词的科技项目查重方法,其特征在于:所述检索词提取来自科技项目的标题或关键词字段中。
3.根据权利要求1所述的一种基于深度学习算法自动提取近义词的科技项目查重方法,其特征在于:步骤1中检索词的提取包括以下步骤:a、对每一条科技项目信息进行分词处理,将所述科技项目信息切分成若干关键字;b、停用词过滤处理,去除关键字数组中的标点符号、特殊字符、重复元素和应过滤词,最终得到该科技项目的检索词。
4.根据权利要求1所述的一种基于深度学习算法自动提取近义词的科技项目查重方法,其特征在于:步骤2还包括将无法识别的检索词加入到所述近义词数据库中相对应的近义词组中。
5.根据权利要求2所述的一种基于深度学习算法自动提取近义词的科技项目查重方法,其特征在于:步骤2中所述近义词的定义方法包括:设置语义相近的词为近义词;设置同一个英文词不同时态和单复数为近义词;设置同一个英文词的大小写为近义词;设置同词的简称、别名和本名为近义词。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于别名规约树的流规则冲突检测方法及系统 | 2020-05-08 | 397 |
一种知识图谱驱动型的法律智能咨询系统 | 2020-05-12 | 820 |
提供多个设备上的加密的方法、系统和计算机可读介质 | 2020-05-12 | 701 |
一种域名配置方法及设备 | 2020-05-13 | 465 |
一种基于配置的对象属性元数据抽取系统 | 2020-05-12 | 1078 |
一种X光机图片采集辅助装置和处理方法 | 2020-05-14 | 488 |
一种基于规则生成的DPI解析方法和系统 | 2020-05-11 | 803 |
一种基于OpenCL的FPGA图处理加速方法和系统 | 2020-05-13 | 413 |
SQL语句的执行方法、装置、设备和存储介质 | 2020-05-11 | 648 |
一种基于知识驱动的查询的实体链接方法 | 2020-05-13 | 585 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。