专利汇可以提供一种基于论文关键属性网络的作者消歧方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于论文关键属性网络的作者消歧方法,关键属性关系网是通过收集论文中的关键属性并通过他们的相关关系形成的关系网络,分别形成了论文合著者之间的关系网,同一机构的关系网,同一领域的关系网,最终形成论文关键属性的关系网。本发明的方法通过提取论文中论文名称、作者机构、作者领域并围绕作者名称建立关系网络,当对论文作者进行消歧的时候,通过对论文作者的名称的匹配,并结关系网络中的作者机构、作者领域能够有效的解决论文中相同人名但对应不同实际作者的情况。另外通过结合论文名称匹配当前待消歧作者合著者并再次匹配的合著者,能够有效的解决同一实际作者有不同人名写法的这种情况。,下面是一种基于论文关键属性网络的作者消歧方法专利的具体信息内容。
1.一种基于论文关键属性网络的作者消歧方法,其特征在于,建立关键属性关系网,是通过收集论文中的关键属性并通过他们的相关关系形成的关系网络,其中关系网络中的实体节点主要有:作者名称、作者机构、作者领域和论文名称;作者之间通过论文名称、机构和领域三个维度进行聚类,分别形成了论文合著者之间的关系网,同一机构的关系网,同一领域的关系网,最终形成论文关键属性的关系网;对基于关键属性关系网的作者消歧方法的实现逻辑包括如下步骤:
步骤1:向关系网中输入单元A1;
步骤2:将单元A1中的领域、机构和论文名称插入关系网中,做Merge操作;
步骤3:查询A1中的N1与关系网中的所有N节点是否有相同节点;
步骤4:如果有相同节点则进入流程FLOW1,开始进行判断,主要判断是否是相同人名但对应不同实际作者的这种情况;进行FLOW1流程,包括如下步骤(1)-(7):
(1)拿出与N1节点相同的N节点关联的领域(F)与机构(O)的列表,分别记为F-List与O-List;
(2)将与N1相关的F与F-List匹配后计算权重,每匹配成功一次权重为1,计算领域权重和,记为:SumWeightField;;
(3)将与N1相关的O与O-List匹配后计算权重,每匹配成功一次权重为2,计算机构权重和,记为:SumWeightOrg;
(4)计算权重和,记为:SumWeight=Weight(F)+Weight(O);
(5)若SumWeight>2则标记为N1与匹配成功的N节点为同一人;
(6)若SumWeight≤2则标记为N1与匹配成功的N节点为两个人;
(7)输出结果;
步骤5:如果不同则进入流程FLOW2,开始进行判断,主要判断是否存在对同一实际作者有不同人名写法的这种情况;进行FLOW2流程,包括如下步骤(1)-(8):
(1)在关系网中分别拿出与A1的论文名称(T)相同的论文名称节点列表Title-List,与A1的领域(F)相同的领域节点列表Field-List,与A1的机构(O)相同的机构节点列表Org-List;
(2)通过Title-List关联的作者名称节点即N节点,我们将论文作者与其合著者的关系关联起,通过查询N1的合著者,反向再次查询匹配即对可能匹配上的作者进行筛选,这部分N-List即为与A1中的N1合作过的作者再次关联出的合作者,这部分基于一个现实情况是,与N1合作过的作者可能不止一次与N1进行合作,主要步骤如下:
a)通过Title-List查询出与其相关联的作者名称N-List;
b)通过N-List查询N-List所关联的论文名称T-List,即关联论文名称;
c)通过T-List查询其所关联的作者名称,输出为N-Title-List;
(3)查询与Field-List关联的作者名称节点,输出为N-Field-List;
(4)查询与Org-List关联的作者名称几点,输出为N-Org-List;
(5)将N1分别与N-Title-List、N-Field-List、N-Org-List进行相关度匹配,分别记为Ret-Title-List、Ret-Field-List、Ret-Org-List,其中权重分别为3、2、1;
(6)将Ret-Title-List、Ret-Field-List、Ret-Org-List按值进行聚合,求交集,并分别计算聚合后不同结果集的权重和SumWeight,输出结果集为Ret-List;
(7)取Ret-List中权重和SumWeight最高的一条,若SumWeight>4则为同一作者,如果SumWeight≤4则为不同作者;
(8)如果权重和最高的且大于4的有多条,则再次进行作者名称的相关度匹配,取相关度匹配最高的那一条;
步骤6:将步骤4或步骤5的结果输入到关系网中,如果是新的作者名称节点,则插入关系网中,否则更新关系网中作者名称节点,为作者名称节点增加新的别名;
步骤7:依此循环以上6步,在建立关系网的同时达到消歧的目的;
所述的单元:把信息的一次输入称为一个单元,其中一个单元为一篇论文中提取的作者信息列表中的一条,包括:作者名称(N)、领域(F)、机构(O)、论文名称(T);所述的A1代表一个单元一个具体实例。
2.根据权利要求1所述的基于论文关键属性网络的作者消歧方法,其特征在于,所述步骤1主要是向关系网中输入单元数据,包括如下步骤:
(1)将作者名称、论文名称、领域、机构字符全部数据转为小写;
(2)去除数据中的特数字符,如“-”,“.”等。
3.根据权利要求1所述的基于论文关键属性网络的作者消歧方法,其特征在于,步骤2的包括如下步骤:
(1)提取A1中的领域节点,依次插入关系网络中,F1为A1中的一个领域节点;
(2)判断关系网中是否存在与F1相同的节点;
(3)如果存在则忽略;
(4)如果不存在则向关系网中插入;
(5)其余机构与论文标题同上边1到4步。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于机器学习的编译器测试加速方法 | 2020-05-11 | 478 |
一种融合电网运行环境及设备信息的跨系统数据转换方法 | 2020-05-14 | 335 |
一种X光机图片采集辅助装置和处理方法 | 2020-05-14 | 488 |
一种发票匹配方法及系统 | 2020-05-08 | 473 |
基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质 | 2020-05-11 | 55 |
一种业务功能链操作、管理和维护方法及节点设备 | 2020-05-13 | 544 |
一种域名配置方法及设备 | 2020-05-13 | 465 |
BGP会话建立、发送接口地址和别名的方法及网络设备 | 2020-05-14 | 70 |
基于带对抗训练深度网络的恶意域名检测方法及系统 | 2020-05-14 | 479 |
BGP会话建立、发送接口地址和别名的方法及网络设备 | 2020-05-14 | 571 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。