首页 / 专利库 / 电脑编程 / 算法 / 一种论文质量评价方法及系统

一种论文质量评价方法及系统

阅读:70发布:2021-06-01

专利汇可以提供一种论文质量评价方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开的一种论文 质量 评价方法及系统,其中包括如下步骤:获取待评价领域已发表的论文数据;对论文数据进行预处理,根据论文间的引用关系构建图结构;根据图结构建立加权独立级联概率模型;根据加权独立级联概率模型利用基于SNI中心性的ASNI-RR 算法 和基于Sharpley中心性的ASV-RR算法,获取所有待评价论文的影响 力 排名。本发明提供的论文质量评价方法利用基于SNI中心性的ASNI-RR算法和基于Sharpley中心性的ASV-RR算法对论文质量进行评价,使得论文质量的评价结果更准确。,下面是一种论文质量评价方法及系统专利的具体信息内容。

1.一种论文质量的评价方法,其特征在于,包括如下步骤:
获取待评价领域已发表的论文数据;
对所述论文数据进行预处理,根据论文间的引用关系构建图结构;
根据所述图结构建立加权独立级联概率模型;
根据加权独立级联概率模型利用基于SNI中心性的ASNI-RR算法和基于Sharpley中心性的ASV-RR算法,获取所有待评价论文的影响排名。
2.根据权利要求1所述的论文质量的评价方法,其特征在于,所述论文数据包括论文标题,作者,发表时间及引用的论文。
3.根据权利要求2所述的论文质量的评价方法,其特征在于,对所述论文数据进行预处理,根据论文间的引用关系构建图结构的步骤,包括:
对论文数据进行消除错误、冗余和数据噪音处理,并按照预设规则将所获得的论文数据统一编号;
根据论文间的引用关系确定构建图结构中的边。
4.根据权利要求3所述的论文质量的评价方法,其特征在于,所述加权独立级联概率模型中每条边的权值为传出节点的出度倒数。
5.根据权利要求4所述的论文质量的评价方法,其特征在于,所述根据加权独立级联概率模型利用基于SNI中心性的ASNI-RR算法和基于Sharpley中心性的ASV-RR算法,获取所有待评价论文的影响力排名的步骤,包括:
利用ASNI-RR算法计算加权独立级联概率模型所有节点的SNI值,所述SNI值,用于评价单节点影响力;
利用ASV-RR算法计算加权独立级联概率模型所有节点的Shapley值,所述Shapley值,用于评价群体影响力;
挑选Shpley值和SNI值中较大的节点作为影响力传播过程中的种子节点;
根据种子节点的影响力传播范围,获取所有待评价论文的影响力排名。
6.根据权利要求5所述的论文质量的评价方法,其特征在于,所述利用ASNI-RR算法计算加权独立级联概率模型所有节点的SNI值的步骤,包括:
计算最大影响力近似最优解OPT的下界估计值LB;
利用界估计值LB估算所需要的反向可达集数目θ;
初始化所有节点的SNI值,循环θ次随机产生一个反向可达集R,计算反向可达集R中节点u的SNI估算值estu'=estu'+1;
获取SNI估算值中第k大的值,如果满足预设条件,计算出下界估计值LB;
利用下界估计值LB计算反向可达集数目θ,得到每一个节点v最终的SNI估算值为
7.根据权利要求5所述的论文质量的评价方法,其特征在于,所述利用ASV-RR算法计算加权独立级联概率模型所有节点的Shapley值的步骤,包括:
计算最大影响力近似最优解OPT的下界估计值LB;
利用界估计值LB估算所需要的反向可达集数目θ;
初始化所有节点的Shapley值,循环θ次随机产生一个反向可达集R,计算反向可达集R中节点u的Shapley估算值estu=estu+1/|R|;
获取Shapley估算值中第k大的值,如果满足预设条件,计算出下界估计值LB;
利用下界估计值LB计算反向可达集数目θ,得到每一个节点v最终的Shapley估算值为
8.一种论文质量的评价系统,其特征在于,包括:
待评价对象数据获取模,用于获取待评价领域已发表的论文数据;
论文数据预处理模块,用于根据论文间的引用关系构建图结构;
加权独立级联概率模型构建模块,用于根据所述图结构建立加权独立级联概率模型;
论文影响力排名获取模块,用于根据加权独立级联概率模型利用基于SNI中心性的ASNI-RR算法和基于Sharpley中心性的ASV-RR算法,获取所有待评价论文的影响力排名。
9.一种终端,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-7中任一所述的论文质量的评价方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7中任一所述的论文质量的评价方法。

说明书全文

一种论文质量评价方法及系统

技术领域

[0001] 本发明涉及论文影响评价领域,具体涉及一种论文质量评价方法及系统。

背景技术

[0002] 随着科研人员数量的增加,学术论文的数量急剧增长,对学术论文影响力的评价往往局限于其被引用的次数,而这个指标有很多缺陷使得其很难准确地评估一篇学术论文的影响力,传统的学术论文评价指标基本局限于其被引用次数,而这个指标有很多缺陷使得其很难准确地评估一篇学术论文的影响力,其中IMM算法是最简单的基于反向可达集概念的算法,它使用贪心方法寻找能使得它们覆盖的反向可达集尽量多节点,并以此进行排序,但目前的这种算法准确性不能满足科研机构或学术评价机构对科研论文质量的评价。

发明内容

[0003] 因此,本发明提出了一种论文质量评价方法及系统,克服现有技术中对论文质量的评价准确性差的缺陷。
[0004] 为达到上述目的,本发明提供如下技术方案:
[0005] 第一方面,本发明实施例提供一种论文质量的评价方法,包括如下步骤:获取待评价领域已发表的论文数据;对所述论文数据进行预处理,根据论文间的引用关系构建图结构;根据所述图结构建立加权独立级联概率模型;根据加权独立级联概率模型利用基于SNI中心性的ASNI-RR算法和基于Sharpley中心性的ASV-RR算法,获取所有待评价论文的影响力排名。
[0006] 在一实施例中,所述论文数据包括论文标题,作者,发表时间及引用的论文。
[0007] 在一实施例中,对所述论文数据进行预处理,根据论文间的引用关系构建图结构的步骤,包括:对论文数据进行消除错误、冗余和数据噪音处理,并按照预设规则将所获得的论文数据统一编号;根据论文间的引用关系确定构建图结构中的边。
[0008] 在一实施例中,所述加权独立级联概率模型中每条边的权值为传出节点的出度倒数。
[0009] 在一实施例中,所述根据加权独立级联概率模型利用基于SNI中心性的ASNI-RR算法和基于Sharpley中心性的ASV-RR算法,获取所有待评价论文的影响力排名的步骤,包括:利用ASNI-RR算法计算加权独立级联概率模型所有节点的SNI值,所述SNI值,用于评价单节点影响力;利用ASV-RR算法计算加权独立级联概率模型所有节点的Shapley值,所述
Shapley值,用于评价群体影响力;挑选Shpley值和SNI值中较大的节点作为影响力传播过程中的种子节点;根据种子节点的影响力传播范围,获取所有待评价论文的影响力排名。
[0010] 在一实施例中,所述利用ASNI-RR算法计算加权独立级联概率模型所有节点的SNI值的步骤,包括:计算最大影响力近似最优解OPT的下界估计值LB;利用界估计值LB估算所需要的反向可达集数目θ;初始化所有节点的SNI值,循环θ次随机产生一个反向可达集R,计算反向可达集R中节点u的SNI估算值estu'=estu'+1;获取SNI估算值中第k大的值,如果满足预设条件,计算出下界估计值LB;利用下界估计值LB计算反向可达集数目θ,得到每一个节点v最终的SNI估算值为
[0011] 在一实施例中,所述利用ASV-RR算法计算加权独立级联概率模型所有节点的Shapley值的步骤,包括:计算最大影响力近似最优解OPT的下界估计值LB;利用界估计值LB估算所需要的反向可达集数目θ;初始化所有节点的Shapley值,循环θ次随机产生一个反向可达集R,计算反向可达集R中节点u的Shapley估算值estu=estu+1/|R|;获取Shapley估算值中第k大的值,如果满足预设条件,计算出下界估计值LB;利用下界估计值LB计算反向可达集数目θ,得到每一个节点v最终的Shapley估算值为
[0012] 第二方面,本发明实施例提供一种论文质量的评价系统,包括:待评价对象数据获取模,用于获取待评价领域已发表的论文数据;论文数据预处理模块,用于根据论文间的引用关系构建图结构;加权独立级联概率模型模块,用于根据所述图结构建立加权独立级联概率模型;评价论文的影响力排名模块,用于根据加权独立级联概率模型利用基于SNI中心性的ASNI-RR算法和基于Sharpley中心性的ASV-RR算法,获取所有待评价论文的影响力排名。
[0013] 第三方面,本发明实施例提供一种终端,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例第一方面所述的论文质量的评价方法。
[0014] 第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本发明实施例第一方面的论文质量的评价方法。
[0015] 本发明技术方案,具有如下优点:
[0016] 本发明提供的论文质量评价方法,包括如下步骤:获取待评价领域已发表的论文数据;对所述论文数据进行预处理,根据论文间的引用关系构建图结构;根据所述图结构建立加权独立级联概率模型;根据加权独立级联概率模型利用基于SNI中心性的ASNI-RR算法和基于Sharpley中心性的ASV-RR算法,获取所有待评价论文的影响力排名。本发明实施例提供的论文质量评价方法通过基于SNI中心性的ASNI-RR算法和基于Sharpley中心性的ASV-RR算法解决对论文质量评价不准确的问题。
附图说明
[0017] 为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018] 图1为本发明实施例中提供一种论文质量评价方法的一个具体示例的流程图
[0019] 图2为本发明实施例中基于SNI中心性的ASNI-RR算法和基于Sharpley中心性的ASV-RR算法,获取所有待评价论文的影响力排名具体示例的流程图;
[0020] 图3为本发明实施例中提供的基于Sharpley和SNI中心性的影响力指数模型与其他传统论文评价排名算法的流程图;
[0021] 图4为本发明实施例中提供的ASNI-RR算法和ASV-RR算法对优秀论文的匹配数目与传统的引用数方法相比Precision指标和Recall指标的柱状图;
[0022] 图5为本发明实施例提供的论文质量的评价系统的模块组成图;
[0023] 图6为本发明实施例提供的终端的模块组成图。

具体实施方式

[0024] 下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0025] 在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0026] 在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0027] 此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
[0028] 实施例1
[0029] 本实施例提供一种论文质量评价方法,可应用于对各领域数已经发表的论文进行质量评价,如图1所示,包括如下步骤:
[0030] 步骤S1:获取待评价领域已发表的论文数据。
[0031] 在本发明实施例中,待评价领域已发表的论文数据可以从APS(American Physical Society)采集所有已发表的物理学领域论文的数据,包括论文标题,作者,发表时间,引用的论文等数据,仅以此为例,不以此为限,在实际应用中根据实际需求适应选择论文数据。
[0032] 步骤S2:对论文数据进行预处理,根据论文间的引用关系构建图结构。
[0033] 在本发明实施例中,对数据进行预处理,具体分为数据清洗和数据集成,数据清洗主要是消除错误、冗余和数据噪音,还要按照规则将所获得的论文数据统一编号,数据集成是将论文间的引用关系转换为图结构中的边,并导出为统一格式的数据文件。
[0034] 步骤S3:根据所述图结构建立加权独立级联概率模型。
[0035] 在本发明实施例中,建立加权独立级联概率模型是在独立级联模型(IndependentCascadeModel)的基础上将每条边的权值,即传播概率设置为传出节点的出度的倒数,而该边的反向传播概率设置为0。
[0036] 步骤S4:根据加权独立级联概率模型利用基于SNI中心性的ASNI-RR算法和基于Sharpley中心性的ASV-RR算法,获取所有待评价论文的影响力排名。
[0037] 在本发明实施例中,使用处理好的数据集分别运行基于SNI中心性的ASNI-RR算法和基于Sharpley中心性的ASV-RR算法,获得按不同排序算法排序后的所有论文影响力排名。
[0038] 在本发明实施例中,执行步骤S4的过程,如图2所示,包括:
[0039] 步骤S41:利用ASNI-RR算法计算加权独立级联概率模型所有节点的SNI值,所述SNI值,用于评价单节点影响力。
[0040] 在本发明实施例中,利用ASNI-RR算法计算加权独立级联概率模型所有节点的SNI值的步骤,包括:计算最大影响力近似最优解OPT的下界估计值LB;利用界估计值LB估算所需要的反向可达集数目θ;初始化所有节点的SNI值,循环θ次随机产生一个反向可达集R,计算反向可达集R中节点u的SNI估算值estu'=estu'+1;获取SNI估算值中第k大的值,如果满足预设条件,计算出下界估计值LB;利用下界估计值LB计算反向可达集数目θ,得到每一个节点v最终的SNI估算值为
[0041] 步骤S42:利用ASV-RR算法计算加权独立级联概率模型所有节点的Shapley值,所述Shapley值,用于评价群体影响力。
[0042] 在本发明实施例中,利用ASV-RR算法计算加权独立级联概率模型所有节点的Shapley值的步骤,包括:计算最大影响力近似最优解OPT的下界估计值LB;利用界估计值LB估算所需要的反向可达集数目θ;初始化所有节点的Shapley值,循环θ次随机产生一个反向可达集R,计算反向可达集R中节点u的Shapley估算值estu=estu+1/|R|;获取Shapley估算值中第k大的值,如果满足预设条件,计算出下界估计值LB;利用下界估计值LB计算反向可达集数目θ,得到每一个节点v最终的Shapley估算值为
[0043] 步骤S43:挑选Shpley值和SNI值中较大的节点作为影响力传播过程中的种子节点。
[0044] 本发明实施例将模型中所有节点的Shapley值和SNI值计算结果分别从高到低排序,节点的Shpley值和SNI值越大就认为它们的Shapley和SNI中心性高,因此可以分别挑选Shpley值和SNI值大的节点作为影响力传播过程中的种子节点,比较两种中心性选出的种子结点影响力传播范围。
[0045] 步骤S44:根据种子节点的影响力传播范围,获取所有待评价论文的影响力排名,根据影响力传播范围的大小进行排名。
[0046] 在本发明实施例中,提出的ASV-RR算法和ASNI-RR算法则在IMM算法的基础上分别引入了SNI值中心性和Shapley值中心性。采用SNI值的方法指的是单结点影响力中心性,在一个节点的自然中心性是仅仅这个结点作为种子结点的影响力传播范围,采用Shapley值的方法指的是在一个大的合作联盟中,根据给定的不同合作方式对应着不同合作者的贡献函数,得出最优的利益分配方案,实现利益分配的最优“公正”解,引入Shapley值的方法可以更好地发掘结点在社会影响中的作用,并考虑结点在群组中的影响力。
[0047] 在本发明实施例中,为了验证本算法的有效性、可行性,提出了将项目中的基于Sharpley和SNI中心性的影响力指数模型与其他传统论文评价排名算法(基于度的评价算法、基于迭代的影响力排序算法以及交互多模型算法)进行对比,具体步骤如图3所示,使用了不同的评价算法模型产生的结果对一个优秀论文目录进行匹配。其中:
[0048] 基于度的评价算法,是在度排序算法中先读入所有引用关系数据,为其中的每篇被引用的论文记录被引用的次数,然后按照该计数对所有文章进行降序排序,输入数据格式为第一列是论文编号,第二列是被引用次数的预处理数据,顺序即为基于度的评价算法的排名。
[0049] 基于迭代的影响力排序算法(BiRank算法),首先随机初始化排序向量;然后,执行迭代过程直到收敛;最后根据返回的v和u的评分数组进行排序,得到item的评分高低,根据评分进行排序。
[0050] 交互多模型算法(IMM)结构分为两步:首先,估算需要的反向可达集的数量并生成这些反向可达集(Sampling子函数),将它们存在一个数据结构R中;然后,在反向可达集R中用贪心方法找到k个结点使得它们覆盖的反向可达集尽量多(NodeSelection子函数);最后,返回找到的k个结点作为种子结点。
[0051] 在本发明实施例中,通过实验可以得到不同的排名算法模型对优秀论文目录中的论文的匹配情况,分别取各算法排名结果的前1%,1.5%,2%,3%,4%,5%,6%,7%,8%,9%,10%,11%,12%,13%,14%,15%,16%,17%,18%,19%,20%,计算目录中论文分别在各算法排名前不同比例中匹配的数量。试验得到的匹配数据如图4所示,可以看到本实施例提供的方法的Precision指标以及Recall指标同样相比其他算法有优势。对优秀论文的匹配数目比传统的引用数方法要好。
[0052] 本发明实施例提供的论文质量评价方法,利用基于SNI中心性的ASNI-RR算法和基于Sharpley中心性的ASV-RR算法对论文质量进行评价,使得论文质量的评价结果更准确。
[0053] 实施例2
[0054] 本实施例提供一种论文质量的评价系统,如图5所示,包括:
[0055] 待评价对象数据获取模块1,用于获取待评价领域已发表的论文数据;此模块执行实施例1中的步骤S1所描述的方法,在此不再赘述。
[0056] 论文数据预处理模块2,用于根据论文间的引用关系构建图结构;此模块执行实施例1中的步骤S2所描述的方法,在此不再赘述。
[0057] 加权独立级联概率模型模块3,用于根据所述图结构建立加权独立级联概率模型;此模块执行实施例1中的步骤S3所描述的方法,在此不再赘述。
[0058] 评价论文的影响力排名模块4,用于根据加权独立级联概率模型利用基于SNI中心性的ASNI-RR算法和基于Sharpley中心性的ASV-RR算法,获取所有待评价论文的影响力排名;此模块执行实施例1中的步骤S4所描述的方法,在此不再赘述。
[0059] 本发明实施例提供一种论文质量的评价系统,利用基于SNI中心性的ASNI-RR算法和基于Sharpley中心性的ASV-RR算法对论文质量进行评价,使得论文质量的评价结果更准确。
[0060] 实施例3
[0061] 本发明实施例提供一种终端,如图6所示,包括:至少一个处理器401,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,通信接口403可以包括显示屏(Display)、键盘(Keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的论文质量的评价方法。存储器404中存储一组程序代码,且处理器401调用存储器404中存储的程序代码,以用于执行实施例1中的论文质量的评价方法。其中,通信总线402可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。通信总线402可以分为地址总线数据总线、控制总线等。为便于表示,图6中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
[0062] 其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:HDD)或固降硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。
[0063] 其中,处理器401可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
[0064] 其中,处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑阵列(英文:
field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic array logic,缩写:GAL)或其任意组合。
[0065] 可选地,存储器404还用于存储程序指令。处理器401可以调用程序指令,实现如本申请执行实施例1中的论文质量的评价方法。
[0066] 本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,该计算机可执行指令可执行实施例1中的论文质量的评价方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固降硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
[0067] 显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈