专利汇可以提供一种面向科技项目的评审专家智能推荐方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种面向科技项目的评审专家智能推荐方法。本发明包括如下步骤:1)将待审科技项目、专家信息主要文本切分成子串序列并进行中科院ICTCLAS分词,对分词结果进行停用词过滤得到词语集合;2)构建项目信息的词语网络,基于统计特征和聚集特征提取特征词;专家信息较精简,直接将步骤1所得词语集合作为特征词;3)基于特征词所在字段和权值构建知识表示模型;建立相关信息索引;4)分组推荐专家对知识表示模型做字段间、项目间特征合并操作;5)基于语义计算专家与待审科技项目(组)的相似度,设定 阀 值截断产生最终推荐专家列表。上述方法的实现可极大地缓解推荐存在工作量大、评审决策缺乏科学性等问题。,下面是一种面向科技项目的评审专家智能推荐方法专利的具体信息内容。
1.一种面向科技项目的评审专家智能推荐方法,其特征在于该方法包括以下步骤:
步骤1.把科技项目和专家信息中的通用词和惯用词作为专业停用词库;把标点符号、非汉字作为切分标记库;
步骤2.对科技项目信息、专家信息进行分词:根据科技项目信息中切分标记,将项目名称、主要研究内容、技术指标切分成子串序列;根据评审专家信息中切分标记,抽取专家信息、获奖情况、发明情况、发表论文情况、课题承担过的项目及完成情况、研究方向切分成子串序列,一个子串序列即一个字段信息;利用中科院ICTCLAS对子串序列进行分词;
步骤3.科技项目特征词语提取:利用通用停用词库和专业停用词库对分词进行停用词过滤,所述的通用停用词库采用哈工大停用词表,把去除停用词的分词结果作为一个词语集合;
专业停用词库的构建是一个自学习不断完善的过程,在信息分词过程中不断统计词语的词频,词语在文本出现的概率大于一定阀值,将它纳入到停用词库;
科技项目信息量较大,对词语集合进行词语间语义相似度计算,根据词的语义关系和词的共现关系构建词语网络,计算网络中的词语聚集特征值;然后结合词语的统计特征值,计算词语的关键度来提取出科技项目特征词语;科技项目的特征词语就是提取综合文本的统计特征信息和语义特征信息,更加准确地提取出特征词语;
步骤4.评审专家特征词语提取:根据通用停用词库和专业停用词库进行停用词过滤,提取每个专家的特征词集合;
步骤5.构建科技项目、评审专家的分字段知识表示模型:通过对空间向量模型和物元知识集模型进行扩展,依据科技项目中的不同字段信息建立文本表示模型PRO=(id,F,WF,T,V),其中id表示在项目库中的标识字段;F表示科技项目中字段类别集合;WF为字段的权重;T为特征词语;V表示字段所对应的词语及其权重集合即Vi={vi1,f(vi1),vi2,f(vi2),...,vin,f(vin)},vij表示第i个字段中的第j个特征词语,f(vij)表示vij关键词所对应的频数;科技项目信息的知识表示如下:
同理,根据专家中的不同字段信息建立知识表示模型TM=(id,F,WF,T,V);其中,id表示在专家库中的标识字段;F表示评审专家中字段类别集合;WF为字段的权重集合;T为特征词语;V表示字段所对应的特征词语及其权重集合即Vi={vi1,f(vi1),vi2,f(vi2),...,vin,f(vin)},vij表示第i个字段中的第j个特征词语,f(vij)表示vij特征词语在所对应的字段内的出现频率;评审专家信息的知识表示为:
步骤5.评审专家信息索引库构建:待评审专家知识表示模型构建完成后,将信息索引入库:首先从专家库中读取一个评审专家的内容项信息;基于分词结果建立词语语义网络并提取评审专家所包含的特征词;依据知识表示模型并利用Apache Lucene对其建立索引;将建立好的索引按所属类别加至对应的索引库中,直到所有的评审专家索引入库;
步骤6:根据项目的个数,推荐方式分为单一待审项目推荐专家和分组待审项目推荐专家;分组推荐专家对步骤5的待审项目知识表示模型做相应的字段间和项目间的特征合并操作,单一待审专家推荐只做相应的字段间特征合并操作;同时,对步骤5的评审专家的知识表示模型进行字段间特征合并;依据知识表示模型并利用Apache Lucene对合并后的特征信息建立索引;其中,科技项目索引构建在进行项目推荐时进行;
科技项目申报管理系统中待审项目往往是需要分组推荐的,上述特征合并操作不但确保不会消除步骤5中知识表示模型设置不同字段权重对相似度计算产生推荐的贡献差异;
步骤7.经过步骤6的评审专家和科技项目的知识表示模型的字段间特征进行合并,假设评审专家信息向量若表示为P={s1,f(s1),s2,f(s2),...,sn,f(sn)},科技项目信息向量表示为Q={t1,f(t1),t2,f(t2),...,tn,f(tn)},基于最大匹配算法计算待审科技项目向量与评审专家的语义相似度;
步骤8.设置相似度截断,依据相似度的大小产生推荐指数,产生最终的推荐评审专家列表。
2.根据权利要求1所述的一种面向科技项目的评审专家智能推荐方法,其特征在于:
步骤3中所述的语义相似度计算过程如下:
在知网语义词典中,如果对于两个词语W1和W2,W1有n个概念:S11,S12,...,S1n,W2有m个概念:S21,S22,...,S2n;词语W1和W2的相似度SimSEM(W1,W2)等于各个概念的相似度之最大值:
实词和虚词具有不同的描述语言,需要计算其对应的句法义原或关系义原之间的相似度;实词概念包括第一基本义原、其他基本义原、关系义原描述、关系符号描述,相似度分别记为Sim1(p1,p2)、Sim2(p1,p2)、Sim3(p1,p2)、Sim4(p1,p2);两个特征结构的相似度计算最终还原到基本义原或具体词的相似度计算;
βi(1≤i≤4)是可调节的参数,且有:β1+β2+β3+β4=1,β1≥β2≥β3≥β4;
设CW={C1,C2,...,Cm}为处理后得到的词语集合,其对应的语义相似度邻接矩阵Sm定义为:
其中,Sim(C1,C2)为词C1与词C2的语义相似度,Sim(Ci,Ci)为1,Sim(Ci,Cj)=Sim(Cj,Ci);
词语集合CW={C1,C2,...,Cm}经过词语语义相似度计算得到p*(1+p)/2个词语间相似度的值;
所述的词的共现关系计算过程如下:
词共现模型是基于统计方法的自然语言处理研究领域的重要模型之一;根据词共现模型,若两个词经常共现在文档的同一窗口单元,这两个词在意义上是相互关联的,它们在一定程度上表达该文本的语义信息;利用滑动窗口对词语序列中的词语进行词语共现度计算:
首先,对词语序列进行词语提取,即去除空格,null以及合并相同的词,得到词语集合CW={C1,C2,...,Cm},其中m≤n;
词语集合CW对应的词语共现度矩阵Cm定义为:
Cm初始时,Coo(Ci,Cj)为01(1≤i,j≤m);
借助滑动窗口对词语序列进行词语共现度计算,滑动窗口中的词为Ti-1TiTi+1(11)若i=n-1,转4);若Ti-1是空格或null,滑动窗口滑向下一个词,i++;否则,转2);
2)若Ti为中文,则Coo(Ti-1,Ti)++,转3);若Ti为null,转3);否则转1);
3)若Ti是中文,则Coo(Ti-1,Ti+1)++,i++,转1);否则,转1);
4)若Tn-2是中文,转5);否则,转7)
5)若Tn-1是中文,Coo(Tn-2,Tn-1)++,转6);若Tn-1是空格,转6);否则结束;
6)若Tn是中文,Coo(Tn-2,Tn)++,结束;否则结束;
7)若Tn-1是中文,且Tn也是中文,则Coo(Tn-1,Tn)++,结束;否则结束;
经过上面步骤的计算,得到词语共现度矩阵Cm,并对Cm的每一个元素进行归一化处理,也就是每一个元素除以矩阵中所有元素的最大值,即max{Coo(Ci,Cj)|1≤i,j≤m};
所述的词语网络如下:
在构建带权词语网络时,首先要得到词语网络的权值矩阵,定义权值矩阵Wm为:
其中,α为0.3,β为0.7,强化词语之间的语义关系,弱化词语之间的共现关系;
Wm作为输入的词语网络对应的邻接矩阵,则其对应的网络图定义为:G={V,E};其中图G为无向加权图,V表示图G中的顶点集,E表示G中的边集,vi表示V中第i个顶点(词);
所述的词语聚集特征值的计算过程如下:
词语网络的重要特征有度分布、平均最短路径、聚集度与聚集系数;节点的度体现该节点与其它节点的关联情况;节点的聚集度和聚集系数体现在此节点局部范围内的节点相互连接密度;节点的度和聚集系数体现该节点在局部范围内的重要性;通过节点的加权度、聚集系数和节点介数来计算节点的聚集特征值,既能让重要的词语赋予较高的权值,又保证与许多重要的词语有关联的词也有较高的评分;
在词语语义相似度网络图中,无序偶对(vi,vj)表示节点vi与vj之间的边,则节点vi的加权度的定义为:
其中,wij为节点vi与vj间边上的权值,n为节点的总个数;
在词语语义相似度网络图中,无序偶对(vi,vj)表示节点vi与vj之间的边,节点vi的非加权度Di为Di=|{(vi,vj):(vi,vj)∈E,vi,vj∈V}|;节点vi的聚集度Ki为邻居节点间存在的实际边数:Ti=|{(vj,vk):(vi,vk)∈E,(vj,vk)∈E,vi,vj∈V}|,则节点vj的聚集系数Ci的定义为:
在词语语义相似度网络图中,节点介数Betweenness是节点x和w间且最短路径通过节点vi的可能性概率;两个非相邻节点间的联系度依赖于连接两点间的最短路径上的节点,这些节点潜在扮演控制节点间交互信息流的角色,Bi体现节点vi在局部环境下的互连接度,则节点介数Betweenness的定义为:
d(w,x)表示任意两节点w和x间最短路径数目,d(w,x;vi)表示任意两节点w和x且经过vi的最短路径数目;
将节点vi的平均加权度、聚集系数和介数Betweenness进行加权综合衡量节点的聚集特征值,节点vi的聚集特征值Zi的定义为:
其中,a+b+c=1;
所述的词语的统计特征值的计算过程如下:
采用非线性函数对词频进行归一化处理;词语Wi在文本中的词频权重TFi定义为:
其中,TFi表示词语Wi的词频权重,pj表示文本中的某个词语,f为词频统计函数;
词语Wi在文本中的词性权重posi定义为:
词越长越能反映具体的信息,反之,较短的词的所表示意义通常较抽象;尤其在文档中的特征词语多是一些专业学术组合词汇,长度较长,其含义更明确,更能反映文本主题;增加长词的权重,有利于对词汇进行分割,从而更准确地反映出词在文档中的重要程度;
词语Wi在文本中的词长权重leni定义为:
对于词语序列中的每个词,其统计特征值为
statsi=A*TFi+B*posi+C*leni
其中,A+B+C=1;
所述的词语Wi关键度的计算过程如下:
对应于加权词语网络中的每个节点,它的关键度值Impi定义为:
Impi=β*statsi+(1-β)*Zi
其中,0<β<1;
通过计算将得到关键度的值并从大到小排序,设定一个阈值γ(0<γ<1),取出前q个的值,则这些词语将作为科技项目的特征词语,这些词语充分反映主题,而且是比较重要的词语。
3.根据权利要求1所述的一种面向科技项目的评审专家智能推荐方法,其特征在于:
步骤6中所述的特征合并通过逻辑异或操作进行过程如下:
(1)一个待审项目、一个评审专家的字段间特征合并
假设字段特征词集合W'1和W'2合并,则定义W'1和W'2合并规则 为:
其中,word1i,word2j为特征词;
加入字段权重改进并扩展上述定义,对评审专家、科技项目的字段间特征进行合并,合并规则为:
(2)分组待审项目的项目间特征合并
这一合并过程操作只针对待审科技项目的特征向量,不针对评审专家特征向量,专家特征向量只需要做字段间特征合并操作;若V(d1)和V(d2)分别是两个科技项目经过字段间特征合并后的向量模型,对任意t1j∈V(d1),t2j∈V(d2),若存在t1j与t2j相同则合并;
定义为:
其中,k=1,…,n,tk为特征词条项,wk(p)为tk的权重;
知识表示模型产生的基本过程如下:
a).合并科技项目字段间特征,得到每个项目的向量模型V(d);
b).将所有科技项目向量模型集合采用合并策略 通过上
述的方法,对科技项目组建立基于向量空间的知识表示模型;
V(p)={<t1,w1(p)>,<t2,w2(p)>,...,<tn,wn(p)>}
其中,k=1,…,n,tk为项目组特征词词条项,wk(p)为tk的权重。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
安全气囊装饰弱化部的补偿齿孔 | 2020-05-13 | 57 |
带具有盘打开和防碎裂控制结构的激光形成的弱化线的破裂盘 | 2020-05-12 | 91 |
预拉伸管用的可拆除内芯 | 2020-05-14 | 683 |
一种弱化远光H-H截止线的光学系统 | 2020-05-11 | 64 |
在快擦写EEPROM中编程及过擦除更正模式中弱化位线漏电流的电路装置 | 2020-05-13 | 656 |
一种汽车及其汽车仪表台手套箱和开启限位结构 | 2020-05-14 | 629 |
具有激光划痕的囊袋 | 2020-05-14 | 190 |
一种气囊装置上表皮激光弱化划线机 | 2020-05-12 | 12 |
一种汽车驾驶仓仪表台激光弱化线的检测装置 | 2020-05-13 | 58 |
一种真皮包覆无缝线弱化型仪表板 | 2020-05-11 | 81 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。