专利汇可以提供一种自适应的高校专利科研团队识别方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种自适应的高校 专利 科研团队的识别方法,属于 数据挖掘 领域,具体是一种自适应的高校专利科研团队识别方法。主要内容包括:首先对所有专利的全部 发明人 进行人名频次统计,构建发明人共现矩阵;其次构建专利-发明人矩阵,将专利-发明人矩阵进行奇异值分解,对分解后的矩阵用层次聚类法进行聚类,根据自适应 阈值 得到聚类的簇,将簇作为候选专利团队,利用特定规则,对候选专利科研团队进行分类和验证;最后利用主题生成模型对专利科研团队中的专利题目和 摘要 进行处理,根据处理后的发明内容,对专利进行语义聚类,并将聚类结果用于专利科研子团队识别。,下面是一种自适应的高校专利科研团队识别方法专利的具体信息内容。
1.一种自适应的高校专利科研团队识别方法,按以下步骤实现:
步骤(1)数据预处理
(1.1)从高校科研数据库中获取高校h年内的专利数据集,记作D={z1,z2,…,zm},任意zi∈D表示一项专利,进一步被表示为z={per,title,abstract},其中per表示专利z的发明人集合,title表示专利名称,abstract表示专利摘要;
(1.2)将专利数据集D中的所有专利的全部发明人进行去重:z1(per)∪z2(per)∪…∪zm(per),得到高校全部发明人集合,记作Person={p1,p2,…,pn},其中任意pi∈D表示一位发明人,并对D中所有专利发明人per做频次统计,得到专利发明人的频次列表,记作plist={(p1,v1),(p2,v2),…,(pn,vn)},其中任意(p,v)∈plist表示一位发明人p发明了v项专利;
(1.3)如果两个专利发明人是x项专利的共同发明人,则称两个专利发明人具有共现关系,共现次数记为x,根据专利发明人在专利中的共现关系,以发明人集合Person={p1,p2,…,pn}为行和列,构建所有专利发明人的共现关系矩阵:
其中,coij表示发明人pi与发明人pj的共现次数;
步骤(2)构建专利-发明人矩阵
(2.1)以专利D={z1,z2,…,zm}为行,以发明人集合Person={p1,p2,…,pn}为列,构建专利-发明人矩阵:
其中,aij取值为0或1,aij=1,表示发明人pj是专利zi的专利发明人;aij=0,表示发明人pj不是专利zi的专利发明人;
(2.2)对专利-发明人矩阵Amn进行奇异值分解
其中Umn为矩阵Amn的左奇异向量构成的矩阵,Vnn为矩阵的右奇异向量构成的矩阵,Snn为矩阵Amn的奇异值构成的对角矩阵,记作 s1>s2>…>sn,将Snn中小
于阈值μ∈[0.01,0.02]的对角线元素都设置为0,记作S'nn,重新计算 得到专利-发明人矩阵:
其中,a'ij表示发明人pj和专利zi,在奇异值分解后,重新计算得到的对应数值;
步骤(3)构建发明人的特征向量,利用层次聚类方法,得到候选专利科研团队(3.1)将发明人集合Person={p1,p2,…,pn}中的每一个发明人看作一个初始的聚类簇Ci={pi},对任意发明人pi∈Persgn,发明人pi的特征向量以专利-发明人矩阵A'mn中对应的第i个列向量表示,记作Vec(pi);
(3.2)以单链方式计算任意簇与簇之间的距离,即以不同簇的两个最近的点之间的邻近度表示簇与簇之间距离,公式如下:
其中,Cos(Vec(pi),Vec(pj))表示发明人pi和pj的特征向量的夹角余弦值;
(3.3)合并距离最近的两个簇Ci和Cj;
(3.4)循环迭代步骤(3.2)、(3.3),直到簇与簇之间的最小距离小于阈值y;
这里给出阈值y的自适应调节公式:
其中,m为高校的专利数目,n为高校发明人的数目,lg(n)为以10为底的n的对数;
(3.5)聚类结果记作CP={C1,C2,…,Ck},Ci为每一个簇,k为簇的总数,每个簇中发明人集合作为一个候选专利科研团队;
步骤(4)利用特定规则,对候选专利科研团队进行分类和验证
(4.1)将候选专利科研团队中的成员分为带头人(leader)、核心成员(Nucleus)、一般成员(Common)三类,分类规则如下:
带头人:根据数据预处理步骤,专利发明人频次列表plist={(p1,v1),(p2,v2),…,(pn,vn)}中记录的每个发明人发明的专利项数,团队中发明专利项数最高的专利发明人作为团队带头人;
核心成员:团队中与带头人共现次数大于阈值θ1的专利发明人作为核心成员;
这里给出阈值θ1的公式:
其中,v为带头人发明的专利项数;
一般成员:团队中除了带头人和核心成员之外的成员作为一般成员,如果团队中一般成员数为0,则删除此候选团队;
(4.2)利用发明人共现矩阵,对候选专利科研团队进行合并
对于任意两个候选团队,如果两个专利团队带头人之间共现次数大于阈值θ2∈[30,
40],则将这两个候选专利科研团队合并,发明专利项数最高的专利发明人作为新团队带头人,循环迭代,合并所有满足团队带头人之间共现次数大于阈值θ2的专利团队;
(4.3)重新识别团队核心和一般成员
根据(4.1)的核心成员和一般成员识别规则,重新识别团队合并后的团队核心和一般成员,如果团队中一般成员数为0,则删除此候选团队;
依次执行(4.1)-(4.3)得到专利科研团队集合,记作
P_TEAM=(p_team1,p_team2,…,p_teamm)
对任意一个专利科研团队p_team∈P_TEAM,进一步被表示为
p_team={leader,Nucleus,Common}
其中leader表示团队的带头人,Nucleus表示团队的核心成员集合,记作Nucleus={nucleus1,nucleus2,…nucleusv},Common表示团队的一般成员集合,记作Common={common1,common2,…,commonv'};
步骤(5)在步骤4的基础上,对专利科研团队集合P_TEAM中的团队进行专利科研子团队识别
根据专利的发明内容,对专利进行语义聚类,然后将聚类结果用于专利科研子团队识别;
(5.1)专利的语义表示
将一个专利科研团队的所有发明专利集合记作Dteam={z1,z2,…,zm},对所有专利z∈Dteam,执行如下Step1-Step3处理:
Step1:将专利z的题目title进行分词、去除停用词,处理后的结果记为Ttitile=(word1,word2,…,wordt);
Step2:将专利z的摘要abstract用自然语言处理领域通用的LDA(Latent Dirichlet Allocation)模型进行主题词生成,处理后的结果记为Tabstract=(word1,word2,…,wordt');
Step3:取Ttitile∪Tabstract作为专利z的语义词表示,记作T(z)=(word1,word2,…,wordt”);
(5.2)专利语义聚类
Step1:将Dteam中所有专利的语义词表示取并集T(z1)∪T(z2)∪…∪T(zm),得到该专利科研团队的专利语义词表示,记作T(Dteam)=(word1,word2,…,wordn);以Dteam={z1,z2,…,zm}为行,以T(Dteam)为列,构建专利-语义词矩阵
其中,wdij取值为0或1,wdij=1,表示语义词wordj是专利zi的语义词;wdij=0,表示wordj不是专利zi的语义词;
对任意zi∈Dteam,从专利-语义词矩阵WD中取zi的对应行,可以得到zi的语义向量,记作Vector(zi)=(wdi1,wdi2,…,wdin);
Step2:将Dteam中每一个专利看作一个初始的聚类簇ci={zi},对任意zi∈Dteam,两个专利的距离通过它们语义向量的夹角余弦计算,利用层次聚类法进行聚类,当簇与簇之间的最小距离小于阈值α∈[0.01,0.02]时迭代停止,聚类结果记CW={c1,c2,…,ck},k为簇的总数;
(5.3)专利科研子团队识别
聚类结果中每个簇的发明人集合对应一个科研子团队,对任意簇ci∈CW,将ci中所有专利的发明人取并集,得到专利团队的子团队,记作p_team(c)={p1,p2,…,pl},其中pi表示一个专利发明人,l为一个子团队的发明人数量;
专利科研团队Dteam={z1,z2,…,zm}的所有科研子团队表示为{p_team(c1),p_team(c2),…,p_team(cu)},ci∈CW。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
寻找相近语义汉字对的方法和装置 | 2020-05-12 | 453 |
发明人确认方法和发明人确认系统 | 2020-05-11 | 606 |
医学专利技术价格分析系统 | 2020-05-13 | 628 |
光测量计设备 | 2020-05-13 | 21 |
一株马立克氏病病毒疫苗株及其分离鉴定和应用 | 2020-05-14 | 998 |
船舶气膜减阻装置 | 2020-05-14 | 777 |
丹皮酚在制备治疗急性肾损伤药物方面的应用 | 2020-05-12 | 17 |
带有集成的电磁扭矩转换器的传动装置 | 2020-05-14 | 14 |
银膜及其制法、使用该银膜的LED安装用基板及其制法 | 2020-05-13 | 967 |
一种使用圆钢管复合夹层做腹板的起重机主梁结构构型 | 2020-05-14 | 737 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。