首页 / 专利库 / 专利权 / 申请 / 国际申请 / 请求书 / 保护类型 / 专利 / 一种专利评价方法和系统

一种专利评价方法和系统

阅读:1021发布:2020-06-10

专利汇可以提供一种专利评价方法和系统专利检索,专利查询,专利分析的服务。并且本 发明 提供一种 专利 评价方法和系统,其中方法包括专利文档采集,还包括以下步骤:生成技术点及专利所属技术点;生成技术集群及专利所属集群;在每个所述技术集群内进行专利评价。本发明提出一种专利评价方法和系统,通过 自然语言处理 和复杂网络 算法 将专利以技术集群方式聚合,赋予专利科学技术属性,并置于全球同行业技术中进行评价。,下面是一种专利评价方法和系统专利的具体信息内容。

1.一种专利评价方法,包括专利文档采集,其特征在于,还包括以下步骤:
步骤1:生成技术点及专利所属技术点;
步骤2:生成技术集群及专利所属集群;
步骤3:在每个所述技术集群内进行专利评价。
2.如权利要求1所述的专利评价方法,其特征在于:所述步骤1包括以下子步骤:
步骤11:构建专利文档集合;
步骤12:生成每个专利的词项;
步骤13:汇总所述词项并计算每个所述词项的词向量;
步骤14:根据所述词向量确定已有知识图谱中节点的词向量,并计算有连接的词向量之间的相似度,生成无向有权图G;
步骤15:根据所述无向有权图G利用谱聚类生成集群,即技术点;
步骤16:根据所述此项和所述词向量计算每个所述技术点的平均词向量;
步骤17:从所述词项中选出最高频的T个词项作为专利关键词,用所述词向量计算每个所述专利关键词的平均词向量;
步骤18:计算所述平均词向量额所述专利关键词的平均词向量的余弦相似度。
3.如权利要求2所述的专利评价方法,其特征在于:所述步骤12的实现方法为定义所述的专利文档的集合为C={C1,C2,…,Cn},对于所述的专利文档集合C中的任意一条专利Ci,利用一组关键词的空间向量来表示。
4.如权利要求3所述的专利评价方法,其特征在于:所述实现方法的过程为首先采用现有的分词系统对所述的所有专利文档进行中文分词,得到词项;然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词,其中停用词为没有实际含义的功能词。
5.如权利要求4所述的专利评价方法,其特征在于:所述步骤13的实现方法为根据上下文的词语预测当前词语的出现概率,学习目标是最大化对数似然函数,
其中,ω表示专利文档C中任意一个词,p表示概率,p(ω|Context(ω))表示在条件Context(ω)下的概率,Context表示的是该词的上下文。
6.如权利要求5所述的专利评价方法,其特征在于:每个词的所述词向量迭代公式如下:
其中,x表示上下文相加的词向量。η表示学习率,lω表示节点数量,表示求偏导数,xω表示输入层的输入。
7.如权利要求6所述的专利评价方法,其特征在于:所述步骤14还包括计算有连接的节点间的余弦相似度。
8.如权利要求7所述的专利评价方法,其特征在于:所述余弦相似度的计算公式为其中xi、yi分别为两个词向量的第i个元素,n为词向量维度。
9.如权利要求8所述的专利评价方法,其特征在于:所述技术点的计算方法如下:
步骤151:生成图G的邻接矩阵W,W为对称矩阵,对线元素为0;
步骤152:归一化生成拉普拉斯矩阵;
步骤153:生成L的最小的k个特征值和对应的特征向量
步骤154:将特征向量的每一行作为一个样本点用k-means法聚类,得到簇划分。
10.一种专利评价系统,包括用于进行专利文档采集的采集模,其特征在于,还包括以下模块:
技术点生成模块:用于生成技术点及专利所属技术点;
集群生成模块:用于生成技术集群及专利所属集群;
专利评价模块:用于在每个所述技术集群内进行专利评价。

说明书全文

一种专利评价方法和系统

技术领域

[0001] 本发明涉及网络监控的技术领域,特别是一种专利评价方法和系统。

背景技术

[0002] 随着科学技术的日益发展,企业越来越重视自身的知识产权保护,其专利申请的数量和我质量也得到了较大幅度的增长,现阶段已经开发出了数种用于专利管理的平台,但是这些专利管理平台仅仅适用于对专利的缴费期限和现阶段的所处的审查阶段进行姑奶,而无法对专利进行价值评估。
[0003] 众所周知的是,对现有的专利文件进行准确有效的价值评估能够指导技术人员的开发工作,缩小项目的开发时间,因此,开发一种专利评价系统供技术人员使用是非常具备市场前景的。
[0004] 公开号为CN103164540A的发明专利公开了一种专利热点发现与趋势分析方法,在专利热点发现过程中,首先,进行分词,并计算专利文档之间的相似度,根据相似度进行聚类。然后,对每个簇中的短语进行合并,使结果更加简洁、直观。接着,通过热点计算方法发现热点技术,并分析每一项热点技术的热点程度。最后,根据历史数据进行曲线拟合,借助Logistic回归曲线判断某项技术当先所处的生命周期,从而分析该技术的发展状况及潜在的研究价值。同时,对热点技术进行有效的趋势分析,给出这项技术未来的发展趋势。该方法的缺点是仅从技术热点对专利进行评价,维度单一,难以体现专利在其他方面的价值。

发明内容

[0005] 为了解决上述的技术问题,本发明提出一种专利评价方法和系统,通过自然语言处理和复杂网络算法将专利以技术集群方式聚合,赋予专利科学技术属性,并置于全球同行业技术中进行评价。
[0006] 本发明的第一目的是提供了一种专利评价方法,包括专利文档采集,还包括以下步骤:
[0007] 步骤1:生成技术点及专利所属技术点;
[0008] 步骤2:生成技术集群及专利所属集群;
[0009] 步骤3:在每个所述技术集群内进行专利评价。
[0010] 优选的是,所述步骤1包括以下子步骤:
[0011] 步骤11:构建专利文档集合;
[0012] 步骤12:生成每个专利的词项;
[0013] 步骤13:汇总所述词项并计算每个所述词项的词向量;
[0014] 步骤14:根据所述词向量确定已有知识图谱中节点的词向量,并计算有连接的词向量之间的相似度,生成无向有权图G;
[0015] 步骤15:根据所述无向有权图G利用谱聚类生成集群,即技术点;
[0016] 步骤16:根据所述此项和所述词向量计算每个所述技术点的平均词向量;
[0017] 步骤17:从所述词项中选出最高频的T个词项作为专利关键词,用所述词向量计算每个所述专利关键词的平均词向量;
[0018] 步骤18:计算所述平均词向量额所述专利关键词的平均词向量的余弦相似度。
[0019] 在上述任一方案中优选的是,所述步骤12的实现方法为定义所述的专利文档的集合为C={C1,C2,...,Cn},对于所述的专利文档集合C中的任意一条专利Ci,利用一组关键词的空间向量来表示。
[0020] 在上述任一方案中优选的是,所述实现方法的过程为首先采用现有的分词系统对所述的所有专利文档进行中文分词,得到词项;然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词,其中停用词为没有实际含义的功能词。
[0021] 在上述任一方案中优选的是,所述步骤13的实现方法为根据上下文的词语预测当前词语的出现概率,学习目标是最大化对数似然函数,
[0022]
[0023] 其中,ω表示专利文档C中任意一个词,p表示概率,p(ω|Context(ω))表示在条件Context(ω)下的概率,Context表示的是该词的上下文。
[0024] 在上述任一方案中优选的是,每个词的所述词向量迭代公式如下:
[0025]
[0026] 其中,x表示上下文相加的词向量。η表示学习率,lω表示节点数量,表示求偏导数,xω表示输入层的输入。
[0027] 在上述任一方案中优选的是,所述步骤14还包括计算有连接的节点间的余弦相似度。
[0028] 在上述任一方案中优选的是,所述余弦相似度的计算公式为
[0029]
[0030] 其中xi、yi分别为两个词向量的第i个元素,n为词向量维度。
[0031] 在上述任一方案中优选的是,所述技术点的计算方法如下:
[0032] 步骤151:生成图G的邻接矩阵W,W为对称矩阵,对线元素为0;
[0033] 步骤152:归一化生成拉普拉斯矩阵;
[0034] 步骤153:生成L的最小的k个特征值和对应的特征向量
[0035] 步骤154:将特征向量的每一行作为一个样本点用k-means法聚类,得到簇划分。
[0036] 在上述任一方案中优选的是,所述拉普拉斯矩阵L=D-W满足
[0037]
[0038] 其中,D为对角矩阵,其对角线元素di为W行或列元素的和,Lij为L中元素,ωij为W中元。
[0039] 在上述任一方案中优选的是,所述步骤2包括以下子步骤:
[0040] 步骤21:统计两两技术点的共有专利个数;
[0041] 步骤22:以所述技术点为点,所述共有专利个数为边,生成复杂网络;
[0042] 步骤23:生成技术集群。
[0043] 在上述任一方案中优选的是,所述步骤3包括以下子步骤:
[0044] 步骤31:集群内的每个专利文本分词并去停止词;
[0045] 步骤32:生成每个专利的词向量;
[0046] 步骤33:使用所述余弦相似度计算集群内专利两两相似度;
[0047] 步骤34:以专利为点,所述相似度为边,生成复杂网络;
[0048] 步骤35:计算每个专利的TextRank值。
[0049] 在上述任一方案中优选的是,所述步骤32包括以下子步骤:
[0050] 步骤321:生成每个专利的词项;
[0051] 步骤322:汇总所述词项,计算每个词项的词向量;
[0052] 步骤323:将专利文档的id一同引入训练语料中输入进行训练。
[0053] 在上述任一方案中优选的是,所述训练的方法包括:
[0054] 步骤A:将每个所述专利文档id和所有所述词项初始化一个K维的向量;
[0055] 步骤B:将所述K维的向量和所述词向量输入模型,隐层将这些向量累加得到中间向量,作为输出层softmax的输入。
[0056] 在上述任一方案中优选的是,所述训练的公式为
[0057] ft=σg(Wfxt+Ufht-1+bf)
[0058] it=σg(Wixt+Uiht-1+bi)
[0059] ot=σg(Woxt+Uoht-1+bo)
[0060]
[0061]
[0062] 其中,f表示遗忘的激活矢量,σg为sigmoid函数,W、U和b为训练期间需要学习的权重矩阵和偏差矢量参数,x为LSTM单元的输入向量,t表示时间步,h表示LSTM单元的输出向量,i表示输入的激活向量,o表示输出门的激活向量,c表示细胞状态向量,σc和σh为双曲正切函数。
[0063] 在上述任一方案中优选的是,所述TextRank值的迭代公式为
[0064]
[0065] 其中,Vi和Vj表示某个专利,WS(Vi)表示专利Vi的TR值,d表示阻尼系数,In(Vi)表示指向专利Vi的专利的集合,Out(Vj)表示专利Vj指向的专利的集合,WS(Vj)表示专利Vj的TR值。
[0066] 本发明的第二目的是提供了一种专利评价系统,包括用于进行专利文档采集的采集模,还包括以下模块:
[0067] 技术点生成模块:用于生成技术点及专利所属技术点;
[0068] 集群生成模块:用于生成技术集群及专利所属集群;
[0069] 专利评价模块:用于在每个所述技术集群内进行专利评价。
[0070] 优选的是,所述技术点生成模块的工作包括以下子步骤:
[0071] 步骤11:构建专利文档集合;
[0072] 步骤12:生成每个专利的词项;
[0073] 步骤13:汇总所述词项并计算每个所述词项的词向量;
[0074] 步骤14:根据所述词向量确定已有知识图谱中节点的词向量,并计算有连接的词向量之间的相似度,生成无向有权图G;
[0075] 步骤15:根据所述无向有权图G利用谱聚类生成集群,即技术点;
[0076] 步骤16:根据所述此项和所述词向量计算每个所述技术点的平均词向量;
[0077] 步骤17:从所述词项中选出最高频的T个词项作为专利关键词,用所述词向量计算每个所述专利关键词的平均词向量;
[0078] 步骤18:计算所述平均词向量额所述专利关键词的平均词向量的余弦相似度。
[0079] 在上述任一方案中优选的是,所述步骤12的实现方法为定义所述的专利文档的集合为C={C1,C2,...,Cn},对于所述的专利文档集合C中的任意一条专利Ci,利用一组关键词的空间向量来表示。
[0080] 在上述任一方案中优选的是,所述实现方法的过程为首先采用现有的分词系统对所述的所有专利文档进行中文分词,得到词项;然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词,其中停用词为没有实际含义的功能词。
[0081] 在上述任一方案中优选的是,所述步骤13的实现方法为根据上下文的词语预测当前词语的出现概率,学习目标是最大化对数似然函数,
[0082]
[0083] 其中,ω表示专利文档C中任意一个词,p表示概率,p(ω|Context(ω))表示在条件Context(ω)下的概率,Context表示的是该词的上下文。
[0084] 在上述任一方案中优选的是,每个词的所述词向量迭代公式如下:
[0085]
[0086] 其中,x表示上下文相加的词向量。η表示学习率,lω表示节点数量,θ表示求偏导数,xω表示输入层的输入。
[0087] 在上述任一方案中优选的是,所述步骤14还包括计算有连接的节点间的余弦相似度。
[0088] 在上述任一方案中优选的是,所述余弦相似度的计算公式为
[0089]
[0090] 其中xi、yi分别为两个词向量的第i个元素,n为词向量维度。
[0091] 在上述任一方案中优选的是,所述技术点的计算方法如下:
[0092] 步骤151:生成图G的邻接矩阵W,W为对称矩阵,对角线元素为0;
[0093] 步骤152:归一化生成拉普拉斯矩阵;
[0094] 步骤153:生成L的最小的k个特征值和对应的特征向量;
[0095] 步骤154:将特征向量的每一行作为一个样本点用k-means法聚类,得到簇划分。
[0096] 在上述任一方案中优选的是,所述拉普拉斯矩阵L=D-W满足
[0097]
[0098] 其中,D为对角矩阵,其对角线元素di为W行或列元素的和,Lij为L中元素,ωij为W中元。
[0099] 在上述任一方案中优选的是,所述集群生成模块的工作以下子步骤:
[0100] 步骤21:统计两两技术点的共有专利个数;
[0101] 步骤22:以所述技术点为点,所述共有专利个数为边,生成复杂网络;
[0102] 步骤23:生成技术集群。
[0103] 在上述任一方案中优选的是,所述专利评价模块的工作包括以下子步骤:
[0104] 步骤31:集群内的每个专利文本分词并去停止词;
[0105] 步骤32:生成每个专利的词向量;
[0106] 步骤33:使用所述余弦相似度计算集群内专利两两相似度;
[0107] 步骤34:以专利为点,所述相似度为边,生成复杂网络;
[0108] 步骤35:计算每个专利的TextRank值。
[0109] 在上述任一方案中优选的是,所述步骤32包括以下子步骤:
[0110] 步骤321:生成每个专利的词项;
[0111] 步骤322:汇总所述词项,计算每个词项的词向量;
[0112] 步骤323:将专利文档的id一同引入训练语料中输入进行训练。
[0113] 在上述任一方案中优选的是,所述训练的方法包括:
[0114] 步骤A:将每个所述专利文档id和所有所述词项初始化一个K维的向量;
[0115] 步骤B:将所述K维的向量和所述词向量输入模型,隐层将这些向量累加得到中间向量,作为输出层softmax的输入。
[0116] 在上述任一方案中优选的是,所述训练的公式为
[0117] ft=σg(Wfxt+Ufht-1+bf)
[0118] it=σg(Wixt+Uiht-1+bi)
[0119] ot=σg(Woxt+Uoht-1+bo)
[0120]
[0121]
[0122] 其中,f表示遗忘的激活矢量,σg为sigmoid函数,W、U和b为训练期间需要学习的权重矩阵和偏差矢量参数,x为LSTM单元的输入向量,t表示……,h表示LSTM单元的输出向量,i表示输入门的激活向量,o表示输出门的激活向量,c表示细胞状态向量,σc和σh为双曲正切函数。
[0123] 在上述任一方案中优选的是,所述TextRank值的迭代公式为
[0124]
[0125] 其中,Vi和Vj表示某个专利,WS(Vi)表示专利Vi的TR值,d表示阻尼系数,In(Vi)表示指向专利Vi的专利的集合,Out(Vj)表示专利Vj指向的专利的集合,WS(Vj)表示专利Vj的TR值。
[0126] 本发明提出了一种专利评价方法和系统,将专利与全球同行业技术进行对比,能够客观评价专利技术的深度与广度,预测专利的预期寿命,判断研发人员实等。附图说明
[0127] 图1为按照本发明的专利评价方法的一优选实施例流程图
[0128] 图1A为按照本发明的专利评价方法的如图1所示实施例的技术点生成方法流程图。
[0129] 图1B为按照本发明的专利评价方法的如图1所示实施例的技术点计算方法流程图。
[0130] 图1C为按照本发明的专利评价方法的如图1所示实施例的技术集群生成方法流程图。
[0131] 图1D为按照本发明的专利评价方法的如图1所示实施例的专利评价方法流程图。
[0132] 图1E为按照本发明的专利评价方法的如图1所示实施例的专利词向量生成方法流程图。
[0133] 图2为按照本发明的专利评价系统的一优选实施例的模块图。
[0134] 图3为按照本发明的专利评价方法的另一优选实施例的流程图。

具体实施方式

[0135] 下面结合附图和具体的实施例对本发明做进一步的阐述。
[0136] 实施例一
[0137] 如图1、2所示,执行步骤100,采集模块200进行专利文档采集。
[0138] 执行步骤110,技术点生成模块210生成技术点及专利所属技术点。如图1A所示,执行步骤1110,构建专利文档集合。执行步骤1120,生成每个专利的词项,定义所述的专利文档的集合为C={C1,C2,...,Cn},对于所述的专利文档集合C中的任意一条专利Ci,利用一组关键词的空间向量来表示。首先采用现有的分词系统对所述的所有专利文档进行中文分词,得到词项;然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词,其中停用词为没有实际含义的功能词。执行步骤1130,汇总所述词项并计算每个所述词项的词向量,根据上下文的词语预测当前词语的出现概率,学习目标是最大化对数似然函数,[0139]
[0140] 其中,ω表示专利文档C中任意一个词,p表示概率,p(ω|Context(ω))表示在条件Context(ω)下的概率,Context表示的是该词的上下文。每个词的所述词向量迭代公式如下:
[0141]
[0142] 其中,x表示上下文相加的词向量。η表示学习率,lω表示节点数量,θ表示求偏导数,xω表示输入层的输入。执行步骤1140,根据所述词向量确定已有知识图谱中节点的词向量,并计算有连接的词向量之间的相似度,生成无向有权图G,计算有连接的节点间的余弦相似度。余弦相似度的计算公式为
[0143]
[0144] 其中xi、yi分别为两个词向量的第i个元素,n为词向量维度。执行步骤1150,根据无向有权图G利用谱聚类生成集群,即技术点。如图1B所示,技术点的计算方法为:执行步骤1151,生成图G的邻接矩阵W,W为对称矩阵,对角线元素为0。执行步骤1152,归一化生成拉普拉斯矩阵;拉普拉斯矩阵L=D-W满足
[0145]
[0146] 其中,D为对角矩阵,其对角线元素di为W行或列元素的和,Lij为L中元素,ωij为W中元素。执行步骤1153,生成L的最小的k个特征值和对应的特征向量。执行步骤1154,将特征向量的每一行作为一个样本点用k-means法聚类,得到簇划分。执行步骤1160,根据所述此项和所述词向量计算每个所述技术点的平均词向量。执行步骤1170,从所述词项中选出最高频的T个词项作为专利关键词,用所述词向量计算每个所述专利关键词的平均词向量。执行步骤1180,计算所述平均词向量额所述专利关键词的平均词向量的余弦相似度。
[0147] 执行步骤120,集群生成模块220生成技术集群及专利所属集群。如图1C所示,执行步骤1210,统计两两技术点的共有专利个数。执行步骤1220,以所述技术点为点,所述共有专利个数为边,生成复杂网络。执行步骤1230,生成技术集群。在步骤120中,,与步骤110中相同的方法不再单独论述。
[0148] 执行步骤130,专利评价模块230在每个所述技术集群内进行专利评价。如图1D所示,执行步骤1310,集群内的每个专利文本分词并去停止词。如图1E所示,执行步骤1321,生成每个专利的词项。执行步骤1322,汇总所述词项,计算每个词项的词向量。执行步骤1323,将专利文档的id一同引入训练语料中输入进行训练。训练的方法包括:步骤A:将每个所述专利文档id和所有所述词项初始化一个K维的向量;步骤B:将所述K维的向量和所述词向量输入模型,隐层将这些向量累加得到中间向量,作为输出层softmax的输入。训练的公式为[0149] ft=σg(Wfxt+Ufht-1+bf)
[0150] it=σg(Wixt+Uiht-1+bi)
[0151] ot=σg(Woxt+Uoht-1+bo)
[0152]
[0153]
[0154] 其中,f表示遗忘的激活矢量,σg为sigmoid函数,W、U和b为训练期间需要学习的权重矩阵和偏差矢量参数,x为LSTM单元的输入向量,t表示时间步,即一句话里的每个词,h表示LSTM单元的输出向量,i表示输入门的激活向量,o表示输出门的激活向量,c表示细胞状态向量,σc和σh为双曲正切函数。执行步骤1320,生成每个专利的词向量。执行步骤1330,使用所述余弦相似度计算集群内专利两两相似度。执行步骤1340,以专利为点,所述相似度为边,生成复杂网络。执行步骤1350,计算每个专利的TextRank值。TextRank值的迭代公式为[0155]
[0156] 其中,Vi和Vj表示某个专利,WS(Vi)表示专利Vi的TR值,d表示阻尼系数,In(Vi)表示指向专利Vi的专利的集合,Out(Vj)表示专利Vj指向的专利的集合,WS(Vj)表示专利Vj的TR值。在步骤130中,与步骤110中相同的方法不再单独论述。
[0157] 实施例二
[0158] 本发明的优点在于:
[0159] 1、摆脱了对专家评价样本的依赖,效率更高、成本更低。
[0160] 2、对专利信息的挖掘,从数量统计上升到文字中蕴含的信息,而专利技术属性的信息大部分以文本形式表达,信息来源更接近专利本质。
[0161] 3、通过技术集群将技术相近的专利放到一起评价,一方面减少不必要的计算,另一方面更容易挖掘出技术相对于近似技术的优劣。
[0162] 如图3所示,第一步、生成技术点及专利所属技术点。
[0163] 步骤1:专利文档采集,构建专利文档集合;
[0164] 步骤2:生成每个专利的词,具体实现方法为:定义所述的专利文档的集合为C={c1,c2,...,cn},对于所述的专利文档集合C中的任意一条专利ci,利用一组关键词的空间向量来表示;其过程为,首先采用现有的分词系统对所述的所有专利文档进行中文分词,得到词项;然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词,其中停用词为没有实际含义的功能词;
[0165] 步骤3:将步骤2中生成的词项汇总,计算每个词项的词向量,具体实现方法为word2vec的CBOW法,根据上下文的词语预测当前词语的出现概率。
[0166] 其学习目标是最大化对数似然函数:
[0167]
[0168] 其中,ω表示专利文档C中任意一个词,p表示概率,p(ω|Context(ω))表示在条件Context(ω)下的概率,Context表示的是该词的上下文。
[0169] 使用Hierarchical Softmax方法,每个词的词向量迭代方式如下:
[0170]
[0171] 其中,x表示上下文相加的词向量。η表示学习率,lω表示节点数量,θ表示求偏导数,xω表示输入层的输入。
[0172] 步骤4:用步骤3中计算得出的词向量,确定公司已有知识图谱(词为节点)中节点的词向量(如出现步骤2中没有出现的词就删掉该节点),计算有连接的节点间的余弦相似度,其计算公式为
[0173]
[0174] 其中xi、yi分别为两个词向量的第i个元素,n为词向量维度。
[0175] 步骤5:用步骤4中生成的无向有权图G,利用谱聚类生成集群(点的组合),即技术点。计算方法如下:
[0176] 1、生成图G的邻接矩阵W,W为对称矩阵,对角线元素为0;
[0177] 2、归一化生成普拉斯矩阵;拉普拉斯矩阵L=D-W,满足:
[0178]
[0179] 其中,D为对角矩阵,其对角线元素di为W行或列元素的和,Lij为L中元素,ωij为W中元素。
[0180] 3、生成L的最小的k个特征值和对应的特征向量;
[0181] 4、将特征向量的每一行作为一个样本点用k-means法聚类,得到簇划分。
[0182] 步骤6:用步骤5所得技术点的词和步骤3所得词向量,求得每个技术点的词向量的均值。
[0183] 步骤7:从步骤2中生成的每个专利的词项中选出最高频的词项5个最为专利关键词;用步骤3中得出的词向量,计算每个专利关键词的词向量的均值。
[0184] 步骤8:计算步骤6中所得技术点的平均词向量和步骤7中所得专利的平均词向量的余弦相似度,用超过阈值的组合确定专利所属技术点。
[0185] 第二步、生成技术集群及专利所属集群
[0186] 步骤1:统计两两技术点的共有专利个数;
[0187] 步骤2:以所述技术点为点,所述共有专利个数为边,生成复杂网络;
[0188] 步骤3:生成技术集群。
[0189] 第三步、在每个技术集群内进行专利评价。
[0190] 步骤1:集群内的每个专利文本分词并去停止词;
[0191] 步骤2:生成每个专利的词向量;
[0192] 步骤3:使用所述余弦相似度计算集群内专利两两相似度;
[0193] 步骤4:以专利为点,所述相似度为边,生成复杂网络;
[0194] 步骤5:计算每个专利的TextRank值。
[0195] Doc2vec:
[0196] 使用Distributed Memory version of Paragraph Vector(PV-DM)方法,试图在给定上下文和段落向量的情况下预测单词的概率。
[0197] 训练方法同第一步-步骤3的CBOW类似,使用第一步-步骤2中得到的词和第一步-步骤3中得到的向量,然后将专利文档的id一同引入训练语料中输入进行训练。首先将每个文档ID和第一步-步骤2中得到的所有词初始化一个K维的向量,然后将文档向量和第一步-步骤3中得到的向量输入模型,隐层将这些向量累加得到中间向量,作为输出层softmax的输入。
[0198] Doc2vec也可以用LSTM的后向传播代替,公式为
[0199] ft=σg(Wfxt+Ufht-1+bf)
[0200] it=σg(Wixt+Uiht-1+bi)
[0201] ot=σg(Woxt+Uoht-1+bo)
[0202]
[0203]
[0204] 其中,f表示遗忘的激活矢量,σg为sigmoid函数,W、U和b为训练期间需要学习的权重矩阵和偏差矢量参数,x为LSTM单元的输入向量,t表示时间步,h表示LSTM单元的输出向量,i表示输入门的激活向量,o表示输出门的激活向量,c表示细胞状态向量,σc和σh为双曲正切函数。
[0205] TextRank(TR):
[0206] 迭代公式如下:
[0207]
[0208] 其中,Vi和Vj表示某个专利,WS(Vi)表示专利Vi的TR值,d表示阻尼系数,In(Vi)表示指向专利Vi的专利的集合,Out(Vj)表示专利Vj指向的专利的集合,WS(Vj)表示专利Vj的TR值。
[0209] 为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈