首页 / 专利库 / 专利权 / 申请 / 国际申请 / 请求书 / 保护类型 / 专利 / 一种专利文献聚类方法

一种专利文献聚类方法

阅读:567发布:2020-05-13

专利汇可以提供一种专利文献聚类方法专利检索,专利查询,专利分析的服务。并且一种 专利 文献聚类方法,包括以下步骤:S1、语料集采集及预处理;S2、 聚类分析 语料的特征词提取;S3、基于词向量的聚类分析数据专利向量表示;S4、聚类;S5、聚类结果评价。本 发明 的专利文献聚类方法综合考虑了专利文献的标题和 摘要 信息,通过将专利摘要信息从不同 角 度进行利用,考虑专利摘要文本的整体信息,同时考虑专利摘要中属性和属性值的信息,充分挖掘了专利文本摘要中隐含的语义信息;充分利用大规模语料中隐藏的信息,利用大规模的语料进行特征训练,将词语表示成低纬度的向量形式,避免了维灾难的同时更好地提取了文本中的信息;设置不同的权重,将标题、摘要和摘要的属性值对三种形式的数据进行融合,得到很好的专利聚类效果。,下面是一种专利文献聚类方法专利的具体信息内容。

1.一种专利文献聚类方法,其特征在于,包括以下步骤:
S1、语料集采集及预处理:
a1、语料集采集:选定预定领域,从专利文献数据库中按照专利IPC分类号在每个类别中采集专利文献信息组成语料集,所述专利文献信息包括专利文献的专利标题、IPC分类号和专利摘要;从所述语料集中提取所有专利文献的专利摘要并存储为词向量训练语料集;
从语料集中提取部分专利文献的专利摘要并存储为属性和属性值模型训练语料集;从语料集中提取部分专利文献的专利标题、专利摘要和IPC分类号并存储为聚类分析语料集;从聚类分析语料集中抽取所有专利摘要并将其分成两个部分,一部分作为聚类分析摘要集,另一部分作为聚类分析属性和属性值抽取集;从聚类分析语料集中抽取所有专利标题并存储为聚类分析标题集;
a2、分词处理及标注:采用分词模型对词向量训练语料集、聚类分析标题集、聚类分析摘要集、属性和属性值模型训练语料集、聚类分析属性和属性值抽取集进行分词处理分别得到相对应的词向量训练词语集、聚类分析标题词语集、聚类分析摘要词语集、属性和属性值模型训练词语集、聚类分析属性和属性值抽取词语集,同时对属性和属性值模型训练词语集、聚类分析属性和属性值抽取词语集进行词性标注及属性标注;所述属性标注以属性和属性值组成的数据组的形式进行标注;
S2、聚类分析语料的特征词提取:对步骤S1中得到的与聚类分析摘要集相对应的聚类分析摘要词语集,统计聚类分析摘要词语集中每个词语在聚类分析摘要集的每篇摘要中出现的频率和聚类分析摘要集中包含该词语的专利摘要的数量,计算每个词语的TFIDF值:
其中,N为聚类分析摘要集的语料总数,nk,i为第k个词语在聚类分析摘要集中的第i篇专利摘要中出现的次数,nk为聚类分析摘要集中包含第k个词语的专利摘要的数量;预设阈值,对于与聚类分析摘要集的每条专利摘要所对应的聚类分析摘要词语集中的词语将TFIDF值大于阈值的词语作为该专利摘要的特征词,每条专利摘要的特征词组成聚类分析摘要特征词集合;遍历步骤S1得到的聚类分析标题词语集,对于每一条专利标题,将属于聚类分析摘要特征词集合中的词语提取并保存为聚类分析专利标题特征词集;
S3、基于词向量的聚类分析数据专利向量表示:
包括如下步骤:
b1、获取词向量:利用词向量技术,得到所述词向量训练词语集中每个词语的词向量;
b2、属性和属性值抽取:将属性和属性值作为命名实体,利用序列标注技术,通过步骤a2得到的经过属性标注后的属性和属性值模型训练词语集所对应的属性和属性值模型训练语料集训练得到条件随机场模型,并将训练得到的条件随机场模型应用于聚类分析属性和属性值抽取集,完成对聚类分析属性和属性值抽取集中的每个专利摘要的标签预测;对于经过标签预测的聚类分析属性和属性值抽取集,提取聚类分析属性和属性值抽取集中的每一篇专利摘要中被赋予标签的词语,并将上述词语保存为聚类分析摘要属性和属性值集;
b3、专利摘要属性和属性值的向量表示:利用词向量技术将步骤b2得到的聚类分析摘要属性和属性值集中词语表示为词向量形式,将每篇专利摘要中属于聚类分析摘要属性和属性值集中的词向量进行线性加和作为该专利摘要属性和属性值的向量表示;
b4、专利标题的向量表示:利用步骤b1,将聚类分析标题集中包含的专利标题特征词替换成对应的词向量;将聚类分析标题集中每一条专利标题所对应的所有专利标题特征词的词向量进行线性相加,得到该条专利标题的向量表示;
b5、专利摘要文本的向量表示:利用步骤b4的方法得到专利摘要文本的向量表示;
b6、加权融合:将步骤b3-b5得到专利摘要属性和属性值的向量表示、专利标题的向量表示和专利摘要文本的向量表示进行加权线性求和,求和之后得到的和向量即为聚类分析数据专利向量表示;
S4、聚类:针对步骤S3得到的聚类分析数据专利向量,利用聚类分析法通过计算聚类分析数据专利向量之间的相似度完成初次聚类;再结合具体的阈值,对初始聚类结果进行不断调整,最后得到聚类分析数据中专利的聚类结果;
S5、聚类结果评价:根据预设的评价指标对聚类结果进行评价。
2.根据权利要求1所述的一种专利文献聚类方法,其特征在于,步骤S1中抽取属性和属性值模型训练语料集和聚类分析语料集的方法为:按照专利IPC分类号在语料集每个类别中分别抽取相同数量的专利摘要组成属性和属性值模型训练语料集;按照专利IPC分类号在语料集每个类别中分别抽取相同数量的专利标题、专利摘要和IPC分类号组成聚类分析语料集。
3.根据权利要求1所述的一种专利文献聚类方法,其特征在于,所述词向量训练语料集、属性和属性值模型训练语料集和聚类分析语料集中的专利文献信息以分行形式进行存储,其中每行专利文献信息对应一篇专利文献。
4.根据权利要求1所述的一种专利文献聚类方法,其特征在于,所述属性标注的具体方法为:设定标注标签集合{属性的开始部分,属性的中间部分,属性的结束部分,属性值的开始部分,属性值的中间部分,属性值的结束部分,其他},对于完成词性标注后的属性和属性值模型训练词语集,判断完成词性标注后的属性和属性值模型训练词语集中每个词在标注标签集合中的对应属性标签,并标记为相应的标签,而将无法在标注标签中对应的词标记为{其他};将完成词性标注的聚类分析属性和属性值抽取词语集中的词语均标注为{其他}。
5.根据权利要求1所述的一种专利文献聚类方法,其特征在于,分词处理的方法采用隐尔科夫模型。
6.根据权利要求1所述的一种专利文献聚类方法,其特征在于,步骤S4中的聚类方法包括如下步骤:
c1、选定k个专利文献作为聚类中心;
c2、计算其他专利文献与所述聚类中心的距离,比较得到距离最近的中心i,将所述其他专利文献标记为类别i,得到多个类簇;
c3、选定k个类簇并计算该k个类簇的中心,求出每个类簇的平均值,得到新的聚类中心;
c4、重复步骤c2-c3,直到两次中心的差异度小于预设阈值。
7.根据权利要求1所述的一种专利文献聚类方法,其特征在于,步骤S5中,预设的评价指标包括聚类结果的准确率、召回率和F值。

说明书全文

一种专利文献聚类方法

技术领域

[0001] 本发明涉及一种专利文献语料的聚类方法,尤其是一种专利文献聚类方法。

背景技术

[0002] 当下经济环境中,专利对于提升企业价值的作用愈来愈重要。通过申请专利可以保护企业的知识产权,进而保护企业的核心竞争。目前学者们已经进行针对专利文献进行了很多研究,如对专利摘要的标注,对专利关键技术的抽取,对专利进行聚类分析等。
[0003] 近年来,在数据挖掘领域中,对文本聚类的研究取得了很多成果。其中很多方法均以将文档表示成向量形式为基础,利用聚类算法对文档进行聚类分析。专利文献中包含大量非结构的信息形式,因此可以将聚类应用于专利分析。目前,已经有很多关于专利聚类分析的研究,如基于词向量的专利聚类分析,基于技术功效矩阵的聚类分析等。目前,基于词向量的专利聚类研究,主要是将关键词的文档和词频信息加入到文档向量表示中。这种特征表示形式容易造成维灾难,应用与降维的方法有设置阈值和矩阵分解,常用的矩阵分解方法有奇异值分解和非负矩阵分解。这些方法虽然可以达到降维的目的,却还是没有将特征词上下文信息加入。深度学习可以被应用到文本的向量表示,该方法在降维的同时将文本上下文信息加入到文档向量中,可以很好地提升文档向量包含的信息。
[0004] 目前对专利文本聚类的研究中,大部分是对专利摘要的文本进行研究,这些研究都取得了不错的效果。选择一种聚类因素进行专利聚类分析,可能对专利分析不够全面。另一方面,仅使用同一种形式的语料进行聚类融合,可能会遗漏很多隐含信息。

发明内容

[0005] 本发明的目的是提供一种充分挖掘专利文本摘要中隐含的语义信息、充分利用大规模语料中隐藏信息的专利文献聚类方法。
[0006] 本发明解决现有技术问题所采用的技术方案:一种专利文献聚类方法,包括以下步骤:
[0007] S1、语料集采集及预处理:
[0008] a1、语料集采集:选定预定领域,从专利文献数据库中按照专利IPC分类号在每个类别中采集专利文献信息组成语料集,所述专利文献信息包括专利文献的专利标题、IPC分类号和专利摘要;从所述语料集中提取所有专利文献的专利摘要并存储为词向量训练语料集;从语料集中提取部分专利文献的专利摘要并存储为属性和属性值模型训练语料集;从语料集中提取部分专利文献的专利标题、专利摘要和IPC分类号并存储为聚类分析语料集;从聚类分析语料集中抽取所有专利摘要并将其分成两个部分,一部分作为聚类分析摘要集,另一部分作为聚类分析属性和属性值抽取集;从聚类分析语料集中抽取所有专利标题并存储为聚类分析标题集;
[0009] a2、分词处理及标注:采用分词模型对词向量训练语料集、聚类分析标题集、聚类分析摘要集、属性和属性值模型训练语料集、聚类分析属性和属性值抽取集进行分词处理分别得到相对应的词向量训练词语集、聚类分析标题词语集、聚类分析摘要词语集、属性和属性值模型训练词语集、聚类分析属性和属性值抽取词语集,同时对属性和属性值模型训练词语集、聚类分析属性和属性值抽取词语集进行词性标注及属性标注;所述属性标注以属性和属性值组成的数据组的形式进行标注;
[0010] S2、聚类分析语料的特征词提取:对步骤S1中得到的与聚类分析摘要集相 对应的聚类分析摘要词语集,统计聚类分析摘要词语集中每个词语在聚类分析摘要集的每篇摘要中出现的频率和聚类分析摘要集中包含该词语的专利摘要的数量,计算每个词语的TFIDF值:
[0011]
[0012] 其中,N为聚类分析摘要集的语料总数,nk,i为第k个词语在聚类分析摘要集中的第i篇专利摘要中出现的次数,nk为聚类分析摘要集中包含第k个词语的专利摘要的数量;预设阈值,对于与聚类分析摘要集的每条专利摘要所对应的聚类分析摘要词语集中的词语将TFIDF值大于阈值的词语作为该专利摘要的特征词,每条专利摘要的特征词组成聚类分析摘要特征词集合;遍历步骤S1得到的聚类分析标题词语集,对于每一条专利标题,将属于聚类分析摘要特征词集合中的词语提取并保存为聚类分析专利标题特征词集;
[0013] S3、基于词向量的聚类分析数据专利向量表示:
[0014] 包括如下步骤:
[0015] b1、获取词向量:利用词向量技术,得到所述词向量训练词语集中每个词语的词向量;
[0016] b2、属性和属性值抽取:将属性和属性值作为命名实体,利用序列标注技术,通过步骤a2得到的经过属性标注后的属性和属性值模型训练词语集所对应的属性和属性值模型训练语料集训练得到条件随机场模型,并将训练得到的条件随机场模型应用于聚类分析属性和属性值抽取集,完成对聚类分析属性和属性值抽取集中的每个专利摘要的标签预测;对于经过标签预测的聚类分析属性 和属性值抽取集,提取聚类分析属性和属性值抽取集中的每一篇专利摘要中被赋予标签的词语,并将上述词语保存为聚类分析摘要属性和属性值集;
[0017] b3、专利摘要属性和属性值的向量表示:利用词向量技术将步骤b2得到的聚类分析摘要属性和属性值集中词语表示为词向量形式,将每篇专利摘要中属于聚类分析摘要属性和属性值集中的词向量进行线性加和作为该专利摘要属性和属性值的向量表示;
[0018] b4、专利标题的向量表示:利用步骤b1,将聚类分析标题集中包含的专利标题特征词替换成对应的词向量;将聚类分析标题集中每一条专利标题所对应的所有专利标题特征词的词向量进行线性相加,得到该条专利标题的向量表示;
[0019] b5、专利摘要文本的向量表示:利用步骤b4的方法得到专利摘要文本的向量表示;
[0020] b6、加权融合:将步骤b3-b5得到专利摘要属性和属性值的向量表示、专利标题的向量表示和专利摘要文本的向量表示进行加权线性求和,求和之后得到的和向量即为聚类分析数据专利向量表示;
[0021] S4、聚类:针对步骤S3得到的聚类分析数据专利向量,利用聚类分析法通过计算聚类分析数据专利向量之间的相似度完成初次聚类;再结合具体的阈值,对初始聚类结果进行不断调整,最后得到聚类分析数据中专利的聚类结果;
[0022] S5、聚类结果评价:根据预设的评价指标对聚类结果进行评价。
[0023] 步骤S1中抽取属性和属性值模型训练语料集和聚类分析语料集的方法为:按照专利IPC分类号在语料集每个类别中分别抽取相同数量的专利摘要组成属性和属性值模型训练语料集;按照专利IPC分类号在语料集每个类别中分别抽取相同数量的专利标题、专利摘要和IPC分类号组成聚类分析语料集。
[0024] 所述词向量训练语料集、属性和属性值模型训练语料集和聚类分析语料集 中的专利文献信息以分行形式进行存储,其中每行专利文献信息对应一篇专利文献。
[0025] 所述属性标注的具体方法为:设定标注标签集合{属性的开始部分,属性的中间部分,属性的结束部分,属性值的开始部分,属性值的中间部分,属性值的结束部分,其他},对于完成词性标注后的属性和属性值模型训练词语集,判断完成词性标注后的属性和属性值模型训练词语集中每个词在标注标签集合中的对应属性标签,并标记为相应的标签,而将无法在标注标签中对应的词标记为{其他};将完成词性标注的聚类分析属性和属性值抽取词语集中的词语均标注为{其他}。
[0026] 分词处理的方法采用隐尔科夫模型。
[0027] 步骤S4中的聚类方法包括如下步骤:
[0028] c1、选定k个专利文献作为聚类中心;
[0029] c2、计算其他专利文献与所述聚类中心的距离,比较得到距离最近的中心i,将所述其他专利文献标记为类别i,得到多个类簇;
[0030] c3、选定k个类簇并计算该k个类簇的中心,求出每个类簇的平均值,得到新的聚类中心;
[0031] c4、重复步骤c2-c3,直到两次中心的差异度小于预设阈值。
[0032] 步骤S5中,预设的评价指标包括聚类结果的准确率、召回率和F值。
[0033] 本发明的有益效果在于:本发明的专利文献聚类方法综合考虑了专利文献的标题和摘要信息,取得很好的专利聚类效果;通过将专利摘要信息从不同度进行利用,考虑专利摘要文本的整体信息,同时考虑专利摘要中属性和属性值的信息,充分挖掘了专利文本摘要中隐含的语义信息;充分利用大规模语料中隐藏的信息,利用大规模的语料进行特征训练,将词语表示成低纬度的向量 形式,避免了维灾难的同时更好地提取了文本中的信息;设置不同的权重,将标题、摘要和摘要的属性值对三种形式的数据进行融合,得到很好的专利聚类效果;在相同的语料上,本发明的聚类结果的准确率、召回率和F值分别是0.5912、0.4656和0.5208,对比实验准确率、召回率和F值分别是0.5208,0.1859,0.2739。
附图说明
[0034] 图1为本发明的逻辑原理图。

具体实施方式

[0035] 以下结合附图及具体实施例对本发明进行说明:
[0036] 实施例
[0037] S1、语料集采集及预处理:
[0038] a1、语料集采集:
[0039] 选定汽车领域,从“国家知识产权局专利数据库”中利用爬虫技术按照专利IPC分类号A-H八个类别在每个类别中爬取专利文献信息组成语料集。专利文献信息包含专利标题、IPC分类号和专利摘要;抽取语料集中所有专利文献的专利摘要存储为词向量训练语料集;抽取语料集中1000篇专利文献的专利摘要存储为属性和属性值模型训练语料集,属性和属性值模型训练语料集中包含A-H八个类别的专利摘要且每一个类别的抽取125篇专利摘要;从语料集中抽取640篇专利文献的专利标题、专利摘要和IPC分类号并存储为聚类分析语料集,同样的,所抽取的聚类分析语料集中包含A-H八个类别的专利文献信息,且每一个类别中抽取80篇专利文献的专利标题、专利摘要和IPC分类号;从聚类分析语料集抽取所有的专利摘要将其分成两个部分,一部分作为聚类分析摘要集,另一部分作为聚类分析属性和属性值抽取集;聚类分析语料集中抽取所有专利 标题并存储为聚类分析标题集;为了便于数据处理,词向量训练语料集、属性和属性值模型训练语料集、聚类分析语料集及聚类分析标题集中的专利文献信息以分行形式进行存储,其中每行专利文献信息对应一篇专利文献。即每一行数据对应一篇专利文献的专利摘要;聚类分析标题集中每一行数据对应一篇专利的标题,聚类分析语料集中的每一行数据对应一篇专利的标题、IPC分类号和摘要;
[0040] a2、分词处理及标注:采用隐马尔科夫模型对词向量训练语料集、聚类分析标题集、聚类分析摘要集、属性和属性值模型训练语料集、聚类分析属性和属性值抽取集进行分词处理,分别得到相对应的词向量训练词语集、聚类分析标题词语集、聚类分析摘要词语集、属性和属性值模型训练词语集、聚类分析属性和属性值抽取词语集,同时对属性和属性值模型训练词语集、聚类分析属性和属性值抽取词语集进行词性标注及属性标注;所述属性标注以属性和属性值组成的数据组的形式进行标注;
[0041] 其中,属性标注的具体方法为:对于完成词性标注后的属性和属性值模型训练词语集,设定标注标签集合为{B-A,M-A,E-A,B-V,M-V,E-V,O},分别表示{属性的开始部分,属性的中间部分,属性的结束部分,属性值的开始部分,属性值的中间部分,属性值的结束部分,其他},判断完成词性标注后的属性和属性值模型训练词语集中每个词在标注标签集合中的对应属性标签,并标记为相应的标签,而将无法在标注标签中对应的词标记为{其他}(即标签“O”);将完成词性标注的聚类分析属性和属性值抽取词语集中的词语均标注为{其他}(即标签“O”);将属性标记完成的属性和属性值模型训练词语集和聚类分析属性和属性值抽取词语集进行处理,使得处理后性和属性值模型训练词语集和聚类分析属性和属性值抽取词语集的每一行只包含一个词、该词的词性和标签,彼此之 间用“\t”(Tab键)分开,同时数据文件中的每一篇专利摘要的数据之间用空行隔开。
[0042] S2、聚类分析语料的特征词提取:对步骤S1中得到的与聚类分析摘要集相对应的聚类分析摘要词语集,统计聚类分析摘要词语集中每个词语在聚类分析摘要集的每篇摘要中出现的频率和聚类分析摘要集中包含该词语的专利摘要的数量,计算每个词语的TFIDF值:
[0043]
[0044] N为聚类分析摘要集的语料总数,nk,i为第k个词语在聚类分析摘要集中的第i篇专利摘要中出现的次数,nk为聚类分析摘要集中包含第k个词语的专利摘要的数量;预设阈值,对于与聚类分析摘要集的每条摘要所对应的聚类分析摘要词语集中的词语将TFIDF值大于阈值的词语作为该专利摘要的特征词,每条专利摘要的特征词组成聚类分析摘要特征词集合;遍历步骤S1得到的聚类分析标题词语集,对于每一条专利标题,将属于对应聚类分析摘要特征词集合中的词语提取并保存为聚类分析专利标题特征词集。
[0045] S3、基于词向量的聚类分析数据专利向量表示:
[0046] 包括如下步骤:
[0047] b1、获取词向量:利用词向量word2vec技术,得到所述词向量训练词语集中每个词语的词向量;词向量的维度是200。
[0048] b2、属性和属性值抽取:将属性和属性值作为命名实体,利用序列标注技术,通过步骤a2得到的经过属性标注后的属性和属性值模型训练词语集所对应 的属性和属性值模型训练语料集训练得到条件随机场模型,并将训练得到的条件随机场模型应用于聚类分析属性和属性值抽取集,完成对聚类分析属性和属性值抽取集中的每个专利摘要的标签预测;对于经过标签预测的聚类分析属性和属性值抽取集,提取聚类分析属性和属性值抽取集中的每一篇专利摘要中被赋予标签的词语,并将上述词语保存为聚类分析摘要属性和属性值集;聚类分析摘要属性和属性值集优选采取分行存储的方式,每行存储的数据表示一篇专利摘要的属性和属性值信息,并保证聚类分析摘要属性和属性值集中每行数据与聚类分析摘要集相对应,即聚类分析摘要属性和属性值集和聚类分析摘要集在相同的行号所对应的数据来自同一篇专利文献。
[0049] b3、专利摘要属性和属性值的向量表示:利用词向量技术将步骤b2得到的聚类分析摘要属性和属性值集中词语表示为词向量形式,即遍历聚类分析摘要属性和属性值集的每一行,在一行中从前往后逐次将每个词替换为对应的词向量形式,假如某个词没有对应的词向量,则忽略该词。然后将每篇专利摘要所对应的聚类分析摘要属性和属性值集中的词向量进行线性加和作为该专利摘要属性和属性值的向量表示;
[0050] b4、专利标题的向量表示:利用步骤b1,将聚类分析标题集中包含的专利标题特征词替换成对应的词向量;即遍历聚类分析标题集中的每一行,在一行中从前往后逐次将专利标题特征词替换成为对应的词向量,假如某个专利标题特征词没有对应的词向量,则忽略该特征词。然后将聚类分析标题集中每一条专利标题所对应的所有专利标题特征词的词向量进行线性相加,得到该条专利标题的向量表示;
[0051] b5、专利摘要文本的向量表示:利用步骤b4的方法得到专利摘要文本的向量表示;遍历S2得到的完成特征词提取的聚类分析摘要集,遍历每一行数据, 在一行中从前往后逐次将专利摘要的特征词替换成对应的词向量,假如某个专利摘要的特征词没有对应的词向量,则忽略该特征词;将每一篇摘要的所有词向量进行线性相加,每一篇摘要的和向量就是该篇摘要文本对应的向量。
[0052] b6、加权融合:将步骤b3-b5得到专利摘要属性和属性值的向量表示、专利标题的向量表示和专利摘要文本的向量表示进行加权线性求和,求和之后得到的和向量即为聚类分析数据专利向量表示;加权融合的方法如下:
[0053]
[0054]
[0055]
[0056] 其中, 为专利文档向量,为一种形式的文档向量,为特征词对应的词向量,wi为第i种信息形式对应文档向量的权重,qj第j个关键词在一篇文档中出现的次数,di表示关键词对应的实数向量的一个维度。
[0057] S4、聚类:针对步骤S3得到的聚类分析数据专利向量,利用聚类分析法通过计算聚类分析数据专利向量之间的相似度完成初次聚类;再结合具体的阈值,对初始聚类结果进行不断调整,最后得到聚类分析数据中专利的聚类结果;
[0058] 聚类算法的思想是,从实验语料数据中选择k个文档向量作为中心,k为预定义的聚类最终产生的类簇个数;分别计算实验语料数据中其他文档向量与这k个中心的相似度,将实验语料数据中的所述其他文档向量划分到最相近的中心所在的类簇;重新选定k个类簇计算每个类簇的中心,计算方法是计算每个类 簇的平均值,将平均值作为聚类中心;一直重复进行中心选择和类簇划分,一直到开始收敛。这里我们选择标准差作为测度函数,但不限于标准差。
[0059] 具体地,聚类方法包括如下步骤:
[0060] c1、选定k个专利文献作为聚类中心;
[0061] c2、计算其他专利文献与所述聚类中心的距离,比较得到距离最近的中心i,将所述其他专利文献标记为类别i,得到多个类簇;
[0062] c3、选定k个类簇并计算该k个类簇的中心,求出每个类簇的平均值,得到新的聚类中心;
[0063] c4、重复步骤c2-c3,直到两次中心的差异度小于预设阈值。
[0064] S5、聚类结果评价:根据步骤S4,聚类分析数据被聚成k个类别,根据聚类结果的准确率、召回率和F值对聚类结果进行评价。
[0065] 其中,聚类结果的准确率通过如下公式获得:
[0066]
[0067] P(ci)=max{P(f1,ci),P(f2,ci),...,P(fj,ci),...,P(fk,ci)}
[0068]
[0069] 其中,P为聚类结果的准确率,P(ci)为第i个类簇的准确率,分别计算k个类别在类簇i中的准确率,选择最大的准确率作为类簇i的准确率; 为类簇i和类别k中相同的专利的个数, 为类簇i中专利的个数;
[0070] 聚类结果的召回率通过如下公式获得:
[0071]
[0072] R(ci)=max{R(f1,ci),R(f2,ci),...,R(fj,ci),...,R(fk,ci)}
[0073]
[0074] 其中,R为聚类结果的召回率,R(ci)为第i个类簇的召回率,分别计算k个类别在类簇i中的召回率,选择最大的召回率作为类簇i的召回率; 为类簇i和类别k中相同的专利的个数, 为类别k中专利的个数;
[0075] 聚类结果的F值通过如下公式获得:
[0076]
[0077] 实验结果如下:
[0078] 表1聚类结果评价
[0079]  对比实验 实验结果
准确率 0.5208 0.5912
召回率 0.1859 0.4656
F值 0.2739 0.5208
[0080] 通过分析表1,我们聚类结果较对比实验的实验结果均有所提高。实验结果证明本方法可以更好的实验专利数据的聚类。本实验效果提升的原因是,相比较对比实验选择奇异值分解的方法,本发明选择更好的基于深度学习的词向量 表示形式;对比实验只考虑了专利摘要的信息,本发明将摘要信息通过两种形式进行表示,同时本文加入了专利标题信息。本发明选择与类别个数相同的类簇个数,对聚类中心的选择没有做特殊的预处理,这些因素使得本发明的聚类结果较对比实验的结果稍差。本发明考虑到对比实验选择110以上的类簇个数,类别标签还是选择了IPC分类号,这样的聚类结果可解释性稍差,本发明没有选择加到类簇个数来提升实验结果。
[0081] 以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈