技术领域
[0001] 本
发明属于计算机分析技术在专利文献的的应用,具体涉及一种利用专利说明书的专利分类方法。
背景技术
[0002] 专利是技术创新和企业价值的具体表现,是知识发展和创新的重要载体、成果和源泉之一,许多发明创造成果仅出现于专利文献中。据世界知识产权组织(WIPO)统计,世界上发明成果的70%~90%首先出现在专利文献中,而不是杂志、论文等其他载体的文献中。此外,为了保护自身的利益,企业会尽可能早的
申请专利,专利中往往集中了最为活跃和先进的技术,包含了世界上90%~95%的技术信息。同时为了审查的方便,专利文献往往撰写的比较详细,相对于其他类型的资料而言,专利文献能够提供更多的信息,是一种最常见的技术创新成果,记录着专利活动的完整过程。它不仅反映各个技术领域中技术活动的现状,而且能够体现某个特定技术领域中技术活动的发展历史。专利文献中含有每一件申请专利的发明创造的具体技术解决方案,对于企业创新具有非常重要的作用,不仅使企业可以了解最新科研动态,避免重复研究,节约研究时间和科研经费,同时还可启迪企业研究人员的创新思路,提高创新的起点,借鉴以往的发明,极大缩短科研工作进度。
[0003] 随着我国新研究成果和发明创造的不断涌现,专利数量呈现出快速的增长。截止2016 年10月5日,我国已公布的发明专利数已超过598万件,其中授权发明专利总数为
223.850 万件。如果每个专利的平均大小为2M,则专利数据的容量高达几百TB。为了科学地管理这些专利文献数据,同时也为了快速、方便地检索相关专利文献,专利文献的分类显得尤为重要。目前,世界上大多数国家均采用国际专利分类法IPC(International Patent Classification)来对专利文献进行分类,IPC按照五个等级分类,即部(Section)、大类(Class)、小类(Subclass)、主组(Main Grop)、分组(Grop),其中部是分类表中最高等级的分类层,按照领域不同,分为八个大部,用一位的英文字母标记,分别是A-H,每个部分下属设有多个大类,大类是由二位数字组成,每个部下面有不同数量的大类。例如:G06F21/00表示物理-电数字
数据处理-防止未授权行为的保护计算机、其部件、程序或数据的安全装置。
[0004] 由此可见,对于已或即将公布的发明专利而言,必须赋予一个或多个与之对应的分类号,如发明专利“一种关联规则挖掘中隐私数据的保护方法”的分类号为G06F21/00。对于即将提交的申请专利来讲,其分类号是未知并需要确定的,对此,目前常用的做法是根据专利描述对象的所属领域或专利内容来确定,需要依靠相关专家人工阅读申请书,随着专利申请量的急剧增加(每年的专利申请数已接近100万),此方法需要耗费大量的人
力和物力,而且专家自身知识的局限性也难以保证分类结果的一致性和准确性。为此,本发明提出了一种基于专利文献说明书的专利分类方法,该方法利用已公布发明专利说明书中的信息来构造分类器或分类函数,并以此来确定申请专利的类别,由此实现专利的自动分类。
发明内容
[0005] 本发明的目的在于针对现有专利分类方法不能充分有效地利用已公布发明专利中的说明书信息,提出一种基于专利文献说明书的专利分类方法,该方法将充分利用已公布发明专利所包含的说明书信息以及对应的类别来构造分类器或分类函数,以此来确定已提交申请专利的类别,并就构造过程中说明书的特征提取和选择、分类器的确定等方面提出了相应的优化解决方案。
[0006] 本发明采用的技术方案是:基于专利文献说明书的专利分类方法主要包括以下步骤:
[0007] (1)专利数据预处理
[0008] 专利样本数据的采集、样本IPC号、说明书的提取、中文分词、
词性标注。去掉说明书中符号、数字(说明书中存在大量的段落标号)。利用正则匹配过滤掉停用词、虚词、连接词等对专利分类用处不大的词语,仅保留名词、形容词、动词等关键词。
[0009] (2)构建倒排索引文件
[0010] 统计出每个词的词频、
位置信息、词性权重以及类间分布信息,利用这些统计值以及专利文本信息,构建倒排索引文件。
[0011] (3)专利文本特征选择
[0012] 利用信息增益和词频相结合的特征选择方法来计算步骤(2)中词语的特征值,对特征值排序,选择一定数量的特征词来表征专利文本。
[0013] 设Aij为包含特征词ti并且属于cj的文档数量,Bij为包含特征词ti并且类别不属于cj的文档数量,Cij为不包含特征词ti并且类别属于cj的文档数量,Dij为不包含特征词ti并且类别属于不cj的文档数量,则特征值的计算如式(1)所示。
[0014]
[0015] 其中,TF代表专利中词频对于专利特征选择的影响程度。设m为训练专利中类别总数, Nj表示cj类中的专利总数,TFjk表示特征词ti在cj类中专利Pk中的词频,则TF的计算如式 (2)所示。
[0016]
[0017] 式(1)中的IC代表特征词在类别间的分散程度,越分散说明该词越没有代表性,值也就越小。设TFj(ti)表示特征词ti在类cj中的频数,TF(ti)表示特征词ti的总频数, 表示特征词ti在所有类中出现的频数平均值,则计算如式(3)所示。
[0018]
[0019] (4)专利文本向量化
[0020] 本步骤把包括:
[0021] ①权重计算,计算如式(4)所示。
[0022]
[0023] 其中, 表示特征词t在文本 中出现的
频率,N表示全部专利样本集中所有专利的个数,n表示全部专利样本集中出现特征词t的专利个数,Ct表示特征词词性所对应的词性权重系数,Pt表示特征词的位置权重系数。
[0024] ②排序,根据权重降序排序,构造专利文本的空间模型向量Vi(wi1,wi2,...,win),以此来表示每个专利文本的内容。
[0026] 本步骤包括:
[0027] ①将各子组的类别描述并入所属主组的类别描述,进行分词、去停用词处理。
[0028] ②将每个主组的描述合并后进行特征选择,构造IPC小类层次的类别特征向量,向量表示为{VA01B1/00,VA01B3/00,...,VH99Z99/00}。其中,A01B1/00为IPC中第一个主组,H99Z99/00 为IPC中最后一个主组。
[0029] ③将同一个小类下的所有基本描述合并后进行特征选择,构造IPC大类层次的类别特征向量,向量表示为{VA01B,VA01C,...,VH99Z}。其中,A01B为IPC中第一个小类,H99Z是IPC 中最后一个小类。
[0030] ④将同一大类下的所有基本描述合并后进行特征选择,构造IPC部层次的类别特征向量,向量表示为{VA01,VA21,...,VH99}。其中,A01为IPC中第一个大类,H99Z是IPC中最后一个大类。
[0031] (6)构建专利样本邻域
[0032] 本步骤包括:
[0033] ①计算专利训练集中各专利之间的相似度。相似度可以通过计算向量间的夹
角余弦得到。设sim(di,dj)表示专利文本di与dj的相似度,则计算公式如式(5)所示。
[0034]
[0035] 其中,Wik和Wjk表示专利向量中对应特证词的权重,n表示向量的维数。
[0036] ②将di与其他所有专利样本dj的相似度按降序排序,选择前K个专利样本形成集合 Di,Di称作为专利di的邻域,K的值视具体情况而定。
[0037] (7)待分类专利相似度计算
[0038] 本步骤包括:
[0039] ①待分类专利进行说明书的提取、中文分词、词性标注、去停用词。
[0040] ②专利特征选择和向量化。
[0041] ③计算待分类专利Bj特征向量与各IPC类别特征向量的余弦相似度Sai。
[0042] ④计算待分类专利Bj与专利训练集中每个专利的余弦相似度Sbj。
[0043] ⑤将上述的训练专利按相似度值Sbj降序排序,选择最前面K个专利作为其邻域集合。
[0044] (8)分类决策
[0045] 本步骤包括:
[0046] ①计算待分类专利Bj与样本专利di之间的共享领域大小L(Bj,di),即两个领域集合中相同专利的个数。
[0047] ②计算待分类专利与各个IPC类别间的最终加权相似度,计算公式如式(6)所示。
[0048]
[0049] 其中,I表示类别,p,k,α,β为可调参数,系统默认情况下,p为0.8,k为0.95,α为0.6,β为5。
[0050] ③将待分类专利归入相似度S(i)最大的类。
[0051] 本发明的主要有益效果表现在:
[0052] (1)专利文本特征选择方面
[0053] 相对于专利的标题和
摘要来说,专利说明书内容更加丰富,所包含的信息量也更大。也正因如此,专利说明书中含有大量的噪声数据,尤其是到了IPC小类以下级别的分类,不同专利之间所包含的相似信息更多,不利于分类。为此,本发明改进了专利说明书的特征提取以及特征向量化的方法,降低了噪声干扰,提高了专利的分类
精度。
[0054] (2)专利分类方法设计方面
[0055] 由于专利数据量相当庞大,而专利类别又特别多,从而导致分类模型训练速度过慢等问题,明显不适用于专利分类。为此,本发明提出了一种新的最近邻分类
算法,并在分类过程中加入了IPC描述信息,在保证分类速度的前提下进一步提高了专利分类的准确度。
附图说明
[0057] 图2是本发明实施例中专利向量空间的构造流程
[0058] 图3是本发明实施例中基于改进KNN的分类
流程图具体实施方式
[0059] 下面以专利文献为实施例,详细说明本发明的专利分类方法,具体执行过程如下:
[0060] 步骤1:获取专利文本的数据,对专利说明书进行文本预处理,主要是分词和去停用词。
[0061] ①获取IPC类别的描述,对描述进行分词和词性标注、去停用词处理,对分词结果进行人工较正后,构建用户词典。
[0062] ②分别对上述
抽取的专利样本进行格式转换、说明书提取,在分词程序中加入(1)中构建的用户词典,然后对说明书进行中文分词、词性标注。
[0063] ③利用正则表达式,去除专利说明书中停用词、虚词、连接词等对专利分类用处不大的词语,仅保留名词、形容词、动词。
[0064] 步骤2:统计出每个词的词频、位置信息、词性权重以及类间分布信息,利用这些统计值以及专利文本信息,构建倒排索引文件。
[0065] 根据步骤1中过滤出来的词语构建倒排索引文件,索引文件结构包括词汇表和事件表,每个词汇对应一个事件表,事件表存放词汇所出现的专利号在该专利文档中的词频、位置权重以及词性权重。这里的位置权重计算公式为: 其中n表示词汇在说明书中出现的总次数,li表示词汇第i次出现所处位置的权重,实例中设技术领域权重1,背景技术0.8,其他位置0.5。词性权重设定为名词2.5,动词和形容词均为1,具体结果如表1所示。
[0066] 表1用户词典和倒排索引合并
[0067]
[0068] 步骤3:利用信息增益和词频相结合的特征选择方法来计算词语的特征值,对特征值排序,选择一定数量的特征词来表征专利文本。
[0069] 由于信息增益存在低频词
缺陷,而
申请人为了强调一个创新点往往会重复一些特殊词,而这些高频词对于分类是有利的,为此,本发明采用信息增益和词频相结合的特征选择方法,首先根据公式(1)计算各专利中词语的特征值,然后按照特征值对这些词语进行降序排序,选择其中前20个词语作为该专利的特征词。
[0070] 设Aij为包含特征词ti并且属于cj的文档数量,Bij为包含特征词ti并且类别不属于cj的文档数量,Cij为不包含特征词ti并且类别属于cj的文档数量,Dij为不包含特征词ti并且类别属于不cj的文档数量,则特征值的计算如式(1)所示。
[0071]
[0072] 其中,TF代表专利中词频对于专利特征选择的影响程度。设m为训练专利中类别总数, Nj表示cj类中的专利总数,TFjk表示特征词ti在cj类中专利Pk中的词频,则TF的计算如式 (2)所示。
[0073]
[0074] 式(1)中的IC代表特征词在类别间的分散程度,越分散说明该词越没有代表性,值也就越小。设TFj(ti)表示特征词ti在类cj中的频数,TF(ti)表示特征词ti的总频数, 表示特征词ti在所有类中出现的频数平均值,则计算如式(3)所示。
[0075]
[0076] 步骤4:利用倒排索引文件,计算每个专利特征词的权重,然后利用的改进过的TF-IDF 公式计算特征词权重,最后构建专利特征向量。
[0077] 本步骤具体包括:
[0078] ①权重计算,计算如式(4)所示。
[0079]
[0080] 其中, 表示特征词t在文本 中出现的频率,N表示全部专利样本集中所有专利的个数,n表示全部专利样本集中出现特征词t的专利个数,Ct表示特征词词性所对应的词性权重系数,Pt表示特征词的位置权重系数。
[0081] ②排序,根据权重降序排序,构造专利文本的空间模型向量Vi(wi1,wi2,...,win),以此来表示每个专利文本的内容。
[0082] 倒排索引文件中已经记录了特征词的词频、位置权重、词性权重,所以只需要统计同样出现该特征词的文本数,至于总文本数也是已知的,具体结果如表2所示。
[0083] 表2专利特征向量
[0084]
[0085]
[0086] 步骤5:生成IPC各层次类别特征向量,在步骤1
基础上,从小类开始逐层向上,计算每个词汇在对应层次的类别权重,权重的计算使用TF-IDF,将一个类别描述看作一个文本,然后构建各层次的类别特征向量。
[0087] 本步骤具体包括:
[0088] ①将各子组的类别描述并入所属主组的类别描述,进行分词、去停用词处理。
[0089] ②将每个主组的描述合并后进行特征选择,构造IPC小类层次的类别特征向量,向量表示为{VA01B1/00,VA01B3/00,...,VH99Z99/00}。其中,A01B1/00为IPC中第一个主组,H99Z99/00 为IPC中最后一个主组。
[0090] ③将同一个小类下的所有基本描述合并后进行特征选择,构造IPC大类层次的类别特征向量,向量表示为{VA01B,VA01C,...,VH99Z}。其中,A01B为IPC中第一个小类,H99Z是IPC 中最后一个小类。
[0091] ④将同一大类下的所有基本描述合并后进行特征选择,构造IPC部层次的类别特征向量,向量表示为{VA01,VA21,...,VH99}。其中,A01为IPC中第一个大类,H99Z是IPC中最后一个大类。
[0092] 比如,将A01B小类下的所有组的词汇并成一个A01B词汇集,其他A01大类下的小类亦是如此,然后计算A01B词汇集中每个词的权重,最后构造A01B小类的特征向量。
[0093] 步骤6:构建专利样本邻域,利用步骤4中的专利特征向量,计算每个专利与其他专利之间相似度,对这些专利相似度进行排序,选择其中相似度最大的100个专利,组成该专利的邻域集合。
[0094] 本步骤具体包括:
[0095] ①计算专利训练集中各专利之间的相似度。相似度可以通过计算向量间的夹角余弦得到。设sim(di,dj)表示专利文本di与dj的相似度,则计算公式如式(5)所示。
[0096]
[0097] 其中,Wik和Wjk表示专利向量中对应特证词的权重,n表示向量的维数。
[0098] ②将di与其他所有专利样本dj的相似度按降序排序,选择前K个专利样本形成集合 Di,Di称作为专利di的邻域,K的值视具体情况而定。
[0099] 具体结果如表3所示。
[0100] 表3专利领域集合
[0101]
[0102] 步骤7:计算待分类专利向量与IPC类别特征向量以及与训练集专利之间的余弦相似度值,同样计算出待分专利的邻域集合。
[0103] 本步骤包括:
[0104] ①对待分类专利进行预处理、特征选择、向量化以及数据格式转换。
[0105] ②专利特征选择和向量化。
[0106] ③计算待分类专利Bj特征向量与各IPC类别特征向量的余弦相似度Sai。
[0107] ④计算待分类专利Bj与专利训练集中每个专利的余弦相似度Sbj。
[0108] ⑤将上述的训练专利按相似度值Sbj降序排序,选择最前面K个专利作为其邻域集合。
[0109] 步骤8:分类决策,首先计算待分类专利与训练集中专利之间共享领域的大小,即计算邻域集合中相同专利的个数。然后计算待分专利与专利类别间的相似度加权和,对加权和排序后,将待分专利划分为值最大的那个类中。
[0110] 本步骤具体包括:
[0111] ①计算待分类专利Bj与样本专利di之间的共享领域大小L(Bj,di),即两个领域集合中相同专利的个数。
[0112] ②计算待分类专利与各个IPC类别间的最终加权相似度,计算公式如式(6)所示。
[0113]
[0114] 其中,I表示类别,p,k,α,β为可调参数,系统默认情况下,p为0.8,k为0.95,α为0.6,β为5。
[0115] ③将待分类专利归入相似度S(i)最大的类。
[0116] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0117] 尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、
修改、替换和变型,本发明的范围由
权利要求及其等同物限定。