核心专利挖掘方法

阅读:827发布:2020-05-11

专利汇可以提供核心专利挖掘方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种核心 专利 挖掘方法,首先,基于 网络爬虫 方法建立专利 数据库 ,并利用网络爬虫在所述专利数据库中提取目标领域的专利文档集;然后,基于文档主题生成模型提取所述专利文档集中所有专利文档的主题集;接着,基于所述主题集中主题的相似性度量建立专利新颖性评价模型和专利影响 力 评价模型;最后,利用最优化方法挖掘出核心专利。本发明解决了在需要快速挖掘发现目标领域的核心专利时,基于网络爬虫方法、文档主题生成模型、专利的新颖性评价模型和影响力评价模型以及最优化方法,高效、快速地挖掘出目标领域的核心专利。,下面是核心专利挖掘方法专利的具体信息内容。

1.一种核心专利挖掘方法,其特征在于,主要包括以下步骤:
步骤一:基于网络爬虫方法建立专利数据库,并利用网络爬虫在所述专利数据库中提取目标领域的专利文档集作为核心专利挖掘的源数据;
步骤二:基于文档主题生成模型提取所述专利文档集中所有专利文档的主题集;
步骤三:基于所述主题集中主题的相似性度量建立专利新颖性评价模型和专利影响评价模型;
步骤四:从专利文档集中提取多个专利形成目标专利集,基于专利新颖性评价模型和专利影响力评价模型,利用最优化方法挖掘出所述目标专利集中的核心专利。
2.根据权利要求1所述的核心专利挖掘方法,其特征在于,步骤一具体为:
选择若干专利数据库网站,根据不同的网站构造选择不同的爬虫模进行爬取,并将爬取到的数据使用网页解析包进行解析,以建立结构化数据库表存储解析结果,构造专利数据库;
根据检索字段构建目标领域的专利文档集D={d1,d2,…,dm},其中m表示专利文档集D中的专利文档d的个数,专利文档集D中专利文档d的公开时间定义为T={t1,t2,…,tm}。
3.根据权利要求2所述的核心专利挖掘方法,其特征在于,所述网络爬虫方法采取分布式爬虫架构,开启多个爬虫线程同时爬取不同的网站以获取数据。
4.根据权利要求2所述的核心专利挖掘方法,其特征在于,步骤一中通过维护代理IP池对网络爬虫进行高匿处理。
5.根据权利要求1所述的核心专利挖掘方法,其特征在于,所述步骤二具体包括:
S1:对所述专利文档集进行预处理,并形成分词集,设置所选分词集的大小为n,定义分词的重要性分数为分词出现的频率与分词的互信息值的乘积,根据分词的重要性分数选取前n个重要分词,形成分词集V={w1,w2,…,wn},并统计每个分词出现的次数;
S2:基于文档主题生成模型,从所述专利文档集中提取K个专利文档的主题集Z={z1,z2,…,zK},其中,每个主题zi可视为分词集V的概率分布p(w|zk)w∈v,每一个专利文档d可视为主题集Z的概率分布p(zk|d)k∈{1,…,K}。
6.根据权利要求5所述的核心专利挖掘方法,其特征在于:步骤S1中的预处理包括分词、去停用词、提取专有技术名词,所述分词集为结合分词出现的频率和分词的互信息值选取的多个重要分词的集合。
7.根据权利要求5所述的核心专利挖掘方法,其特征在于,步骤S2具体包括:
S21:顺序遍历所述专利文档集中的每一个专利文档d,初始化专利文档d的超参数向量所述超参数向量 利用每个专利文档d的主题的分词个数进行初始化,引入K维Dirichlet分布生成专利文档d的主题概率分布 即
S22:初始化任一主题zk的超参数向量 并引入n维Dirichlet分布生成任
一主题zk产生各个分词的概率分布 即
S23:从所述专利文档d中读取每个分词以及每个分词在专利文档d中出现的次数,引入K维多项式分布生成专利文档d中分词wi对应的各个主题的多项式分布 根据分词wi在专利文档d中出现的次数和该分词wi的多项式分布 计算该分词wi被各个主题产生的次数;遍历整个专利文档d中的分词集V,更新各个主题对应的分词的个数,记为向量 用所述向量 更新超参数向量 作为K维Dirichlet分布的输入,以便更新专利文档d的主题概率分布
S24:计算专利文档d中分词出现在各个主题的次数,同样使用多项式分布得到更新之后各个主题产生的分词数量,记作向量 用所述向量 更新超参数向量 作为n维多项式分布的输入,以便更新任一主题zk产生各个分词的概率分布
S25:遍历整个专利文档集,使用吉布斯采样算法训练文档主题生成模型,直到得到收敛的专利文档d的主题概率分布θd和任一主题的分词概率分布βk;
S26:选择每一主题的概率最高的分词作为该主题的代表词,以使得每一个专利文档d均用主题分布来表征,每一个主题分布均用分词分布来表征。
8.根据权利要求1所述的核心专利挖掘方法,其特征在于,所述步骤三具体为:
提取专利文档集中每一个专利文档d的主要主题集zdom={z|p(z|d)>0.1}来代表专利文档d,通过步骤二中的文档主题生成模型和收敛的θd和βk,定义两个专利文档d和d'的主题相似性分数:
定义早于专利文档d公开的专利集为 其中t是专利文档d公开
的时间,Tmin是该专利集中专利最晚公开时间,则专利文档d的新颖性分数表示为:
定义晚于专利文档d公开的专利集为 其中Tmax是该专利集中专
利最早公开时间,则专利文档d的影响力分数表示为:
基于窗口函数平滑法消除时间因素对核心专利挖掘的影响,使得两个专利文档d和d'的相似性分数更正为:
改进后的新颖性分数和影响力分数分别为:
9.根据权利要求8所述的核心专利挖掘方法,其特征在于,定义高斯窗函数:
其中,2σ是窗口的大小,Δt=t-t'是专利文档d和d'的公开时间差。
10.根据权利要求1所述的核心专利挖掘方法,其特征在于,步骤四中的最优化方法可表示为: 以挖掘出新颖性分数和影响力分数同
时高的专利为核心专利,其中,μ和λ是两项得分的权重,C为目标专利集,N为目标专利集中的专利数量。

说明书全文

核心专利挖掘方法

技术领域

[0001] 本发明涉及自然语言处理以及专利分析领域,尤其涉及一种核心专利挖掘方法。

背景技术

[0002] 专利作为一种保护公司利益的重要资源,在一定意义上,企业的专利平代表了企业的整体创新水平。在大量的专利数据库下进行核心专利挖掘与发现可以为公司制定合理的知识产权管理策略和技术发展战略。
[0003] 现如今,已出现较多的专利检索和分析的专利数据库,如Incopat、 Google Patent、SooPat、Patsnap等,但是这些专利数据库主要是提供专利检索和简单的专利统计分析,而无法从目标领域的专利文档集中挖掘出核心专利。
[0004] 随着近年来专利申请数量的急剧增加,人工评估专利文档的难度大大增加;专利文档的文本冗长性、语言复杂性、技术用语多样性等特点增加了人工分析的难度,从而使传统的基于关键字的静态统计方法已不能很好的获取专利信息。
[0005] 有鉴于此,确有必要设计一种核心专利挖掘方法,以解决上述问题。

发明内容

[0006] 本发明的目的在于提供一种高效、快速地挖掘目标领域核心专利的核心专利挖掘方法。
[0007] 为实现上述目的,本发明采用如下技术方案:一种核心专利挖掘方法,主要包括以下步骤:
[0008] 步骤一:基于网络爬虫方法建立专利数据库,并利用网络爬虫在所述专利数据库中提取目标领域的专利文档集作为核心专利挖掘的源数据;
[0009] 步骤二:基于文档主题生成模型提取所述专利文档集中所有专利文档的主题集;
[0010] 步骤三:基于所述主题集中主题的相似性度量建立专利新颖性评价模型和专利影响评价模型;
[0011] 步骤四:从专利文档集中提取多个专利形成目标专利集,基于专利新颖性评价模型和专利影响力评价模型,利用最优化方法挖掘出所述目标专利集中的核心专利。
[0012] 作为本发明进一步改进的技术方案,步骤一具体为:
[0013] 选择若干专利数据库网站,根据不同的网站构造选择不同的爬虫模进行爬取,并将爬取到的数据使用网页解析包进行解析,以建立结构化数据库表存储解析结果,构造专利数据库;
[0014] 根据检索字段构建目标领域的专利文档集D={d1,d2,…,dm},其中m表示专利文档集D中的专利文档d的个数,专利文档集D中专利文档d的公开时间定义为T={t1,t2,…,tm}。
[0015] 作为本发明进一步改进的技术方案,所述网络爬虫方法采取分布式爬虫架构,开启多个爬虫线程同时爬取不同的网站以获取数据。
[0016] 作为本发明进一步改进的技术方案,步骤一中通过维护代理IP池对网络爬虫进行高匿处理。
[0017] 作为本发明进一步改进的技术方案,所述步骤二具体包括:
[0018] S1:对所述专利文档集进行预处理,并形成分词集,设置所选分词集的大小为n,定义分词的重要性分数为分词出现的频率与分词的互信息值的乘积,根据分词的重要性分数选取前n个重要分词,形成分词集 V={w1,w2,…,wn},并统计每个分词出现的次数;
[0019] S2:基于文档主题生成模型,从所述专利文档集中提取K个专利文档的主题集Z={z1,z2,…,zK},其中,每个主题zi可视为分词集V的概率分布 p(w|zk)w∈v,每一个专利文档d可视为主题集Z的概率分布p(zk|d)k∈{1,...,K}。
[0020] 作为本发明进一步改进的技术方案,步骤S1中的预处理包括分词、去停用词、提取专有技术名词,所述分词集为结合分词出现的频率和分词的互信息值选取的多个重要分词的集合。
[0021] 作为本发明进一步改进的技术方案,步骤S2具体包括:
[0022] S21:顺序遍历所述专利文档集中的每一个专利文档d,初始化专利文档d的超参数向量 所述超参数向量 利用每个专利文档d的主题的分词个数进行初始化,引入K维Dirichlet分布生成专利文档d的主题概率分布 即
[0023] S22:初始化任一主题zk的超参数向量 并引入n维Dirichlet 分布生成任一主题zk产生各个分词的概率分布 即
[0024] S23:从所述专利文档d中读取每个分词以及每个分词在专利文档d中出现的次数,引入K维多项式分布生成专利文档d中分词wi对应的各个主题的多项式分布根据分词wi在专利文档d中出现的次数和该分词wi的多项式分布 计算该分
词wi被各个主题产生的次数;遍历整个专利文档d中的分词集V,更新各个主题对应的分词的个数,记为向量 用所述向量 更新超参数向量 作为K维Dirichlet分布的输入,以便更新专利文档d的主题概率分布
[0025] S24:计算专利文档d中分词出现在各个主题的次数,同样使用多项式分布得到更新之后各个主题产生的分词数量,记作向量 用所述向量 更新超参数向量 作为n维多项式分布的输入,以便更新任一主题zk产生各个分词的概率分布
[0026] S25:遍历整个专利文档集,使用吉布斯采样算法训练文档主题生成模型,直到得到收敛的专利文档d的主题概率分布θd和任一主题的分词概率分布βk;
[0027] S26:选择每一主题的概率最高的分词作为该主题的代表词,以使得每一个专利文档d均用主题分布来表征,每一个主题分布均用分词分布来表征。
[0028] 作为本发明进一步改进的技术方案,所述步骤三具体为:
[0029] 提取专利文档集D中每一个专利文档d的主要主题集 zdom={z|p(z|d)>0.1}来代表专利文档d,通过步骤二中的文档主题生成模型和收敛的θd和βk,定义两个专利文档d和d'的主题相似性分数:
[0030]
[0031] 定义早于专利文档d公开的专利集为 其中t是专利文档d公开的时间,Tmin是该专利集中专利最晚公开时间,则专利文档d 的新颖性分数表示为:
[0032]
[0033] 定义晚于专利文档d公开的专利集为 其中Tmax是该专利集中专利最早公开时间,则专利文档d的影响力分数表示为:
[0034]
[0035] 基于窗口函数平滑法消除时间因素对核心专利挖掘的影响,使得两个专利文档d和d'的相似性分数更正为:
[0036]
[0037] 改进后的新颖性分数和影响力分数分别为:
[0038]
[0039] 作为本发明进一步改进的技术方案,定义高斯窗函数: 其中,2σ是窗口的大小,Δt=t-t'是专利文档d和d'的公开时间差。
[0040] 作为本发明进一步改进的技术方案,步骤四中的最优化方法可表示为:以挖掘出新颖性分数和影响力分数同时高的
专利为核心专利,其中,μ和λ是两项得分的权重,C为目标专利集,N为目标专利集中的专利数量。
[0041] 由以上技术方案可知,本发明解决了在需要快速挖掘发现目标领域的核心专利时,基于网络爬虫方法、文档主题生成模型、专利的新颖性评价模型和影响力评价模型以及最优化方法,实现快速挖掘出目标领域的核心专利,从而高效、快速地发现目标领域的核心专利。附图说明
[0042] 图1为本发明核心专利挖掘方法的流程图
[0043] 图2为本发明核心专利挖掘方法的较佳实施例示意图。

具体实施方式

[0044] 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0045] 如图1所示,本发明的核心专利挖掘方法的具体步骤主要包括:
[0046] 步骤一:基于网络爬虫方法建立专利数据库,并利用网络爬虫在专利数据库中提取目标领域的专利文档集作为核心专利挖掘的源数据;
[0047] 步骤二:基于文档主题生成模型提取专利文档集中所有专利文档的主题集;
[0048] 步骤三:基于主题集中主题的相似性度量建立专利新颖性评价模型和专利影响力评价模型;
[0049] 步骤四:从专利文档集中提取多个专利形成目标专利集,基于专利新颖性评价模型和专利影响力评价模型,利用最优化方法挖掘出目标专利集中的核心专利。
[0050] 结合图2所示,专利数据采集是数据分析的基础和前提,为了更好的进行专利数据采集,步骤一具体为通过使用网络爬虫方法获取专利数据并将专利数据存储到专利数据库中。具体包括选择若干专利数据库网站,如 Incopat、Google Patent、SooPat、Patsnap等,从而根据不同的网站构造选择不同的爬虫模块进行爬取,并将爬取到的数据使用bs4网页解析包进行解析,以建立结构化数据库表存储解析结果,进而构造一个庞大的专利数据库。
[0051] 进一步地,为了加快网络爬虫的爬取速度,网络爬虫方法可采取分布式爬虫架构,开启多个爬虫线程同时爬取不同的网站以获取数据。
[0052] 进一步地,当目标网站存在一定的“反爬”策略时,网络爬虫容易被封,同一IP和同一账号在一段时间内的爬取次数会严重受限。为了应对此种情况,可通过维护代理IP池对网络爬虫进行高匿处理,从而提高网络爬虫的爬取效率和健壮性。
[0053] 通过网络爬虫法建立专利数据库后,需要提取目标领域的专利文档集来作为源数据。具体为,根据检索字段如“自然语言处理”、“大数据”等构建目标领域的专利文档集D={d1,d2,…,dm},其中m表示专利文档集D=中{d 专利文档d的个数,专利文档集D中专利文档d的公开时间定义为 T={t1,t2,…,tm}。此外,也可以通过IPC分类号来构建专利文档集D。由于专利文档在技术术语上存在没有统一的规则且文本冗余、语言复杂等问题,故步骤二使用文档主题生成模型、提取文档的主题集,从而使用主题来表示专利文档的主要思想。如此,步骤二具体可分为以下几个步骤:
[0054] S1:对专利文档集进行预处理,并形成分词集。设置所选分词集的大小为n,定义分词的重要性分数为分词出现的频率与分词的互信息值的乘积,根据分词的重要性分数选取前n个重要分词,形成分词集 V={w1,w2,…,wn},并统计每个分词出现的次数。
[0055] 预处理包括分词、去停用词、提取专有技术名词。为了限制分词提取的个数,选取较重要的分词构成分词集。传统的分词选择方法仅考虑频率因素而使有些低频出现却语义丰富的高质量短语容易被忽视。因此,可结合分词出现的频率和分词与上下文的互信息值选取出多个重要的分词构成分词集。
[0056] S2:设置外部访问接口,基于文档主题生成模型从专利文档集中提取 K个专利文档的主题集Z={z1,z2,…,zK},每个主题zi可视为分词集V的概率分布p(w|zk)w∈v,每一个专利文档d可视为主题集Z的概率分布 p(zk|d)k∈{1,…,K}。
[0057] 步骤S2具体包括以下步骤:
[0058] S21:顺序遍历专利文档集中的每一个专利文档d,初始化专利文档d 的超参数向量 超参数向量 利用每个专利文档d的主题的分词个数进行初始化,引入K维Dirichlet分布生成专利文档d的主题概率分布 即
[0059] S22:初始化任一主题zk的超参数向量 并引入n维Dirichlet 分布生成任一主题zk产生各个分词的概率分布 即
[0060] S23:从专利文档d中读取每个分词以及每个分词在专利文档d中出现的次数,引入K维多项式分布生成专利文档d中分词wi对应的各个主题的多项式分布 根据分词wi在专利文档d中出现的次数和该分词 wi的多项式分布 计算该分词wi被各个主题产生的次数;遍历整个专利文档d中的分词集V,更新各个主题对应的分词的个数,记为向量 用向量 更新超参数向量 作为K维Dirichlet分布的输入,以便更新专利文档d的主题概率分布
[0061] S24:计算专利文档d中分词出现在各个主题的次数,同样使用多项式分布得到更新之后各个主题产生的分词数量,记作向量 用向量 更新超参数向量 作为n维多项式分布的输入,以便更新任一主题zk产生各个分词的概率分布
[0062] S25:遍历整个专利文档集,使用吉布斯采样算法训练文档主题生成模型,直到得到收敛的专利文档d的主题概率分布θd和任一主题的分词概率分布βk;
[0063] S26:选择每一主题的概率最高的分词作为该主题的代表词,以使得每一个专利文档d均用主题分布来表征,每一个主题分布均用分词分布来表征。
[0064] 一件专利的主题技术很少被已有专利提及,那么该专利具有很强的新颖性;一件专利的主题技术多次被其后发表的专利所提及或引用,那么该专利具有很强的影响力。步骤三具体为基于步骤二中的文档主题生成模型,使用专利文档的主题概率分布和各主题的分词概率分布来计算专利文档与其他专利的相似性分数,并使用高斯窗函数消除时间因素的影响,从而形成专利新颖性评价模型和专利影响力评价模型。具体步骤如下:
[0065] 提取专利文档集D中每一个专利文档d的主要主题集 zdom={z|p(z|d)>0.1}来代表专利文档d,通过步骤二中的文档主题生成模型和使用吉布斯采样算法训练得到的收敛的主题概率分布θd和任一主题的词概率分布βk,定义两个专利文档d和d'的主题相似性分数:
[0066]
[0067] 从而通过专利文档的主题概率分布和任一主题下的词概率分布计算专利文档d生成专利文档d'的概率,作为它们之间的相似性度量。
[0068] 专利的新颖性为考量其与早于其公开的专利集的相似性。定义早于某专利文档d公开的专利集为 其中t是专利文档d公开的时间,Tmin是该专利集中专利最晚公开时间,则专利文档d的新颖性分数可以使用如下式子度量:
[0069]
[0070] 同理,专利的影响力为考量其与晚于其公开的专利集的相似性。定义晚于某专利文档d公开的专利集为 其中Tmax是该专利集中专利最早公开时间,则专利文档d的影响力分数可以使用如下式子度量:
[0071]
[0072] 进一步地,由于上述计算分析方法容易受时间因素的影响,可基于窗口函数平滑法消除时间因素对核心专利挖掘的影响,使得两个专利文档d 和d'的相似性分数更正为:
[0073]
[0074] 改进后的新颖性分数和影响力分数分别为:
[0075]
[0076] 这是因为:一方面,一件高龄专利拥有很少的现有技术,而其被引用的次数可能很多;另一方面,一件新申请的专利可能会拥有很多现有技术,而被引用的次数相对较少。因此,由于专利公开的时间不同,专利的主题相似度计算具有非平衡性;此外,专利是具有时间敏感性的,并且他们的价值依赖于当时的技术发展。
[0077] 因此,本发明使用随时间递减的高斯窗函数来解决因为时间因素带来的计算非平衡性。具体而言,定义高斯窗函数: 其中,2σ是窗口的大小,Δt=t-t'是专利文档d和d'的公开时间差。
[0078] 设置所提取的目标专利数量为N,即从专利文档集D中提取N个专利形成目标专利集C。以目标领域专利的新颖性和影响力作为提取标准,步骤四中的最优化方法可表示为:
[0079]
[0080] 其中,最优化目标第一项是目标专利集C中所有专利的新颖性分数之和,第二项是目标专利集C中所有专利的影响力分数之和,μ和λ是两项得分的权重。最优化目标是使得专利的新颖性分数和影响力分数同时高的专利成为核心专利。通过求解上述最优化目标,可以快速、有效的挖掘某一领域的核心专利。
[0081] 综上所述,本发明提出了一种核心专利挖掘方法,其通过网络爬虫方法建立专利数据库存储待分析专利数据、使用文档主题生成模型提取所有专利文档的主题集、建立专利的新颖性和影响力的评价模型及通过最优化方法挖掘目标专利集中的核心专利的方法,从而可高效、快速地挖掘出目标领域的核心专利。
[0082] 另外,以上实施例仅用于说明本发明而并非限制本发明所描述的技术方案,对本说明书的理解应该以所属技术领域的技术人员为基础,尽管本说明书参照上述的实施例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,所属技术领域的技术人员仍然可以对本发明进行修改或者等同替换,而一切不脱离本发明的精神和范围的技术方案及其改进,均应涵盖在本发明的权利要求范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈