首页 / 专利库 / 专利权 / 申请 / 国际申请 / 请求书 / 保护类型 / 专利 / 一种高速列车三维产品结构技术功效图构建系统及方法

一种高速列车三维产品结构技术功效图构建系统及方法

阅读:503发布:2020-07-13

专利汇可以提供一种高速列车三维产品结构技术功效图构建系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种高速列车三维产品结构技术功效图构建系统及方法,首先基于技术词库从 专利 网中获取专利信息,并对专利信息进行预处理;从预处理后的文本中 抽取 技术相关词和功效相关词;再结合各簇相关词在专利中的分布情况,分析出技术项和功效项;基于相关词在专利中的分布情况,计算出每个专利中不同主题的权重;结合技术主题权重和技术生命周期判别指标,分析出每项技术的生命周期;根据主题权重计算出技术项、功效项和产品结构三者的共现值,并基于此绘制三维产品结构技术功效图。本发明实现了技术、功效与产品结构关联,使技术功效图更具有指导意义,实现了技术信息的动态获取,解决了传统获取方法人 力 耗费大而且主观性大的问题。,下面是一种高速列车三维产品结构技术功效图构建系统及方法专利的具体信息内容。

1.一种高速列车三维产品结构技术功效图构建系统,其特征在于,包括:
(1)技术词库储存高速列车研发技术相关的词语;
(2)数据获取模将技术词库中的技术项、功效项和产品结构作为关键词,在专利网中实时抓取专利信息,包括专利题目、说明书摘要权利要求书、说明书、申请人、申请日、IPC分类号;
(3)预处理模块根据python程序,将专利题目、说明书摘要、权利要求书、说明书的文本进行分词、词性标注和停用词过滤;
(4)相关词抽取模块采用产生式的表达形式,编写抽取规则,并基于抽取规则分别抽取技术、功效相关词;
(5)语义聚类模块根据语义相似度对词语归类,并用平均轮廓系数确定簇数;通过分析各簇中相关词在专利中的出现次数和位置,得到各簇中词语的优先排序,并提供排序较前的词语给工程师,由其总结出各簇的技术项或功效项;并将技术项和功效项与词库中现有的项进行对比,对新项进行标识;
(6)主题分析模块根据各簇中相关词在专利中的分布情况,分析出每个专利的技术主题权重和功效主题权重;根据产品结构中的产品名称及其相关词在专利中的分布情况,分析出每个专利的产品结构主题权重;
(7)技术生命周期计算模块计算出每项技术的技术生长率、技术成熟系数、技术衰老系数、新技术特征系数和失效度,并通过指数平滑减少噪声数据影响,再由周期判别规则分析出技术的生命周期;
(8)三维技术功效图构建模块以功效项为X轴、技术项为Y轴、产品结构为Z轴构建三维空间坐标系,再以功效主题权重、技术主题权重和产品结构主题权重计算出功效项、技术项、产品结构三者的共现值,以此作为三维空间中相交球的半径值;所述共现值为功效项、技术项和产品结构在现有专利中同时出现的频率累计值;
(9)技术内容查看模块提供用户可视化界面,供用户查看技术生命周期和产品结构技术功效图。
2.根据权利要求1所述的高速列车三维产品结构技术功效图构建系统,其特征在于,所述语义聚类模块将技术项、功效项与词库中现有的项进行对比,发现新项,并对其进行标识,以供后续评价;所述三维技术功效图构建模块根据新项的共现值判断其是否为新技术项或功效项,共现值不为零则为新技术项或功效项,添加至技术词库,否则舍弃;在此基础上,三维技术功效图构建模块统计每个相交球中相关专利的申请人占比和IPC类别占比,得到技术所属领域分布和技术所属企业分布。
3.根据权利要求1所述的高速列车三维产品结构技术功效图构建系统,其特征在于,所述技术内容查看模块以曲线图的形式,显示技术生命周期的变化情况,以空间离散点图的形式,显示产品结构技术功效图;所述产品结构技术功效图中的每个相交球连接相关的技术所属领域分布和技术所属企业分布,并以饼状图的形式显示。
4.根据权利要求1所述的高速列车三维产品结构技术功效图构建系统,其特征在于,还包括技术词库管理模块,用于对技术词库中的词语进行增添、修改和删除。
5.一种高速列车三维产品结构技术功效图构建方法,其特征在于,包括以下步骤:
步骤1:基于与高速列车研发技术相关词语的技术词库,从专利网中获取专利信息;
步骤2:通过python程序对获取的专利题目、摘要、权利要求书、说明书的文本进行分词、词性标注、去停用词的预处理;
步骤3:基于预定义的规则从预处理后的文本中抽取技术相关词和功效相关词;
步骤4:基于语义相似度分别对两类相关词聚类,通过轮廓系数调整簇数,并分析出各聚类簇的技术项和功效项;
步骤5:基于相关词在专利中的分布情况,计算出每个专利中技术主题权重、功效主题权重、产品结构主题的权重;
步骤6:结合技术主题权重和技术生命周期判别指标,分析出每项技术的生命周期;
步骤7:根据主题权重计算出技术项、功效项和产品结构三者的共现值,并基于此绘制三维产品结构技术功效图。
6.根据权利要求5所述的高速列车三维产品结构技术功效图构建方法,其特征在于,所述步骤4具体包括:
步骤41:根据技术相关词间的相似程度将词语归类进行语义相似度聚类,基于同义词词林中词语的相似情况进行语义相似度计算,语义相似度表示为:
其中,wri、wrj表示任意两个技术相关词,wri=wrj表示在词林中两个词等价,wri#wrj表示在词林中两个词相关,init是相似度的初值函数,其自变量为技术相关词wri、wrj之间的最短路径;a为两个相关词最近公共父结点的直接子结点的个数,b为两个相关词在最近公共父结点中的分支间距;
某聚类簇中各点到聚类中心距离的平方和表示为:
其中,WRk表示k簇中词语的集合, 表示k簇中词语的数量,wrik表示k簇中第i个技术相关词, 表示k簇的聚类中心,同时作为k簇中词语的中心词,表示为:
其中,u表示中心词 在词林中的位置编号,当u的值不为整数时,采用进位方式修正;
max(wrik)和min(wrik)表示k簇中词语在词林中的最大编号和最小编号;基于语义相似度聚类的目标是实现聚类域中所有的词语到聚类中心距离的平方和最小,即进一步表示为:
j
其中,WR表示总的技术相关词集合,k表示聚类的簇数; 表示j簇中词语的数量;wri 表示j簇中第i个技术相关词; 表示j簇的聚类中心;
步骤42:轮廓系数计算公式为:
其中,difz(wri)表示技术相关词wri与其同一簇内其它所有词差异度的平均值,用于量化簇内的内聚度;difw(wri)表示技术相关词wri与其外部的一个簇中所有词的差异度,遍历所有其他簇,找到最小的差异度,用于量化簇间分离度;
用整个词语集的平均轮廓系数确定聚类簇数,平均轮廓系数计算公式为:
其中,nc为所有技术相关词的数量;当平均轮廓系数L(WR)k最大时,簇数k为最佳的聚类簇数;
步骤43:基于各聚类簇中词语在专利题目、摘要、权利要求书、说明书的出现位置和次数,计算各簇技术相关词的优先排序,技术相关词的出现次数计算公式表示为:
其中,nz表示获取专利的数量, 分别表示技术相关词wrik在专利j的题
目、摘要、权利要求书、说明书中出现的次数, 表示词在专利中不同位置出现的权重;
根据各技术相关词num(wrik)值的大小,进行从大到小排序,并将前10~20个技术相关词作为推荐词,再由工程师从中总结出关键词,即技术项;所得的技术项将与词库中现有的项进行匹配,基于此发现新技术项。
7.根据权利要求6所述的高速列车三维产品结构技术功效图构建方法,其特征在于,所述步骤5具体包括:
计算在一个专利中每个技术项的相关词出现的总次数,计算公式表示为:
其中,num(WRk)j表示在一个专利中某个技术主题相关词出现的总次数;
基于各技术项的相关词在专利中出现的总次数,每个专利中技术主题权重表示为:
其中, 表示每个专利的不同技术主题的权重,其满足 k表示聚类的簇数,即技术项的数量。
8.根据权利要求7所述的高速列车三维产品结构技术功效图构建方法,其特征在于,所述步骤6具体包括:
步骤61:根据技术主题权重统计各项技术的专利数量,某项技术相关专利数量的统计公式表示为:
步骤62:将获取的专利按两个维度分类,一个维度为发明专利、实用新型专利和外观设计专利,另一维为有效专利和无效专利,并以步骤61的方式统计各类专利的数量;
步骤63:计算每项技术生命周期判别指标,包括技术生长率、技术成熟系数、技术衰老系数、新技术特征系数、失效度;
某项技术的技术生长率计算公式表示为:
其中,num(inpat0)k、num(inpat-1)k和num(inpat-2)k分别表示本次及前两次获取的发明专利的数量;
某项技术的技术成熟系数计算公式表示为:
其中,num(umpat0)k表示本次获取的实用新型专利的数量;
某项技术的技术衰老系数计算公式表示为:
其中,num(edpat0)k表示本次获取的外观设计专利的数量;
某项技术的新技术特征系数计算公式表示为:
某项技术的失效度计算公式表示为:
其中,num(valid0)k和num(fail0)k分别表示本次获取的有效专利和无效专利的数量;
使用失效度对技术衰老系数进行修正,修正公式表示为:
β′k=βk×fk
为减小噪声数据的影响,将计算得到的指标值进行指数平滑;
步骤64:根据周期判别规则确定每项技术在不同时间所处的生命周期,周期判别规则表示为:
其中,△Nk、△vk和△βk分别表示相邻两个获取时间段中新技术特征系数、技术生长率和技术衰老系数的差值。
9.根据权利要求8所述的高速列车三维产品结构技术功效图构建方法,其特征在于,所述步骤7具体包括:
步骤71:以功效项为X轴、技术项为Y轴、产品结构为Z轴,构建三维空间坐标系;
步骤72:技术项、功效项和产品结构三者共现值计算公式表示为:
其中,共现值coe(fk,tk,sk)表示为功效项fk、技术项tk、产品结构sk三者相交球的半径值;
步骤73:根据共现值对步骤4中得到的新技术项或功效项进行评价,共现值不为零则为新项,添加至技术词库,否则舍弃;
步骤74:统计每个相交球中相关专利的申请人占比和IPC类别占比,得到技术所属领域分布和技术所属企业分布。

说明书全文

一种高速列车三维产品结构技术功效图构建系统及方法

技术领域

[0001] 本发明涉及高速列车设计和数据挖掘技术领域,具体为一种高速列车三维产品结构技术功效图构建系统及方法。

背景技术

[0002] 自2004年,我国确定推进路技术装备现代化“引进先进技术、联合设计生产、打造中国品牌”的总体方针以来,我国高速列车历经了十余年的跨越式发展,取得了一系列技术创新成果。但当今世界科技日新月异,全球化步伐明显加快,国内高速列车制造企业在享受着各种机遇的同时,也迎来了更大的挑战。
[0003] 以仿制国外产品的传统设计思路早已无法与中国快速全球化的思想契合。因此,高速列车制造企业急需提高自主创新能,增强其竞争力,使企业得以占据市场的主导地位。其中,规划技术战略,确定技术研发重点是企业进行自主创新的首要任务。
[0004] 然而,目前高速列车制造企业主要通过专家访谈和现场调研得到研发技术现状,以此作为技术战略规划的数据参考。这种获取方法存在获取不及时,人力耗费大和主观性大等问题,而且获取内容通常以报告、答卷等形式记录,内容不直观而且难以直接指导产品研发,这都影响了企业对研发技术现状识别的准确性,从而影响企业技术战略规划。

发明内容

[0005] 针对上述问题,本发明的目的在于提供一种能够自动地分析大量的专利数据,挖掘出高速列车创新研发技术,有效地支持我国高速列车自主研发技术的快速创新、迭代的高速列车三维产品结构技术功效图构建系统及方法。技术方案如下:
[0006] 一种高速列车三维产品结构技术功效图构建系统,包括:
[0007] (1)技术词库储存高速列车研发技术相关的词语;
[0008] (2)数据获取模将技术词库中的技术项、功效项和产品结构作为关键词,在专利网中实时抓取专利信息,包括专利题目、说明书摘要权利要求书、说明书、申请人、申请日、IPC分类号;
[0009] (3)预处理模块根据python程序,将专利题目、说明书摘要、权利要求书、说明书的文本进行分词、词性标注和停用词过滤;
[0010] (4)相关词抽取模块采用产生式的表达形式,编写抽取规则,并基于抽取规则分别抽取技术、功效相关词;
[0011] (5)语义聚类模块根据语义相似度对词语归类,并用平均轮廓系数确定簇数;通过分析各簇中相关词在专利中的出现次数和位置,得到各簇中词语的优先排序,并提供排序较前的词语给工程师,由其总结出各簇的技术项或功效项;并将技术项和功效项与词库中现有的项进行对比,对新项进行标识;
[0012] (6)主题分析模块根据各簇中相关词在专利中的分布情况,分析出每个专利的技术主题权重和功效主题权重;根据产品结构中的产品名称及其相关词在专利中的分布情况,分析出每个专利的产品结构主题权重;
[0013] (7)技术生命周期计算模块计算出每项技术的技术生长率、技术成熟系数、技术衰老系数、新技术特征系数和失效度,并通过指数平滑减少噪声数据影响,再由周期判别规则分析出技术的生命周期;
[0014] (8)三维技术功效图构建模块以功效项为X轴、技术项为Y轴、产品结构为Z轴构建三维空间坐标系,再以功效主题权重、技术主题权重和产品结构主题权重计算出功效项、技术项、产品结构三者的共现值以此作为三维空间中相交球的半径值;共现值表示的是功效项、技术项和产品结构在现有专利中同时出现的频率累计值;
[0015] (9)技术内容查看模块提供用户可视化界面,供用户查看技术生命周期和产品结构技术功效图。
[0016] 进一步的,所述语义聚类模块将技术项、功效项与词库中现有的项进行对比,发现新项,并对其进行标识,以供后续评价;所述三维技术功效图构建模块根据新项的共现值判断其是否为新技术项或功效项,共现值不为零则为新技术项或功效项,添加至技术词库,否则舍弃;在此基础上,三维技术功效图构建模块统计每个相交球中相关专利的申请人占比和IPC类别占比,得到技术所属领域分布和技术所属企业分布。
[0017] 更进一步的,所述技术内容查看模块以曲线图的形式,显示技术生命周期的变化情况,以空间离散点图的形式,显示产品结构技术功效图;所述产品结构技术功效图中的每个相交球连接相关的技术所属领域分布和技术所属企业分布,并以饼状图的形式显示。
[0018] 更进一步的,还包括技术词库管理模块,用于对技术词库中的词语进行增添、修改和删除。
[0019] 一种高速列车三维产品结构技术功效图构建方法,包括以下步骤:
[0020] 步骤1:基于与高速列车研发技术相关词语的技术词库,从专利网中获取专利信息;
[0021] 步骤2:通过python程序对获取的专利题目、摘要、权利要求书、说明书的文本进行分词、词性标注、去停用词的预处理;
[0022] 步骤3:基于预定义的规则从预处理后的文本中抽取技术相关词和功效相关词;
[0023] 步骤4:基于语义相似度分别对两类相关词聚类,通过轮廓系数调整簇数,并分析出各聚类簇的技术项和功效项;
[0024] 步骤5:基于相关词在专利中的分布情况,计算出每个专利中不同主题的权重;
[0025] 步骤6:结合技术主题权重和技术生命周期判别指标,分析出每项技术的生命周期;
[0026] 步骤7:根据主题权重计算出技术项、功效项和产品结构三者的共现值,并基于此绘制三维产品结构技术功效图。
[0027] 进一步的,所述步骤4具体包括:
[0028] 步骤41:根据技术相关词间的相似程度将词语归类进行语义相似度聚类,基于同义词词林中词语的相似情况进行语义相似度计算,语义相似度表示为:
[0029]
[0030] 其中,wri、wrj表示任意两个技术相关词,wri=wrj表示在词林中两个词等价,wri#wrj表示在词林中两个词相关,init是相似度的初值函数,其自变量为技术相关词wri、wrj之间的最短路径;a为两个相关词最近公共父结点的直接子结点的个数,b为两个相关词在最近公共父结点中的分支间距;
[0031] 某聚类簇中各点到聚类中心距离的平方和表示为:
[0032]
[0033] 其中,WRk表示k簇中词语的集合, 表示k簇中词语的数量,wrik表示k簇中第i个技术相关词; 表示k簇的聚类中心,同时作为k簇中词语的中心词,表示为:
[0034]
[0035] 其中,u表示中心词 在词林中的位置编号,当u的值不为整数时,采用进位方式修正;max(wrik)和min(wrik)表示k簇中词语在词林中的最大编号和最小编号;基于语义相似度聚类的目标是实现聚类域中所有的词语到聚类中心距离的平方和最小,即进一步表示为:
[0036]
[0037] 其中,WR表示总的技术相关词集合,k表示聚类的簇数; 表示j簇中词语的数量;表示j簇中第i个技术相关词; 表示j簇的聚类中心;
[0038] 步骤42:轮廓系数计算公式为:
[0039]
[0040] 其中,difz(wri)表示技术相关词wri与其同一簇内其它所有词差异度的平均值,用于量化簇内的内聚度;difw(wri)表示技术相关词wri与其外部的一个簇中所有词的差异度,遍历所有其他簇,找到最小的差异度,用于量化簇间分离度;
[0041] 用整个词语集的平均轮廓系数确定聚类簇数,平均轮廓系数计算公式为:
[0042]
[0043] 其中,nc为所有技术相关词的数量;当平均轮廓系数L(WR)k最大时,簇数k为最佳的聚类簇数;
[0044] 步骤43:基于各聚类簇中词语在专利题目、摘要、权利要求书、说明书的出现位置和次数,计算各簇技术相关词的优先排序,技术相关词的出现次数计算公式表示为:
[0045]
[0046] 其中,nz表示获取专利的数量, 分别表示技术相关词wrik在专利j的题目、摘要、权利要求书、说明书中出现的次数, 表示词在专利中不同位置出现的权重;
[0047] 根据各技术相关词num(wrik)值的大小,进行从大到小排序,并将前10~20个技术相关词作为推荐词,再由工程师从中总结出关键词,即技术项;所得的技术项将与词库中现有的项进行匹配,基于此发现新技术项。
[0048] 更进一步的,所述步骤5具体包括:
[0049] 计算在一个专利中每个技术项的相关词出现的总次数,计算公式表示为:
[0050]
[0051] 其中,num(WRk)j表示在一个专利中某个技术主题相关词出现的总次数;
[0052] 基于各技术项的相关词在专利中出现的总次数,每个专利中技术主题权重表示为:
[0053]
[0054] 其中, 表示每个专利的不同技术主题的权重,其满足 k表示聚类的簇数,即技术项的数量。
[0055] 更进一步的,所述步骤6具体包括:
[0056] 步骤61:根据技术主题权重统计各项技术的专利数量,某项技术相关专利数量的统计公式表示为:
[0057]
[0058] 步骤62:将获取的专利按两个维度分类,一个维度为发明专利、实用新型专利和外观设计专利,另一维为有效专利和无效专利,并以步骤61的方式统计各类专利的数量;
[0059] 步骤63:计算每项技术生命周期判别指标,包括技术生长率、技术成熟系数、技术衰老系数、新技术特征系数、失效度;
[0060] 某项技术的技术生长率计算公式表示为:
[0061]
[0062] 其中,num(inpat0)k、num(inpat-1)k和num(inpat-2)k分别表示本次及前两次获取的发明专利的数量;
[0063] 某项技术的技术成熟系数计算公式表示为:
[0064]
[0065] 其中,num(umpat0)k表示本次获取的实用新型专利的数量;
[0066] 某项技术的技术衰老系数计算公式表示为:
[0067]
[0068] 其中,num(edpat0)k表示本次获取的外观设计专利的数量;
[0069] 某项技术的新技术特征系数计算公式表示为:
[0070]
[0071] 某项技术的失效度计算公式表示为:
[0072]
[0073] 其中,num(valid0)k和num(fail0)k分别表示本次获取的有效专利和无效专利的数量;
[0074] 使用失效度对技术衰老系数进行修正,修正公式表示为:
[0075] β'k=βk×fk
[0076] 为减小噪声数据的影响,将计算得到的指标值进行指数平滑;
[0077] 步骤64:根据周期判别规则确定每项技术在不同时间所处的生命周期,周期判别规则表示为:
[0078]
[0079] 其中,△Nk、△vk和△βk分别表示相邻两个获取时间段中新技术特征系数、技术生长率和技术衰老系数的差值。
[0080] 更进一步的,所述步骤7具体包括:
[0081] 步骤71:以功效项为X轴、技术项为Y轴、产品结构为Z轴,构建三维空间坐标系;
[0082] 步骤72:技术项、功效项和产品结构三者共现值计算公式表示为:
[0083]
[0084] 其中,共现值coe(fk,tk,sk)表示为功效项fk、技术项tk、产品结构sk三者相交球的半径值;
[0085] 步骤73:根据共现值对步骤4中得到的新技术项或功效项进行评价,共现值不为零则为新项,添加至技术词库,否则舍弃;
[0086] 步骤74:统计每个相交球中相关专利的申请人占比和IPC类别占比,得到技术所属领域分布和技术所属企业分布。
[0087] 本发明的有益效果是:本发明针对目前高速列车研发技术现状获取方法存在获取不及时,人力耗费大和主观性大,获取内容不直观而且难以直接指导产品研发等问题,提供了一种基于数据挖掘的高速列车三维产品结构技术功效图构建方法及系统。该发明采用数据挖掘中的文本挖掘技术,从专利中挖掘出研发技术的动态变化趋势,并且基于此将产品结构与技术、功效关联,构建出三维产品结构技术功效图。与传统获取方法相比,该方法有三个主要优势:
[0088] 1)本发明通过数据挖掘将技术功效与产品结构有效关联,研发工程师可根据技术功效的新技术发展趋势对产品结构进行改进,从而实现创新研发;
[0089] 2)本发明能自动地分析大量的专利数据,挖掘出高速列车创新研发技术,有效地支持我国高速列车自主研发技术的快速创新、迭代;
[0090] 3)本发明能实时地分析专利中技术的变化趋势,从而有效地把控技术生命周期及可用性。附图说明
[0091] 图1为本发明高速列车三维产品结构技术功效图构建系统的结构示意图。
[0092] 图2为本发明高速列车三维产品结构技术功效图构建方法的流程图
[0093] 图3为本发明实施例中技术生命周期曲线的示意图。
[0094] 图4为本发明实施例中三维产品结构技术功效图的示意图。

具体实施方式

[0095] 下面结合附图和具体实施例对本发明做进一步详细说明。图1为本发明的技术方案还包括一种基于数据挖掘的高速列车三维产品结构技术功效图构建系统,其包括:
[0096] (1)数据获取模块,用于获取专利网中的专利信息。该模块将技术词库中的技术项、功效项、产品结构作为关键词,在专利网中抓取相关专利信息,包括专利题目、摘要、权利要求书、说明书、申请人、申请日、IPC分类号。此外,还能通过设置该模块的获取频率,实现实时获取数据;
[0097] (2)预处理模块,用于预处理获取的专利信息。该模块根据自编的python程序,将专利题目、摘要、权利要求书、说明书等文本进行分词、词性标注和停用词过滤;
[0098] (3)相关词抽取模块,用于抽取技术、功效相关词。该模块可采用产生式的表达形式,编写抽取规则,并基于抽取规则分别抽取技术、功效相关词;
[0099] (4)语义聚类模块,用于将抽取的相关词进行语义聚类,并在此基础上分析出技术项和功效项。该模块根据语义相似度对词语归类,并用平均轮廓系数确定簇数。通过分析各簇中相关词在专利中的出现次数和位置,得到各簇中词语的优先排序,并提供排序较前的词语给工程师,由其总结出各簇的关键词,即技术项或功效项。此外,该模块能将这些技术项、功效项与词库中现有的项进行对比,发现新项,并对其进行标识,以供后续评价。
[0100] (5)主题分析模块,用于分析每个专利中不同主题的比重,即主题权重。该模块根据各簇中相关词在专利中的分布情况,分析出每个专利的技术主题权重、功效主题权重。根据产品结构中的产品名称及其相关词在专利中的分布情况,分析出每个专利的产品结构主题权重;
[0101] (6)技术生命周期计算模块,用于分析每项技术的生命周期。该模块能计算出每项技术的技术生长率、技术成熟系数、技术衰老系数、新技术特征系数、失效度,并通过指数平滑减少噪声数据影响,再由周期判别规则分析出技术的生命周期;
[0102] (7)三维技术功效图构建模块,用于构建产品结构技术功效图。该模块能以功效项为X轴、技术项为Y轴、产品结构为Z轴构建三维空间坐标系,再以功效主题权重、技术主题权重、产品结构主题权重计算出功效项、技术项、产品结构三者的共现值,以此作为三维空间中相交球的半径值。此外,该模块根据新项的共现值判断其是否为新技术项或功效项,共现值不为零则为新技术项或功效项,添加至技术词库,否则舍弃。在此基础上,该模块将统计每个相交球中相关专利的申请人占比和IPC类别占比,得到技术所属领域分布和技术所属企业分布;
[0103] (8)技术内容查看模块,用于提供用户可视化界面,以进行对技术生命周期、产品结构技术功效图的查看。该模块以曲线图的形式,显示技术生命周期的变化情况。该模块以空间离散点图的形式,显示产品结构技术功效图。其中,产品结构技术功效图中的每个相交球连接了相关的技术所属领域分布和技术所属企业分布,以饼状图的形式显示。图4为产品结构技术功效图的示意图,每个相交球连接了两个饼状图;
[0104] (9)技术词库管理模块,用于管理技术词库。该模块能对技术词库中的词语进行增添、修改和删除;
[0105] (10)技术词库,用于储存高速列车研发技术相关的词语。
[0106] 如图2所示,本发明基于数据挖掘的高速列车三维产品结构技术功效图构建方法步骤如下:
[0107] 步骤1:基于技术词库从专利网中获取专利信息;
[0108] 技术词库是与高速列车研发技术相关词语的集合,包括技术项、功效项、高速列车产品结构等。以词库中的词语作为检索关键词在专利网中检索出相关专利,再通过自编的python爬虫程序获取专利信息,包括专利题目、摘要、权利要求书、说明书、申请人、申请日、IPC分类号。
[0109] 其中,技术词库中储存的技术项、功效项的相关词语是根据实际用语预定义的,这些内容能通过本发明技术方案后续步骤不断丰富。
[0110] 步骤2:对获取的专利题目、摘要、权利要求书、说明书等文本进行预处理;
[0111] 通过自编的python程序对专利题目、摘要、权利要求书、说明书进行分词、词性标注、去停用词。
[0112] 步骤3:基于预定义规则从预处理后的文本中抽取技术相关词和功效相关词,主要分两步进行:
[0113] 1)通过分析技术相关词和功效相关词的区别,以产生式作为表达形式,制定抽取规则,如if<词性为名词>,then<该词为技术相关词>;
[0114] 2)根据预定义的规则从专利题目、摘要、权利要求书、说明书中抽取技术相关词和功效相关词。
[0115] 其中,产品结构相关词与技术、功效相关词不同,产品结构相关词定义较为明确,如车体结构相关词有底架、侧墙等,该部分词直接来源于技术词库,不需要重新抽取。
[0116] 步骤4:基于语义相似度分别对两类相关词聚类,通过轮廓系数调整簇数,并分析出各聚类簇的技术项、功效项。针对技术项的获取,其步骤主要分三步进行:
[0117] 1)基于语义相似度聚类,是根据技术相关词间的相似程度将词语归类,语义相似度计算是基于同义词词林中词语的相似情况进行计算的,语义相似度表示为:
[0118]
[0119] 其中,wri、wrj表示任意两个技术相关词,wri=wrj表示在词林中两个词等价,wri#wrj表示在词林中两个词相关,init是相似度的初值函数,其自变量为相关词wri、wrj之间的最短路径,当相关词wri、wrj的最近公共父结点分别在第1、2、3、4层时,该函数分别取值0.65,0.8,0.9,0.96。a为两个相关词最近公共父结点的直接子结点的个数,b为两个相关词在最近公共父结点中的分支间距。
[0120] 某聚类簇中各点到聚类中心距离的平方和表示为:
[0121]
[0122] 其中,WRk表示k簇中词语的集合, 表示k簇中词语的数量,wrik表示k簇中第i个技术相关词, 表示k簇的聚类中心,同时作为k簇中词语的中心词,可表示为:
[0123]
[0124] 其中,u表示中心词 在词林中的位置编号,当u的值不为整数时,采用进位方式修正,max(wrik)和min(wrik)表示k簇中词语在词林中的最大编号和最小编号。基于语义相似度聚的目标是实现聚类域中所有的词语到聚类中心距离的平方和最小,即进一步可表示为:
[0125]
[0126] 其中,WR表示总的技术相关词集合,k表示聚类的簇数。wrij表示j簇中第i个技术相关词; 表示j簇的聚类中心;
[0127] 2)轮廓系数是结合内聚度和分离度两种因素进行度量聚类结果的系数。轮廓系数越大,表示聚类效果越好,反之越差,轮廓系数计算公式为:
[0128]
[0129] 其中,difz(wri)表示词wri与其同一簇内其它所有词差异度的平均值,用于量化簇内的内聚度;difw(wri)表示词wri与wri外的一个簇中所有词的差异度,遍历所有其他簇,找到最小的差异度,用于量化簇间分离度。
[0130] 用整个词语集的平均轮廓系数确定聚类簇数,平均轮廓系数计算公式为:
[0131]
[0132] 其中,nc为所有技术相关词的数量。当平均轮廓系数L(WR)k最大时,簇数k为最佳的聚类簇数。
[0133] 3)基于各聚类簇中词语在专利题目、摘要、权利要求书、说明书的出现位置和次数,计算各簇技术相关词的优先排序,词的出现次数计算公式可以表示为:
[0134]
[0135] 其中,nz表示获取专利的数量, 分别表示词wrik在专利j的题目、摘要、权利要求书、说明书中出现的次数,wp1、wp2、wp3、wp4表示词在专利中不同位置出现的权重,分别取0.4、0.3、0.2、0.1。
[0136] 根据各词num(wrik)值的大小,进行从大到小排序,并将前10~20个技术相关词作为推荐词,再由工程师从中总结出关键词,即技术项。所得的技术项将与词库中现有的项进行匹配,基于此发现新技术项。表1为自动控制技术的相关词排序。
[0137] 表1自动控制技术的相关词排序
[0138]
[0139] 功效项的获取方法与技术项相同,此处不再赘述。
[0140] 步骤5:基于相关词在专利中的分布情况,计算出每个专利中不同主题的权重;
[0141] 每个专利由多个主题组成,每个专利中主题有三类,即产品结构主题、技术主题、功效主题。
[0142] 每个主题在专利中的占比(即权重)是不同的,计算一个专利中技术主题的权重,应先计算在一个专利中每个技术项的相关词出现的总次数,计算公式可以表示为:
[0143]
[0144] 其中,num(WRk)j表示在一个专利中某个技术主题相关词出现的总次数。
[0145] 基于各技术项的相关词在专利中出现的总次数,每个专利中技术主题权重可以表示为:
[0146]
[0147] 其中, 表示每个专利的不同技术主题的权重,其满足 k表示聚类的簇数,即技术项的数量。表2为部分专利的技术主题权重。
[0148] 表2部分专利的技术主题权重
[0149]专利 自动控制 结构件材料 焊接技术 …
专利1 0.465886 0.015725 0.238949 -
专利2 0.359898 0.287475 0.096564 -
专利3 0.158885 0.288798 0.159876 -
… - - - -
[0150] 产品结构主题权重 功效主题权重 的计算方法与技术项相同,此处不再赘述。
[0151] 步骤6:结合技术主题权重和技术生命周期判别指标,分析出每项技术的生命周期,主要分四步进行:
[0152] 1)根据技术主题权重统计各项技术的专利数量,某项技术相关专利数量的统计公式可以表示为:
[0153]
[0154] 2)将获取的专利按两个维度分类,一个维度为发明专利、实用新型专利和外观设计专利,另一维为有效专利和无效专利,并以步骤6中步骤1)的方式统计各类专利的数量;
[0155] 3)计算每项技术生命周期判别指标,包括技术生长率、技术成熟系数、技术衰老系数、新技术特征系数、失效度。某项技术的技术生长率计算公式可以表示为:
[0156]
[0157] 其中,num(inpat0)k、num(inpat-1)k、num(inpat-2)k分别表示本次及前两次获取的发明专利的数量。
[0158] 某项技术的技术成熟系数计算公式可以表示为:
[0159]
[0160] 其中,num(umpat0)k表示本次获取的实用新型专利的数量。
[0161] 某项技术的技术衰老系数计算公式可以表示为:
[0162]
[0163] 其中,num(edpat0)k表示本次获取的外观设计专利的数量。
[0164] 某项技术的新技术特征系数计算公式可以表示为:
[0165]
[0166] 某项技术的失效度计算公式可以表示为:
[0167]
[0168] 其中,num(valid0)k、num(fail0)k分别表示本次获取的有效专利和无效专利的数量。
[0169] 为防止部分技术不适合发表外观设计专利,而导致技术衰老系数不变的问题,使用失效度对技术衰老系数进行修正,修正公式可以表示为:
[0170] β'k=βk×fk
[0171] 为减小噪声数据的影响,将计算得到的指标值进行指数平滑。
[0172] 4)根据周期判别规则确定每项技术在不同时间所处的生命周期,周期判别规则可以表示为:
[0173]
[0174] 其中,△Nk、△vk、△βk分别表示相邻两个获取时间段中新技术特征系数、技术生长率、技术衰老系数的差值,阈值ε可由工程师选取,推荐值小于0.01。如图3为技术生命周期曲线示意图,横轴为时间,纵轴为新技术特征系数值。
[0175] 步骤7:根据主题权重计算出技术项、功效项和产品结构三者的共现值,并基于此绘制三维产品结构技术功效图,主要分四步进行:
[0176] 1)以功效项为X轴、技术项为Y轴、产品结构为Z轴,构建三维空间坐标系;
[0177] 2)技术项、功效项和产品结构三者共现值计算公式可以表示为:
[0178]
[0179] 其中,共现值coe(fk,tk,sk)表示为功效项fk、技术项tk、产品结构sk三者相交球的半径值。
[0180] 3)根据共现值对步骤4中得到的新技术项或功效项进行评价,共现值不为零则为新项,添加至技术词库,否则舍弃;
[0181] 4)统计每个相交球中相关专利的申请人占比和IPC类别占比,得到技术所属领域分布和技术所属企业分布。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈