专利汇可以提供用于复杂网络的分布式知识数据挖掘装置和挖掘方法专利检索,专利查询,专利分析的服务。并且一种用于复杂网络的分布式知识 数据挖掘 装置和方法,该装置采用分布式计算平台,由控制单元、计算单元和 人机交互 单元三部件组成,其创新关键是将数据挖掘中繁杂的聚类 算法 所需的计算量分配在不同的 服务器 完成,提高数据挖掘的效率。还能针对不同知识数据运用不同准则计算知识数据的关系度及其权值,使得其结果更加可信。且在知识数据挖掘过程中采用二级聚类模式:第一级聚类结果较为粗略,但计算复杂度很低;第二级聚类的计算复杂度较高,但结果更为精准;本 发明 将二者有效结合,比传统一级聚类模式在时间复杂度和聚类精准度上都得到很大的改善。本发明采用 可视化 直观展示网络结构及动态演化过程,为学科发展、热点研究领域的预测提供参考。,下面是用于复杂网络的分布式知识数据挖掘装置和挖掘方法专利的具体信息内容。
1.一种用于复杂网络的分布式知识数据挖掘装置,其特征在于:该装置设有三个部
件:控制单元、计算单元和人机交互单元,其中:
人机交互单元,用于实现人机交互功能,向用户提供包括针对知识数据的聚类、关系度
计算或权值计算的可选功能,在用户选择后,接收用户指令,并转送给控制单元执行相应操作;且在运算结束后,将控制单元处理完成的数据,结合用户所选择的功能,以适宜方式显示给用户;该单元以.NET开发为主,利用包括WPF的框架模块实现数据的图形化显示和交互;
控制单元,用于接收人机交互单元输入的指令,并以分布式平台特性和功能,按照包括
MapReduce机制的设定方式控制和分配计算任务,并统一汇总计算单元的计算结果,反馈给人机交互单元进行显示;
计算单元,负责完成控制单元分配的计算任务,并将计算结果反馈给控制单元,设有:
数据采集,相关度计算,权重计算,聚类和预测共五个模块。
2.根据权利要求1所述的装置,其特征在于:所述计算单元各个模块的功能如下:
数据采集模块,用于使用爬虫工具或开放的应用程序接口API在线采集包括科研项
目、专利和论文的知识数据,再采用包括正则表达式分析、过滤和删除无用数据和非法字符的方法对该知识数据进行预处理:建立能够藉由科研项目负责人、专利申请人、发明人或专利权人,以及论文作者的关系寻找到知识数据的索引,然后将其存入分布式数据库中,作为后续计算的数据源;
相关度计算模块,用于计算已有知识数据的相关度:遍历数据库中的知识数据,根据设
定的相关度计算规则,量化知识数据属性的相关程度,计算每个知识数据与其他知识数据的相关度,得到每两个知识数据之间的相关度;
权值计算模块,用于计算现有知识数据的权重:遍历数据库中现有的知识数据,根据设
定规则和知识数据自身的属性特征,计算每个知识数据的权值;
聚类模块,负责完成对现有知识数据的聚类:利用知识数据的相关度及其自身权值,构
建知识数据网络,再利用聚类算法对知识数据进行聚类,把相似或相关的知识数据聚集在一起,发现或得到知识数据网络的社团结构;
预测模块,用于根据知识数据的聚类结果,采用包括时间序列分析和神经网络算法对
知识数据的发展趋势和动向进行预测。
3.根据权利要求1所述的装置,其特征在于:该装置的计算单元采用分布式处理软件
架构Hadoop平台对知识数据实现分布式计算处理,即利用该Hadoop平台中包括映射Map
和化简Reduce两个处理过程的MapReduce机制,作为该计算单元使用的分布式计算方法,对知识数据进行有效分割和重组,并减少数据处理时间,提高数据处理效率。
4.根据权利要求3所述的装置,其特征在于:所述MapReduce计算机制用于实现聚类
过程,即把对知识数据的聚类计算分为Map和Reduce两个过程:先使用Map操作并行地将
原始知识数据转换为可聚类的格式,并给不同服务器分配互不重复的知识数据,且每个服务器根据给定的k值随机选取k个知识数据作为初始聚类中心,并对其按照顺序编号,对这些知识数据同时进行初始划分后,开始对每个知识数据执行初始划分和下述迭代操作:每个服务器在Map阶段分别读出位于本地的知识数据,并计算每个知识数据到各初始聚类中心的距离,将其归属到最近的初始聚类中心,再将本次聚类的结果在Reduced过程中返回;
Reduce过程是得到所有知识数据的聚类结果,并对各服务器聚类结果进行合并后,在每个新的聚类中选取权值最大的知识数据作为新的聚类中心;重复执行上述Map和Reduce操
作,直到聚类中心不再变化或达到最大迭代次数时,结束迭代,并输出每个知识数据归属的聚类信息;以简化分布式计算的底层复杂性,并向用户提供简单、可靠的应用接口。
5.根据权利要求1所述的装置,其特征在于:所述知识数据包括科研项目、科研人员、
专利和论文的四个维度信息,是由科研项目、专利和论文的数据经过预处理得到的,同时,将科研项目、科研人员、专利和论文相互关联起来。
6.一种用于复杂网络的分布式知识数据挖掘装置的大规模知识数据挖掘方法,其特征
在于:所述方法包括下列操作步骤:
(1)人机交互单元接收用户输入指令,确认用户的计算需求并传递给控制单元;
(2)控制单元接收人机交互单元传递的指令,判定指令内容,确认用户需要的计算过
程,并对该计算操作进行分工,分配给计算单元;
(3)计算单元完成控制单元分配的数据处理和计算,且在完成处理计算后,将计算结果提交给控制单元;
(4)控制单元进行汇总处理后,将结果交付给人机交互单元;
(5)人机交互单元接收到控制单元的处理结果,判定该处理结果及其显示的类型,以便采用设定方式向用户展示该结果;所述结果及其显示类型包括聚类结果、预测分析结果和知识数据。
7.根据权利要求6所述的方法,其特征在于:所述步骤(3)中,计算单元完成的数据处
理和计算包括下列操作内容:
(31)数据采集模块接收控制单元分配的任务,采用包括网络爬虫和开放的应用接口
API采集数据,并对其进行预处理,得到包含科研项目、科研人员、专利和论文四个维度信息的知识数据,然后将该知识数据存储于分布式数据库;
(32)对预处理后的知识数据计算其数据相关度,得到每个知识数据之间的关系,构建
初始知识数据网络,为后续的聚类处理操作提供依据;
(33)计算知识数据的权值,得到每个知识数据在知识数据网络中的权值;
(34)对所获得的初始知识数据网络进行聚类:利用两层聚类算法进行聚类,再通过数
据可视化技术,将得到的聚类结果、即复杂的知识数据关系网络展现给用户;
(35)利用知识数据预测某个领域内的技术发展趋势和方向。
8.根据权利要求7所述的方法,其特征在于:所述步骤(31)包括下列操作内容:
(31a)数据采集模块利用网络爬虫或开放的应用接口API在网络上实时抓取包括科研
项目、专利和论文的知识数据,其中,科研项目知识数据包括:项目的名称、编号、起止时间、经费及其负责人和单位的信息;专利知识数据包括:专利申请人和发明人、专利说明书摘要、引用的专利信息、专利申请日及其公开日和公开号的信息;论文知识数据包括:论文名称、作者、内容和引用的文章名信息;然后将抓取到的各种知识数据按照技术领域区分并存储于分布式数据库;其中,科研项目名称、专利名称和论文名称是短文本数据,专利说明书摘要和论文内容是长文本数据;
(31b)预处理模块对知识数据进行预处理:对存储于数据库中的新抓取的每个知识数
据执行包括分词、过滤无用词和非法字符的预处理,得到每个知识数据中的项目名称、专利名称或论文名称的分词序列,再将知识数据及上述三个序列作为预处理结果,存储于分布式数据库。
9.根据权利要求7所述的方法,其特征在于:所述步骤(32)对预处理后的知识数据计
算每个知识数据之间相关度的操作包括下列内容:
(32a)将分布式数据库中的专利说明书摘要和论文内容数据作为文本词语库,对其进
行分词操作,使用词频-逆向文件频率TF-IDF方法,得到关键词集合,再对关键词和文本词语库中每个知识数据的TF-IDF关系矩阵进行奇异值分解,得到各个关键词之间的直接关
联关系值,并存储在分布式数据库中;或
(32b)对于科研项目名称、专利名称或论文名称构成的短文本数据集合中的任意两个
短文本数据A和B,所对应的关键词的分词序列分别是序列wordA和序列wordB;再按照公
式: 计算该两个短文本数据A和B的关系度值;其中,i,j分别
为两个不同关键词在各自的分词序列wordA和分词序列wordB中的序号;n1,n2分别为两个分词序列wordA和wordB的各自长度;Rword(i,j)是分词序列wordA中第i个关键词和分词
序列wordB中第j个关键词的关系度值;Rtext(A,B)值越大,说明短文本数据A和短文本数据B的相似度越大;或
(32c)每两个科研人员a和b之间的关系度值Rpeople(a,b)是根据其共同负责过的
科研项目、共同完成的发明专利和/或共同发表的论文数量和该两个科研人员各自或
共同负责的科研项目、发明专利和发表的论文数量对应的比值按照下述加权计算公式:
计算得到的;其中,a、b为该两个科研人员,Nab为该两个科研人员
a和b共同负责的科研项目数、共同发表的论文数、共同完成的发明专利数的总和,Na和Nb分别表示每个科研人员a和b各自负责过的项目、发明专利和/或发表的论文总数;或
(32d)采用下述不同公式分别计算知识数据在不同维度上的相关度值:
两个科研项目α={αleader,αtitle,αtime,αlevel}和β={βleader,βtitle,βtime,βlevel},其中,αleader和βleader分别为项目α和β各自的负责人,αtitle和βtitle、αtime和βtime以及αlevel和βlevel分别为项目α和β的名称、起止时间及其级别,它们之间的相关度值的计算公式为:
Rproject(α,β) = q1×Rpeople(αleader,βleader)+q2×Rtext(αtitle,βtitle); 其 中,Rpeople(αleader,βleader)为由步骤(32c)计算得到的项目负责人αleader和βleader的相关度值,Rtext(气title,βtitle)为由步骤(32b)计算得到的项目名称αtitle和βtitle的相关度值,q1,q2分别为项目负责人的相关度值Rpeople(αleader,βleader)和项目名称的相关度值Rtext(αtitle,βtitle)的权值,且q1+q2=1;
两个专利χ={χowner,χtitle,χtime}和δ={δowner,δtitle,δtime};其中,χowner和δowner、χtitle和δtitle、以及χtime和δtime分别为两个专利χ和δ各自的发明人、名称及其公开时间,它们之间的相关度值为:
Rpatent(χ,δ) = q1×Rpeople(χowner,δowner)+q2×Rtext(χtitle,δtitle)+q3×Lpatent(χ,δ);其中,Rpeople(χowner,δowner)为两个专利发明人χowner和δowner之间的相关度值,Rtext(χtitle,δtitle)为由步骤(32b)计算得到的两个专利名称χtitle,δtitle之间的相关度值;Lpatent(χ,δ)表示两个专利χ和δ之间是否存在引用关系,若有引用关系,其数值为
1,否则,其数值为0;q1,q2,q3分别为专利发明人相关度值Rpeople(χowner,δowner)、专利名称相关度值Rtext(χtitle,δtitle)和专利间引用关系Lpatent(χ,δ)的权值,且q1+q2+q3=1;
两个论文ν={νowner,νtitle,νtime}和μ={μowner,μtitle,μtime},其中,νowner和μowner分别为两个论文ν和μ各自的作者,νtitle和μtitle、νtime和νtime分别为论文ν和μ的名称和各自的发表时间,它们之间的相关度值计算公式为:Rpaper(ν,μ)=q1×Rpeople(νauthor,μauthor)+q2×Rtext(νtitle,μtitle)+q3×Lpaper(ν,μ),其中,Rpeople(νauthor,μauthor)为论文作者νauthor和μauthor的相关度值,式中,Rtext(νtitle,μtitle)是利用步骤(32b)计算得到的两个论文名称νtitle,μtitle之间的相关度值,Lpaper(ν,μ)表示两个论文ν和μ之间是否存在引用关系,若有引用关系,其数值为1,否则,其数值为0;q1,q2,q3分别为论文作者的相关度值Rpeople(χowner,δowner)、论文名称的相关度值Rtext(χtitle,δtitle)和论文间引用关系Lpatent(χ,δ)的权值,且q1+q2+q3=1。
10.根据权利要求7所述的方法,其特征在于:所述步骤(33)计算知识数据权值的准则
如下:
科研人员的权值取决于其负责的科研项目数和科研项目级别或资助经费、
授权的发明专利数和发表的论文数及其质量,即科研人员a的权值计算公式为:
式中,Npaper(a)和Npatemt(a)
分别为科研人员a发表的论文数和授权的发明专利数,Cproject(a)和W(a)分别为科研人员a负责的所有科研项目总数及其科研项目级别或资助经费,q1,q2,q3分别为论文数、专利数和项目级别在科研人员权值计算公式中的权值,且q1+q2+q3=1;
论文或专利的权值是由其被其他论文或专利引用的次数和其发表或公开时间所共同
决定;其中,专利χ的权值计算公式为:
式中,
滞留系数d是自身权值和被引用所获的权值所占的比
率,这里选取d=0.85;常数e取决于不同类别的专利更新速度;T为当前年份减去专利申请日所在年的授权专利保护年限,引入e和T是为了提高新专利的权值;Wage-patent(δ,χ)为专利δ将其自身权值传播给它引用的专利χ的传播比重;γ为引用专利χ的所有专利总
数;s为专利δ引用的所有专利总数;tδ,χ为两个专利的年龄差,其计算方法为:专利δ和专利χ两者的公开年份之差+1;平滑因子b用于调整不同年龄的被引用文献获得的权值
之间的差异,使的年龄小的被引文献获得的权值不会太大,并根据不同种类专利校正b值而分配得到准确的权值,这里设置b=5;论文μ的权值Wpaper(μ)计算公式为:
其中, 滞
留系数d是自身权值和被引用所获的权值所占的比率,这里选取d=0.85;常数e取决于
不同类别的论文更新速度;T为当前年份减去论文发表年份的论文年龄;Wage-paper(ν,μ)为论文ν将自身的权值传播给它引用的论文μ的传播比重;ω为引用论文μ的所有论文
总总数;ψ为论文ν引用的所有论文总数;tν,μ为两篇论文的年龄差,其计算方法为:论文ν和论文μ两者的发表年份之差+1;平滑因子b用于根据不同种类论文校正其数值,
使得每篇论文分配得到准确的权值,这里设置b=5。
11.根据权利要求7所述的方法,其特征在于:所述步骤(34)中,聚类算法采用两层聚
类结构:先采用复杂度低的Cure聚类算法或Leader聚类算法对知识数据进行初步的聚类
运算,将知识数据分成多个规模较大的初始聚类;再使用复杂度高的基于MapReduce机制的k均值聚类算法对上述每个初始聚类进行二次聚类;这样得出比第一次聚类算法更精准的聚类结果,同时比直接使用k均值聚类算法降低了计算复杂度。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于持续时间模型的驾驶员违章风险估计方法 | 2020-05-19 | 44 |
网络文学章节的确定方法和装置 | 2020-05-17 | 21 |
文章推荐方法及其装置 | 2020-05-19 | 372 |
一种挖掘社区领域专家的方法和装置 | 2020-05-18 | 956 |
以密钥基础建设系统实现的电子签验章方法 | 2020-05-15 | 57 |
人体内生长激素变异的检测方法、该变异及其应用 | 2020-05-13 | 511 |
篇章翻译方法和装置 | 2020-05-11 | 342 |
一种文章生成的方法和装置 | 2020-05-11 | 245 |
一种基于词向量的个性化媒体内容推荐系统及方法 | 2020-05-15 | 174 |
理线器以及电子设备 | 2020-05-13 | 744 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。