首页 / 专利库 / 专利权 / 第I章 / 国际申请 / 摘要 / 一种基于图摘要的图模式挖掘方法

一种基于图摘要的图模式挖掘方法

阅读:299发布:2020-05-15

专利汇可以提供一种基于图摘要的图模式挖掘方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种基于图 摘要 的图模式挖掘方法PDDGS 算法 ,依次包括以下步骤:步骤1:给定输入图G和支持度S,使用RoG算法将输入图G进行摘要,得到摘要图Gs;步骤2:根据步骤1得到的摘要图G是,运用GraphZip算法进行图模式挖掘,产生候选集合;步骤3:对候选集合进行筛选,生成挖掘结果。通过引入图摘要阶段,将原始图进行拆解、划分,大大提高了图模式挖掘的效率。因此本发明具有较高的使用价值。,下面是一种基于图摘要的图模式挖掘方法专利的具体信息内容。

1.一种基于图摘要的图模式挖掘算法,其特征在于,对于输入图G,依次包括以下顺序执行的步骤:
步骤1、对于节点集合V={v1,v2,…,vn},依次计算每个节点的密度ρ,将节点和节点密度保存在集合F中,
步骤2、对集合F按照密度ρ由大到小进行排序;
步骤3、每次从F中的取一个节点v,寻找它的所有2步长节点u,依次根据重构误差公式C计算v和2步长节点的重构误差C;
步骤4、选择重构误差C≥θ且最大的节点,与选定的节点v进行合并,更新F,转至步骤3;
步骤5、如果所有2步长节点的重构误差均不满足C≥θ,则将节点移出F集合,若移出后集合F为空,则结束摘要阶段,保存摘要阶段结果;
步骤6、将摘要阶段生成的每一个子图,作为一个批次输入,初始化一个具有单边的字典P,P中存储输入的子图的每一条边;
步骤7、对于下一个输入的图,如果边e出现过,则对其进行扩增1条边,这条边需要时之前出现过的边;
步骤8、对于每一个模式,计算每一个模式的H值,进行排序,取前S个模式,S根据实际需求而定,H计算方法如下:
H(pi)=(|Epi|-1)×(Fpi-1);
其中Epi指这个模式中边的条数,Fpi指这个模式出现的次数。
2.根据权利要求1所述的基于图摘要的图模式挖掘算法,其特征在于,所述步骤1)中,密度ρ的计算方法如下:
ρ=ρ1+αρ2;
其中ρ1、ρ2、α(0≤α≤1)分别为一步长密度、二步长密度和系数。
3.根据权利要求2所述的基于图摘要的图模式挖掘算法,其特征在于,所述步骤3)中重构误差C公式如下:
其中cu、cv分别是两个节点的相临节点,cw是两个节点集u、v相邻的公共节点数。

说明书全文

一种基于图摘要的图模式挖掘方法

技术领域

[0001] 本发明涉及一种图摘要方法和图模式挖掘方法,属于图摘要算法与图模式挖掘算法技术领域。

背景技术

[0002] 近年来,图结构的数据在网络、社会网络、社交网络和生物网络等领域中被大量的收集和分析。在所有的上述的问题中,都有一个共同的问题——对具有数百万甚至数亿节点和边的图进行分析。一方面,用通常的方法来处理如此庞大且复杂的数据,来获取其中的信息是十分困难的,而且这些数据还在以指数级继续增长。另一方面,设计可以拓展到大型图的图挖掘算法本来就是一件极具挑战性的工作。
[0003] 图摘要算法是一个可以解决上述问题的算法。图摘要算法的目的是根据原始图去构造一个简单的替代,这个替代也是图,但是规模远小于原始图。直观的来看,图摘要问题是把图进行高层次的抽象。在摘要图中,每一个节点代表一个输入图的节点集合,每条边代表两个节点集合之间所有的连接。
[0004] 关联规则中的模式挖掘是数据挖掘的一个重要的分支,而其中频繁子图挖掘算法通常产生大量的甚至指数级数量的频繁子图,严重的影响了挖掘结果的可用性。使用图摘要的方法可以有效的解决上述的问题。图摘要的方法对图进行摘要,然后对摘要后的摘要图进行图模式挖掘,可以有效的避免产生过多的输出图,而且由于图摘要的特性,它的时间和空间复杂度相对其他图模式挖掘算法要小很多。因此,将图摘要算法应用到图模式挖掘算法中具有较高的应用价值。

发明内容

[0005] 本发明的目的在于解决现有图模式挖掘算法对于大型图处理的时间复杂度较高的问题。
[0006] 为了解决上述技术问题,本发明的技术方案如下:本发明所述的基于图摘要的图模式挖掘算法,对于输入图G,依次包括以下顺序执行的步骤:
[0007] 步骤1、对于节点集合V={v1,v2,…,vn},依次计算每个节点的密度ρ,将节点和节点密度保存在集合F中。密度ρ的计算方法如下:
[0008] ρ=ρ1+αρ2
[0009] 其中ρ1、ρ2、α分别为一步长密度、二步长密度和系数;
[0010] 步骤2、对集合F按照密度ρ由大到小进行排序;
[0011] 步骤3、每次从F中的取一个节点v,寻找它的所有2步长节点u,依次根据重构误差公式C计算v和2步长节点的重构误差C;重构误差C公式如下:
[0012]
[0013] 其中cu、cv分别是两个节点的相临节点,cw是两个节点集u、v相邻的公共节点数。
[0014] 步骤4、选择重构误差C≥θ且最大的节点,与选定的节点v进行合并,更新F,转至步骤3;
[0015] 步骤5、如果所有2步长节点的重构误差均不满足C≥θ,则将节点移出F集合,若移出后集合F为空,则结束摘要阶段,保存摘要阶段结果;
[0016] 步骤6、将摘要阶段生成的每一个子图,作为一个批次输入。初始化一个具有单边的字典P,P中存储输入的子图的每一条边;
[0017] 步骤7、对于下一个输入的图,如果边e出现过,则对其进行扩增1条边,这条边需要时之前出现过的边;
[0018] 步骤8、对于于每一个模式,计算每一个模式的H值,进行排序,取前S个模式。H计算方法如下:
[0019] H(pi)=(|Epi|-1)×(Fpi-1)
[0020] 其中Epi指这个模式中边的条数,Fpi指这个模式出现的次数。
[0021] 相对于现有技术,本发明具有如下优点:图摘要作为一种处理大型图类型数据而出现的算法,在处理图数据方面具有加速数据处理的优势。将图摘要算法和图模式挖掘算法结合,在提高数据处理效率的基础上,最大限度的保证处理结果的有效性。将图摘要算法和图模式挖掘算法结合,在保证结果近似相同的情况下,对于提高数据处理的效率方面有显著的提高。附图说明
[0022] 图1为本发明方法PDDGS算法的流程图
[0023] 图2为输入图G;
[0024] 图3为摘要图;
[0025] 图4为模式挖掘阶段示意图;
[0026] 图5为在人工数据集下的实验结果;
[0027] 图6为在真实数据集下的实验结果。

具体实施方式

[0028] 下面对本发明技术方案进行进一步说明。
[0029] 下文中所涉及符号和参数的定义如表1:
[0030] 表1 符号说明
[0031]
[0032] 参见图1-图6,一种基于图摘要的图模式挖掘算法,具体步骤如下:步骤1、对于节点集合V={v1,v2,…,vn},依次计算每个节点的密度ρ,将节点和节点密度保存在集合F中,密度ρ的计算方法如下:
[0033] ρ=ρ1+αρ2;
[0034] 其中ρ1、ρ2、α(0<α<1)分别为一步长密度、二步长密度和系数。
[0035] 如图2所示,例如对于节点a,在α取0.5的情况下,其1步长节点数为5个,分别为b、c、h、g、e,2步长节点数为2,分别为d、f,因此其密度ρa=7。
[0036] 步骤2、对集合F按照密度ρ由大到小进行排序;
[0037] 步骤3、每次从F中的取一个节点v,寻找它的所有2步长节点u,依次根据重构误差公式C计算v和2步长节点的重构误差C;重构误差C公式如下:
[0038]
[0039] 其中cu、cv分别是两个节点的相临节点,cw是两个节点集u、v相邻的公共节点数。
[0040] 如图2,以h、g两个节点为例,h节点的相邻节点有4个,分别为a、d、e、f,因此,cf为4;g节点相邻节点有3个,分别为a、e、f,因此cg为3;h和g的公共相邻的节点有3个,分别为a、e、f,因此cw为3;h和g的重构误差为
[0041]
[0042] 步骤4、选择重构误差C≥θ且最大的节点,与选定的节点v进行合并,更新F,转至步骤3;
[0043] 如果这里取θ≥0.5,那么h、g节点满足条件,可以进行合并,合并以后,h、g节点生成一个新的节点。由于合并节点而丢失的边或新增的边存储在修正集中。图2中的图,进行摘要后,可以用摘要图3表示。其中C为记录的修正集。
[0044] 步骤5、如果所有2步长节点的重构误差均不满足C≥θ,则将节点移出F集合,若移出后集合F为空,则结束摘要阶段,保存摘要阶段结果;
[0045] 步骤6、将摘要阶段生成的每一个子图,作为一个批次输入。初始化一个具有单边的字典P,P中存储输入的子图的每一条边;
[0046] 步骤7、对于下一个输入的图,如果边e出现过,则对其进行扩增1条边,这条边需要时之前出现过的边;
[0047] 步骤8、对于每一个模式,计算每一个模式的H值,进行排序,取前S个模式,S根据实际需求而定。H计算方法如下:
[0048] H(pi)=(|Epi|-1)×(Fpi-1)
[0049] 其中Epi指这个模式中边的条数,Fpi指这个模式出现的次数。
[0050] 使用图4来说明步骤6、7、8的具体过程。S(1)为第一个输入进来的子图,将图进行拆解,拆解后为一些独立边的集合,生成字典P。之后输入第二个输入子图S(2),将字典P中的结(2) (2)构对S 进行子图同构匹配,存在匹配的结构,进行一条边的扩增。例如S 中存在A-B这个结构,然后对其进行扩增一条边A-C。在计算同构时,使用了VF2算法,这里不进行详述。
[0051] 同时,字典P是有大小的,只对P保存前若干个有效结果。筛选标准是H值,这个打分可以把出现1次的模式和边数位1的结构筛选掉。在得分相同时,优先考虑Epi-1的值,即优先考虑结构大的模式。
[0052] 我们在人工数据集和真实数据集中进行了测试,测试结果展示如下。对照算法为HSIGRAM算法。
[0053] 需要说明的上述实施例仅仅是本发明的较佳实施例,并没有用来限定本发明的保护范围,在上述技术方案的技术上做出的等同替换或者替代,均属于本发明的保护范围。
相关专利内容
标题 发布/更新时间 阅读量
摘要提取方法以及摘要提取模块 2020-05-11 722
视频摘要提取 2020-05-11 343
处理消息摘要指令 2020-05-12 661
摘要评估装置和方法 2020-05-13 211
一种自动文本摘要方法 2020-05-13 461
摘要生成装置和摘要生成方法 2020-05-11 369
摘要生成方法及装置 2020-05-11 299
摘要数据自动填充 2020-05-12 833
影像摘要装置 2020-05-11 727
多功能摘要书籍 2020-05-11 632
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈