首页 / 专利库 / 数学与统计 / 优化算法 / 一种基于结构特征强化的高效马尔可夫随机场社团发现方法

一种基于结构特征强化的高效尔可夫随机场社团发现方法

阅读:272发布:2023-12-28

专利汇可以提供一种基于结构特征强化的高效尔可夫随机场社团发现方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种基于结构特征强化的高效 马 尔可夫随机场社团发现方法,主要步骤:首先,利用网络嵌入从拓扑结构中提取可表征每个结点自身结构特征的低维向量;其次,对网络中真正有边相连的结点对儿,依据存在一条边的两个基本假设,来构建它们的成对势函数;再次,基于马尔科夫随机场 框架 将得到的势 能量 整合统一;根据吉布斯分布提供的概率和能量之间的关系,定义在网络拓扑A的条件下社团划分C的后验概率分布,为优化部分提供目标。本发明与6个统计模型类社团发现方法(包含NetMRF)进行比较,结果显示iMRF的平均 精度 高于对比 算法 2.6%~12.9%,并对大规模网络具有更强的处理能 力 。,下面是一种基于结构特征强化的高效尔可夫随机场社团发现方法专利的具体信息内容。

1.一种基于结构特征强化的高效尔可夫随机场社团发现方法,其特征在于,包含以下步骤:
步骤1):利用网络嵌入从拓扑结构中提取可表征每个结点自身结构特征的低维向量,并在此基础上定义能量函数中的单点势函数;
步骤2):对网络中真正有边相连的结点对儿,依据存在一条边的两个基本假设,来构建它们的成对势函数;
步骤3):基于马尔科夫随机场框架将得到的势能量整合统一,以此构建能量函数E(C;
A),令单点势函数θi(ci)刻画个体结点的势能量,令成对势函数θij(ci,cj)捕捉成对结点的势能量;
步骤4):根据吉布斯分布P(C|A)∝exp{-βE(C|A)}提供的概率和能量之间的关系,定义在网络拓扑A的条件下社团划分C的后验概率分布,为优化部分提供目标;
步骤5):通过最大化后验概率P(C|A,V)得到社团划分结果C;
步骤6):通过标准化互信息、准确度和模度值指标衡量准确度。
2.根据权利要求1所述的一种基于结构特征强化的高效马尔可夫随机场社团发现方法,其特征在于,所述步骤1)具体为:通过结合网络嵌入与模糊C均值方法,从网络拓扑中提取出所有结点的结构特征,进而基于吉布斯分布将其建模为在能量函数中起主要作用的单点势函数。
3.根据权利要求1所述的一种基于结构特征强化的高效马尔可夫随机场社团发现方法,其特征在于,所述步骤2)为对网络数据进行建模,建模共分为两种情况:第一种情况是如果两个结点具有高度的结构相似性,即表征它们结构特征的低维向量之间具有非常小的欧式距离,那么这对结点之间倾向于存在一条边;第二种情况是如果两个结点的结构特征不相似,但是它们之间却仍然有一条边存在,即其中一个结点的流行度非常高,吸引另一个结点与它产生一条边。
4.根据权利要求1所述的一种基于结构特征强化的高效马尔可夫随机场社团发现方法,其特征在于,所述步骤3)在步骤1)和步骤2)的基础上将得到的势能量整合统一,核心能量函数由两部分组成:第一部分是一组单点势函数,它以个体结点为定义单位,捕捉该结点的个性化结构特征;第二部分是一组成对势函数,它以结点对儿为定义单位,刻画该结点对儿之间的依赖或约束关系。
5.根据权利要求1所述的一种基于结构特征强化的高效马尔可夫随机场社团发现方法,其特征在于,所述步骤4)在步骤1)至步骤3)的基础上对得到的用户评分相似度计算公式和用户评分相似度计算公式进行结合,具体如下:基于定义在社团划分C上的能量函数,利用吉布斯分布,来计算给定网络拓扑A时社团划分C的后验概率。
6.根据权利要求1所述的一种基于结构特征强化的高效马尔可夫随机场社团发现方法,其特征在于,所述步骤5)在步骤1)至步骤4)的基础上使用评价指标进行计算,衡量准确程度,具体如下:通过标准化互信息、准确度和模块度值指标衡量社团发现方法解决现存技术性问题的准确度。

说明书全文

一种基于结构特征强化的高效尔可夫随机场社团发现方法

技术领域

[0001] 本发明属于社交网络分析、网络数据处理数据挖掘领域,涉及社团检测技术和社交网络推荐技术,尤其是一种基于结构特征强化的高效马尔可夫随机场社团发现方法。

背景技术

[0002] 近年来,复杂网络社团结构检测已吸引了许多来自不同研究领域研究者的关注。目前已提出了许多基于不同理论和技术的方法,它们包括谱聚类,层次聚类,启发式方法,模度优化,动学方法和统计模型推断等。尤其是基于统计模型的方法,由于其具有坚实的理论基础和优越的性能,得到了广泛的研究与应用。目前基于统计模型的方法可分为三类:第一类主要是基于随机块模型及其扩展,采用似然最大化进行求解,譬如Karrer等基于“在模型中保持结点度分布”的思想,提出了一个度修正的社团发现随机块模型。第二类是将非负矩阵分解用于社团发现任务,譬如Zhao等提出了一个概率矩阵分解模型来建模符号网络,并采用期望最大化方法进行参数估计,以发现符号网络中的社团结构。第三类是基于深度学习的社团发现模型,譬如Yang等提出了一个基于深度自编码器的网络及社团表征模型,在学习出大规模网络非线性表征的同时获取社团结构。
[0003] 然而,目前基于统计模型的社团发现方法大都仅关注于有向概率图模型,而已被成功用于(与社团发现问题相似的)图像分割的无向概率图模型——马尔可夫随机场(Markov Random Field,MRF)却极少被用于社团发现领域。其主要挑战在于:1)用于图像分割的MRF是以像素点特征(如RGB值)为主导构建单点势函数(unary potential),在图像分割中起核心作用;而在复杂网络中则截然不同:拓扑结构是其最基础的信息,而结点特征(即使有的话)一般也仅起辅助作用。2)MRF利用像素间规则的网格化结构(如四邻域或八邻域)构建成对势函数(pairwise potential),在图像分割中起辅助性的微调作用;然而网络拓扑是不规则的,而我们正是需要利用这种不规则的网络拓扑来发现其中蕴含的社团结构。针对以上问题,2018年我们提出了一个网络导向的成对MRF模型NetMRF,首次将MRF用于社团发现领域。该模型能够克服(或弱化)网络中没有结点个体特征的缺陷,并通过巧妙地将网络中仅有的不规则拓扑信息建模到模型的核心能量函数中去,来达到刻画社团结构的目的,并通过最小化能量函数以发现最佳社团结构。
[0004] NetMRF虽具有较好的性能,但仍存在如下问题。1)该模型的能量函数不够完整,缺少刻画结点个体特征的单点势函数。一般来说,单点势函数是在成对MRF中起主导作用(即获取近优解)的部分,它的缺失会弱化模型对社团的全局描述能力,从而降低社团发现性能。2)为了使成对势函数(在MRF能量函数中起微调作用的部分)有效建模网络中不规则的拓扑信息,NetMRF中定义了一个复杂的全连接成对势函数结构。这种全连接的方式虽然有效,却会使模型推断部分的时间复杂度非常高,达到O(n3)级,n为结点数目。尽管中也提供了一个高效的近似推断版本,但这种复杂的近似过程仍会降低模型的描述能力,尤其会受限于有效处理大规模网络的问题。

发明内容

[0005] 本发明的目的在于克服现有技术的不足,提供一种基于结构特征强化的高效马尔可夫随机场社团发现方法,能够有效克服NetMRF能量函数不完整以及效率不高的问题,从而构建了一个高精度、近线性的马尔可夫随机场新模型。
[0006] 本发明为解决背景技术中提出的技术问题,采用的技术方案是:一种基于结构特征强化的高效马尔可夫随机场社团发现方法,包含以下步骤:
[0007] 步骤1):利用网络嵌入从拓扑结构中提取可表征每个结点自身结构特征的低维向量,并在此基础上定义能量函数中的单点势函数;
[0008] 步骤2):对网络中真正有边相连的结点对儿,依据存在一条边的两个基本假设(即:或是这对儿结点具有较高的结构相似性,或是由于其中一个结点的流行度非常高、从而吸引了另一结点与它产生边),来构建它们的成对势函数;
[0009] 步骤3):基于马尔科夫随机场框架将得到的势能量整合统一,以此构建能量函数E(C;A).令单点势函数θi(ci)刻画个体结点的势能量,令成对势函数θij(ci,cj)捕捉成对结点的势能量;
[0010] 步骤4):根据吉布斯分布P(C|A)∝exp{-βE(C|A)}提供的概率和能量之间的关系,定义在网络拓扑A的条件下社团划分C的后验概率分布,为优化部分提供目标;
[0011] 步骤5):通过最大化后验概率P(C|A,V)得到社团划分结果C;
[0012] 这里我们基于最大化后验(maximum a posteriori,MAP)进行推断,目标是推断出对应于最大化联合概率分布的所有社团成员的一组配置;
[0013] 步骤6):通过标准化互信息、准确度和模块度值指标衡量本发明提出的社团发现方法解决现存技术性问题的准确度。
[0014] 本发明所述步骤1)具体为:通过结合网络嵌入与模糊C均值方法,从网络拓扑中提取出所有结点的结构特征,进而基于吉布斯分布将其建模为在能量函数中起主要作用的单点势函数。
[0015] 本发明所述步骤2)为对网络数据进行建模,建模共分为两种情况;
[0016] 第一种情况是如果两个结点具有高度的结构相似性,即表征它们结构特征的低维向量之间具有非常小的欧式距离,那么这对结点之间倾向于存在一条边;
[0017] 第二种情况是如果两个结点的结构特征不相似,但是它们之间却仍然有一条边存在,即其中一个结点的流行度非常高,吸引了另一个结点与它产生一条边。
[0018] 本发明所述步骤3)在步骤1)和步骤2)的基础上将得到的势能量整合统一,核心能量函数由两部分组成;
[0019] 第一部分是一组单点势函数,它以个体结点为定义单位,捕捉该结点的个性化结构特征;
[0020] 第二部分是一组成对势函数,它以结点对儿为定义单位,刻画该结点对儿之间的依赖或约束关系。
[0021] 本发明所述步骤4)在步骤1)、步骤2)和步骤3)的基础上对得到的用户评分相似度计算公式和用户评分相似度计算公式进行结合,具体如下:基于定义在社团划分C上的能量函数,利用吉布斯分布,来计算给定网络拓扑A时社团划分C的后验概率。
[0022] 本发明所述步骤5)在步骤1)、步骤2)、步骤3)和步骤4)的基础上使用评价指标进行计算,衡量准确程度,具体如下:通过标准化互信息、准确度和模块度值指标衡量社团发现方法解决现存技术性问题的准确度。
[0023] 有益效果
[0024] 我们在一组被广泛使用的人工网络和十九个真实网络上进行实验。除了我们原来提出的马尔可夫随机场方法NetMRF,其他对比算法包括:1)度修正随机块模型Karrer;2)矩阵分解方法SNMF,3)BNMTF和4)MNDP;5)深度学习方法DNR。当网络中的社团结构已知时,我们利用标准化互信息(Normalized Mutual Information,NMI)和准确率(Accuracy,AC)作为评价指标;当社团结构未知时,我们利用模块度函数(Modularity Q)作为评价指标。为公平比较,我们使用作者提供的源代码和默认参数。但对于深度学习方法DNR,它的结果对于参数十分敏感,通常需要花费很长的时间来调参以获取好的结果,因此,这里我们仅使用作者在原文中报道的实验结果。
[0025] 在社团发现性能评估的应用中,交互信息(Mutual Information,MI)通常被用来估量两个社团分布的相似度。给定两个社团分布的集合C(真实社团)和 (模型推断的社团结果),他们的交互信息 被定义为:
[0026]
[0027] 其中P(ci)和 分别表示结点i属于社团ci和结点j属于社团 的边缘概率,表示它们的联合概率。 的取值范围是从0到 这里的H(C)和 分别是C和 的熵。当两个社团划分完全相同时 取最大值,反之当他们完全独立时取0。 的一个重要的特性是对于不同标签排列其值不变。在实验中,我们使用归一化的度量 即NMI,其取值范围为从0到1。
[0028] 准确率(Accuracy,AC)常用来估量标签的正确率。给定一个包含n个结点的网络,对于每个结点,是我们通过一个模型得到的社团标签,而ri是标签已知的真实值,那么准确率定义为:
[0029]
[0030] 其中δ(x,y)仅当x=y时为1,否则为0。 是一个映射函数,将每个社团标签映射到与其相对应的真实值。
[0031] 另外,当真实的社团分布未知时,我们采用著名的模块度函数Q作为算法性能的度量标准。一个K簇的划分是一个标签集合{c},其中 是结点i所属的簇。一个包含n个结点和m条边的网络划分{c}的模块度函数定义如下:
[0032]
[0033] 其中ε是边的集合,度di是结点i的邻居结点数目, 是Kronecker函数,其仅当ci=cj时取值为1,否则为0。这时,模块度的物理含义即为:网络中同一社团内结点的边数占网络总边数的比例,减去相同结点数相同社团划分时其期望边数的比例。如果社团内的边数与随机值相同,则Q=0;对于最强的社团结构可有Q=1。
[0034] 实验结果表明,在一组人工网络和十九个真实网络上,与6个统计模型类社团发现方法(包含NetMRF)进行比较,结果显示iMRF的平均精度高于对比算法2.6%~12.9%,并对大规模网络具有更强的处理能力。附图说明
[0035] 图1为本发明方法的整体示意图;
[0036] 图2为在GN人工网络上采用以下两个度量标准,不同社团发现方法的比较:
[0037] (a)NMI;
[0038] (b)AC。

具体实施方式

[0039] 下面结合附图和具体实施例对本发明技术方案作进一步详细描述,所描述的具体实施例仅对本发明进行解释说明,并不用以限制本发明。
[0040] 本发明提供了一种结构特征强化的高效马尔可夫随机场社团发现方法,如图1所示,为本发明方法的具体实施例的整体示意图,包括:
[0041] 步骤S0101:利用网络嵌入从拓扑结构中提取可表征每个结点自身结构特征的低维向量,并在此基础上定义能量函数中的单点势函数;
[0042]
[0043] 这里β表示温度,通常被设置为1;因为γci已经是结点i属于各个社团的概率分布,所以不需要再次对其进行归一化。概率分布和能量函数呈现出反比关系,即能量函数值越小,其对应的概率值越大。
[0044] 步骤S0201:对网络中真正有边相连的结点对儿,依据存在一条边的两个基本假设(即:或是这对儿结点具有较高的结构相似性,或是由于其中一个结点的流行度非常高、从而吸引了另一结点与它产生边),来构建它们的成对势函数。
[0045]
[0046] 其中ω1和ω2是两个权重系数,均为非负;如果ci=cj,函数μ(ci,cj)的值为-1,否则为1;d(vi,vj)表示特征向量vi和vj之间的欧式距离,di表示结点i的度。
[0047] 步骤S0301:能量函数中所有单点势函数和成对势函数互相补充、协同工作,实现探测网络中全局一致的社团结构之目标。iMRF模型的能量函数被定义为:
[0048]
[0049] 其中,C=(c1,c2,…,cn)表示网络中所有结点的社团划分,ε表示网络中边的集合,vi表示结点i的低维向量表征,V={v1,…,vn}表示n个结点低维向量的集合,θi表示单点势函数,θij表示成对势函数
[0050] 步骤S0401:基于定义在社团划分C上的能量函数,我们可利用吉布斯分布,来计算给定网络拓扑A时社团划分C的后验概率:
[0051]
[0052] 步骤S0501:信念传播算法的关键就是每个结点i发送一条“消息”给结点j,其中j是在网络拓扑中和i直接相连的结点(也称结点i的邻居)。该消息表明:当不考虑结点j的情况下,固定结点i属于社团ci时所对应的最大负能量值。我们使用 表示在结点j缺席的情况下,结点i属于社团ci的最大负能量值,它是通过递归计算i收到所有其他邻居结点的消息来获得的:
[0053]
[0054] 这里N(i)表示结点i的邻居结点集合。因为在信念传播算法的最大化-加和版本中,消息不再是一个概率分布,所以消息的归一化变为将最小值平移至0。
[0055] 当算法收敛后,可计算每个结点的最大化信念μi(ci),它表示当固定结点i属于社团ci时,得到的最大负能量值,具体计算公式如下:
[0056]
[0057] 为了得到对应联合最大后验概率的结点标签,我们选择每个变量ci对应最大化信念时的状态:
[0058]
[0059] 本发明提供一种社团发现方法,能够有效克服NetMRF能量函数不完整以及效率不高的问题构建了一个高精度、近线性的马尔可夫随机场新模型。
[0060] 图2(a)和(b)分别展示了在NMI和AC两种评价指标下,iMRF与Karrer,SNMF,BNMTF,MNDP,DNR,NetMRF算法的实验比较。正如我们看到的,在GN网络上,我们的iMRF算法相对于其他对比算法表现出了明显的优势。具体的,采用NMI度量,当zout的值从8变化到10,iMRF高出第二名NetMRF约5%;采用AC度量时也具有相似的趋势。精度的显著提升表明:本文提出的iMRF模型具有良好的性能,更适合于解决社团发现问题。
[0061] 表1.在十一个具有已知社团结构的真实网络上,采用NMI度量与6个代表性方法进行比较
[0062]
[0063] 其中,‘N/A’表示DNR方法未给出结果,‘-’表示运行时间超过100小时。
[0064] 表2.在十一个具有已知社团结构的真实网络上,采用AC度量,与已有其他类型的方法进行比较
[0065]
[0066] 表1和2给出了对比实验结果。我们观察到,采用NMI和AC两种度量指标,iMRF在这11个网络中的9个网络上均表现出了最好的结果。具体的,采用NMI度量,iMRF平均比Karrer,SNMF,BNMTF,MNDP,DNR,Original-NetMR和NetMRF分别提升了12.99%,9.42%,
9.45%,7.32%,7.42%,5.50%,2.60%和6.92%;采用AC度量时也呈现出了相似的趋势。
这些实验结果表明了iMRF相比其他统计模型在发现社团结构方面的优越性。同时,iMRF比马尔可夫随机场模型方法(包括其原始版本Original-NetMRF和加速版NetMRF)也具有更好的性能,这进一步验证了本发明针对NetMRF模型能量函数不完整之缺陷的改进是有效的;
单点势函数的引入增强了新模型对于网络社团结构的捕捉能力,从而提高了模型精度。
[0067] 表3.在八个未知社团结构的真实网络上,与其他方法的实验比较
[0068]
[0069] 其中,‘-’表示运行时间超过100小时。
[0070] 如表3所示,根据模块度指标Q,iMRF方法在这八个网络中的五个网络上都展现出了最好的结果,在剩余的三个网络上均排名第二,并与最好结果也非常接近。采用模块度Q,iMRF方法平均分别比Karrer,SNMF,BNMTF,MNDP,Original-NetMRF和NetMRF分别提高了0.2142,0.0487,0.0681,0.0447,0.0205和0.0043;又由于模块度Q的取值一般都在0.3到
0.8范围内,因此iMRF方法较其他对比算法的性能改进是明显的。
[0071] 应当理解的是,这里所讨论的实施方案及实例只是为了说明,对本领域技术人员来说,可以加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈