首页 / 专利库 / 专利权 / 共同代表 / 一种基于节点重要度和分离度的Web社区划分方法

一种基于节点重要度和分离度的Web社区划分方法

阅读:1018发布:2020-08-21

专利汇可以提供一种基于节点重要度和分离度的Web社区划分方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 节点 重要度和分离度的Web网络社区划分方法,属于Web 数据挖掘 技术领域。本发明所述方法包含以下步骤:步骤1将Web网络表示为图的形式,利用图中节点代表Web页面,利用节点间的边代表Web页面间的链接;步骤2计算图中每个节点的度和节点间相似度;步骤3利用节点的重要度和节点间相似度计算每个节点的分离度;步骤4、利用节点的重要度和分离度计算节点的代表度;步骤5、将网络中的所有节点按照重要度从大到小进行排序,依据节点代表度从中选取网络社区的中心节点;步骤6、基于节点的重要度和相似度确定每个网络节点的社区标签;步骤7、将社区标签相同的节点代表的Web页面置于同一社区,完成社区划分。,下面是一种基于节点重要度和分离度的Web社区划分方法专利的具体信息内容。

1.一种基于节点重要度和分离度的Web社区划分方法,其特征在于,包括以下步骤:
步骤1、将Web网络表示为图G(V,E)的形式,利用图中的节点表示Web页面,利用图中的边表示Web页面间的链接;
步骤2、计算Web网络的图G(V,E)中每个网络节点的重要度,用于描述某一Web页面对其可能隶属的网络社区中其它页面的最大凝聚性,即社区内部的稠密性;
步骤3、计算Web网络的图G(V,E)中每个节点的分离度,用于反映某一Web页面与其可能隶属的网络社区之外的页面间的最大相关性,即社区外部的稀疏性;
步骤4、计算每个节点的代表度,节点代表度用于描述某一节点对其所在社区的代表能
步骤5、将网络中的所有节点按照重要度从大到小进行排序,依据节点代表度从中选取K个网络社区的中心节点,其中K为待划分Web网络的社区数量;
步骤6、对于步骤5获得的按照节点重要度排序的网络节点,依据节点重要度和相似度确定每个网络节点的社区标签;
步骤7、将网络中社区标签一致的节点代表的Web页面归为同一网络社区,并进行结果输出,完成Web网络的社区划分。
2.根据权利要求1所述一种基于节点重要度和分离度的Web社区划分方法,其特征在于,步骤1中所述Web网络的图表示形式记作G(V,E),利用图中节点V=(v1,v2,…,vi,…,vm)表示网络中的Web页面,m为节点数量,其中第i个节点vi代表Web网络中的第i个页面;利用图中的边E=(e1,e2,…,ej,…,en)表示Web页面间的链接,n为边的数量,其中第j条边ej表示网络中的第j个链接。
3.根据权利要求1所述一种基于节点重要度和分离度的Web社区划分方法,其特征在于,步骤2中的节点重要度定义为节点的度与其邻居节点中最大相似度的乘积,其计算方法为:
首先,计算网络中每个节点的度,即直接与该节点连接的边的数量,节点vi的度记做di;
接着,计算网络中每个节点与其具有直接连边关系的邻接节点的相似度,相似度是指两个节点拥有的共同邻接节点数量,节点vi与其某一邻接节点vj间的相似度记做si,j;
最后,依据节点的度及其邻居节点的相似度,计算每个节点的重要度,对于任一节点vi,其重要度记做Ii,计算方法如式(1)所示:
4.根据权利要求1所述一种基于节点重要度和分离度的Web社区划分方法,其特征在于,步骤3中节点分离度定义为重要度高于该节点的邻居节点与这个节点间的最大相似度,对于任一节点vi,其分离度记做Di,计算方法如式(2)所示:
5.根据权利要求1所述一种基于节点重要度和分离度的Web社区划分方法,其特征在于,步骤4中任一节点vi的代表度记做Ri,其计算方法如式(3)所示:
6.根据权利要求1所述一种基于节点重要度和分离度的Web社区划分方法,其特征在于,步骤5中选取K个网络社区的中心节点的具体方法如下:
首先,将网络中的所有节点按照重要度从大到小进行排序,排序后的节点记为对于排序后的任意2个节点 和 满足:若i<j,则其重要度Di>Dj;
然后,从排序后节点中选择代表度最大的K个节点作为网络社区中心,记做C=(c1,c2,…,ca,…,cK),其中ca表示第a个社区的中心节点,1≤a≤K表示社区中心的序号。
7.根据权利要求1所述一种基于节点重要度和分离度的Web社区划分方法,其特征在于,步骤6中对于排序后的网络节点中任一节点 其社区标签li的确定方法如下:
首先,由步骤5产生的K个社区中心分别属于K个网络社区,这些社区中心节点拥有K个不同的社区标签;
接着,对于非社区中心节点,其社区标签与重要度大于自身且与自身相似度最高的中心节点一致,可由式(4)描述:
满足约束Ii<Ia   (4)
其中,Ii表示步骤5获得的排序后的网络中的节点 的重要度,Ia表示步骤5获得的第a个社区的中心节点ca的重要度,si,a表示节点 和社区中心ca间的相似度。

说明书全文

一种基于节点重要度和分离度的Web社区划分方法

技术领域

[0001] 本发明涉及Web数据挖掘技术领域,特别涉及一种基于节点重要度和分离度的Web社区划分方法。

背景技术

[0002] 随着互联网的不断发展,人们越来越多地在互联网上发布和获取信息,Web已经成为信息制造、加工、处理和发布的主要平台,这个平台提供了新闻、财经、广告、商务、文化、教育等各种信息服务。与传统数据相比,Web数据具有海量规模、无组织、异构性、分散型、动态性等特点。这些特性使得人们对Web数据的使用存在着很多困难,如何将Web上的数据归纳和提升为知识,便于用户进行搜索和查询成为了互联网技术发展中的重要问题。尽管Web是无序和分散的,但是它们仍然存在着一些规律。从结构上看,Web由根据“主题”聚集在一起的多个社区组成,Web社区可以松散地被定义为基于某个特定主题的,相互链接的Web页面集。处于同一社区中的页面在内容上具有相对较高的相似性,而不同社区间的页面内容则具有较大差异性。
[0003] 使用Web上获取的信息(包括内容信息与结构信息),我们可以在极度分散和无序的互联网环境中,发现潜在的未被发现和定义的互联网社区,并且从互联网中系统地抽取这些社区,这一过程被称为Web社区划分或Web社区发现。通过对Web进行社区划分可以帮助用户对Web的知识性和社会性做出评估,有利于商家发现客户信息,还可以研究对某个方面感兴趣的用户的组织形式,为信息查询提供有效便捷的途径。Web社区划分使有效利用链接信息加强现有搜索和浏览技术成为可能,同时系统地从Web中抽取社区还具有实现Web自动分类、为用户提供最及时可靠的信息、帮助了解Web的进化过程等重要意义,因此已经引起国内外学术界和产业界的高度重视。
[0004] 在对Web网络结构进行社区划分时,典型的方法主要有:Kleinberg等人在《Authoritative sources in a hyperlinked environment》一文中提出HITS方法,认为社区是由中心页面连接起来、很稠密的权威页面构成的核,该方法是完全基于网络结构的,能够在特定主题未知的情况下实现Web社区的划分;Kummar等人在文献《Trawling the Web for Emerging Cyber-Communitites》中提出了trawling社区划分算法,将社区建模为一个有向二分图,且其子集一定包含有向二分图,利用与主题无关的一般爬取结果由一个大数据集中划分产生Web社区;Flake等人在文献《Self-Organization and Identification of Web Communities》中提出了一种最大流-最小割集社区划分方法,将Web社区定义为具有这样一些特征的页面集,集合内的页面链接密度大于集合外的链接密度,进而将社区划分问题转化为求解网络中最大流-最小割集问题。
[0005] 公开号为CN102902772A的专利《一种基于多目标优化的Web社区发现方法》公开了一种基于多目标优化的Web社区发现方法,应用于Web2.0下的社交网络,可以提升信息主动服务质量、增强网络文化安全等;其包括:设置粒子群规模、粒子位置和速度的范围与维度、粒子群惯性因子、邻域半径及外部存档最大容量等相关参数;建立Web信息网络各节点的邻居节点编号表;采用基于节点邻居有序表的编码方法初始化粒子群;重复如下操作直到停止条件满足:计算粒子适应度向量,比较粒子的Pareto支配关系,更新Pareto最优社区结构集,选择粒子飞行的leader,更新粒子的位置和速度;输出全部Pareto最优解集元素所对应的网络社区结构。公开号为CN104933141A的专利《一种基于Floyd-Warshall的互联网社区检测算法》公开了一种基于Floyd-Warshall的互联网社区检测算法,包括如下步骤:步骤1、为了从给定的起始博客链接出发获得跟它相关的博客链接信息,通过Spider对相关数据进行爬取,并将得到博客关系图用矩阵表示;步骤2、选定图中任意两点的最小距离作为特征值,为了从图中提取最小距离作为聚类的特征基础,使用Floyd-Warshall算法对图中任意两点的最小距离进行计算;步骤3、为了按一定特征异同将网络划分为不同的社区,以最小距离作为特征进行聚类分割,得到指定个数的聚类结果;步骤4、为了判断每个聚类中哪些节点有更高的影响,使用PageRank对每个聚类进行排名;步骤5、为了直观形象地表达结果,使用GraphViz对结果可视化表达。公开号为CN103729467A的专利《一种社交网络中的社区结构发现方法》公开了一种复杂社交网络中的社区结构发现方法,属于网络技术领域。本方法包括以下步骤:步骤一:将社交网络转换为邻接矩阵形式,如果两个节点之间存在边,那么相对应的元素为1,否则为0;步骤二:利用随机游走理论对邻接矩阵进行处理,得到新的节点度数P-degree以及边权值P-weight;步骤三:根据新的节点度数P-degree得到社交网络中的领袖节点;步骤四:基于领袖节点生成子社区,并通过对子社区的一系列操作来进行社区发现。该方法能够高效的识别出社交网络中的社区结构,同时将本方法与一些经典的社区发现算法如Newman算法相比,在模度指标上有着更好的表现。
[0006] 综上所述,社区的划分是通过对大量Web的快照中,寻找具有社区特征的节点集合而发现社区存在的可能性。因此,社区特征的确定是非常重要的,所谓内部稠密、外部稀疏仅仅是社区比较公认的模糊定义,需要对这一定义进行形式化表示。现有方法主要通过聚集密度、网络中的链接密集的团块、强连结的核等作为社区可能性的特征,只考虑了社区内部的稠密性,却忽略了社区间的稀疏性,导致社区划分的可靠性不高。因此,如何对网络及其社区的本质结构特征进行有效描述,是实现高质量Web社区划分的关键问题。

发明内容

[0007] 本发明的目的是,提供一种有效的网络社区结构特征描述,进而实现对Web网络社区的可靠划分。
[0008] 为实现上述目的本发明提供如下技术方案:
[0009] 本发明将Web网络表示为图的形式,利用节点的重要度和分离度对Web网络中社区结构的特征进行描述,体现了社区内部稠密、外部稀疏的本质特征,为Web网络的社区发现提供了一种可靠方法。在该方法中,网络社区的划分过程包括Web网络的图表示、计算节点重要度、计算节点分离度、计算节点代表度以及为确定节点社区标签等环节。本发明的主要参数包括:节点的度、节点的相似度、节点的重要度、节点的分离度、节点的代表度等,其中节点的度表示与一个Web页面存在链接关系的页面数量;节点的相似度用于描述网络中两个Web页面的相关性;节点的重要度用于描述某一Web页面对其可能隶属的网络社区中其它页面的最大凝聚性,即社区内部的稠密性;节点的分离度用于反映某一Web页面与其可能隶属的网络社区之外的页面间的最大相关性,即社区外部的稀疏性;节点的代表度用于描述某一Web页面对其所在网络社区的代表能力。该方法包含以下步骤:
[0010] 步骤1、将Web网络表示为图的形式,记作G(V,E),利用图中节点V=(v1,v2,…,vi,…,vm)表示网络中的Web页面,m为节点数量,其中第i个节点vi代表Web网络中的第i个页面;利用图中的边E=(e1,e2,…,ej,…,en)表示Web页面间的链接,n为边的数量,其中第j条边ej表示网络中的第j个链接;
[0011] 步骤2、计算图中每个网络节点的重要度,具体包含以下步骤:
[0012] 步骤2.1、计算网络中每个节点的度,即直接与该节点连接的边的数量,节点vi的度记做di;
[0013] 步骤2.2、计算网络中每个节点与其具有直接连边关系的邻接节点的相似度,相似度是指两个节点拥有的共同邻接节点数量,节点vi与其某一邻接节点vj间的相似度记做si,j;
[0014] 步骤2.3、依据节点的度及其邻居节点的相似度,计算每个节点的重要度,节点重要度是节点的度与其邻居节点中最大相似度的乘积,对于任一节点vi,其重要度记做Ii,计算方法如式(1)所示:
[0015]
[0016] 步骤3、计算网络中每个节点的分离度,节点分离度为重要度高于该节点的邻居节点与这个节点间的最大相似度,对于任一节点vi,其分离度记做Di,计算方法如式(2)所示:
[0017]
[0018] 步骤4、计算每个节点的代表度,节点代表度用于描述某一节点对其所在社区的代表能力,对于任一节点vi,其代表度记做Ri,计算方法如式(3)所示:
[0019]
[0020] 步骤5、将网络中的所有节点按照重要度从大到小进行排序,依据节点代表度从中选取K个网络社区的中心节点C=(c1,c2,…,ca,…,cK),其中K为待划分Web网络的社区数量,这些社区中心代表了各自所属的网络社区,ca表示第a个社区的中心节点,1≤a≤K表示社区中心的序号,具体步骤如下:
[0021] 步骤5.1、将网络中的所有节点按照重要度从大到小进行排序,排序后的节点记为对于排序后的任意2个节点 和 满足:若i<j,则其重要度Di>Dj;
[0022] 步骤5.2、从排序后节点中选择代表度最大的K个节点作为网络社区中心;
[0023] 步骤6、确定每个网络节点的社区标签,对于步骤5.1获得的排序后的网络节点中的任一节点 其社区标签记为li,确定方法如下:
[0024] 步骤6.1、由步骤5.2产生的K个社区中心分别属于K个网络社区,这些社区中心节点拥有K个不同的社区标签;
[0025] 步骤6.2、对于非社区中心节点,其社区标签与重要度大于自身且与自身相似度最高的中心节点一致,可由式(4)描述:
[0026]
[0027] 其中,Ii表示步骤5.1获得的排序后的网络节点中的任一节点 的重要度,Ia表示步骤5.2获得的第a个社区的中心节点ca的重要度,si,a表示节点 和社区中心ca间的相似度;
[0028] 步骤7、将网络中社区标签一致的节点代表的Web页面归为同一网络社区,并进行结果输出,完成Web网络的社区划分。
[0029] 与现有技术相比本发明的有益效果:
[0030] 本发明中提供的方法区别于现有方法的显著特征在于:将Web网络表示成图的形式后,定义了节点的重要度和分离度描述Web网络中社区结构的特征,并在此基础上提出节点的代表度用于产生网络中的社区中心,将网络中节点的社区标签确定过程转换为节点对社区中心的相似度比较过程,进而实现网络社区的可靠划分。该方法在进行社区结构特征描述时能够充分反映社区内部稠密性和社区外部稀疏性的本质,使社区划分结果的合理性和准确性得到提高。附图说明
[0031] 图1为本发明所述Web网络社区划分方法的计算机实现系统结构图。
[0032] 图2为本发明所述Web网络社区划分方法的流程图
[0033] 图3为使用本发明所述方法进行社区划分的Web网络示例。

具体实施方式

[0034] 下面结合附图对本发明的具体实施方式进行详细说明。
[0035] 本发明所述的网络社区发现方法通过计算机程序实施,图1所示是计算机实现的系统结构图。下面将按照图2所示的实施流程,结合某一具体Web网络(如图3所示),详述本发明提出的技术方案的具体实施方式。在图3所示Web网络中,圆形节点表示Web网络中的页面,节点间的连线表示Web页面之间的链接,共包含39个Web页面以及它们之间的80个链接。利用本发明所述方法将图3所示Web网络划分为K=3个社区,其实施方式主要包含以下关键内容:
[0036] 步骤1、将Web网络表示为图的形式,记为G(V,E),图中的节点集合V=(v1,v2,…,vi,…,v39)表示网络中的39个页面,m=39为节点数量,第i个节点vi代表Web网络中的第i个页面;图中边的集合E=(e1,e2,…,ej,…,e80)表示Web页面间的链接,n=80为边的数量,第j条边ej表示网络中的第j个链接;
[0037] 步骤2、计算图中每个网络节点的重要度,具体包含以下步骤:
[0038] 步骤2.1、计算网络中每个节点的度,即直接与该节点连接的边的数量,节点vi的度记做di;例如,对于图3所示的网络,与节点v3直接连接的边的数量为9,v3的度为d3=9;
[0039] 步骤2.2、计算网络中每个节点与其具有直接连边关系的邻接节点的相似度,相似度是指两个节点拥有的共同邻接节点数量,节点vi与其某一邻接节点vj间的相似度记做si,j;例如,对于图3所示的网络,节点v3和v5的共同邻接节点为v2、v4、v7和v10,因此v3和v5间的相似度为s3,5=4;
[0040] 步骤2.3、依据节点的度及其邻居节点的相似度,计算每个节点的重要度,节点重要度是节点的度与其邻居节点中最大相似度的乘积,对于任一节点vi,其重要度记做Ii,计算方法如式(1)所示:
[0041]
[0042] 例如,对于图3所示的网络,节点v3的度为d3=9,该节点与邻居节点的最大相似度为s3,2=5,因此节点v3的重要度为I3=d3×s3,2=45;
[0043] 步骤3、计算网络中每个节点的分离度,节点分离度为重要度高于该节点的邻居节点与这个节点间的最大相似度,对于任一节点vi,其分离度记做Di,计算方法如式(2)所示:
[0044]
[0045] 例如,对于图3所示的网络,节点v3不存在重要度高于自身的邻居节点,因此v3的分离度为D3=0;又如对于节点v6,其邻居节点高于自身且与v6具有最大相似度的节点为v3,它们之间的相似度为s6,3=4,因此节点v6的分离度为D6=4;
[0046] 步骤4、计算每个节点的代表度,节点代表度用于描述某一节点对其所在社区的代表能力,对于任一节点vi,其代表度记做Ri,计算方法如式(3)所示:
[0047]
[0048] 例如,对于图3所示的网络,节点v3的代表度为
[0049] 步骤5、将网络中的所有节点按照重要度从大到小进行排序,依据节点代表度从中选取K个网络社区的中心节点C=(c1,c2,…,cK),其中K为待划分Web网络的社区数量,这些社区中心代表了各自所属的网络社区,ca表示第a个社区的中心节点,1≤a≤K表示社区中心的序号,具体步骤如下:
[0050] 步骤5.1、将网络中的所有节点按照重要度从大到小进行排序,排序后的节点记为对于排序后的任意2个节点 和 满足:若i<j,则其重要度Di>Dj;
[0051] 步骤5.2、从排序后节点中选择代表度最大的K个节点作为网络社区中心;
[0052] 例如,对于图3所示的Web网络,将图中的39个节点按照重要度从大到小进行排序,再从中选择代表度最大的3个节点v3、v19和v30,分别作为3个网络社区的中心节点。
[0053] 步骤6、确定每个网络节点的社区标签,对于步骤5.1获得的排序后的网络节点中的任一节点 其社区标签记为li,确定方法如下:
[0054] 步骤6.1、由步骤5.2产生的K个社区中心分别属于K个网络社区,这些社区中心节点拥有K个不同的社区标签;例如,对于图3所示的Web网络,为步骤5.2产生的3个社区中心节点分配3个不同的社区标签,v3、v19和v30所代表社区的标签分别为c1、c2和c3;
[0055] 步骤6.2、对于非社区中心节点,其社区标签与重要度大于自身且与自身相似度最高的中心节点一致,可由式(4)描述:
[0056]
[0057] 其中,Ii表示步骤5.1获得的排序后的网络节点中的任一节点 的重要度,Ia表示步骤5.2获得的第a个社区的中心节点ca的重要度,si,a表示节点 和社区中心ca间的相似度;例如,对于图3所示的Web网络,非社区中心节点v6与3个中心节点进行比较,节点间相似度最大的中心节点是v3,即v6的社区标签为c1。
[0058] 步骤7、将网络中社区标签一致的节点代表的Web页面归为同一网络社区,并进行结果输出,完成Web网络的社区划分。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈