首页 / 专利库 / 专利权 / 专利合作条约 / 第II章 / 基于带权时序文本网络的时序社区以及话题的检测方法

基于带权时序文本网络的时序社区以及话题的检测方法

阅读:636发布:2020-05-14

专利汇可以提供基于带权时序文本网络的时序社区以及话题的检测方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于带权时序文本网络的时序社区以及话题的检测方法,包括:基于原始数据构建带权时序文本网络;针对带权时序文本网络,构建基于主题模型的生成模型;利用吉布斯 采样 方法构建生成模型的推断过程;根据模型的推断过程,对带权时序文本网络进行训练,提取出社区信息,主题信息,社区与主题的对应关系,用户在社区内影响 力 与参与度随时间变化特性;根据提取出的信息,对用户行为进行预测。本发明对时序文本网络中的时间信息和权重信息了进行全新建模,考虑了网络中边的时间信息并对其进行了连续性建模,对带权时序网络进行了全面建模,有利于了解社区在时间尺度上的变化与发展与个人关于社区在时间尺度上的发展。,下面是基于带权时序文本网络的时序社区以及话题的检测方法专利的具体信息内容。

1.一种基于带权时序文本网络的时序社区以及话题的检测方法,其特征在于,包括如下步骤:
步骤S1:基于原始数据构建带权时序文本网络;
步骤S2:针对带权时序文本网络,构建基于主题模型的生成模型;
步骤S3:利用吉布斯采样方法构建生成模型的推断过程;
步骤S4:根据模型的推断过程,对带权时序文本网络进行训练,提取出社区信息、主题信息、社区与主题的对应关系、用户在社区内影响与参与度随时间变化特性;
步骤S5:根据提取出的信息,对用户行为进行预测。
2.根据权利要求1所述的一种基于带权时序文本网络的时序社区以及话题的检测方
法,其特征在于,所述步骤S1包括以下步骤:
步骤S101:根据原始数据中的信息构建节点和边;
步骤S102:对文章节点添加语义信息和时间标记,对边添加权重和时间标记;
步骤S103:定义社区和社区特征;
步骤S104:定义主题和主题特征。
3.根据权利要求1所述的一种基于带权时序文本网络的时序社区以及话题的检测方
法,其特征在于,所述步骤S2包括以下步骤:
所步骤S201:对带权时序文本网络中的各个社区,执行如下步骤:
基于狄利克雷超参数α生成第c个社区的主题分布的多项式参数θc;其中,α是θc所服从的狄利克雷分布的参数,c为正整数;
基于伽分布超参数λ生成第c个社区和第c’个社区之间产生边的概率的泊松分布参数ηcc′;其中,λ是ηcc′所服从的狄利克雷分布的参数;c和c’为正整数;
步骤S202:对带权时序文本网络中的各个主题,执行如下步骤:
基于狄利克雷超参数β生成第k个主题到词的分布的多项式参数φk;其中,β是φk所服从的狄利克雷分布的参数,k为正整数;
步骤S203:对带权时序文本网络中的各个用户,执行如下步骤:
基于狄利克雷超参数ρ生成第i个用户到社区的分布的多项式参数πi;其中,ρ是πi所服从的狄利克雷分布的参数;i为正整数;
步骤S204:对带权时序文本网络中的各个用户的各个文章,执行如下步骤:
基于多项式参数πi,生成第i个用户的第j篇文章所属的社区cij;其中i,j,cij为正整数;
基于多项式参数 生成第i个用户的第j篇文章的主题zij;其中i,j,zij为正整数;
基于贝塔参数 生成第i个用户的第j篇文章属于社区cij和主题zij时的时间tij,其
中i,j,cij,zij,tij,为正整数;
基于多项式参数 生成第i个用户的第j篇文章的第l个词wijl;其中i,j,l为正整数;
步骤S205:对带权时序文本网络中的每条边,执行如下步骤:
基于多项式参数πi,生成边的起点的用户i的社区gii';其中i,gii'为正整数;
基于多项式参数πi’,生成边的终点的用户i’的社区g'ii';其中i’,g'ii'为正整数;
基于泊松参数 生成边(i,i’)的权重eii′;
基于贝塔参数 生成出边(i,i’)的入时刻sii′m;
基于贝塔参数 生成出边(i,i’)的出时刻s′ii′m。
4.根据权利要求1所述的一种基于带权时序文本网络的时序社区以及话题的检测方
法,其特征在于,所述步骤S3包括:
步骤S301:为文章dij采样社区cij,构建p如下:
其中,cij表示文章dij的社区,zij表示文章dij的主题,tij表示文章dij的时间标签,g表示在用户的边中所关联的社区,符号∝表示正比于; 表示用户i在社区c中发表的所有文章和边的数量,ρ表示关于社区的狄利克雷分布,C表示社区的总数, 表示所有关于社区c和主题z的文章数量,K表示主题的总数,α表示生成关于主题的狄利克雷分布,
表示贝塔函数,ψck表示关于社区c和主题k在时间上的贝塔分
布,·表示临界计数,如 表示表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij;
步骤S302:为文章dij采样主题zij,构建p如下:
其中,zij表示文章dij的主题,cij表示文章dij的社区,tij表示文章dij的时间标签,w表示文章中的词, 表示所有关于社区c和主题z的文章数量,α表示生成关于主题的狄利克雷分布, 表示贝塔函数,ψck表示关于社区c和主题k在时间上的
贝塔分布, 指的是文章dij中词的数量, 表示关于主题z的词的数量,β指的是关于主题k的词的多项分布的狄利克雷分布。·表示临界计数,如 表示表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij;
步骤S303:为边eii′采样社区gii′和g′ii′,构建p如下:
其中,gii′g′ii′表示用户i、i′用边eii′联系的社区,eii′表示在用户i、i′之间的边的权重, 表示用户i在社区c中发表的所有文章和边的数量, 表示用户i在发表的所有文章和边的数量,σ表示dirichlet分布的超参数, 表示用户i′在社区c′中发表的所有文章和边的数量, 表示用户i′发表的所有文章和边的数量,C表示社区的总数,ρ表示关于社区的狄利克雷分布,ncc′, 分别表示与社区c和c′相关联的不包括边(i,i′)的边的数量和作用,λ1,λ0表示伽马优先级,sii′m表示在边eii′第m次作用的时间标记,δic0,δic1表示用户i和社区c在特定出时间的贝塔分布,γi′c′0表示用户i′和社区c′在特定入时间的贝塔分布;
步骤S304:更新社区c和主题k的贝塔分布ψck,
其中,mck表示社区c和主题k的上的时间标签的平均值。 表示社区c和主题k的上的时间标签的方差;
步骤S305:更新用户i和社区c的关于出时刻的贝塔分布δic和入时刻的贝塔分布γic:
其中mic和 表示与社区C相关联的用户的出时刻时间标记的均值和方差,
其中m′ic和 表示与社区C相关联的用户的入时刻时间标记的均值和方差。
5.根据权利要求1所述的一种基于带权时序文本网络的时序社区以及话题的检测方
法,其特征在于,所述步骤S4包括:
步骤S401:对网络中的每篇文章dij按照所述吉布斯采样公式采样社区指标cij和主题指标zij,对每一条边(i,i')采样其相对应的社区指标gii'和g'ii';
步骤S402:通过采样的c和z匹配β分布函数ψ,通过g和g'匹配β分布函数δ和γ;
步骤S403:重新对每篇文章dij采样社区指标cij和主题指标zij,对每一条边(i,i')采样其相对应的社群指标gii'和g'ii',利用得到的c和z对ψ进行更新,利用g和g'对δ和γ进行更新;
其中,步骤S403被重复执行,直到迭代足够的次数,进入步骤S404继续执行:
步骤S404:使用下面的公式得到相关的参数:
η满足泊松分布,用下面的公式来表示:
其中, 是第i个用户关于社区c的分布概率, 是社区c中关于第k个主题的分布概
率, 是主题k关于关键词w的分布概率,η是社区之间权重的分布概率; 表示用户i与社区c有关联的文章和边的频数, 表示用户i与任意社区有联系的文章和边的频数,C是社区的数目; 表示同时与社区c和主题k关联的文章的频数, 表示与社区c有关联的所有主题的文章的频数,K是主题的数目; 表示与主题k相关联的关键词w的频数, 表示与主题k有关联的所有关键词的频数,V是词汇表的大小;ncc′表示社区c与c′之间边的频数, 表示社区c与c′之间交互的频数。
6.根据权利要求1所述的一种基于带权时序文本网络的时序社区以及话题的检测方
法,其特征在于,所述步骤S5包括:
步骤S501:给定用户i和i',和两个时间标记s、s',可以预测他们之间产生联系的概率:
其中,i、i’表示用户,s、s’表示时间标记,π表示关于用户的社区的多项分布,η表示从社区c到社区c′的边权值的泊松分布,δ表示用户i和社区g对于出时刻的贝塔分布,γ表示用户i和社区g对于入时刻的贝塔分布, 表示贝塔分布的概率密度函数,ncc′表
示从社区c到社区c′的边的个数,λ1表示从社区c到社区c′的边权值的泊松分布参数;
步骤S502:给定一些词w和一个作者i的文章d,关于文章发表时间的预测:
其中,t表示时间,i表示用户,π表示关于用户的社区的多项分布,θ表示关于主题的对于社区的多项分布,φ表示关于主题的词的多项分布,ψck表示关于社区c和主题k关于时间的贝塔分布,b(t;ψck0;ψck1)表示贝塔分布的概率密度函数。

说明书全文

基于带权时序文本网络的时序社区以及话题的检测方法

技术领域

[0001] 本发明涉及到文本网络探索式搜索领域,具体地,涉及到基于带权时序文本网络的时序社区以及话题的检测方法。

背景技术

[0002] 随着大数据时代的来临,意味着全球的数据量成井喷式的增长。而在线社交媒体作为数据量的来源之一,不管是博客,还是视频分享网站以及社交网络,在过去的半个十年里经历了快速的增长。面对从如此大量的数据,要从中提取有意义的信息,而这些数据的内在的网络结构是一种十分重要的提取依据。所以要去尽可能多的了解社交网络结构。其中的一种方法是识别具有相同属性或功能的节点组,这就是所熟悉的“社区发现”。
[0003] 对于加权动态文本网络,如在线社交媒体推特和学术引文/合著网络。网络结构中的节点在现实中的意义往往代表用户,这些节点与几个推送相联系。用户之间的联系与他们之间的相关性的大小相关。每一个推送都被赋予了一个时间轴用来表示发布时间的先后顺序。用户与用户之间的联系也被赋予了几个时间轴用来说明相互联系的时间。
[0004] 然而,对于这样的网络很难建立全面的模型,为了简化计算,通常设边的权重相等。对于一些少数的情况要将边的权重考虑进去时,边缘权重也仅用于计算和最大化/最小化图的一些测量,从而可以检测到社区网络。因为边的权重是社区网络的一个重要特征,所以将边的权重加入到本发明的生成模型中。另一个问题是如何利用动态的信息,在时间轴上进行分割,得到一个个用时间分割的子网络,因为网络在时间轴上的分布是连续的,所以如何分配分割的时间是一个棘手的问题。对于这个问题,并没有采用将时间离散化的方式,相反采用连续分布的模型去模拟社区中用户和用户之间的关联以及发布的信息。

发明内容

[0005] 针对现有技术中的缺陷,本发明的目的是提供基于带权时序文本网络的时序社区以及话题的检测方法。
[0006] 为实现上述目的,本发明是根据以下技术方案实现的:
[0007] 一种基于带权时序文本网络的时序社区以及话题的检测方法,包括如下步骤:
[0008] 步骤S1:基于原始数据构建带权时序文本网络;
[0009] 步骤S2:针对带权时序文本网络,构建基于主题模型的生成模型;
[0010] 步骤S3:利用吉布斯采样方法构建生成模型的推断过程;
[0011] 步骤S4:根据模型的推断过程,对带权时序文本网络进行训练,提取出社区信息、主题信息、社区与主题的对应关系、用户在社区内影响与参与度随时间变化特性;
[0012] 步骤S5:根据提取出的信息,对用户行为进行预测。
[0013] 上述技术方案中,所述步骤S1包括以下步骤:
[0014] 步骤S101:根据原始数据中的信息构建节点和边;
[0015] 步骤S102:对文章节点添加语义信息和时间标记,对边添加权重和时间标记;
[0016] 步骤S103:定义社区和社区特征;
[0017] 步骤S104:定义主题和主题特征。
[0018] 上述技术方案中,所述步骤S2包括以下步骤:
[0019] 所步骤S201:对带权时序文本网络中的各个社区,执行如下步骤:
[0020] 基于狄利克雷超参数α生成第c个社区的主题分布的多项式参数θc;其中,α是θc所服从的狄利克雷分布的参数,c为正整数;
[0021] 基于伽分布超参数λ生成第c个社区和第c’个社区之间产生边的概率的泊松分布参数ηcc′;其中,λ是ηcc′所服从的狄利克雷分布的参数;c和c’为正整数;
[0022] 步骤S202:对带权时序文本网络中的各个主题,执行如下步骤:
[0023] 基于狄利克雷超参数β生成第k个主题到词的分布的多项式参数φk;其中,β是φk所服从的狄利克雷分布的参数,k为正整数;
[0024] 步骤S203:对带权时序文本网络中的各个用户,执行如下步骤:
[0025] 基于狄利克雷超参数ρ生成第i个用户到社区的分布的多项式参数πi;其中,ρ是πi所服从的狄利克雷分布的参数;i为正整数;
[0026] 步骤S204:对带权时序文本网络中的各个用户的各个文章,执行如下步骤:
[0027] 基于多项式参数πi,生成第i个用户的第j篇文章所属的社区cij;其中i,j,cij为正整数;
[0028] 基于多项式参数 生成第i个用户的第j篇文章的主题zij;其中i,j,zij为正整数;
[0029] 基于贝塔参数 生成第i个用户的第j篇文章属于社区cij和主题zij时的时间tij,其中i,j,cij,zij,tij,为正整数;
[0030] 基于多项式参数 生成第i个用户的第j篇文章的第l个词wijl;其中i,j,l为正整数;
[0031] 步骤S205:对带权时序文本网络中的每条边,执行如下步骤:
[0032] 基于多项式参数πi,生成边的起点的用户i的社区gii';其中i,gii'为正整数;
[0033] 基于多项式参数πi’,生成边的终点的用户i’的社区g'ii';其中i’,g'ii'为正整数;
[0034] 基于泊松参数 生成边(i,i’)的权重eii′;
[0035] 基于贝塔参数 生成出边(i,i’)的入时刻sii′m;
[0036] 基于贝塔参数 生成出边(i,i’)的出时刻s′ii′m。
[0037] 上述技术方案中,所述步骤S3包括:
[0038] 步骤S301:为文章dij采样社区cij,构建p如下:
[0039] P(ci,j=c|zij=k,tij=t,c-ij,g,z-ij,t-ij,·)
[0040]
[0041] 其中,cij表示文章dij的社区,zij表示文章dij的主题,tij表示文章dij的时间标签,g表示在用户的边中所关联的社区,符号∝表示正比于; 表示用户i在社区c中发表的所有文章和边的数量,ρ表示关于社区的狄利克雷分布,C表示社区的总数, 表示所有关于社区c和主题z的文章数量,K表示主题的总数,α表示生成关于主题的狄利克雷分布,表示贝塔函数,ψck表示关于社区c和主题k在时间上的贝塔分布,·表示临界计数,如 表示表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij;
[0042] 步骤S302:为文章dij采样主题zij,构建p如下:
[0043] P(zij=k|cij=c,tij=t,c-ij,z-ij,t-ij,w,·)
[0044]
[0045] 其中,zij表示文章dij的主题,cij表示文章dij的社区,tij表示文章dij的时间标签,w表示文章中的词, 表示所有关于社区c和主题z的文章数量,α表示生成关于主题的狄利克雷分布, 表示贝塔函数,ψck表示关于社区c和主题k在时间上的贝塔分布, 指的是文章dij中词的数量, 表示关于主题z的词的数量,β指的是关于主题k的词的多项分布的狄利克雷分布。·表示临界计数,如 表示表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij;
[0046] 步骤S303:为边eii′采样社区gii′和g′ii′,构建p如下:
[0047] P(gii′=c,g′ii′=c′|eii′,g-ii′,c,e,.)
[0048]
[0049]
[0050] 其中,gii′g′ii′表示用户i、i′用边eii′联系的社区,eii′表示在用户i、i′之间的边的权重, 表示用户i在社区c中发表的所有文章和边的数量, 表示用户i在发表的所有文章和边的数量,σ表示dirichlet分布的超参数, 表示用户i′在社区c′中发表的所有文章和边的数量, 表示用户i′发表的所有文章和边的数量,C表示社区的总数,ρ表示关于社区的狄利克雷分布,ncc′, 分别表示与社区c和c′相关联的不包括边(i,i′)的边的数量和作用,λ1,λ0表示伽马优先级,sii′m表示在边eii′第m次作用的时间标记,δic0,δic1表示用户i和社区c在特定出时间的贝塔分布,γi′c′0表示用户i′和社区c′在特定入时间的贝塔分布;
[0051] 步骤S304:更新社区c和主题k的贝塔分布ψck,
[0052]
[0053] 其中,mck表示社区c和主题k的上的时间标签的平均值。 表示社区c和主题k的上的时间标签的方差;
[0054] 步骤S305:更新用户i和社区c的关于出时刻的贝塔分布δic和入时刻的贝塔分布γic:
[0055]
[0056] 其中mic和 表示与社区C相关联的用户的出时刻时间标记的均值和方差,
[0057]
[0058] 其中m′ic和 表示与社区C相关联的用户的入时刻时间标记的均值和方差。
[0059] 上述技术方案中,所述步骤S4包括:
[0060] 步骤S401:对网络中的每篇文章dij按照所述吉布斯采样公式采样社区指标cij和主题指标zij,对每一条边(i,i')采样其相对应的社区指标gii'和g'ii';
[0061] 步骤S402:通过采样的c和z匹配β分布函数ψ,通过g和g'匹配β分布函数δ和γ;
[0062] 步骤S403:重新对每篇文章dij采样社区指标cij和主题指标zij,对每一条边(i,i')采样其相对应的社群指标gii'和g'ii',利用得到的c和z对ψ进行更新,利用g和g'对δ和γ进行更新;
[0063] 其中,步骤S403被重复执行,直到迭代足够的次数,进入步骤S404继续执行:
[0064] 步骤S404:使用下面的公式得到相关的参数:
[0065]
[0066]
[0067]
[0068] η满足泊松分布,用下面的公式来表示:
[0069]
[0070] 其中, 是第i个用户关于社区c的分布概率, 是社区c中关于第k个主题的分布概率, 是主题k关于关键词w的分布概率,η是社区之间权重的分布概率; 表示用户i与社区c有关联的文章和边的频数, 表示用户i与任意社区有联系的文章和边的频数,C是社区的数目; 表示同时与社区c和主题k关联的文章的频数, 表示与社区c有关联的所有主题的文章的频数,K是主题的数目; 表示与主题k相关联的关键词w的频数, 表示与主题k有关联的所有关键词的频数,V是词汇表的大小;ncc′表示社区c与c′之间边的频数,表示社区c与c′之间交互的频数。
[0071] 上述技术方案中,所述步骤S5包括:
[0072] 步骤S501:给定用户i和i',和两个时间标记s、s',可以预测他们之间产生联系的概率:
[0073]
[0074] 其中,i、i’表示用户,s、s’表示时间标记,π表示关于用户的社区的多项分布,η表示从社区c到社区c′的边权值的泊松分布,δ表示用户i和社区g对于出时刻的贝塔分布,γ表示用户i和社区g对于入时刻的贝塔分布,b(s;δig0,δig1)表示贝塔分布的概率密度函数,ncc′表示从社区c到社区c′的边的个数,λ1表示从社区c到社区c′的边权值的泊松分布参数;
[0075] 步骤S502:给定一些词w和一个作者i的文章d,关于文章发表时间的预测:
[0076]
[0077] 其中,t表示时间,i表示用户,π表示关于用户的社区的多项分布,θ表示关于主题的对于社区的多项分布,φ表示关于主题的词的多项分布,ψck表示关于社区c和主题k关于时间的贝塔分布,b(t;ψck0;ψck1)表示贝塔分布的概率密度函数。
[0078] 本发明与现有技术相比,具有如下有益效果:
[0079] 本发明对时序文本网络中的时间信息和权重信息了进行全新建模,考虑了网络中边的时间信息并对其进行了连续性建模,弥补了现有技术在网络中边的时间信息建模上的不足。此外,本发明构建了同时提取了网络中的主题,社区,用户关于社区的分布,特定用户在特定社区活跃度与影响力随时间变化曲线,社区关于主题的分布,在特定社区中特定主题的热度随时间变化曲线,对带权时序网络进行了全面建模,有利于了解社区在时间尺度上的变化与发展与个人关于社区在时间尺度上的发展。附图说明
[0080] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0081] 图1为本发明的方法流程图
[0082] 图2为本发明适用的带权时序网络的示意图;
[0083] 图3为本发明提取出的信息示意图;
[0084] 图4为本发明涉及的生成模型的生成过程。

具体实施方式

[0085] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
[0086] 根据本发明提供的基于带权时序文本网络的时序社区以及话题的检测方法,涉及整理含带权时序网络的自动化程序、基于主题模型的新型带权时序网络生成模型、新型模型的推断过程和参数估计、基于模型的预测功能;具体地,如附图1所示,包括如下步骤:步骤S1:基于原始数据构建带权时序文本网络;步骤S2:针对带权时序文本网络,构建基于主题模型的生成模型;步骤S3:利用吉布斯采样方法构建生成模型的推断过程;步骤S4:根据模型的推断过程,对带权时序文本网络进行训练,提取出社区信息、主题信息、社区与主题的对应关系、用户在社区内影响力与参与度随时间变化特性;步骤S5:根据提取出的信息,对用户行为进行预测。
[0087] 所述步骤S1包括:从互联网上获得公开的文本数据集,如社交网络数据集、学术论文数据集;考虑一个现实中的网络G=(u,ε),其中u是U用户的一个集合,ε是一个E带权边的集合。(i,i',eii',s,s')∈ε表示在用户i和用户i'之间存在交互,交互的权重记为eii',其边包括了两种时间标记,分别记为s和s',其代表着用户i和用户i'之间每次独立的交互过程的输出和输入时间;在本发明中,设定权重作为两个用户之间大量交互的指标,其中也包括大量交互过程中产生的时间对标记。与之相对应的,如果在用户i和用户i'之间没有发生任何交互,eii'等于零并且这两个时间标记存储为空;本发明中对于社区的定义是用户的即节点的集合,对于主题的定义是词的集合;具体地:
[0088] 步骤S101:根据原始数据中的信息构建节点和边;
[0089] 步骤S102:对文章节点添加语义信息和时间标记,对边添加权重和时间标记;
[0090] 步骤S103:定义社区和社区特征;
[0091] 步骤S104:定义主题和主题特征。
[0092] 图2为本发明适用的带权时序网络的示意图;如图2所示,步骤S2包括:对带权时序中的文本、边、时间标记的生成过程进行建模,生成模型是指在已知参数的条件下,假设网络生成过程服从的模型,网络的生成模型可参见附图4;本发明生成模型涉及的假设有,每个用户关于社区的分布、主题关于词的分布服从多项分布,且其先验分布服从狄利克雷分布;所有时间标记的分布服从贝塔分布,且其先验分布服从伽马分布;具体地:
[0093] 步骤S201:对带权时序文本网络中的各个社区,执行如下步骤:
[0094] 基于狄利克雷超参数α生成第c个社区的主题分布的多项式参数θc;其中,α是θc所服从的狄利克雷分布的参数;c为正整数;
[0095] 基于伽马分布超参数λ生成第c个社区和第c’个社区之间产生边的概率的泊松分布参数ηcc′;其中,λ是ηcc′所服从的狄利克雷分布的参数;c和c’为正整数;
[0096] 步骤S202:对带权时序文本网络中的各个主题,执行如下步骤:
[0097] 基于狄利克雷超参数β生成第k个主题到词的分布的多项式参数φk;其中,β是φk所服从的狄利克雷分布的参数;k为正整数;
[0098] 步骤S203:对带权时序文本网络中的各个用户,执行如下步骤:
[0099] 基于狄利克雷超参数ρ生成第i个用户到社区的分布的多项式参数πi;其中,ρ是πi所服从的狄利克雷分布的参数;i为正整数;
[0100] 步骤S204:对带权时序文本网络中的各个用户的各个文章,执行如下步骤:
[0101] 基于多项式参数πi,生成第i个用户的第j篇文章所属的社区cij;其中i,j,cij为正整数;
[0102] 基于多项式参数 生成第i个用户的第j篇文章的主题zij;其中i,j,zij为正整数;
[0103] 基于贝塔参数 生成第i个用户的第j篇文章属于社区cij和主题zij时的时间tij,其中i,j,cij,zij,tij,为正整数;
[0104] 基于多项式参数 生成第i个用户的第j篇文章的第l个词wijl;其中i,j,l为正整数;
[0105] 步骤S205:对带权时序文本网络中的每条边,执行如下步骤:
[0106] 基于多项式参数πi,生成边的起点的用户i的社区gii';其中i,gii'为正整数;
[0107] 基于多项式参数πi’,生成边的终点的用户i’的社区g'ii';其中i’,g'ii'为正整数;
[0108] 基于泊松参数 生成边(i,i’)的权重eii′;
[0109] 基于贝塔参数 生成出边(i,i’)的入时刻sii′m;
[0110] 基于贝塔参数 生成出边(i,i’)的出时刻s′ii′m。
[0111] 图4为本发明涉及的生成模型的生成过程,如图4所示,步骤S3包括:构建生成模型的推断过程,通过已知的文本信息、边信息、时间信息进行推断;图3为为本发明提取出的信息示意图。
[0112] 本发明采用吉布斯采样的算法进行推断,具体地:
[0113] 步骤S301:为文章dij采样社区cij,构建p如下:
[0114] P(cij=c|zij=k,tij=t,c-ij,g,z-ij,t-ij,·)
[0115]
[0116] 其中,cij表示文章dij的社区,zij表示文章dij的主题,tij表示文章dij的时间标签,g表示在用户的边中所关联的社区,符号∝表示正比于; 表示用户i在社区c中发表的所有文章和边的数量,ρ表示关于社区的狄利克雷分布,C表示社区的总数, 表示所有关于社区c和主题z的文章数量,K表示主题的总数,α表示生成关于主题的狄利克雷分布,表示贝塔函数,ψck表示关于社区c和主题k在时间上的贝塔分布,·表示临界计数,如 表示表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij;
[0117] 步骤S302:为文章dij采样主题zij,构建p如下:
[0118] P(zij=k|cij=c,tij=t,c-ij,z-ij,t-ij,w,·)
[0119]
[0120] 其中,zij表示文章dij的主题,cij表示文章dij的社区,tij表示文章dij的时间标签,w表示文章中的词, 表示所有关于社区c和主题z的文章数量,α表示生成关于主题的狄利克雷分布, 表示贝塔函数,ψck表示关于社区c和主题k在时间上的贝塔分布, 指的是文章dij中词的数量, 表示关于主题z的词的数量,β指的是关于主题k的词的多项分布的狄利克雷分布。·表示临界计数,如 表示表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij;
[0121] 步骤S303:为边eii′采样社区gii′和g′ii′,构建p如下:
[0122] P(gii′=c,g′ii′=c′|eii′,g-ii′,c,e,.)
[0123]
[0124]
[0125] 其中,gii′g′ii′表示用户i、i′用边eii′联系的社区,eii′表示在用户i、i′之间的边的权重, 表示用户i在社区c中发表的所有文章和边的数量, 表示用户i在发表的所有文章和边的数量,σ表示dirichlet分布的超参数, 表示用户i′在社区c′中发表的所有文章和边的数量, 表示用户i′发表的所有文章和边的数量,C表示社区的总数,ρ表示关于社区的狄利克雷分布,ncc′, 分别表示与社区c和c′相关联的不包括边(i,i′)的边的数量和作用,λ1,λ0表示伽马优先级,sii′m表示在边eii′第m次作用的时间标记,δic0,δic1表示用户i和社区c在特定出时间的贝塔分布,γi′c′0表示用户i′和社区c′在特定入时间的贝塔分布;
[0126] 步骤S304:更新社区c和主题k的贝塔分布ψck,
[0127]
[0128] 其中,mck表示社区c和主题k的上的时间标签的平均值。 表示社区c和主题k的上的时间标签的方差;
[0129] 步骤S305:更新用户i和社区c的关于出时刻的贝塔分布δic和入时刻的贝塔分布γic:
[0130]
[0131] 其中mic和 表示与社区C相关联的用户的出时刻时间标记的均值和方差,
[0132]
[0133] 其中m′ic和 表示与社区C相关联的用户的入时刻时间标记的均值和方差。
[0134] 步骤S4包括:利用模型对带权时序网络进行训练,通过训练得到的结果对该网络的参数进行估计,具体地:
[0135] 步骤S401:对网络中的每篇文章dij按照所述吉布斯采样公式采样社区指标cij和主题指标zij,对每一条边(i,i')采样其相对应的社区指标gii'和g'ii';
[0136] 步骤S402:通过采样的c和z匹配β分布函数ψ,通过g和g'匹配β分布函数δ和γ;
[0137] 步骤S403:重新对每篇文章dij采样社区指标cij和主题指标zij,对每一条边(i,i')采样其相对应的社群指标gii'和g'ii',利用得到的c和z对ψ进行更新,利用g和g'对δ和γ进行更新;
[0138] 其中,步骤S403被重复执行,直到迭代足够的次数,进入步骤S404继续执行:
[0139] 步骤S404:使用下面的公式得到相关的参数:
[0140]
[0141]
[0142]
[0143] η满足泊松分布,用下面的公式来表示:
[0144]
[0145] 其中, 是第i个用户关于社区c的分布概率, 是社区c中关于第k个主题的分布概率, 是主题k关于关键词w的分布概率,η是社区之间权重的分布概率; 表示用户i与社区c有关联的文章和边的频数, 表示用户i与任意社区有联系的文章和边的频数,C是社区的数目; 表示同时与社区c和主题k关联的文章的频数, 表示与社区c有关联的所有主题的文章的频数,K是主题的数目; 表示与主题k相关联的关键词w的频数, 表示与主题k有关联的所有关键词的频数,V是词汇表的大小;ncc′表示社区c与c′之间边的频数,表示社区c与c′之间交互的频数。
[0146] 本发明的步骤S5包括:根据前述步骤提取的的主题,社区,用户关于社区的分布,特定用户在特定社区活跃度与影响力随时间变化曲线,社区关于主题的分布,在特定社区中特定主题的热度随时间变化曲线,可以对用户的行为记性预测;具体地:
[0147] 步骤S501:给定用户i和i',和两个时间标记s、s',可以预测他们之间产生联系的概率:
[0148]
[0149] 其中,i、i’表示用户,s、s’表示时间标记,π表示关于用户的社区的多项分布,η表示从社区c到社区c′的边权值的泊松分布,δ表示用户i和社区g对于出时刻的贝塔分布,γ表示用户i和社区g对于入时刻的贝塔分布,b(s;δig0,δig1)表示贝塔分布的概率密度函数,ncc′表示从社区c到社区c′的边的个数,λ1表示从社区c到社区c′的边权值的泊松分布参数;
[0150] 步骤S502:给定一些词w和一个作者i的文章d,关于文章发表时间的预测:
[0151]
[0152] 其中,t表示时间,i表示用户,π表示关于用户的社区的多项分布,θ表示关于主题的对于社区的多项分布,φ表示关于主题的词的多项分布,ψck表示关于社区c和主题k关于时间的贝塔分布,b(t;ψck0;ψck1)表示贝塔分布的概率密度函数。
[0153] 本发明在用户之间编码权重和时间上的信息,这是一种基于权重和时间的方法。由此,基于贝叶斯网络的概率生成模型,提出了时间社区检测的模型(Custom Temporal Community Detection)。因为考虑了权重信息和时间信息,CTCD能够为每个用户推荐相应的社区,能够加强社区与社区之间的联系同时为用户推荐一些感兴趣的话题。本发明设计了一种高效的基于吉布斯抽样的推导算法,并针对大规模社交网络提出了相应的并行实现方法。此外,本发明被证明是可以达到高精度的预测效果,从此算法中所提取的信息揭示了网络社区中一些新颖的发展模式。本发明具有创新的视:在每两个具有时间轴的用户之间的建立了多样的关联模型作为他们之间的权重边,通过这种方式建立的时间模型,能够为每个用户增加与社区之间的关联性,并且避免了由以前的时间离散模型带来的问题。全面的模型:本发明的模型结合了语义,网络和时间上的信息。时间社区连接着每个用户,社区之间关联的强弱以及每个社区感兴趣的话题能够被及时发现。随着信息的提取与增加,能够发现每个用户所属社区的转移以及跟踪社区的发展。可推广的推导:本发明提出了一种基于吉布斯抽样的推导方法,能够达到线性的复杂度,这能够应对大规模的社区数据集,开发了并行实现,并提出了几种方法来处理进程之间的同步问题。
[0154] 虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈