首页 / 专利库 / 天文学 / 星系 / 基于高斯混合模型的社交网络用户兴趣预测方法

基于高斯混合模型的社交网络用户兴趣预测方法

阅读:155发布:2020-08-19

专利汇可以提供基于高斯混合模型的社交网络用户兴趣预测方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于高斯混合模型的社交网络用户兴趣预测方法,包括以下步骤:步骤S1:从社交网络中获取用户数据;步骤S2:对获取的用户数据进行 特征向量 提取,生成一系列的特征向量;步骤S3:采用高斯混合模型构建 预测模型 ;步骤S4:采用EM 算法 优化参数并计算预测结果。本发明采用高斯混合模型,以实现更高的预测 精度 ,缩短使用时间,有效预测用户的短期兴趣。,下面是基于高斯混合模型的社交网络用户兴趣预测方法专利的具体信息内容。

1.一种基于高斯混合模型的社交网络用户兴趣预测方法,其特征在于:包括以下步骤:
步骤S1:从社交网络中获取用户数据;
步骤S2:对获取的用户数据进行特征向量提取,生成一系列的特征向量;
步骤S3:采用高斯混合模型构建预测模型
步骤S4:采用EM算法优化参数并计算预测结果;
所述步骤S1具体为:获取p个微博用户发表或转发的微博信息作为训练数据,获取q个微博用户发表或者转发的微博信息作为测试数据,获取r个热微博类别以及每个热门微博类别中的s条热门微博;
所述步骤S2具体为:对热门微博进行预处理,所述预处理包括分词、词频统计和去重,可得出t个热门关键词作为热门微博类的兴趣特征值,从而生成r个t维的热门微博特征向量;同时以微博用户为单位,对所述训练数据,测试数据进行预处理,包括中文分词、停用词处理以及词频统计;再根据所述r个t维的热门微博特征向量,从微博用户发表或转发的微博信息中提取该用户对应的t个兴趣特征值,转换为该微博用户的特征向量;
所述步骤S3中的高斯混合模型的定义表示为一个线性叠加的高斯模型,如公式(1)所示:
其中,高斯密度N(x|μk,Σk)为一混合组件,其均值为μk,其协方差为Σk,πk为混合系数;
对公式(1)的两边关于x求积分,并标准化p(x)和单个高斯组件,可得公式(2)如下:
由于要求p(x)≥0,N(x|μk,Σk)≥0,则πk≥0;
结合公式(2),可到得到公式(3):
0≤πk≤1   (3)
因此,混合系数满足成为概率的条件,根据加乘原理,可得到边际密度如公式(4)所示:
所述公式(4)相当于公式(1),其中,πk=p(k),是第k个元素的先验概率,密度N(x|μk,Σk)=p(x|k)是k条件下x的概率;因此,根据贝叶斯定理,生成下列公式(5):
假定需要进行预测的特征向量数据集为{x1,……,xN},将所述数据集表示为一个N×D矩阵X,其中,xnT表示第N行;相应的隐形随机 变量采用一个用znT表示行的N×K矩阵Z表示;
则高斯混合分布的形可由参数π,μ和Σ控制的,其中π≡{π1,…,πk},μ≡{μ1,…,μk},Σ≡{Σ1,…,Σk};执行最大似然估计后,所述公式(1)转化为如下公式(6):
其中X={x1,……,xN};
所述步骤S4具体包括以下步骤:
步骤S41:采用EM算法,初始化均值μk,协方差Σk和混合系数π k,并评估初始对数似然估计函数值;
步骤S42:采用以下公式(7)估计隐含类别变量:
步骤S43:采用以下公式(8)、公式(9)、公式(10)以及公式(11)进行参数更新:
其中,
步骤S44:采用以下公式(12)评估对数似然估计函数值
若所述公式(12)不满足收敛准则,则返回所述步骤S42。
2.根据权利要求1所述的一种基于高斯混合模型的社交网络用户兴趣预测方法,其特征在于:所述中文分词的方法为:采用中文分词系统,结合自定义用户词典对微博星系进行分词;所述停用词处理的方法为:采用HashMap快速索引查表法对无用信息进行过滤降低微博信息的噪音。

说明书全文

基于高斯混合模型的社交网络用户兴趣预测方法

技术领域

[0001] 本发明涉及社交网络信息分析技术领域,特别是一种基于高斯混合模型的社交网络用户兴趣预测方法。

背景技术

[0002] 信息的快速扩散和社交网络的便利方便大量用户分享他们的日常活动,交换意见,或与他人建立友谊。一份报告显示,在2017年底,全球社交网络用户的数量估计有23.3亿。因此,有效的特征学习和兴趣预测不仅对用户(如寻找有相似兴趣的用户),还同样对服务提供者(如在一组应用场景中分析用户行为从而进行个性化推荐)具有重要的意义。
[0003] 然而,鉴于社交数据的特征(如数量巨大、多样性、数据价值高低不一等),高精度地预测用户兴趣,同时保证计算复杂性和延迟在可接受的范围内是很困难的。此外,用户兴趣特征中,短期兴趣可能会动态改变(如受朋友影响)。因此,提出基于高斯混合模型的社交网络用户兴趣预测方法,它能够有效预测用户的短期兴趣。

发明内容

[0004] 有鉴于此,本发明的目的是提供一种基于高斯混合模型的社交网络用户兴趣预测方法,以实现更高的预测精度,缩短使用时间,有效预测用户的短期兴趣。
[0005] 本发明采用以下方案实现:一种基于高斯混合模型的社交网络用户兴趣预测方法,包括以下步骤:
[0006] 步骤S1:从社交网络中获取用户数据;
[0007] 步骤S2:对获取的用户数据进行特征向量提取,生成一系列的特征向量;
[0008] 步骤S3:采用高斯混合模型构建预测模型
[0009] 步骤S4:采用EM算法优化参数并计算预测结果。
[0010] 进一步地,所述步骤S1具体为:获取p个微博用户发表或转发的微博信息作为训练数据,获取q个微博用户发表或者转发的微博信息作为测试数据,获取r个热微博类别以及每个热门微博类别中的s条热门微博。
[0011] 进一步地,所述步骤S2具体为:对热门微博进行预处理,所述预处理包括分词、词频统计和去重,可得出t个热门关键词作为热门微博类的兴趣特征值,从而生成r个t维的热门微博特征向量;同时以微博用户为单位,对所述训练数据,测试数据进行预处理,包括中文分词、停用词处理以及词频统计;再根据所述r个t维的热门微博特征向量,从微博用户发表或转发的微博信息中提取该用户对应的t个兴趣特征值,转换为该微博用户的特征向量。
[0012] 较佳的,所述中文分词的方法为:采用中文分词系统,结合自定义用户词典对微博星系进行分词;所述停用词处理的方法为:采用HashMap快速索引查表法对无用信息进行过滤降低微博信息的噪音。
[0013] 进一步地,所述步骤S3中的高斯混合模型的定义表示为一个线性叠加的高斯模型,如公式(1)所示:
[0014]
[0015] 其中,高斯密度N(x|μk,Σk)为一混合组件,其均值为μk,其协方差为Σk,πk为混合系数;对公式(1)的两边关于x求积分,并标准化p(x)和单个高斯组件,可得公式(2)如下:
[0016]
[0017] 由于要求p(x)≥0,N(x|μk,Σk)≥0,则πk≥0;
[0018] 结合公式(2),可到得到公式(3):
[0019] 0≤πk≤1  (3)
[0020] 因此,混合系数满足成为概率的条件,根据加乘原理,可得到边际密度如公式(4)所示:
[0021]
[0022] 所述公式(4)相当于公式(1),其中,πk=p(k),是第k个元素的先验概率,密度N(x|μk,Σk)=p(x|k)是k条件下x的概率;因此,根据贝叶斯定理,生成下列公式(5):
[0023]
[0024] 假定需要进行预测的特征向量数据集为{x1,……,xN},将所述数据集表示为一个N×D矩阵X,其中,xnT表示第N行;相应的隐形随机变量采用一个用znT表示行的N×K矩阵Z表示;
[0025] 则高斯混合分布的形可由参数π,μ和Σ控制的,其中π≡{π1,…,πk},μ≡{μ1,…,μk},Σ≡{Σ1,…,Σk};执行最大似然估计后,所述公式(1)转化为如下公式(6):
[0026]
[0027] 其中X={x1,……,xN}。
[0028] 进一步地,所述步骤S4具体包括以下步骤:
[0029] 步骤S41:采用EM算法,初始化均值μk,协方差Σkπk和混合系数πk,并评估初始对数似然估计函数值;
[0030] 步骤S42:采用以下公式(7)估计隐含类别变量:
[0031]
[0032] 步骤S43:采用以下公式(8)、公式(9)、公式(10)以及公式(12)进行参数更新:
[0033]
[0034]
[0035]
[0036] 其中,
[0037]
[0038] 步骤S44:采用以下公式(12)评估对数似然估计函数值
[0039]
[0040] 若所述公式(12)不满足收敛准则,则返回所述步骤S42。
[0041] 与现有技术相比,本发明采用高斯混合模型,对社交网络用户兴趣可实现更高的预测精度,缩短使用时间,有效预测用户的短期兴趣。附图说明
[0042] 图1为本发明的方法流程图
[0043] 图2为本发明中的兴趣预测的系统框架图。

具体实施方式

[0044] 下面结合附图及实施例对本发明做进一步说明。
[0045] 本实施例提供一种基于高斯混合模型的社交网络用户兴趣预测方法,如图1和图2所示,包括以下步骤:
[0046] 步骤S1:从社交网络中获取用户数据;
[0047] 步骤S2:对获取的用户数据进行特征向量提取,生成一系列的特征向量;
[0048] 步骤S3:采用高斯混合模型构建预测模型;
[0049] 步骤S4:采用EM算法优化参数并计算预测结果。
[0050] 在本实施例中,所述步骤S1具体为:获取p个微博用户发表或转发的微博信息作为训练数据,获取q个微博用户发表或者转发的微博信息作为测试数据,获取r个热门微博类别以及每个热门微博类别中的s条热门微博。
[0051] 在本实施例中,所述步骤S2具体为:对热门微博进行预处理,所述预处理包括分词、词频统计和去重,可得出t个热门关键词作为热门微博类的兴趣特征值,从而生成r个t维的热门微博特征向量;同时以微博用户为单位,对所述训练数据,测试数据进行预处理,包括中文分词、停用词处理以及词频统计;再根据所述r个t维的热门微博特征向量,从微博用户发表或转发的微博信息中提取该用户对应的t个兴趣特征值,转换为该微博用户的特征向量。
[0052] 在本实施例中,较佳的,所述中文分词的方法为:采用中文分词系统,结合自定义用户词典对微博星系进行分词;所述停用词处理的方法为:采用HashMap快速索引查表法对无用信息进行过滤降低微博信息的噪。
[0053] 在本实施例中,进行去重是考虑到不同类别可能包含相同的关键字,重复数据删除功能是必要的,以减少冗余的手动操作的过程。
[0054] 在本实施例中,所述步骤S3中的高斯混合模型的定义表示为一个线性叠加的高斯模型,如公式(1)所示:
[0055]
[0056] 其中,高斯密度N(x|μk,Σk)为一混合组件,其均值为μk,其协方差为Σk,πk为混合系数;对公式(1)的两边关于x求积分,并标准化p(x)和单个高斯组件,可得公式(2)如下:
[0057]
[0058] 由于要求p(x)≥0,N(x|μk,Σk)≥0,则πk≥0;
[0059] 结合公式(2),可到得到公式(3):
[0060] 0≤πk≤1  (3)
[0061] 因此,混合系数满足成为概率的条件,根据加乘原理,可得到边际密度如公式(4)所示:
[0062]
[0063] 所述公式(4)相当于公式(1),其中,πk=p(k),是第k个元素的先验概率,密度N(x|μk,Σk)=p(x|k)是k条件下x的概率;因此,根据贝叶斯定理,生成下列公式(5):
[0064]
[0065] 假定需要进行预测的特征向量数据集为{x1,……,xN},将所述数据集表示为一个NT T×D矩阵X,其中,xn 表示第N行;相应的隐形随机变量采用一个用zn表示行的N×K矩阵Z表示;
[0066] 则高斯混合分布的形可由参数π,μ和Σ控制的,其中π≡{π1,…,πk},μ≡{μ1,…,μk},Σ≡{Σ1,…,Σk};执行最大似然估计后,所述公式(1)转化为如下公式(6):
[0067]
[0068] 其中X={x1,……,xN}。
[0069] 在本实施例中,所述步骤S4具体包括以下步骤:
[0070] 步骤S41:采用EM算法,初始化均值μk,协方差Σkπk和混合系数πk,并评估初始对数似然估计函数值;
[0071] 步骤S42:采用以下公式(7)估计隐含类别变量:
[0072]
[0073] 步骤S43:采用以下公式(8)、公式(9)、公式(10)以及公式(12)进行参数更新:
[0074]
[0075]
[0076]
[0077] 其中,
[0078]
[0079] 步骤S44:采用以下公式(12)评估对数似然估计函数值
[0080]
[0081] 若所述公式(12)不满足收敛准则,则返回所述步骤S42。
[0082] 以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈