基于高斯混合模型的社交网络用户兴趣预测方法专利检索-星系天文学专利检索查询-专利查询网

基于高斯混合模型的社交网络用户兴趣预测方法

阅读：155发布：2020-08-19

专利汇可以提供基于高斯混合模型的社交网络用户兴趣预测方法专利检索，专利查询，专利分析的服务。并且本发明涉及一种基于高斯混合模型的社交网络用户兴趣预测方法，包括以下步骤：步骤S1：从社交网络中获取用户数据；步骤S2：对获取的用户数据进行特征向量提取，生成一系列的特征向量；步骤S3：采用高斯混合模型构建预测模型；步骤S4：采用EM 算法优化参数并计算预测结果。本发明采用高斯混合模型，以实现更高的预测精度，缩短使用时间，有效预测用户的短期兴趣。，下面是基于高斯混合模型的社交网络用户兴趣预测方法专利的具体信息内容。

权利要求

1.一种基于高斯混合模型的社交网络用户兴趣预测方法，其特征在于：包括以下步骤：
步骤S1：从社交网络中获取用户数据；
步骤S2：对获取的用户数据进行特征向量提取，生成一系列的特征向量；
步骤S3：采用高斯混合模型构建预测模型；
步骤S4：采用EM 算法优化参数并计算预测结果；
所述步骤S1具体为：获取p个微博用户发表或转发的微博信息作为训练数据，获取q个微博用户发表或者转发的微博信息作为测试数据，获取r个热门微博类别以及每个热门微博类别中的s条热门微博；
所述步骤S2具体为：对热门微博进行预处理，所述预处理包括分词、词频统计和去重，可得出t个热门关键词作为热门微博类的兴趣特征值，从而生成r个t维的热门微博特征向量；同时以微博用户为单位，对所述训练数据，测试数据进行预处理，包括中文分词、停用词处理以及词频统计；再根据所述r个t维的热门微博特征向量，从微博用户发表或转发的微博信息中提取该用户对应的t个兴趣特征值，转换为该微博用户的特征向量；
所述步骤S3中的高斯混合模型的定义表示为一个线性叠加的高斯模型，如公式(1)所示：
其中，高斯密度N(x|μk,Σk)为一混合组件，其均值为μk，其协方差为Σk，πk为混合系数；
对公式(1)的两边关于x求积分，并标准化p(x)和单个高斯组件，可得公式(2)如下：
由于要求p(x)≥0，N(x|μk,Σk)≥0，则πk≥0；
结合公式(2)，可到得到公式(3)：
0≤πk≤1 (3)
因此，混合系数满足成为概率的条件，根据加乘原理，可得到边际密度如公式(4)所示：
所述公式(4)相当于公式(1)，其中，πk＝p(k)，是第k个元素的先验概率，密度N(x|μk,Σk)＝p(x|k)是k条件下x的概率；因此，根据贝叶斯定理，生成下列公式(5)：
假定需要进行预测的特征向量数据集为{x1,……,xN}，将所述数据集表示为一个N×D矩阵X，其中，xnT表示第N行；相应的隐形随机变量采用一个用znT表示行的N×K矩阵Z表示；
则高斯混合分布的形可由参数π，μ和Σ控制的，其中π≡{π1,…,πk}，μ≡{μ1,…,μk}，Σ≡{Σ1,…,Σk}；执行最大似然估计后，所述公式(1)转化为如下公式(6)：
其中X＝{x1,……,xN}；
所述步骤S4具体包括以下步骤：
步骤S41：采用EM算法，初始化均值μk,协方差Σk和混合系数π k，并评估初始对数似然估计函数值；
步骤S42：采用以下公式(7)估计隐含类别变量：
步骤S43：采用以下公式(8)、公式(9)、公式(10)以及公式(11)进行参数更新：
其中，
步骤S44：采用以下公式(12)评估对数似然估计函数值
若所述公式(12)不满足收敛准则，则返回所述步骤S42。
2.根据权利要求1所述的一种基于高斯混合模型的社交网络用户兴趣预测方法，其特征在于：所述中文分词的方法为：采用中文分词系统，结合自定义用户词典对微博星系进行分词；所述停用词处理的方法为：采用HashMap快速索引查表法对无用信息进行过滤降低微博信息的噪音。

说明书全文

基于高斯混合模型的社交网络用户兴趣预测方法

技术领域

[0001] 本发明涉及社交网络信息分析技术领域，特别是一种基于高斯混合模型的社交网络用户兴趣预测方法。

背景技术

[0002] 信息的快速扩散和社交网络的便利方便大量用户分享他们的日常活动，交换意见，或与他人建立友谊。一份报告显示，在2017年底，全球社交网络用户的数量估计有23.3亿。因此，有效的特征学习和兴趣预测不仅对用户(如寻找有相似兴趣的用户)，还同样对服务提供者(如在一组应用场景中分析用户行为从而进行个性化推荐)具有重要的意义。

[0003] 然而，鉴于社交数据的特征(如数量巨大、多样性、数据价值高低不一等)，高精度地预测用户兴趣，同时保证计算复杂性和延迟在可接受的范围内是很困难的。此外，用户兴趣特征中，短期兴趣可能会动态改变(如受朋友影响)。因此，提出基于高斯混合模型的社交网络用户兴趣预测方法，它能够有效预测用户的短期兴趣。

发明内容

[0004] 有鉴于此，本发明的目的是提供一种基于高斯混合模型的社交网络用户兴趣预测方法，以实现更高的预测精度，缩短使用时间，有效预测用户的短期兴趣。

[0005] 本发明采用以下方案实现：一种基于高斯混合模型的社交网络用户兴趣预测方法，包括以下步骤：

[0006] 步骤S1：从社交网络中获取用户数据；

[0007] 步骤S2：对获取的用户数据进行特征向量提取，生成一系列的特征向量；

[0008] 步骤S3：采用高斯混合模型构建预测模型；

[0009] 步骤S4：采用EM 算法优化参数并计算预测结果。

[0010] 进一步地，所述步骤S1具体为：获取p个微博用户发表或转发的微博信息作为训练数据，获取q个微博用户发表或者转发的微博信息作为测试数据，获取r个热门微博类别以及每个热门微博类别中的s条热门微博。

[0011] 进一步地，所述步骤S2具体为：对热门微博进行预处理，所述预处理包括分词、词频统计和去重，可得出t个热门关键词作为热门微博类的兴趣特征值，从而生成r个t维的热门微博特征向量；同时以微博用户为单位，对所述训练数据，测试数据进行预处理，包括中文分词、停用词处理以及词频统计；再根据所述r个t维的热门微博特征向量，从微博用户发表或转发的微博信息中提取该用户对应的t个兴趣特征值，转换为该微博用户的特征向量。

[0012] 较佳的，所述中文分词的方法为：采用中文分词系统，结合自定义用户词典对微博星系进行分词；所述停用词处理的方法为：采用HashMap快速索引查表法对无用信息进行过滤降低微博信息的噪音。

[0013] 进一步地，所述步骤S3中的高斯混合模型的定义表示为一个线性叠加的高斯模型，如公式(1)所示：

[0014]

[0015] 其中，高斯密度N(x|μk,Σk)为一混合组件，其均值为μk，其协方差为Σk，πk为混合系数；对公式(1)的两边关于x求积分，并标准化p(x)和单个高斯组件，可得公式(2)如下：

[0016]

[0017] 由于要求p(x)≥0，N(x|μk,Σk)≥0，则πk≥0；

[0018] 结合公式(2)，可到得到公式(3)：

[0019] 0≤πk≤1 (3)

[0020] 因此，混合系数满足成为概率的条件，根据加乘原理，可得到边际密度如公式(4)所示：

[0021]

[0022] 所述公式(4)相当于公式(1)，其中，πk＝p(k)，是第k个元素的先验概率，密度N(x|μk,Σk)＝p(x|k)是k条件下x的概率；因此，根据贝叶斯定理，生成下列公式(5)：

[0023]

[0024] 假定需要进行预测的特征向量数据集为{x1,……,xN}，将所述数据集表示为一个N×D矩阵X，其中，xnT表示第N行；相应的隐形随机变量采用一个用znT表示行的N×K矩阵Z表示；

[0025] 则高斯混合分布的形可由参数π，μ和Σ控制的，其中π≡{π1,…,πk}，μ≡{μ1,…,μk}，Σ≡{Σ1,…,Σk}；执行最大似然估计后，所述公式(1)转化为如下公式(6)：

[0026]

[0027] 其中X＝{x1,……,xN}。

[0028] 进一步地，所述步骤S4具体包括以下步骤：

[0029] 步骤S41：采用EM算法，初始化均值μk,协方差Σkπk和混合系数πk，并评估初始对数似然估计函数值；

[0030] 步骤S42：采用以下公式(7)估计隐含类别变量：

[0031]

[0032] 步骤S43：采用以下公式(8)、公式(9)、公式(10)以及公式(12)进行参数更新：

[0033]

[0034]

[0035]

[0036] 其中，

[0037]

[0038] 步骤S44：采用以下公式(12)评估对数似然估计函数值

[0039]

[0040] 若所述公式(12)不满足收敛准则，则返回所述步骤S42。

[0041] 与现有技术相比，本发明采用高斯混合模型，对社交网络用户兴趣可实现更高的预测精度，缩短使用时间，有效预测用户的短期兴趣。附图说明

[0042] 图1为本发明的方法流程图。

[0043] 图2为本发明中的兴趣预测的系统框架图。

具体实施方式

[0044] 下面结合附图及实施例对本发明做进一步说明。

[0045] 本实施例提供一种基于高斯混合模型的社交网络用户兴趣预测方法，如图1和图2所示，包括以下步骤：

[0046] 步骤S1：从社交网络中获取用户数据；

[0047] 步骤S2：对获取的用户数据进行特征向量提取，生成一系列的特征向量；

[0048] 步骤S3：采用高斯混合模型构建预测模型；

[0049] 步骤S4：采用EM算法优化参数并计算预测结果。

[0050] 在本实施例中，所述步骤S1具体为：获取p个微博用户发表或转发的微博信息作为训练数据，获取q个微博用户发表或者转发的微博信息作为测试数据，获取r个热门微博类别以及每个热门微博类别中的s条热门微博。

[0051] 在本实施例中，所述步骤S2具体为：对热门微博进行预处理，所述预处理包括分词、词频统计和去重，可得出t个热门关键词作为热门微博类的兴趣特征值，从而生成r个t维的热门微博特征向量；同时以微博用户为单位，对所述训练数据，测试数据进行预处理，包括中文分词、停用词处理以及词频统计；再根据所述r个t维的热门微博特征向量，从微博用户发表或转发的微博信息中提取该用户对应的t个兴趣特征值，转换为该微博用户的特征向量。

[0052] 在本实施例中，较佳的，所述中文分词的方法为：采用中文分词系统，结合自定义用户词典对微博星系进行分词；所述停用词处理的方法为：采用HashMap快速索引查表法对无用信息进行过滤降低微博信息的噪。

[0053] 在本实施例中，进行去重是考虑到不同类别可能包含相同的关键字，重复数据删除功能是必要的，以减少冗余的手动操作的过程。

[0054] 在本实施例中，所述步骤S3中的高斯混合模型的定义表示为一个线性叠加的高斯模型，如公式(1)所示：

[0055]

[0056] 其中，高斯密度N(x|μk,Σk)为一混合组件，其均值为μk，其协方差为Σk，πk为混合系数；对公式(1)的两边关于x求积分，并标准化p(x)和单个高斯组件，可得公式(2)如下：

[0057]

[0058] 由于要求p(x)≥0，N(x|μk,Σk)≥0，则πk≥0；

[0059] 结合公式(2)，可到得到公式(3)：

[0060] 0≤πk≤1 (3)

[0061] 因此，混合系数满足成为概率的条件，根据加乘原理，可得到边际密度如公式(4)所示：

[0062]

[0063] 所述公式(4)相当于公式(1)，其中，πk＝p(k)，是第k个元素的先验概率，密度N(x|μk,Σk)＝p(x|k)是k条件下x的概率；因此，根据贝叶斯定理，生成下列公式(5)：

[0064]

[0065] 假定需要进行预测的特征向量数据集为{x1,……,xN}，将所述数据集表示为一个NT T×D矩阵X，其中，xn 表示第N行；相应的隐形随机变量采用一个用zn表示行的N×K矩阵Z表示；

[0066] 则高斯混合分布的形可由参数π，μ和Σ控制的，其中π≡{π1,…,πk}，μ≡{μ1,…,μk}，Σ≡{Σ1,…,Σk}；执行最大似然估计后，所述公式(1)转化为如下公式(6)：

[0067]

[0068] 其中X＝{x1,……,xN}。

[0069] 在本实施例中，所述步骤S4具体包括以下步骤：

[0070] 步骤S41：采用EM算法，初始化均值μk,协方差Σkπk和混合系数πk，并评估初始对数似然估计函数值；

[0071] 步骤S42：采用以下公式(7)估计隐含类别变量：

[0072]

[0073] 步骤S43：采用以下公式(8)、公式(9)、公式(10)以及公式(12)进行参数更新：

[0074]

[0075]

[0076]

[0077] 其中，

[0078]

[0079] 步骤S44：采用以下公式(12)评估对数似然估计函数值

[0080]

[0081] 若所述公式(12)不满足收敛准则，则返回所述步骤S42。

[0082] 以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

标题	发布/更新时间	阅读量
新双星系转化普通酒为陈酒或高档酒动态工程系统	2020-05-20	15
新双星系在太空定向变搭载物的辅助动态工程系统	2020-05-20	179
新双星系转化普通米面为香米面补品米面动态工程系统	2020-05-21	810
新双星系促植物快速生长动态工程系统	2020-05-17	479
新双星系导致生物患病的武器动态工程系统	2020-05-17	802
新双星系超速发酵动态工程系统	2020-05-14	997
新双星系健身保健健美和康复动态工程系统	2020-05-18	598
新双星系大面积杀灭农林牧渔病虫害动态工程系统	2020-05-24	296
新双星系阳光反射镜面阵—生物快长快变阳性系统	2020-05-24	160
一种移动终端	2020-05-27	288

基于高斯混合模型的社交网络用户兴趣预测方法

基于高斯混合模型的社交网络用户兴趣预测方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：