专利汇可以提供基于高斯混合模型的社交网络用户兴趣预测方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于高斯混合模型的社交网络用户兴趣预测方法,包括以下步骤:步骤S1:从社交网络中获取用户数据;步骤S2:对获取的用户数据进行 特征向量 提取,生成一系列的特征向量;步骤S3:采用高斯混合模型构建 预测模型 ;步骤S4:采用EM 算法 优化参数并计算预测结果。本发明采用高斯混合模型,以实现更高的预测 精度 ,缩短使用时间,有效预测用户的短期兴趣。,下面是基于高斯混合模型的社交网络用户兴趣预测方法专利的具体信息内容。
1.一种基于高斯混合模型的社交网络用户兴趣预测方法,其特征在于:包括以下步骤:
步骤S1:从社交网络中获取用户数据;
步骤S2:对获取的用户数据进行特征向量提取,生成一系列的特征向量;
步骤S3:采用高斯混合模型构建预测模型;
步骤S4:采用EM算法优化参数并计算预测结果;
所述步骤S1具体为:获取p个微博用户发表或转发的微博信息作为训练数据,获取q个微博用户发表或者转发的微博信息作为测试数据,获取r个热门微博类别以及每个热门微博类别中的s条热门微博;
所述步骤S2具体为:对热门微博进行预处理,所述预处理包括分词、词频统计和去重,可得出t个热门关键词作为热门微博类的兴趣特征值,从而生成r个t维的热门微博特征向量;同时以微博用户为单位,对所述训练数据,测试数据进行预处理,包括中文分词、停用词处理以及词频统计;再根据所述r个t维的热门微博特征向量,从微博用户发表或转发的微博信息中提取该用户对应的t个兴趣特征值,转换为该微博用户的特征向量;
所述步骤S3中的高斯混合模型的定义表示为一个线性叠加的高斯模型,如公式(1)所示:
其中,高斯密度N(x|μk,Σk)为一混合组件,其均值为μk,其协方差为Σk,πk为混合系数;
对公式(1)的两边关于x求积分,并标准化p(x)和单个高斯组件,可得公式(2)如下:
由于要求p(x)≥0,N(x|μk,Σk)≥0,则πk≥0;
结合公式(2),可到得到公式(3):
0≤πk≤1 (3)
因此,混合系数满足成为概率的条件,根据加乘原理,可得到边际密度如公式(4)所示:
所述公式(4)相当于公式(1),其中,πk=p(k),是第k个元素的先验概率,密度N(x|μk,Σk)=p(x|k)是k条件下x的概率;因此,根据贝叶斯定理,生成下列公式(5):
假定需要进行预测的特征向量数据集为{x1,……,xN},将所述数据集表示为一个N×D矩阵X,其中,xnT表示第N行;相应的隐形随机 变量采用一个用znT表示行的N×K矩阵Z表示;
则高斯混合分布的形可由参数π,μ和Σ控制的,其中π≡{π1,…,πk},μ≡{μ1,…,μk},Σ≡{Σ1,…,Σk};执行最大似然估计后,所述公式(1)转化为如下公式(6):
其中X={x1,……,xN};
所述步骤S4具体包括以下步骤:
步骤S41:采用EM算法,初始化均值μk,协方差Σk和混合系数π k,并评估初始对数似然估计函数值;
步骤S42:采用以下公式(7)估计隐含类别变量:
步骤S43:采用以下公式(8)、公式(9)、公式(10)以及公式(11)进行参数更新:
其中,
步骤S44:采用以下公式(12)评估对数似然估计函数值
若所述公式(12)不满足收敛准则,则返回所述步骤S42。
2.根据权利要求1所述的一种基于高斯混合模型的社交网络用户兴趣预测方法,其特征在于:所述中文分词的方法为:采用中文分词系统,结合自定义用户词典对微博星系进行分词;所述停用词处理的方法为:采用HashMap快速索引查表法对无用信息进行过滤降低微博信息的噪音。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
新双星系转化普通酒为陈酒或高档酒动态工程系统 | 2020-05-20 | 15 |
新双星系在太空定向变搭载物的辅助动态工程系统 | 2020-05-20 | 179 |
新双星系转化普通米面为香米面补品米面动态工程系统 | 2020-05-21 | 810 |
新双星系促植物快速生长动态工程系统 | 2020-05-17 | 479 |
新双星系导致生物患病的武器动态工程系统 | 2020-05-17 | 802 |
新双星系超速发酵动态工程系统 | 2020-05-14 | 997 |
新双星系健身保健健美和康复动态工程系统 | 2020-05-18 | 598 |
新双星系大面积杀灭农林牧渔病虫害动态工程系统 | 2020-05-24 | 296 |
新双星系阳光反射镜面阵—生物快长快变阳性系统 | 2020-05-24 | 160 |
一种移动终端 | 2020-05-27 | 288 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。