首页 / 专利库 / 地球科学 / / 一种高效的用户兴趣类别预测方法

一种高效的用户兴趣类别预测方法

阅读:98发布:2021-06-15

专利汇可以提供一种高效的用户兴趣类别预测方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了互联网数据分析技术领域的一种高效的用户兴趣类别预测方法,S1:用户数据收集,S2:收集数据 整理 ,S3:整理数据对比,S4:对比数据统计,S5:统计数据推送;本发明通过对用户的数据进行收集以及分析后,根据用户的喜好,进行与其喜好类似的歌曲进行推送,方便用户找到自己喜欢的歌曲,方便用户的使用,以及方便公司了解用户的喜好,而及时的进行原始数据的更新。,下面是一种高效的用户兴趣类别预测方法专利的具体信息内容。

1.一种高效的用户兴趣类别预测方法,其特征在于:
S1:用户数据收集
服务器通过对用户点击查看、播放、下载以及收藏的歌曲数据,收集的数据通过kafka系统传输到下游;
S2:收集数据整理
对步骤S1中通过kafka系统输送的原始数据通过Hdfs系统按照时间的顺序对用户点击查看、播放、下载以及收藏的歌曲数据进行排序,整理好的数据通过kafka系统传输到下游;
S3:整理数据对比
对步骤S2中通过kafka系统输送的整理数据通过Hive系统与服务器中原始数据进行对比,将用户点击查看、播放、下载以及收藏的歌曲数据进行对比分析,且分析的结果数据通过kafka系统传输到下游;
S4:对比数据统计
对步骤S3中通过kafka系统输送的对比数据通过公式
进行用户点击查看、播放、下载以及收藏次数的统计,统计的数据通过kafka系统传输到下游;
S5:统计数据推送
根据对步骤S4中通过kafka系统输送的统计数据,通过Hdfs系统按照数值从大至小的方式进行排序,并通过Hive系统按照Hdfs系统大至小的方式进行排序将服务器中原始数据与统计数据类似的歌曲数据向用户进行推送。
2.根据权利要求1所述的一种高效的用户兴趣类别预测方法,其特征在于:所述kafka系统是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。
3.根据权利要求1所述的一种高效的用户兴趣类别预测方法,其特征在于:所述Hdfs系统放宽了POSIX的要求这样可以实现流的形式访问文件系统中的数据,所述POSIX为可移植操作系统接口
4.根据权利要求1所述的一种高效的用户兴趣类别预测方法,其特征在于:所述Hive系统包括数据源、数据存储和管理、数据服务和数据应用。
5.根据权利要求4所述的一种高效的用户兴趣类别预测方法,其特征在于:所述数据源为数据仓库的数据来源,含外部数据、现有业务系统和文档资料。
6.根据权利要求4所述的一种高效的用户兴趣类别预测方法,其特征在于:所述数据存储和管理为对数据的存储和管理,含数据仓库、数据集市、数据仓库检测、运行与维护工具和元数据管理。
7.根据权利要求4所述的一种高效的用户兴趣类别预测方法,其特征在于:所述数据服务为前端和应用提供数据服务,可直接从数据仓库中获取数据供前端应用使用,也可通过OLAP服务器为前端应用提供负责的数据服务,所述OLAP服务器为联机分析处理,能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
8.根据权利要求4所述的一种高效的用户兴趣类别预测方法,其特征在于:所述数据应用为直接面向用户,含数据查询工具、自由报表工具、数据分析工具、数据挖掘工具和各类应用系统。

说明书全文

一种高效的用户兴趣类别预测方法

技术领域

[0001] 本发明涉及互联网数据分析技术领域,具体为一种高效的用户兴趣类别预测方法。

背景技术

[0002] 互联网产品上线后,都会面临一个问题,当有新用户来的时候,不可避免会遇到冷启动的问题,新用户的曝光和播放次数相对较少,如何提高新用户的留存率,尽可能的让用户习惯使用自己的产品一直是研究的难点,解决问题的一个方向就是获取用户的兴趣类别,然后有的放矢的为用户进行个性化推荐,这样可以达到事半功倍的效果。
[0003] 当前互联网产品特别是音频类产品针对新用户的提高留存的方法,一般是尽量推荐产品中现有的比较热的专辑,一般认为热门的专辑对于新用户具有比较大的吸引,通过积累一定的用户的点击,播放,购买等行为之后,根据模型计算预测用户的兴趣偏好类别,这种方法导致的结果是预测用户的兴趣类别是比较偏热门的类别,而偏冷门的类别却没有更多的曝光机会,导致预测用户的兴趣出现偏差。
[0004] 基于此,本发明设计了一种高效的用户兴趣类别预测方法,以解决上述问题。

发明内容

[0005] 本发明的目的在于提供一种高效的用户兴趣类别预测方法,以解决上述背景技术中提出的问题。
[0006] 为实现上述目的,本发明提供如下技术方案:
[0007] 一种高效的用户兴趣类别预测方法,
[0008] S1:用户数据收集
[0009] 服务器通过对用户点击查看、播放、下载以及收藏的歌曲数据,收集的数据通过kafka系统传输到下游;
[0010] S2:收集数据整理
[0011] 对步骤S1中通过kafka系统输送的原始数据通过Hdfs系统按照时间的顺序对用户点击查看、播放、下载以及收藏的歌曲数据进行排序,整理好的数据通过kafka系统传输到下游;
[0012] S3:整理数据对比
[0013] 对步骤S2中通过kafka系统输送的整理数据通过Hive系统与服务器中原始数据进行对比,将用户点击查看、播放、下载以及收藏的歌曲数据进行对比分析,且分析的结果数据通过kafka系统传输到下游;
[0014] S4:对比数据统计
[0015] 对步骤S3中通过kafka系统输送的对比数据通过公式
[0016]
[0017] 进行用户点击查看、播放、下载以及收藏次数的统计,统计的数据通过[0018] kafka系统传输到下游;
[0019] S5:统计数据推送
[0020] 根据对步骤S4中通过kafka系统输送的统计数据,通过Hdfs系统按照数值从大至小的方式进行排序,并通过Hive系统按照Hdfs系统大至小的方式进行排序将服务器中原始数据与统计数据类似的歌曲数据向用户进行推送。
[0021] 优选的,所述kafka系统是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。
[0022] 优选的,所述Hdfs系统放宽了POSIX的要求这样可以实现流的形式访问文件系统中的数据,所述POSIX为可移植操作系统接口
[0023] 优选的,所述Hive系统包括数据源、数据存储和管理、数据服务和数据应用。
[0024] 优选的,所述数据源为数据仓库的数据来源,含外部数据、现有业务系统和文档资料。
[0025] 优选的,所述数据存储和管理为对数据的存储和管理,含数据仓库、数据集市、数据仓库检测、运行与维护工具和元数据管理。
[0026] 优选的,所述数据服务为前端和应用提供数据服务,可直接从数据仓库中获取数据供前端应用使用,也可通过OLAP服务器为前端应用提供负责的数据服务,所述OLAP服务器为联机分析处理,能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
[0027] 优选的,所述数据应用为直接面向用户,含数据查询工具、自由报表工具、数据分析工具、数据挖掘工具和各类应用系统。
[0028] 优选的,PCj和PHj为用户在类别j的当前批次的播放次数和历史播放次数,PC和PH为用户当前批次所有类别的播放次数和所有类别的历史播放次数。
[0029] 优选的,VCj和VHj为用户在类别j的当前批次的曝光次数和历史曝光次数,VC和VH为用户当前批次所有类别的曝光次数和所有类别的曝光播放次数。
[0030] 优选的,参数β控制收益部分和探索部分的比重,β越小,越倾向推荐曝光机会相对较少的音频产品,默认为0.4。
[0031] 与现有技术相比,本发明的有益效果是:本发明通过对用户的数据进行收集以及分析后,根据用户的喜好,进行与其喜好类似的歌曲进行推送,方便用户找到自己喜欢的歌曲,方便用户的使用,以及方便公司了解用户的喜好,而及时的进行原始数据的更新。
[0032] 当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。附图说明
[0033] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034] 图1为本发明方法流程图

具体实施方式

[0035] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0036] 请参阅图1,本发明提供一种技术方案:
[0037] 一种高效的用户兴趣类别预测方法,
[0038] S1:用户数据收集
[0039] 服务器通过对用户点击查看、播放、下载以及收藏的歌曲数据,收集的数据通过kafka系统传输到下游,kafka系统是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据;
[0040] S2:收集数据整理
[0041] 对步骤S1中通过kafka系统输送的原始数据通过Hdfs系统按照时间的顺序对用户点击查看、播放、下载以及收藏的歌曲数据进行排序,整理好的数据通过kafka系统传输到下游,Hdfs系统放宽了POSIX的要求这样可以实现流的形式访问文件系统中的数据,POSIX为可移植操作系统接口;
[0042] S3:整理数据对比
[0043] 对步骤S2中通过kafka系统输送的整理数据通过Hive系统与服务器中原始数据进行对比,将用户点击查看、播放、下载以及收藏的歌曲数据进行对比分析,且分析的结果数据通过kafka系统传输到下游,Hive系统包括数据源、数据存储和管理、数据服务和数据应用;
[0044] S4:对比数据统计
[0045] 对步骤S3中通过kafka系统输送的对比数据通过公式
[0046]
[0047] 进行用户点击查看、播放、下载以及收藏次数的统计,统计的数据通过[0048] kafka系统传输到下游;
[0049] S5:统计数据推送
[0050] 根据对步骤S4中通过kafka系统输送的统计数据,通过Hdfs系统按照数值从大至小的方式进行排序,并通过Hive系统按照Hdfs系统大至小的方式进行排序将服务器中原始数据与统计数据类似的歌曲数据向用户进行推送。
[0051] 其中,数据源为数据仓库的数据来源,含外部数据、现有业务系统和文档资料,数据存储和管理为对数据的存储和管理,含数据仓库、数据集市、数据仓库检测、运行与维护工具和元数据管理,数据服务为前端和应用提供数据服务,可直接从数据仓库中获取数据供前端应用使用,也可通过OLAP服务器为前端应用提供负责的数据服务,OLAP服务器为联机分析处理,能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的,数据应用为直接面向用户,含数据查询工具、自由报表工具、数据分析工具、数据挖掘工具和各类应用系统。
[0052] 其中,PCj和PHj为用户在类别j的当前批次的播放次数和历史播放次数,PC和PH为用户当前批次所有类别的播放次数和所有类别的历史播放次数;
[0053] 其中,VCj和VHj为用户在类别j的当前批次的曝光次数和历史曝光次数,VC和VH为用户当前批次所有类别的曝光次数和所有类别的曝光播放次数;
[0054] 其中,参数β控制收益部分和探索部分的比重,β越小,越倾向推荐曝光机会相对较少的音频产品,默认为0.4。
[0055] 在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0056] 以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈