首页 / 专利库 / 资料储存系统 / 大数据 / 一种校园用户画像的实现方法

一种校园用户画像的实现方法

阅读:499发布:2023-03-24

专利汇可以提供一种校园用户画像的实现方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种学生用户画像的生成方法,应用于校园与互联网交叉领域,除了采集学生用户的姓名、照片、年龄、家庭、学历、技能等传统数据信息及校园数据信息,还采集学生的互联网数据信息,例如互联网接入时间、IP、登录时长、浏览内容等。在此 基础 上,运用 大数据 手段进一步分析学生特别是网络上的言行及变化,形成学生的个人画像和群体画像,多纬度呈现学生的学习状态、经济状态、生活状态等。,下面是一种校园用户画像的实现方法专利的具体信息内容。

1.一种实现校园用户画像的方法,其特征在于,包括:
数据分析阶段,抽取学工、教务、财务、消费、科研数据以及互联网数据,进行数据分析和挖掘,发掘用户的偏特点;
解读阶段,通过各类学校管理人员对问题学生的业务解读以及研究,深入研究管理人员关心的事项,为学生群体打上标签,标签是人为规定的高度精炼的特征标识;
建模阶段,结合学校管理人员实际的需求,找出相关的数据实体,以数据实体为中心规约数据维度类型和关联关系,形成符合客户实际情况的建模体系;
维度分析阶段,以学生在学校生活学习产生的多维度数据实体为中心,进行数据维度分解和列举;
应用阶段,针对不同色人员的需求,设计各角色人员在用户画像工具中的使用功能和操作流程。
2.根据权利要求1所述的方法,其特征在于,所述互联网数据包括网络访问时长,访问频率,访问时间,访问网站以及其内容。
3.根据权利要求2所述的方法,其特征在于,所述数据分析阶段包括生成数据源,数据建模,数据集市以及可视化分析四个阶段。
4.根据权利要求1所述的方法,其特征在于,所述多维度数据实体包括个人阅读、个人消费、个人成绩、个人就餐、及网络日志。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述应用阶段包括通过推荐系统推荐各类问题学生给相关的管理人员,推荐系统的业务架构如下:第一层是推荐业务活动层,把推荐结果展示给用户;第二层是推荐算法层,包括用户画像推荐和情景推荐;第三层是索引层,对学生数据、学生各类历史记录建立索引,提高查询速度;第四层是数据层,存储学生、学生行为数据及推荐基础数据。

说明书全文

一种校园用户画像的实现方法

[0001] 所属领域归属于校园与互联网技术的交叉领域,既利用传统学生的基本信息作为主要画像基础,又利用学生在互联网的行为进行画像的进一步补充,并通过数据分析、推荐算法、数据可视化,把学生的画像呈现出来。

背景技术

[0002] 如图1所示,目前业界内的用户画像分析一般是基于用户的基础信息进行打标签,例如利用用户的姓名、照片、年龄、家庭状况、收入、工作、学历、住址、婚姻状态、技能、爱好等信息,通过采集这些信息,然后进行用户特征分析,匹配符合用户的标签,最后通过可视化的方法呈现。
[0003] 但是,这种传统的做法存在诸多问题:第一,如何获取用户基础信息。第二,如何保证用户信息的真实性。来自不同渠道的信息不一致,信息的混乱诸多问题会影响到分析结果。第三,如何实时更新用户的信息。随着时间的推移,用户的信息会出现变化,那么如何实时更新用户的信息也是关键问题。由于上述的问题很难保证数据的准确性,会造成在标签匹配上出现偏差。
[0004] 业界面临的问题,同时也是校园面临的问题,在校园这个传统的行业,如何正确的识别学生的个人画像是一个难点,现在大多数的学校还是采取利用传统的方式收集学生的个人信息,然后通过收集的信息进行简单的人为判断,由于每个教师或者辅导员判断的标准不一致,导致判断的结果出现差异。
[0005] 见此,我司针对用户画像的模型,研究一种既能满足校园对学生画像的需求,又能解决校园面临的种种问题。发明内容
[0006] 在我司现在对校园数据服务的基础上,通过互联网的解决方案,快速、有效集成大量学生行为数据,进而在大数据服务之上,建立针对学生用户画像的模型,达到在保证数据质量的基础上,匹配符合学生的标签,最后通过图形化展现。
[0007] 本发明提供一种实现校园用户画像的方法,包括:数据分析阶段,抽取学工、教务、财务、消费、科研数据以及互联网数据,进行数据分析和挖掘,发掘用户的偏特点;
解读阶段,通过各类学校管理人员对问题学生的业务解读以及研究,深入研究管理人员关心的事项,为学生群体打上标签,标签是人为规定的高度精炼的特征标识;
建模阶段,结合学校管理人员实际的需求,找出相关的数据实体,以数据实体为中心规约数据维度类型和关联关系,形成符合客户实际情况的建模体系;
维度分析阶段,以学生在学校生活学习产生的多维度数据实体为中心,进行数据维度分解和列举;
应用阶段,针对不同色人员的需求,设计各角色人员在用户画像工具中的使用功能和操作流程。
[0008] 进一步地,所述互联网数据包括网络访问时长,访问频率,访问时间,访问网站以及其内容。
[0009] 进一步地,所述数据分析阶段包括生成数据源,数据建模,数据集市以及可视化分析四个阶段。
[0010] 进一步地,所述多维度数据实体包括个人阅读、个人消费、个人成绩、个人就餐、及网络日志。
[0011] 进一步地,所述应用阶段包括通过推荐系统推荐各类问题学生给相关的管理人员,推荐系统的业务架构如下:第一层是推荐业务活动层,把推荐结果展示给用户;第二层是推荐算法层,包括用户画像推荐和情景推荐;第三层是索引层,对学生数据、学生各类历史记录建立索引,提高查询速度;第四层是数据层,存储学生、学生行为数据及推荐基础数据。附图说明
[0012] 图1是现阶段用户画像示意图。
[0013] 图2是大数据分析系统架构图。
[0014] 图3是个人阅读画像示意图。
[0015] 图4(a)-4(b)是个人消费画像示意图。
[0016] 图5(a)-5(b)是个人成绩画像示意图。
[0017] 图6是网络日志画像示意图。
[0018] 图7是根据画像判断异常行为的示意图。

具体实施方式

[0019] 通过建设大数据分析系统,整合业务系统的数据,构建一个以学生作为维度的分析主题。在此基础上,运用大数据手段进一步分析大学生特别是其在网络上的言行及变化,形成学生个人画像和群体画像,多维度呈现学生的健康状态、学习状态、经济状态、生活状态、思想状态、安全状态,为学生教育管理服务质量提升以及人才培养决策提供更加坚实的数据支撑。建设的目标主要包括以下两个方面:第一.提升数据质量,为之后的学生个人及群体画像提供可靠的数据源,同时,为学校提供一份具有分析价值的数据资产,方便今后进行数据分析以及数据挖掘
[0020] 第二. 描绘学生个人及群体画像,通过个人画像对学生个体的在校行为进行全方位、多维度的刻画,通过群体画像反映特定学生群体的特点,支持多条件组合筛选群体;数据分析步骤:该步骤可以通过建设大数据分析系统实现。具体的技术架构如图2所示。
[0021] 大数据分析系统主要分两个部分:一部分是传统数据的获取。抽取业务数据源数据(包括学工、教务、财务、消费和科研等数据),通过加工、清洗方式同步到中心数据库,最后通过对数据进行不同维度上的划分,形成一个统一的、集成的、高质量的数据仓库,这部分的技术架构比较简单,采用关系型数据库存储即可。另外一部分数据源是来自互联网的数据,包括网络访问时长,访问频率,访问时间,访问网站以及其内容等数据,全面了解学生的网络行为,这部分的技术架构主要是采用主流的Hadoop开发框架,利用ETL,Flume日志采集,Python爬虫等多种方式,收集存储数据,利用Hadoop中的MapReduce进行任务分发,用ZooKeeper进行资源调控,结合Hive/Pig的离线计算以及 Spark的在线计算合理高效的处理多来源,多维度,大量的实时数据并对数据进行挖掘,合理有效的解决了学校的需求学生画像。
[0022] 从数据源到最终展现分成如下几层:1.数据源:包括来自各个业务系统和媒介的分析数据源,其载体包括数据库、文件、大数据平台等。
[0023] 数据建模:根据用户画像建模体系,配置数据模型。
[0024] 数据集市:每个数据集市是基于一个主题做好轻量建模的细节数据,数据按照列存储的方式,被高效压缩,打好标签,存储在磁盘中。当需要计算时,采用内存计算来进行数据计算,并且每台机器节点会同时计算,最终会将结果送往可视化分析层做展现。
[0025] 可视化分析:采用各类可视化方法为用户展示最终结果,用户还可通过移动终端来访问系统。可视化分析系统提供系统监控,权限多级管理,多维数据分析,等等功能,还支持自服务式报表设计和数据分析。
[0026] 通过对用户行为数据进行分析和挖掘,发掘用户的偏特点,逐步勾勒出用户的画像。用户画像通常通过业务经验和建立模型相结合的方法来实现,在本方案中用户画像更偏重于业务经验的判断。利用学生在校的各类多维数据分析结合学校管理人员的业务经验勾画出学生的用户画像,此类画像由于跟业务紧密相关,更多的是通过业务人员提供的经验来描述用户偏好。
[0027] 用户画像的焦点工作就是为用户打“标签”,而一个标签通常是人为规定的高度精炼的特征标识,如年龄、性别、消费情况、用户偏好等,最后将用户的所有标签综合来看,就可以勾勒出该用户的立体“画像”了。具体来讲,当为用户画像时,需要以下四个阶段:1.解读:该方案通过各类学校管理人员对问题学生的业务解读以及相关案例的研究,构建学生个体的用户画像,深入研究管理人员关心的事项,有效的为学生群体打上标签。
[0028] 建模:对用户画像进行数据建模,结合学校管理人员实际的需求,找出相关的数据实体,以数据实体为中心规约数据维度类型和关联关系,形成符合客户实际情况的建模体系。
[0029] 维度分解:以学生在学校生活学习产生的多维度数据实体为中心,进行数据维度分解和列举。根据相关性原则,选取和最终目的相关的数据维度,避免产生过多无用数据干扰分析过程。
[0030] 应用:针对不同角色人员的需求(如辅导员,学院主任,学工处老师等),设计各角色人员在用户画像工具中的使用功能和应用/操作流程。
[0031] 通过用户画像的构造,我们能够更加合理科学的认识各个学生,对于一些问题也能够有更加强的针对性。
[0032] 通过建立模型对用户的数据建标签,实现用户画像,再根据推荐算法实现对学生的精准管理(我们将以用户画像为基础构建推荐系统(推荐各类问题学生给相关的管理人员)),模型要考虑精度和稳定度,进行充分的修改、完善。推荐系统的业务架构如下:第一层是推荐业务活动层,把推荐结果展示给用户。
[0033] 第二层是推荐算法层,包括用户画像推荐、情景推荐等。
[0034] 第三层是索引层,对学生数据、学生各类历史记录建立索引,提高查询速度。
[0035] 第四层是数据层,存储学生、学生行为数据及推荐基础数据如推荐模型。
[0036] 根据用户和相对应的业务场景使用storm进行实时计算,给出推荐结果;对大量样本数据使用Spark进行离线机器学习计算,产生模型,用于用户画像权重确定和实时计算。大规模批处理使用Hadoop的mapReduce计算。对学生的搜索也可以使用用户画像和商品画像进行结果展示。学生的行为数据在变化,学生的推荐信息也在变化,用户画像需要定时进行修改,比如半个月或一个月。在Hbase学生标签建有表保存数据,并根据这些数据用机器学习训练算法模型,模型结果保存在Hbase,在具体推荐的时候取近一个月的数据带入模型进行计算,多种推荐结果根据规则计算后的到最佳的推荐结果,再用展示引擎显示给用户。
计算的中间结果保存在hbase中。
[0037] 在这里我们会采取多类机器学习方法来构建各类模型,同时我们会根据各类机器学习的优缺点进行模型的筛选,如果为了防止过拟合,可以添加正则化项;如果方便特征的筛选,可以使用逐步逻辑回归;逻辑回归在大数据量下精度会下降,可以通过添加大量的特征(比如哑变量的方式)来提高精度;利用GBRT这种boosting方法代替随机森林,每棵树学习的是上一棵树的残差,有效地提升模型。
[0038] 最后我们将利用爬取的网络数据结合文本挖掘更加精准的服务各类预警模型。文本分析是利用自然语言处理(NLP)技术分析文本文档、社交媒体、网页等文本数据的一种应用。随着电子商务、数字营销和大数据技术的高速发展,数据驱动的文件管理、用户体验管理已经成为企业核心竞争,而文本分析则是用户体验管理的关键应用。而对传统文本文档这些相对增量不大、总量稳定的文本数据进行分析,则突显其知识、情报、价值挖掘,尤其是对海量文本的简化、标记化、知识化,则是构建专家系统人工智能、知识图谱的基础。因此在本案中采用各类文本挖掘方法可以增强模型的准确性,同时能够给出问题学生更加具体的可能问题,为学校管理人员提供了更加丰富完整的学生问题。
[0039] 如图3所示,个人阅读画像主要是反映学生在校阅读情况,可通过对学生读书类型,读书总量、待还书籍等,得出学生在校期间阅读情况报告。
[0040] 如图4(a)和4(b)所示,个人消费画像主要是反映学生在校的消费情况,通过对学生的一卡通消费记录,及日常生活的消费平,综合评估得出学生的在校消费情况的报告。
[0041] 如图5(a)和5(b)所示,个人成绩画像是反映学生的成绩情况,可通过对学生学年绩点、班级排名、专业排名等多维度分析,得出学生个人成绩画像。
[0042] 个人就餐画像是反映学生就餐情况,根据学生一卡通的消费记录,了解学生的就餐时间、地点,反映学生日常就餐习惯等。
[0043] 如图6所示,网络日志画像,包括但不限于学生接入互联网的时间,ip,以及浏览的相关内容,登录时长等。包括但不限于学生接入互联网的时间,ip,以及浏览的相关内容,登录时长等。
[0044] 我司通过对校园的学生画像模型研究,解决了校园由于数据质量问题导致用户画像不准确的问题,通过此解决方案,我们可以帮助更多的校园实现学生画像研究分析,进一步发现学生的行为是否出现异常的情况,如图7所示。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈