基于大数据分析的用户行为分析平台及其工作方法专利检索-操作系统系统软件软件计算机系统电脑零配件专利检索查询-专利查询网

基于大数据分析的用户行为分析平台及其工作方法

阅读：0发布：2020-07-27

专利汇可以提供基于大数据分析的用户行为分析平台及其工作方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于大数据分析的用户行为分析平台，分为行为感知层、数据存储层和应用层。感知层的前端在网页上收集用户行为数据并发送至后端；后端对前端发来的数据进行解析后转化为表格数据写入数据存储层。数据存储层存放行为感知层原始数据和应用层数据分析程序中间数据。应用层包含用于数据分析的云计算主机和分析程序以及用于整合和呈现分析结果的呈现程序，主要实现视频异常检测、异常数据数据处理和故障预测。本发明还公开了此种用户行为分析平台的工作方法。本发明在应用层进行云计算，提高了用户行为分析的实时性和资源利用率；此外，应用层以独立程序和数据表为基础，极大地提高了用户行为分析系平台的维护效率和系统的可扩展性。，下面是基于大数据分析的用户行为分析平台及其工作方法专利的具体信息内容。

权利要求

1.一种基于大数据分析的用户行为分析平台，其特征在于：包括行为感知层、数据存储层和应用层，具体地：
行为感知层：行为感知层包括行为数据采集程序、行为数据接收程序和行为数据库三个部分；行为数据采集程序主要部署于用户终端上，实时捕获用户在网页上的行为，收集用户的访问数据，并将这些访问数据发送到位于服务器端的行为数据接收程序的网络接口中，由接收程序负责接收和整理；对于每个网站用户所传输的用户行为数据，服务器端的数据接收程序将负责将这些数据按照数据采集程序发送时附带的行为标记分类计入数据存储层中；
行为存储层：抽象的用户行为结构将被转化为数据库中的表结构，行为数据接收程序接收到的用户行为数据都以数据表的方式存储；
应用层是整个用户行为收集和分析平台的核心，分为用户行为分析和结果呈现两个部分，其中，
用户行为分析：包含数据处理程序，从数据存储部分读出原始数据，进行分析后再将结果写入到数据存储层；其中包含的数据处理程序可以以模块化的形式自由增减，每个数据处理程序在写入数据前都要根据分析结果的形式构造一个单独的数据表存储分析结果；每个数据分析程序的数据都只能来源于数据库中已有的数据表；
结果呈现：从数据存储部分读出数据，并将数据转化为便于显示的格式发到前端数据呈现页面进行显示。
2.根据权利要求1所述的基于大数据分析的用户行为分析平台，其特征在于：所述行为感知层中，行为感知层的技术实现主要基于对用户行为的抽象表示，并按照抽象用户行为的基本组成设计系统逻辑，并主要依托于JavaScript在网页浏览器中的点击监测功能进行行为监测、使用Ajax技术将用户行为信息发往服务器端，服务器端数据收集程序主要采用Java和Jetty部署。
3.根据权利要求1或2所述的基于大数据分析的用户行为分析平台，其特征在于：所述行为感知层中，抽象的用户行为描述为：用户行为＝(行为标签,附加信息)；其中，行为标签∈{注册,进入某个页面,点击页面元素,访问产品,注册完成}，附加信息＝{用户名,时间,用户所在页面,用户所用的设备,用户IP地址,用户SESSION,与行为标签有关的附加信息}。
4.根据权利要求1所述的基于大数据分析的用户行为分析平台，其特征在于：数据存储层使用MySQL作为存储行为数据的数据库，依照数据库设计的3NF法则，将行为感知层抽象的用户行为结构转化为数据表结构。
5.根据权利要求1所述的基于大数据分析的用户行为分析平台，其特征在于：结果呈现分为数据转化程序和数据呈现程序，具体地，
数据转化程序：位于服务器，负责读取数据并转化为便于显示的格式发送到数据呈现页面；
数据呈现程序：位于管理员终端页面，负责接收数据转化程序发来的转化数据并按一定规则进行显示；
二者都可以以模块化的形式自由增减，但管理员终端页面的数据呈现程序所呈现的数据必须来源于服务器中的至少一个数据转化程序。
6.一种如权利要求1所述的基于大数据分析的用户行为分析平台的工作方法，其特征在于：分别进行用户分析、流量分析、终端分析、页面关系分析和用户消费聚类分析；
用户分析主要包括网站用户总量统计、新增用户量统计、活跃用户量统计三个部分；用户总量统计直接使用数据库选择出不重复的用户名记录并统计用户名的总量，以此作为总用户量发往前端；新增用户量统计分为每年、每月、每日新增用户三种统计模式，三种模式分别选择在一定时间范围内的、行为标签为“注册完成”的事件数目作为新增用户量统计结果，每次统计完成后都将统计结果写入“新增用户”数据表中，每年、每月、每日的数据都分别对应一个独立数据表；活跃用户量统计先统计每个用户的每年、每月、每日的“访问”事件数目，写入数据表，再从这个数据表中统计访问数量大于给定阈值的用户数量，写入数据表中；
流量分析分为总流量分析、产品流量分析和页面流量分析，总流量分析直接计算数据库中所有的“访问”事件数目作为总流量数据发往前端，产品流量分析和页面流量分析都是选出所有的标记为“访问”的行为记录，并按照附加信息中的产品编号或页面地址对每个产品或页面的每年、每月、每日的访问次数进行计算，并将其写入数据表中；终端分析对用户终端的所在地、机型、操作系统和浏览器型号进行分析，终端分析的分析程序会对用户行为数据表中的上述字段值进行解析，并将解析结果按用户保存到数据表中；
页面关系分析获取用户的访问足迹，而后关联性分析获取网站中所有页面相互之间的访问关系；页面关系分析程序按先后次序记录访问顺序，记录多个数组，对数组进行关联性分析；数据的记录带有自动过滤筛选功能，自动过滤无效数据；保留的页面关系数据存入表
7所示的数据表中；
用户消费聚类分析程序在Spark大数据分析框架下实现；使用Spark对用户消费行为进行聚类的流程分为用户行为特征打包和Kmeans聚类两个过程；用户行为特征打包使用Spark的MapReduce机制；首先对用户行为数据进行Map操作，通过SESSION和页面时间计算出每个用户在各页面上的停留时间，同时通过行为数据表中的“购买完成”事件统计用户在每个页面上实际完成购买的次数，产生的key-value map为用户名-{页面:{总停留时间,总购买次数,总访问次数,总成交金额},…}；而后对Map操作中的key-value map进行Reduce操作，对每个用户的每个页面的停留时间和购买完成概率分别进行平均和相加合并最后得到一系列用户名-{页面:{总停留时间,总购买次数,总访问次数,总成交金额},…}数据，再以此计算平均停留时间和购买完成概率，写入到数据表中；Kmeans聚类过程以数据表中的每个用户在各页面的停留时间和购买完成概率作为特征向量，通过K-means均值聚类将用户分类，分类标准通过改变模型训练的簇的个数变化来得到最优解，聚类结果以整数标记表示，不同的整数标记表示不同的消费水平，将其计入数据表中。
7.根据权利要求6所述的基于大数据分析的用户行为分析平台的工作方法，其特征在于：所述页面关系分析中，数据的记录带有自动过滤筛选功能，自动过滤无效数据，具体地：
首先从数组中找出所有的顺序页面访问过程出现的频率，选出频率大于一定值的页面访问关系作为频集；然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度；再使用频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项；规则生成后，只有大于用户给定的最小可信度的规则才被留下来。

说明书全文

基于大数据分析的用户行为分析平台及其工作方法

技术领域

[0001] 本发明涉及销售网站用户行为分析领域，尤其涉及一种基于大数据分析的用户行为分析平台及其工作方法。

背景技术

[0002] 随着互联网时代多元化商业模式和细分市场的快速发展，众多行业面临着高昂获客成本和高流失率的双重挑战，精准定位获客渠道、精细化运营、挖掘用户价值、减少用户流失越来越成为网站互联网应用运营人员面临的主要问题。如何通过数据洞察实现业务增长、有效了解用户是这类问题最重要的解决方法。用户行为分析是通过对用户行为数据进行统计、分析，从中发现用户使用产品的规律，并将这些规律与网络的营销策略、产品功能、运营策略相结合，发现营销、产品和运营中可能存在的问题，解决这些问题就能优化用户体验、实现更精细和精准的运营与营销，让产品获得更好的增长。

[0003] 目前，用户行为分析平台已经有比较成熟的发展，一些商用行为分析系统的功能也越来越丰富，但随之而来的一个新型技术问题是数据安全和需求定制。在同类型的网络埋点产品中，埋点数据都掌握在第三方平台中，这使得埋点数据不具有很强的安全性。大量的数据外泄对企业的发展和用户的信息造成不良影响。

[0004] 目前，现有数据服务器在系统计算规模增大时存在计算能力以及上传数据的时延和带宽不足，造成数据分析效率低效甚至内存不足等问题，云计算是是分布式计算的一种，指的是通过网络将巨大的数据计算处理程序分解成无数个小程序，然后，通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。云计算将大规模的数据分析计算任务分解为一个个小的子任务，在多个并行的主机上运行，从而获得以倍记的效率提升。云计算可以实现对数据分析过程中的分布式处理，为数据分析平台带来低时延和高效资源利用性等优点，满足数据处理的实时性和完整性需求，极大的提高实时性和资源利用率。

发明内容

[0005] 发明目的：本发明的目的在于解决现有的用户行为分析平台埋点数据不具有很强的安全性，易造成企业数据外泄，同时，系统计算规模增大时存在计算能力以及上传数据的时延和带宽不足，造成数据分析效率低效甚至内存不足等的问题。

[0006] 技术方案：为了实现上述目的，本发明采用以下技术方案：

[0007] 一种基于大数据分析的用户行为分析平台，包括行为感知层、数据存储层和应用层，具体地：

[0008] 行为感知层：行为感知层包括行为数据采集程序、行为数据接收程序和行为数据库三个部分；行为数据采集程序主要部署于用户终端上，实时捕获用户在网页上的行为，收集用户的访问数据，并将这些访问数据发送到位于服务器端的行为数据接收程序的网络接口中，由接收程序负责接收和整理；对于每个网站用户所传输的用户行为数据，服务器端的数据接收程序将负责将这些数据按照数据采集程序发送时附带的行为标记分类计入数据存储层中；

[0009] 行为存储层：抽象的用户行为结构将被转化为数据库中的表结构，行为数据接收程序接收到的用户行为数据都以数据表的方式存储；

[0010] 应用层是整个用户行为收集和分析平台的核心，分为用户行为分析和结果呈现两个部分，其中，

[0011] 用户行为分析：包含数据处理程序，从数据存储部分读出原始数据，进行分析后再将结果写入到数据存储层；其中包含的数据处理程序可以以模块化的形式自由增减，每个数据处理程序在写入数据前都要根据分析结果的形式构造一个单独的数据表存储分析结果；每个数据分析程序的数据都只能来源于数据库中已有的数据表；

[0012] 结果呈现：从数据存储部分读出数据，并将数据转化为便于显示的格式发到前端数据呈现页面进行显示。

[0013] 进一步地，所述行为感知层中，行为感知层的技术实现主要基于对用户行为的抽象表示，并按照抽象用户行为的基本组成设计系统逻辑，并主要依托于JavaScript在网页浏览器中的点击监测功能进行行为监测、使用Ajax技术将用户行为信息发往服务器端，服务器端数据收集程序主要采用Java和Jetty部署。

[0014] 进一步地，所述行为感知层中，抽象的用户行为描述为：用户行为＝(行为标签,附加信息)；其中，行为标签∈{注册,进入某个页面,点击页面元素,访问产品,注册完成}，附加信息＝{用户名,时间,用户所在页面,用户所用的设备,用户IP地址,用户SESSION,与行为标签有关的附加信息}。

[0015] 进一步地，数据存储层使用MySQL作为存储行为数据的数据库，依照数据库设计的3NF法则，将行为感知层抽象的用户行为结构转化为数据表结构。

[0016] 进一步地，结果呈现分为数据转化程序和数据呈现程序，具体地，[0017] 数据转化程序：位于服务器，负责读取数据并转化为便于显示的格式发送到数据呈现页面；

[0018] 数据呈现程序：位于管理员终端页面，负责接收数据转化程序发来的转化数据并按一定规则进行显示；

[0019] 二者都可以以模块化的形式自由增减，但管理员终端页面的数据呈现程序所呈现的数据必须来源于服务器中的至少一个数据转化程序。

[0020] 一种基于大数据分析的用户行为分析平台的工作方法，分别进行用户分析、流量分析、终端分析、页面关系分析和用户消费聚类分析；

[0021] 用户分析主要包括网站用户总量统计、新增用户量统计、活跃用户量统计三个部分；用户总量统计直接使用数据库选择出不重复的用户名记录并统计用户名的总量，以此作为总用户量发往前端；新增用户量统计分为每年、每月、每日新增用户三种统计模式，三种模式分别选择在一定时间范围内的、行为标签为“注册完成”的事件数目作为新增用户量统计结果，每次统计完成后都将统计结果写入“新增用户”数据表中，每年、每月、每日的数据都分别对应一个独立数据表；活跃用户量统计先统计每个用户的每年、每月、每日的“访问”事件数目，写入数据表，再从这个数据表中统计访问数量大于给定阈值的用户数量，写入数据表中；

[0022] 流量分析分为总流量分析、产品流量分析和页面流量分析，总流量分析直接计算数据库中所有的“访问”事件数目作为总流量数据发往前端，产品流量分析和页面流量分析都是选出所有的标记为“访问”的行为记录，并按照附加信息中的产品编号或页面地址对每个产品或页面的每年、每月、每日的访问次数进行计算，并将其写入数据表中；终端分析对用户终端的所在地、机型、操作系统和浏览器型号进行分析，终端分析的分析程序会对用户行为数据表中的上述字段值进行解析，并将解析结果按用户保存到数据表中；

[0023] 页面关系分析获取用户的访问足迹，而后关联性分析获取网站中所有页面相互之间的访问关系；页面关系分析程序按先后次序记录访问顺序，记录多个数组，对数组进行关联性分析；数据的记录带有自动过滤筛选功能，自动过滤无效数据；保留的页面关系数据存入表7所示的数据表中；

[0024] 用户消费聚类分析程序在Spark大数据分析框架下实现；使用Spark对用户消费行为进行聚类的流程分为用户行为特征打包和Kmeans聚类两个过程；用户行为特征打包使用Spark的MapReduce机制；首先对用户行为数据进行Map操作，通过SESSION和页面时间计算出每个用户在各页面上的停留时间，同时通过行为数据表中的“购买完成”事件统计用户在每个页面上实际完成购买的次数，产生的key-value map为用户名-{页面:{总停留时间,总购买次数,总访问次数,总成交金额},…}；而后对Map操作中的key-value map进行Reduce操作，对每个用户的每个页面的停留时间和购买完成概率分别进行平均和相加合并最后得到一系列用户名-{页面:{总停留时间,总购买次数,总访问次数,总成交金额},…}数据，再以此计算平均停留时间和购买完成概率，写入到数据表中；Kmeans聚类过程以数据表中的每个用户在各页面的停留时间和购买完成概率作为特征向量，通过K-means均值聚类将用户分类，分类标准通过改变模型训练的簇的个数变化来得到最优解，聚类结果以整数标记表示，不同的整数标记表示不同的消费水平，将其计入数据表中。

[0025] 进一步地，所述页面关系分析中，数据的记录带有自动过滤筛选功能，自动过滤无效数据，具体地：

[0026] 首先从数组中找出所有的顺序页面访问过程出现的频率，选出频率大于一定值的页面访问关系作为频集；然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度；再使用频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项；规则生成后，只有大于用户给定的最小可信度的规则才被留下来。

[0027] 有益效果：本发明与现有技术相比：

[0028] 本发明基于云计算，实现了用户行为数据的分布式分析，提高了用户行为数据分析的实时性和资源利用率，并基于有向图思想，实现了数据分析程序的模块化和独立化，提高了用户行为数据分析平台的维护劳动力利用率，达到了自由定制，自由增减的目的。该系统在实际用户行为分析平台的行为分析框架的构建中有较强的实用性和拓展性。附图说明

[0029] 图1是基于大数据分析的用户行为分析平台概念图；

[0030] 图2是基于大数据分析的用户行为分析平台层次体系图；

[0031] 图3是行为感知层至数据存储层的实现方案图；

[0032] 图4是数据存储层至应用层的实现方案图；

[0033] 图5是基于大数据分析的用户行为分析平台功能图。

具体实施方式

[0034] 下面结合附图和具体实施案例对本发明进行进一步地阐述。

[0035] 基于大数据分析网站用户行为收集和分析平台包括三个层次，即行为感知层、数据存储层和应用层。

[0036] 行为感知层主要包括行为数据采集程序、行为数据接收程序和行为数据库三个部分。行为数据采集程序主要部署于用户终端上，实时捕获用户在网页上的行为，收集用户的访问数据，并将这些访问数据发送到位于服务器端的行为数据接收程序的网络接口中，由接收程序负责接收和整理。对于每个网站用户所传输的用户行为数据，服务器端的数据接收程序将负责将这些数据按照数据采集程序发送时附带的行为标记分类计入数据存储层中。

[0037] 行为感知层的技术实现主要基于对用户行为的抽象表示，并按照抽象用户行为的基本组成设计系统逻辑，并主要依托于JavaScript在网页浏览器中的点击监测功能进行行为监测、使用Ajax技术将用户行为信息发往服务器端，服务器端数据收集程序主要采用Java和Jetty部署。抽象的用户行为描述为：用户行为＝(行为标签,附加信息)。其中，行为标签∈{注册,进入某个页面,点击页面元素,访问产品,注册完成}，附加信息＝{用户名,时间,用户所在页面,用户所用的设备,用户IP地址,用户SESSION,与行为标签有关的附加信息}。上述抽象方式将每一个用户行为用一个行为标签和一系列附加信息表示，在保证信息的完整性的同时又兼有简单的信息结构。依据这种抽象的用户行为表示格式，行为数据收集程序捕获到的用户行为后，依照当前信息，构造出一条条JSON格式的用户原始行为数据发往服务器端，由行为数据接收程序解析原始行为数据并按照数据存储层的存储规则写入数据库。

[0038] 在行为存储层中，抽象的用户行为结构将被转化为数据库中的表结构，行为数据接收程序接收到的用户行为数据都以数据表的方式存储。数据存储层使用MySQL作为存储行为数据的数据库，SQL作为面向MySQL数据库的设计语言。依照数据库设计的3NF法则，可以将行为感知层抽象的用户行为结构转化为如下所示的数据表结构。

[0039] 表1用户行为数据表

[0040]

[0041] 应用层是整个用户行为收集和分析平台的核心，分为用户行为分析和结果呈现两个部分。

[0042] 用户行为分析部分主要负责从数据存储部分读出原始数据，进行分析后再将结果写入到数据存储层。其中包含的数据处理程序可以模块化的形式自由增减，每个数据处理程序在写入数据前都要根据分析结果的形式构造一个单独的数据表存储分析结果；每个数据分析程序的数据都只能来源于数据库中已有的数据表。因此，数据处理程序之间的依赖关系可以构成一张单起点多终点的有向无环图，其起点为原始数据表，顶点为数据分析程序，边为数据分析程序生成的结果。例如，一个典型的含有表依赖关系的数据分析程序结构图如下所示。其中每个数据分析部分中的数据分析程序按照有向无环图所指定的顺序执行并生成结果数据表。

[0043] 结果呈现部分负责从数据存储部分读出数据，并将数据转化为便于显示的格式发到前端数据呈现页面进行显示。数据呈现部分又可分为两个部分，其中数据转化程序位于服务器，负责读取数据并转化为便于显示的格式发送到数据呈现页面；数据呈现程序位于管理员终端页面，负责接收数据转化程序发来的转化数据并按一定规则进行显示。二者都可以以模块化的形式自由增减，但管理员终端页面的数据呈现程序所呈现的数据必须来源于服务器中的至少一个数据转化程序。

[0044] 应用层的技术实现方式并不局限于某一两种应用程序框架，只要是能读取数据库内容并将结果写回数据库的程序框架均可作为用户行为分析层的程序基础，而只要是能读取数据库并生成统计信息进行展示的程序均可作为分析结果呈现程序。在本系统中，应用层使用Python和Hadoop实现了用户分析、流量分析、终端分析、页面关系分析、用户消费聚类五个功能。不同的用户行为分析程序经由写入数据库的中间数据表相互沟通，而分析结果呈现程序则读取分析程序生成的这一个个数据表而向用户呈现分析结果。结果呈现程序由多个互相耦合的前端数据表和后端数据库数据读取整合程序组成。其中后端数据库数据读取整合程序由Java编写，负责读取指定数据表并将数据打包为JSON格式发往前端，前端主要是多个HTML页面和使用JavaScript和Echarts编写的数据表。JavaScript接收到后端发来的JSON数据后将之解析并传递到Echarts数据表中进行显示。在本平台的框架下，网站管理人员可以根据需求自行增减行为数据分析程序和分析结果呈现程序，从而实现定制化的行为分析功能。

[0045] 用户分析主要包括网站用户总量统计、新增用户量统计、活跃用户量统计三个部分。用户总量统计没有结果表，而是直接使用MySQL数据库查询语句的“DISTINCT”字句选择出不重复的用户名记录并使用“COUNT”字句统计用户名的总量，以此作为总用户量发往前端。新增用户量统计分为每年、每月、每日新增用户三种统计模式，三种模式分别使用“WHERE”字句选择在一定时间范围内的(过去一天、一个月或是一年)、行为标签为“注册完成”的事件数目作为新增用户量统计结果，每次统计完成后都将统计结果写入“新增用户”数据表中，其表结构如表2所示，每年、每月、每日的数据都分别对应一个如表2所示的独立数据表。活跃用户量统计先使用“COUNT”和“GROUP BY”子句统计每个用户的每年、每月、每日的“访问”事件数目，写入如表3所示的数据表，再使用“ORDER BY”子句从这个数据表中统计访问数量大于给定阈值的用户数量，写入如表2所示的数据表中。新增用户量统计和活跃用户量统计结果呈现程序从数据库中读出这些数据表并按时间排序为JSON数组发往前端。用户分析的前端界面中，左边为按照数据绘制的总用户量变化情况折线图，右边为新增用户和活跃用户占总用户比例的饼图，两图使用Echarts的触发功能进行动态刷新联动，当鼠标选中总用户量变化情况折线中的某个数据点时，右边实时刷新该数据点下的新增用户和活跃用户占比。

[0046] 表2用户分析和流量分析结果数据表结构

[0047] 数据项数据类型是否主键是否为空备注时间 Date 是否
数量 Int 否否

[0048] 表3活跃用户量的中间数据表结构

[0049] 数据项数据类型是否主键是否为空备注时间 Date 是否联合主键
数量 Int 否否
用户 Varchar(255) 是否联合主键

[0050] 流量分析分为总流量分析、产品流量分析和页面流量分析。总流量分析没有结果表，直接使用“COUNT”子句计算数据库中所有的“访问”事件数目作为总流量数据发往前端。产品流量分析和页面流量分析类似，都是使用“WHERE”子句选出所有的标记为“访问”的行为记录，并“COUNT”和“GROUP BY”子句按照附加信息中的产品编号或页面地址对每个产品或页面的每年、每月、每日的访问次数进行计算，并将其写入如表4或表5所示的数据表中。
统计结果呈现程序按指定时间段使用“ORDER BY”从这些数据表中读取产品或页面，并按照访问量排序后构造为JSON数组发往前端。在前端界面中，左边为按照数据绘制的各时段的总访问量折线图，右边为产品和页面访问量排行榜柱形图和占比饼图，五个图表使用Echarts的触发功能进行动态刷新联动，当鼠标选中折线图中的某个数据点时，访问量排行榜柱形图和占比饼图将实时更新当前数据点下的产品和页面访问量数据。

[0051] 表4产品流量分析结果数据表结构

[0052]数据项数据类型是否主键是否为空备注
时间 Date 是否联合主键
数量 Int 否否
产品 Varchar(255) 是否联合主键

[0053] 表5页面流量分析结果数据表结构

[0054]数据项数据类型是否主键是否为空备注
时间 Date 是否联合主键
数量 Int 否否
页面 Varchar(255) 是否联合主键

[0055] 终端分析主要是对用户终端的所在地、机型、操作系统和浏览器型号进行分析，主要的依赖于用户行为数据表(表1)中的“用户IP地址”和“用户所用设备”字段中的数据。终端分析的分析程序会对用户行为数据表中的上述字段值进行解析，并将解析结果按用户保存到表6所示的数据表中。统计结果呈现程序按地区使用“COUNT”和“GROUP BY”子句从这该数据表中读取数据并统计各地区、机型、操作系统和浏览器型号的使用人数，并省市区标记后构造为JSON数组发往前端。在前端界面中，联动图表为左边的用户省市地区用户数量分布热力图和右边的机型、操作系统和浏览器型号占比饼图，当鼠标选中左图中的某个地区时，右边的三个饼图将实时更新该地区的机型、操作系统和浏览器型号占比数据。

[0056] 表6终端分析结果数据表结构

[0057] 数据项数据类型是否主键是否为空备注编号 Bigint 是否
省 Varchar(255) 否否
市 Varchar(255) 否否
操作系统 Varchar(255) 否否
浏览机型 Varchar(255) 否否
浏览器 Varchar(255) 否否

[0058] 页面关系分析系统中按照用户SESSION获取用户的访问足迹，而后使用apriori关联性分析获取网站中所有页面相互之间的访问关系，从而使得网站管理人员能定位网站中有用户吸引力的链接，以此优化网站结构。页面关系分析程序按先后次序记录每个SESSION的访问顺序，记录多个数组，对数组使用apriori 算法进行关联性分析。数据的记录带有自动过滤筛选功能，自动过滤无效数据。首先从数组中找出所有的顺序页面访问过程出现的频率，选出频率大于一定值的页面访问关系作为频集。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。再使用频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项、。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。保留的页面关系数据存入表7所示的数据表中。统计结果呈现程序读取表中的所有页面关系数据后将其直接打包为JSON数组发送到前端。
前端界面为一个有向图，以页面为节点，页面关系为边，其构造方式为：依次读取后端发来的JSON数组，若数组中的页面未包括于图中，则增加节点和边；若数组中的页面全部都已包含于图中，则新增一条边。

[0059] 表7页面关系分析结果数据表结构

[0060]数据项数据类型是否主键是否为空备注
前页面 Text 是否联合主键
后页面 Text 是否联合主键

[0061] 用户消费聚类的分析程序在Spark大数据分析框架下实现。Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，不同于MapReduce的是——Spark中间输出结果可以保存在内存中，从而不再需要读写硬盘，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。使用Spark对用户消费行为进行聚类的流程分为用户行为特征打包和Kmeans聚类两个过程。用户行为特征打包使用Spark的MapReduce机制。首先对用户行为数据进行Map操作，通过SESSION和页面时间计算出每个用户在各页面上的停留时间，同时通过行为数据表中的“购买完成”事件统计用户在每个页面上实际完成购买的次数，产生的key-value map为用户名-{页面:{总停留时间,总购买次数,总访问次数,总成交金额},…}；而后对Map操作中的key-value map进行Reduce操作，对每个用户的每个页面的停留时间和购买完成概率分别进行平均和相加合并最后得到一系列用户名-{页面:{总停留时间,总购买次数,总访问次数,总成交金额},…}数据，再以此计算平均停留时间和购买完成概率，写入到表8所示的数据表中。Kmeans聚类过程以数据表中的每个用户在各页面的停留时间和购买完成概率作为特征向量，通过K-means均值聚类将用户分类，分类标准通过改变模型训练的簇的个数变化来得到最优解，聚类结果以一系列整数标记表示，不同的整数标记表示不同的消费水平，将其计入表9所示的数据表中。最后，统计结果呈现程序将使用“COUNT”和“GROUP BY”子句将统计表中的各消费层级的用户数量以饼状图显示于前端。

[0062] 表8用户消费聚类分析中间结果数据表结构

[0063]数据项数据类型是否主键是否为空备注
用户 Varchar(255) 是否联合主键
页面 Varchar(255) 是否联合主键
平均停留时间 Double 否否
购买完成概率 Double 否否
平均成交金额 Double 否否

[0064] 表9用户消费聚类分析结果数据表结构

[0065] 数据项数据类型是否主键是否为空备注用户 Varchar(255) 是否
聚类标记 Int 否否

标题	发布/更新时间	阅读量
指纹设备操作方法及装置、存储介质、云服务器、指纹操作系统	2020-05-08	192
一种系统推荐方法、终端及可读存储介质	2020-05-08	6
一种水雨情自动测报系统	2020-05-08	79
图像形成控制方法、系统、终端及图像形成装置	2020-05-08	444
水下操作系统	2020-05-08	705
内存操作系统制作方法、装置、电子设备和存储介质	2020-05-08	580
安全摆渡系统及方法	2020-05-11	257
在可编程逻辑控制器(PLC)中自主添加和删除功能的装置和方法	2020-05-08	786
一种信息处理方法及装置、设备、存储介质	2020-05-08	529
一种多触摸屏和显示设备的匹配方法及系统	2020-05-08	891

基于大数据分析的用户行为分析平台及其工作方法

基于大数据分析的用户行为分析平台及其工作方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：