一种面向宽带接入网用户上网行为大数据的建模方法专利检索-半监督学习机器学习人工智能专利检索查询-专利查询网

一种面向宽带接入网用户上网行为大数据的建模方法

阅读：1007发布：2020-06-01

专利汇可以提供一种面向宽带接入网用户上网行为大数据的建模方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种面向宽带接入网用户上网行为大数据的建模方法，该方法提供了网络流量的一种基于聚类算法和回归算法的半监督学习方法，该方法可以根据不同的输入数据动态地进行区域用户细分、区域流量预测以及给出区域服务器搭建方案，分别提供给营销部门、运营部门和基础建设部门，创新性地促进了电信各部门间的融合，方便企业实行针对用户群差异化的销售手段，并为网络发展提前提供资源分配的依据，通过优化服务器的搭建，有效提高网络质量，给用户带来更好的上网体验。，下面是一种面向宽带接入网用户上网行为大数据的建模方法专利的具体信息内容。

权利要求

1.一种面向宽带接入网用户上网行为大数据的建模方法，其特征在于，该方法包括以下步骤：
S1、获取宽带接入网用户的上网行为数据，并进行数据进行质量评估，筛选出高质量的数据；
S2、对筛选出来的高质量的数据进行预处理，利用无监督算法对筛选出来的高质量的数据进行用户区域划分和标记，结合用户的基本资料数据和位置数据，利用无监督学习中的关联性算法，寻找用户上网行为与各个数据领域间的关联关系；
S3、利用监督学习中的回归模型对带标记的用户群进行“时间-流量”的预测，得到各个用户群的流量走势情况，并通过统计计算，得到总的流量走势情况；
S4、通过统计计算得到各个带标记的用户群的分布情况和数量，从而得到不同用户群所在地对服务器的需求特性。
2.根据权利要求1所述的面向宽带接入网用户上网行为大数据的建模方法，其特征在于所述步骤S1中，根据宽带接入网用户上网行为数据的基本信息（如流量大小和数据类型等），绘制图表，并通过图表对数据进行分析，剔除不必要的数据，得到高质量的数据。
3.根据权利要求1所述的面向宽带接入网用户上网行为大数据的建模方法，其特征在于所述步骤S2中，将高质量的数据分成DataBill和FactorBill两个数据包，其中DataBill是以用户上网数据中的上网行为（如上网时间、浏览内容和搜索关键词等）作为特征向量，以用户上网行为数据的上网流量（上行流量和下行流量），利用无监督算法，分别在时间和空间上对其进行训练研究而形成的两组训练集；FactorBill由用户的基本资料数据和位置数据所组成。

说明书全文

一种面向宽带接入网用户上网行为大数据的建模方法

技术领域

[0001] 本发明涉及大数据挖掘分析、大数据建模领域，特别是一种面向宽带接入网用户上网行为大数据的建模方法。

背景技术

[0002] 随着互联网的发展，网络用户数量逐渐增多。电信领域中，存在数以亿计的宽带接入网用户，这些宽带接入网用户提供的数据种类丰富多样，包括用户的基本资料数据(如用户身份ID、用户归属地、出生日期、职业)，上网行为数据(如上网流量、上网时间、浏览内容、搜索关键词)，位置数据(地区气候、地区经济总量、地区宽带接入网用户数量)；宽带接入网用户对网络质量和网络业务的更高要求，使得网络运营商和服务提供商不断提高网络服务质量和增加新业务；另外，对宽带接入网用户数据进行及时有效的数据分析与挖掘，找到不同用户群体在空间上的分布情况，为优化服务器的搭建提供了指导。

[0003] 要提高用户满意度，为用户提供他们感兴趣的业务及信息，这就需要对网络用户的行为进行分析，发掘用户上网特点及上网兴趣等，从而深入了解用户需求，同时，这也为网络营销提供了一条重要的信息渠道；要提高网络质量，必须深入了解网络的运行情况和使用情况，保持对网络流量的监控，不断调整网络结构和带宽，解决网络问题，提高网络服务质量，有效处理大量网络流量数据；要优化服务器搭建，必须了解不同业务的收益、地区差异、业务需求变化、不同用户群体分布情况及其比例等信息，为满足区域不同用户群体对带宽、业务等方面的需求，得到不同用户群体所在地对服务器的分布比例特性，从而降低服务器基础建设成本。

[0004] 为了最大限度地利用客户资源，目前，已有多种用于电信宽带接入网用户行为分析与预测的方法。对于连续型的电信宽带接入网用户流量数据的预测，已经提出了多种监督学习方法。其中一些研究成果将网络流量看作线性模型，分别采用自回归滑动平均(ARMA)模型、差分自回归滑动平均(ARIMA)模型，以及差分自回归求和滑动平均(FARIMA)模型等线性模型进行预测。但是随着网络复杂度的增加，网络流量特性已经超出传统意义上认为的泊松分布或者马尔科夫分布了，因此利用线性模型进行预测存在理论上的不足，很难保证预测的精确性。而非线性模型的预测主要包括了人工神经网络、支持向量机、灰色模型等，虽然非线性模型的预测精度较线性模型有了一定程度的提高，但是预测精度依然不理想。神经网络存在易陷于局部最优值、网络结构难以确定的缺点；支持向量机虽然需要样本数小，但是其关键参数很难确定；而灰色模型只适合数据变化不是剧烈的情况；因此，有必要开发和设计一种新的建模方法，来优化服务器搭建，并提高网络质量和用户满意度。

发明内容

[0005] 为了克服现有技术的不足，本发明提供一种面向宽带接入网用户上网行为大数据的建模方法。

[0006] 本发明解决其技术问题所采用的技术方案是：一种面向宽带接入网用户上网行为大数据的建模方法，该方法包括以下步骤：
S1、获取宽带接入网用户的上网行为数据，并进行数据进行质量评估，筛选出高质量的数据。

[0007] S2、对筛选出来的高质量的数据进行预处理，利用无监督算法对筛选出来的高质量的数据进行用户区域划分和标记，结合用户的基本资料数据和位置数据，利用无监督学习中的关联性算法，寻找用户上网行为与各个数据领域间的关联关系。

[0008] S3、利用监督学习中的回归模型对带标记的用户群进行“时间-流量”的预测，得到各个用户群的流量走势情况，并通过统计计算，得到总的流量走势情况。

[0009] S4、通过统计计算得到各个带标记的用户群的分布情况和数量，从而得到不同用户群所在地对服务器的需求特性。

[0010] 进一步地，所述步骤S1中，根据宽带接入网用户上网行为数据的基本信息(如流量大小和数据类型等)，绘制图表，并通过图表对数据进行分析，剔除不必要的数据，得到高质量的数据。

[0011] 所述步骤S2中，将高质量的数据分成DataBill和FactorBill两个数据包，其中DataBill是以用户上网数据中的上网行为(如上网时间、浏览内容和搜索关键词等)作为特征向量，以用户上网行为数据的上网流量(上行流量和下行流量)，利用无监督算法，分别在时间和空间上对其进行训练研究而形成的两组训练集；FactorBill由用户的基本资料数据和位置数据所组成。

[0012] 本发明的有益效果是：本发明利用聚类算法动态地对用户上网数据进行区域用户细分和标记，并对细分的用户群进行区域流量预测，以及通过计算统计，给出区域服务器搭建方案，分别提供给营销部门、运营部门和基础建设部门，创新性地促进了电信各部门间的融合，通过优化服务器的搭建，有效提高网络质量，给用户带来更好的上网体验。附图说明

[0013] 下面结合附图和实施例对本发明进一步说明。

[0014] 图1是本发明的建模步骤图；图2是本发明的整体建模框图；
图3是图2中A处的结构图；
图4是图2中B处的结构图；
图5是图2中C处的结构图；
图6是本发明的数据质量评估的不同数据类型的比例图；
图7是本发明的数据质量评估的可分析数据中每种类型数据的比例图；
图8是本发明的数据质量评估的各类型数据的时间覆盖长度的柱状图；
图9是本发明的数据质量评估的总数据量的时间分布图；
图10是本发明的数据预处理的DataBill和FactorBill的结构图。

具体实施方式

[0015] 参照图1至图10，一种面向宽带接入网用户上网行为大数据的建模方法，该方法包括以下步骤：S1、获取宽带接入网用户的上网行为数据，并进行数据进行质量评估，筛选出高质量的数据。

[0016] S2、对筛选出来的高质量的数据进行预处理，利用无监督算法对筛选出来的高质量的数据进行用户区域划分和标记，结合用户的基本资料数据和位置数据，利用无监督学习中的关联性算法，寻找用户上网行为与各个数据领域间的关联关系。

[0017] S3、利用监督学习中的回归模型对带标记的用户群进行“时间-流量”的预测，得到各个用户群的流量走势情况，并通过统计计算，得到总的流量走势情况。

[0018] S4、通过统计计算得到各个带标记的用户群的分布情况和数量，从而得到不同用户群所在地对服务器的需求特性。

[0019] 进一步地，所述步骤S1中，根据宽带接入网用户上网行为数据的基本信息(如流量大小和数据类型等)，绘制图表，并通过图表对数据进行分析，剔除不必要的数据，得到高质量的数据。

[0020] 进一步地，所述步骤S2中，将高质量的数据分成DataBill和FactorBill两个数据包，其中DataBill是以用户上网数据中的上网行为(如上网时间、浏览内容和搜索关键词等)作为特征向量，以用户上网行为数据的上网流量(上行流量和下行流量)，利用无监督算法，分别在时间和空间上对其进行训练研究而形成的两组训练集；FactorBill由用户的基本资料数据和位置数据所组成，具体参照图10、表1、表2和表3，本实施例中，将DataBill在空间上训练研究得到的训练集记为B1(为1*7的元胞数组)，在时间上训练研究得到的训练集记为B2(为1*22的元胞数组)，用户的基本资料数据(记为UserFactor属性)包括用户身份ID、用户归属地、出生日期、职业和收入，用户的位置数据(记为NaturalFactor属性)包括星期、天气、温度、空气质量、地区、地区经济总量和地区用户数，将B1和B2与用户的基本资料数据和位置数据进行关联性分析，且对于星期、天气和地区这样的标称属性，采用差值法来取值，本实施例中，取值相同的距离为1，取值不同的取值为0。

[0021] 表1数据预处理的空间维度训练集B1和时间维度训练集B2表2数据预处理的UserFactor属性
属性名用户身份ID 用户归属地出生日期职业收入
属性类型标称标称数值标称数值
表3数据预处理的NaturalFactor属性
属性名星期天气温度空气质量地区地区经济总量地区用户数
属性类型标称标称数值数值标称数值数值
实施例

[0022] 本实施例中，选取四川地区宽带接入网用户行为大数据的统计信息，共有446.8MB大小，1606995条记录，分为6种不同类型，时间跨度从2015年1月23日到2017年4月10日；对不同类型的数据基本信息可以见表4，通过图6能够明显看出不同类型的数据占总数的比例。

[0023] 表4数据质量评估的六种类型数据的基本信息接下来对数据进行筛选剔除，参照表5可知，将用户数量、上网时长、浏览内容、搜索关键词、入口(上传)字节数、出口(下载)字节数、入口(上传)速率、出口(下载)速率、总速率、访问数等数据作为可分析数据，而将日期、用户归属地、出生日期、职业、取值(采样)时间区间、远程服务器IP、带宽类型作为分类数据；而不同数据类型中的可分析数据所占的比例是不同的，在表6中我们可以看到这种差异，对我们来说，能够让我们用来分析的数据才是我们真正关心的，而可分析数据的数量可以衡量一种数据类型是不是更加重要，或者说有更高的数据质量。我们通过图7这一饼状图来展示所有可分析数据中每种数据类型所占的比例，以此来比较哪种类型的数据更有分析的价值，并结合图6，可以发现全时段流量统计、
100M用户分析、在线用户分析、分带宽在线用户分析、峰值流量统计类型拥有数量可观的可分析数据，而积累用户数的数据量较少，甚至，可以认为积累用户数这一类型的数据在数据量这一维度上没有分析价值，因此，我们可以剔除积累用户数数据。

[0024] 表5数据质量评估的不同类型数据的结构列表表6数据质量评估的不同类型数据的分析类数据所占比例
本实施例中，数据在时间上分布较广(2015年1月23日至2017年4月10日)，由于数据在时间上并不连续，且并不是所有时间点都有完全的数据(数据有缺失值)，也不是所有时间点都有数据，因此，选取一定时间段上的数据，并抛弃另一些时间段上的数据有利于我们提高数据质量，参照表7、图8和图9，可以看出各类数据类型的时间覆盖长度，且通过观察发现，在2015年7月30日到2016年4月1日长达247天的时间里没有任何数据，同时在2016年4月
1日之后数据量也并不多，也就是说，在2015年7月30日之后的数据丰富度不足，在2015年7月30日之前，数据集内有所有类型的数据，而2016年4月1日之后全时段流量统计数据数量上明显减少，而且有几个值明显是异常的。由于在2015年7月30日之后数据的连续性不好且数据质量很差，我们可以通过放弃后面的数据来提高总体的数据质量。

[0025] 表7数据质量评估的各类型数据的时间覆盖长度记录数目类型权值(min) 时间覆盖长度(min)
100M用户分析 73160 5 365800
在线用户分析 353007 5 1765035
分带宽在线用户分析 762022 5 3810110
峰值流量统计 30710 5 153550
全时段流量分析 994230 5 4971150
积累用户数 9552 35 334320
通过对上述数据的分析和筛选，最终确定以四川省22个地区100M用户2015年1月23日至2015年7月30日20:00到22:30晚高峰时段为研究样本。

[0026] 本实施例中，将筛选后的数据分成两组，记为X|Y(X或Y)和X+Y(X和Y)，其中X表示用户上网行为数据中的上网时间、浏览内容和搜索关键词，Y表示用户上网行为数据中的上网流量，对X+Y进行聚类算法得到标记，分别添加给这两组数据集，得到X|Y标记和X+Y标记，将X+Y标记和用户的基本资料数据与位置数据进行关联性分析，深度挖掘用户上网行为与用户业务行为、日常生活等不同数据之间的关联关系，从而对用户群进行划分，方便企业实行针对用户群差异化的销售手段；将X|Y标记的数据用于回归算法(监督学习)，预测各类用户的流量，具体地，若对某个地区(记为P1)，进行区域用户细分及标记后，得到3个用户群U1～U3，即U(P1)＝{{U1}，{U2}，{U3}}，其中，U1＝{u11，u12，u13，u14，u15}，U2＝{u21，u22，u23，u24，u25}，U3＝{u31，u32，u33，u34，u35，u36}。以一周7天为例，对于每类用户群，根据他们周一至周六的训练样本进行机器学习，利用回归算法预测他们周日的流量走势，对于同一用户群，由于他们的上网行为特征相似，因此他们上网流量走势相似，这大大降低了预测的复杂度。针对某个子地区P11～P15，将相应用户的预测流量统计相加，便可得到这个子地区总的流量走势。如图4所示，将P11～P15流量走势进行对比分析，可以为网络发展提前提供资源分配的依据；将P11～P15的预测流量进行统计分析，可以得到P1地区流量的预测或走势，这样由总到分再总的方法，可以有效地提高流量的预测精度；最后根据得到的X+Y标记的数据，算出各个子地区中用户群所占比例，得到所占比例最大的用户群，为满足较大比例用户群体的需求来搭建服务器，可以得到区域服务器分布情况及数量，在图5中，P1地区的用户比例计算如下：本实施例中，提出了“字典”的概念，在图5中，由P11，P12，P14产生“字典”，P13，P15可由“查字典”得出。其中，“字典”应具有完整性(包含P1中各类用户群)和独立性(包含的各用户群相互独立)。通过计算可知，P11中用户群U1所占本区域的比例最大，因此，为满足此用户群U1对带宽及业务等方面的需求，得出U1对所在地P11服务器的需求，进而得到P11对服务器的分布及数量的需求。同理，由P12和P14分别得出用户群U3和U2对所在地P12和P14的服务器分布及数量的需求，这便产生了包含P1所有类型用户群的“字典”。进一步地，对P1服务器分布的重叠区域进行优化，这便得出P1地区服务器的分布情况及数量，为基础建设部门提供服务器搭建方案。

[0027] 以上的实施方式不能限定本发明创造的保护范围，专业技术领域的人员在不脱离本发明创造整体构思的情况下，所做的均等修饰与变化，均仍属于本发明创造涵盖的范围之内。

标题	发布/更新时间	阅读量
基于流形正则和范数正则的领域迁移极限学习机方法	2020-05-11	636
锥束计算机断层扫描图像注册与重叠方法	2020-05-15	667
一种基于ACGAN图像半监督分类算法	2020-05-15	968
一种基于商用WiFi的位置自适应动作识别方法	2020-05-08	767
一种移动式供热机组故障诊断方法	2020-05-17	61
半监督学习式目标检测神经网络训练方法、装置及应用	2020-05-14	692
神经网络的标注系统	2020-05-11	539
一种基于卷积神经网络的自动驾驶汽车前方物体检测方法	2020-05-17	259
一种资产配置方法、装置、电子设备及存储介质	2020-05-11	152
一种基于对抗训练和对抗学习网络的半监督文本分类方法	2020-05-18	95

一种面向宽带接入网用户上网行为大数据的建模方法

一种面向宽带接入网用户上网行为大数据的建模方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：