首页 / 专利库 / 电信 / 即时通信 / 一种基于随机森林的指标关联强度排序方法

一种基于随机森林的指标关联强度排序方法

阅读:698发布:2020-05-13

专利汇可以提供一种基于随机森林的指标关联强度排序方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种基于 随机森林 的指标关联强度排序方法,步骤a,采集同一批小区的同一时间无线 感知 关键 质量 KQI指标数据与无线感知性能KPI指标数据;步骤b,创建同一批小区的同一时间KQI指标与KPI指标数据表;步骤c,对KPI指标进行相关性分析以及方差统计分析,去除冗余特征;步骤d,根据KQI指标的变差 门 限将KQI指标划分为两个区间;步骤e,将质差区间标1,质优区间标0,得到一份有标签的KPI指标数据;步骤f,用有标签的KPI指标数据训练随机森林,输出各指标在随机森林中的重要性排序。本发明提供的一种基于随机森林的指标关联强度排序方法,能够识别出与问题KQI指标关联度较强的KPI指标,并形成相应的解决方案,及时地解决感知差的问题。,下面是一种基于随机森林的指标关联强度排序方法专利的具体信息内容。

1.一种基于随机森林的指标关联强度排序方法,其特征在于:包括以下步骤:
步骤a,采集同一批小区的同一时间无线感知关键质量KQI指标数据与无线感知性能KPI指标数据;
步骤b,将KQI指标数据与能KPI指标数据合并,创建同一批小区的同一时间KQI指标与KPI指标数据表;
步骤c,对KPI指标进行相关性分析以及方差统计分析,去除冗余特征;
步骤d,根据KQI指标的变差限将KQI指标划分为两个区间,分别为质差区间和质优区间;
步骤e,将质差区间标1,质优区间标0,得到一份有标签的KPI指标数据;
步骤f,用有标签的KPI指标数据训练随机森林,输出各指标在随机森林中的重要性排序。
2.根据权利要求1所述的一种基于随机森林的指标关联强度排序方法,其特征在于:步骤a中,ECI被用于唯一标识一个小区。
3.根据权利要求1所述的一种基于随机森林的指标关联强度排序方法,其特征在于:步骤a中,KQI指标数据包括页面显示时延、视频播放平均等待时延、即时通信响应时延和游戏响应时延;KPI指标数据包括下行PRB平均利用率,RRC连接平均数和小区用户面上行丢包率。
4.根据权利要求1所述的一种基于随机森林的指标关联强度排序方法,其特征在于:步骤b中,KQI指标数据连接到KPI指标数据之后。
5.根据权利要求1所述的一种基于随机森林的指标关联强度排序方法,其特征在于:步骤c中,KPI指标相关性分析方法采用皮尔森相关系数法,分析各指标间的线性相关性,在线性相关性高的指标中选择一个保留。
6.根据权利要求1所述的一种基于随机森林的指标关联强度排序方法,其特征在于:步骤c中,KPI指标方差统计分析方法具体为对每个KPI指标进行方差统计,对于方差较小的指标,反映在数据上即为数据区分度小的指标删去。
7.根据权利要求5所述的一种基于随机森林的指标关联强度排序方法,其特征在于:皮尔森相关系数法包括,两两之间计算两个变量的协方差和标准差,两者作商得到结果。
8.根据权利要求1所述的一种基于随机森林的指标关联强度排序方法,其特征在于:步骤d中,划分KQI指标的变差门限具体为,页面显示时延变差门限为3000ms,视频播放平均等待时延为6500ms,即时通信响应时延为300ms,游戏响应时延为300ms,超过变差门限即为质差区间,低于变差门限即为质优区间。
9.根据权利要求1所述的一种基于随机森林的指标关联强度排序方法,其特征在于:步骤f包括以下具体步骤,
S01,输入带标签的KPI指标数据,训练出一个随机森林分类器;
S02,计算随机森林中各节点的基尼指数,并计算得到分枝后两个新节点的基尼指数,基尼指数GI计算公式如下:
其中,K表示有K个类,pk表示样本点属于第k类的概率;
S03,计算节点前后基尼指数的变化量,得到该节点特征的重要性评分,公式如下:
其中, 表示第j个特征在节点m的基尼指数评分,GIm表示节点m的基尼指数,GIl和GIr表示分枝后的两个新节点的基尼指数;
S04,对所有求得的重要性评分做一个归一化处理得到各指标关联强度排序。

说明书全文

一种基于随机森林的指标关联强度排序方法

技术领域

[0001] 本发明涉及一种基于随机森林的指标关联强度排序方法,属于无线通信领域。

背景技术

[0002] 在通信技术、互联网技术日新月异的今天,用户对于小区无线感知质量要求日益提高。无线感知度关键质量(KQI)指标是反映小区无线信号质量的唯一标准,而真正想要解决这些指标所反映出的问题,则需要找到问题小区的无线感知关键性能(KPI)指标,并有针对性地形成相应的解决方案。现如今,想要识别一个小区KQI指标的好坏比较容易,而直接找出问题KPI指标则是一件十分困难的事,往往需要耗费大量的人和时间成本。因此,如何识别出与问题KQI指标关联度较强的KPI指标,并形成相应的解决方案,及时地解决感知差的问题,变成了亟待解决的问题。

发明内容

[0003] 本发明要解决的技术问题是,克服现有技术缺陷,提供一种能够识别出与问题KQI指标关联度较强的KPI指标,并形成相应的解决方案,及时地解决感知差的问题的基于随机森林的指标关联强度排序方法。
[0004] 为解决上述技术问题,本发明采用的技术方案为:
[0005] 一种基于随机森林的指标关联强度排序方法,包括以下步骤:
[0006] 步骤a,采集同一批小区的同一时间无线感知关键质量KQI指标数据与无线感知性能KPI指标数据;
[0007] 步骤b,将KQI指标数据与能KPI指标数据合并,创建同一批小区的同一时间KQI指标与KPI指标数据表;
[0008] 步骤c,对KPI指标进行相关性分析以及方差统计分析,去除冗余特征;
[0009] 步骤d,根据KQI指标的变差限将KQI指标划分为两个区间,分别为质差区间和质优区间;
[0010] 步骤e,将质差区间标1,质优区间标0,得到一份有标签的KPI指标数据;
[0011] 步骤f,用有标签的KPI指标数据训练随机森林,输出各指标在随机森林中的重要性排序。
[0012] 步骤a中,ECI(演进通用陆地无线接入网络小区标识)号被用于唯一标识一个小区。
[0013] 步骤a中,KQI指标数据包括页面显示时延、视频播放平均等待时延、即时通信响应时延和游戏响应时延;KPI指标数据包括下行PRB平均利用率,RRC连接平均数和小区用户面上行丢包率。
[0014] 步骤b中,KQI指标数据连接到KPI指标数据之后。
[0015] 步骤c中,KPI指标相关性分析方法采用皮尔森相关系数法,分析各指标间的线性相关性,在线性相关性高的指标中选择一个保留。
[0016] 步骤c中,KPI指标方差统计分析方法具体为对每个KPI指标进行方差统计,对于方差较小的指标,反映在数据上即为数据区分度小的指标删去。
[0017] 皮尔森相关系数法包括,两两之间计算两个变量的协方差和标准差,两者作商得到结果。
[0018] 步骤d中,划分KQI指标的变差门限具体为,页面显示时延变差门限为3000ms,视频播放平均等待时延为6500ms,即时通信响应时延为300ms,游戏响应时延为300ms,超过变差门限即为质差区间,低于变差门限即为质优区间。步骤f包括以下具体步骤,S01,输入带标签的KPI指标数据,训练出一个随机森林分类器;
[0019] S02,计算随机森林中各节点的基尼指数,并计算得到分枝后两个新节点的基尼指数,基尼指数GI计算公式如下:
[0020]
[0021] 其中,K表示有K个类,pk表示样本点属于第k类的概率;
[0022] S03,计算节点前后基尼指数的变化量,得到该节点特征的重要性评分,公式如下:
[0023]
[0024] 其中, 表示第j个特征在节点m的基尼指数评分,GIm表示节点m的基尼指数,GIl和GIr表示分枝后的两个新节点的基尼指数;S04,对所有求得的重要性评分做一个归一化处理得到各指标关联强度排序。
[0025] 本发明的有益效果:本发明提供一种基于随机森林的指标关联强度排序方法,不用对每个KPI指标进行逐一排查,而是能够在找到问题KQI指标的同时,找到与之关联度最强的KPI指标,从而针对性地形成解决方案,在用户投诉之前发现问题并解决,大大节省了人力与时间成本,改善了用户体验。附图说明
[0026] 图1为本发明一种基于随机森林的指标关联强度排序方法的流程示意图;
[0027] 图2为本发明中所采用的KQI指标数据样表;
[0028] 图3为本发明中所采用的KPI指标数据样表;
[0029] 图4为本发明中创建的KQI指标与KPI指标关联数据表;
[0030] 图5为本发明中随机森林模型图。

具体实施方式

[0031] 下面结合附图对本发明作进一步描述,以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0032] 如图1所示,本发明提供一种基于随机森林的指标关联强度排序方法,包括以下步骤:
[0033] 步骤一,采集同一批小区的同一时间无线感知关键质量(KQI)指标数据与无线感知性能(KPI)指标数据。在本实施例中,如图2和图3所示,所述小区无线感知关键质量指标(KQI)指标以及关键性能指标(KPI)指标数据为某天同一个小时的数据。KQI指标数据包含四项重要的时延类指标数据,分别为:页面显示时延(ms),视频播放平均等待时延(ms),即时通信响应时延(ms),游戏响应时延(ms)。KPI指标数据包括34个关键性能指标,其中包括:下行PRB平均利用率,RRC连接平均数,小区用户面上行丢包率等。
[0034] 步骤二,创建同一时间KQI指标与KPI指标数据表。数据表中ECI为每个小区的唯一标识,代表一个小区。在本实施例中,所述创建同一时间的KQI与KPI指标数据表包括,将KQI指标数据连接到KPI指标数据之后,构造完成的数据表包含34项KPI指标以及四项KQI指标,如图4所示。
[0035] 步骤三,对KPI指标进行相关性分析以及方差统计分析,去除冗余特征。在本实施例中,KPI指标相关性分析方法为皮尔森相关系数法,分析各指标间的线性相关性,在线性相关性高的指标中选择一个保留。具体为:两两之间计算两个变量的协方差和标准差,两者作商得到结果。KPI指标方差统计分析方法包括,对每个KPI指标进行方差统计,对于方差较小的指标,反映在数据上即为数据区分度小的指标删去,以降低数据冗余。
[0036] 步骤四,根据KQI指标的变差门限将KQI指标划分为两个区间,分别为质差区间和质优区间。在本实施例中,划分KQI指标的变差门限包括,页面显示时延变差门限为3000ms,视频播放平均等待时延为6500ms,即时通信响应时延为300ms,游戏响应时延为300ms,超过变差门限即为质差区间,低于变差门限即为质优区间。
[0037] 步骤五,将质差区间标1,质优区间标0,得到一份有标签的KPI指标数据。
[0038] 步骤六,用有标签的KPI指标数据训练随机森林,输出各指标在随机森林中的重要性排序。在本实施例中,训练如图5所示随机森林模型,输出各指标重要性排序,包括如下步骤:
[0039] S01,输入10万行带标签的KPI指标数据,训练出一个随机森林分类器;
[0040] S02,计算随机森林中各节点的基尼指数,基尼指数包括,利用样本点属于某一类的概率计算得到,描述的是一个随机变量的不确定性的程度。然后计算得到分枝后两个新节点的基尼指数,基尼指数公式如下:
[0041]
[0042] 其中,K表示有K个类,pk表示样本点属于第k类的概率;
[0043] S03,计算节点前后基尼指数的变化量,得到该节点特征的重要性评分,公式如下:
[0044]
[0045] 其中, 表示第j个特征在节点m的基尼指数评分,GIm表示节点m的基尼指数,GIl和GIr表示分枝后的两个新节点的基尼指数;
[0046] S04,对所有求得的重要性评分做一个归一化处理得到各指标关联强度排序。
[0047] 本发明的优点在于:该种基于随机森林的指标关联强度排序方法,不用对每个KPI指标进行逐一排查,而是能够在找到问题KQI指标的同时,找到与之关联度最强的KPI指标,从而针对性地形成解决方案,在用户投诉之前发现问题并解决,大大节省了人力与时间成本,改善了用户体验。
[0048] 以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈