专利汇可以提供一种网络流量数据的分类方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种网络流量数据的分类方法及装置,从网络数据流中获取N个流量数据样本,并获取每个流量数据的数据量大小及每个流量数据的标识;根据每个流量数据的数据量大小将N个流量数据分成K类;根据每个流量数据的标识分别对各类中的每个流量数据进行多次 采样 ,得到采样成功的次数及采样失败的次数,同一类中的流量数据的采样次数相同;根据采样成功的次数及采样失败的次数得到每个流量数据在其对应类中的期望及不确定性概率;根据期望及不确定性概率计算每个流量数据在其所在类中的权重;根据各流量数据在其所在类中的权重按照预设分类规则 对流 量数据进行再分类。解决 现有技术 无法对所有流量数据无规则地进行分类的问题。,下面是一种网络流量数据的分类方法及装置专利的具体信息内容。
1.一种网络流量数据的分类方法,其特征在于,包括:
从网络数据流中获取N个流量数据样本,并获取每个流量数据样本的数据量大小及每个流量数据样本的标识;
根据每个流量数据样本的数据量大小将所述N个流量数据样本分成K类;
根据所述每个流量数据样本的标识分别对各类中的每个流量数据进行多次采样,得到采样成功的次数及采样失败的次数,同一类中的流量数据的采样次数相同;
根据所述采样成功的次数及采样失败的次数得到每个流量数据在其对应类中的期望及不确定性概率;
根据所述期望及不确定性概率计算每个流量数据在其所在类中的权重;
根据各流量数据在其所在类中的权重按照预设分类规则对所述流量数据进行再分类;
所述N和K都为正整数。
2.如权利要求1所述的网络流量数据的分类方法,其特征在于,每个数据流量在其所在类的不确定性概率包括:
INFO(A1,A2)=–p1 ㏒ 2(p1)–p2 ㏒ 2(p2);
每个数据流量在其所在类的期望包括:
所述A1和A2分别为每个流量数据采样成功的集合及采样失败的集合;所述p1和p2分别为每个流量数据采样成功的概率及失败的概率;所述ni为子集A1的样本集合个数,pi为子集A2的样本集合个数;所述p为所述N个流量数据样本中各个数据流量采样成功的总次数;所述n为所述N个流量数据样本中各个数据流量采样失败的总次数;所述mi为所述流量数据样本中的流量数据,所述i表示每个类中数据流量元素的标号,t为每个类中的流量数据样本的个数。
3.如权利要求2所述的网络流量数据的分类方法,其特征在于,根据麦克劳林公式对每个数据流量在其所在类的不确定性概率及期望进行简化处理后得到:每个数据流量在其所在类的不确定性概率为: 每个数据流量在其所在类的期望为:
4.如权利要求3所述的网络流量数据的分类方法,其特征在于,根据所述期望及不确定性概率计算每个流量数据在其所在类中的权重包括:
根据所述期望及不确定性概率得到每个流量数据在其所在类的信息增益为:Gain(mi)=INFO(A1,A2)-E(mi);
根据所述信息增益得到每个流量数据的权重为: 所述i为某一
个流量数据的标号,所述j为同一类中流量数据的标号,所述k为每类中流量数据的个数。
5.如权利要求1-4任一项所述的网络流量数据的分类方法,其特征在于,根据各流量数据在其所在类中的权重按照预设分类规则对所述流量数据进行再分类包括:
将权重值最相近的对应的流量数据归为同一组;或将权重值之间的差值由大到小两两对应的流量数据归为同一组。
6.如权利要求1-4任一项所述的网络流量数据的分类方法,其特征在于,根据每个流量数据样本的数据量大小将所述N个数据流量样本分成K类包括:
根据预设规则在流量数据样本的数据量大小的集合中选取K个分类中心;
分别计算各个流量数据与各个分类中心的数据量大小的距离;
将每个流量数据与其对应的最短距离的分类中心的数据量大小作为同一组,得到K个分类组。
7.如权利要求6所述的网络流量数据的分类方法,其特征在于,根据预设规则选取K个分类中心包括以下步骤:
(1)在待分类的流量数据样本的数据量大小集合{x1,x2,…,xN}中,任意选取一个流量数据x1作为第一个分类中心Center1;
(2)计算样本集合中各个样本的数据量大小到所述第一分类中心的距离:||xi-Center1||,其中i=1,2,…,N;
(3)若||xj-Center1||=max{||xi-Center1||,i=1,2,...,N},j=1,2,…,N,那么xj作为第2个分类中心Center2=xj;
(4)逐个计算各个样本数据量大小{x1,x2,…,xN}与{Center1,Center2}之间的距离:
disti1为各个流量数据到第一分类中心的数据量
大小的距离,disti2为各个流量数据到第二分类中心的数据量大小的距离;
(5)选取各个分类中心的最小距离,并在各个最小距离中选取最大距离作为第三分类中心C3:若min(dj1,dj2,...,djr)=max{min(di1,di2,...,dir)i=1,2,...,N}j=1,2,...,N,那么Center3=xj;
(6)假设已经找到r个(r
min(dj1,dj2,...,djr)=max{min(di1,di2,...,dir)i=1,2,...,N}j=1,2,...,N则:Centerr+1=xj;重复上述步骤四,直到r+1=k为止;
已选取k个初始分类中心Center1(1),Center2(1),Centerk(1),括号内的序号为寻找分类中心迭代计算的次序号。
8.如权利要求7所述的网络流量数据的分类方法,其特征在于,根据每个流量数据样本的数据量大小将所述N个数据流量样本分成K类中在得到K个分类组后还包括:
步骤一:若d(xi,Centerj(I))=min{||xi-Centerj(I)||i=1,2,...,N}j=1,2,...,N;
则xi∈ωj(I),ωj表示第j个分类,其分类中心为Centerj(I);假设对所采集的数据分成ω
1、ω2、…,ωk个类,共计K个类;
步骤二:计算初始分类的分类中心的均值作为新的分类中心:
0≤j≤k,其中ωi为第i个分类;
步骤三:重新计算每个流量数据到新的分类中心的数据量大小的距离,将每个数据和最近的分类中心归为一组;
步骤四:计算误差平方和准则函数如下: 其中ni是簇
ωi中数据点的个数,xk(j)表示第j个分类ωj中的第k个数据元素;
重复进行步骤一至步骤三,直到分类中心的均值没有预设变化为止:若|Jc(I+1)<Jc(I)|<ξ成立,则算法结束,否则令I=I+1,返回执行步骤一开始。
9.一种网络流量数据的分类装置,其特征在于,包括:
数据获取模块,用于从网络数据流中获取N个流量数据样本,并获取每个流量数据样本的数据量大小及每个流量数据样本的标识;
第一分类模块,用于根据每个流量数据样本的数据量大小将所述N个数据流量样本分成K类;
数据采样模块,用于根据所述每个流量数据样本的标识分别对各类中的每个流量数据进行多次采样,得到采样成功的次数及采样失败的次数,同一类中的流量数据的采样次数相同;
参数计算模块,用于根据所述采样成功的次数及采样失败的次数得到每个流量数据在其对应类中的期望及不确定性概率;
权重模块用于根据所述期望及不确定性概率计算每个流量数据在其所在类中的权重;
第二分类模块,用于根据各流量数据在其所在类中的权重按照预设分类规则对所述流量数据进行再分类;所述N和K都为正整数。
10.如权利要求9所述的网络流量数据的分类装置,其特征在于,所述参数计算模块用于根据以下公式每个流量数据在其对应类中的期望及不确定性概率:每个数据流量在其所在类的不确定性概率包括:
INFO(A1,A2)=–p1 ㏒ 2(p1)–p2 ㏒ 2(p2);
每个数据流量在其所在类的期望包括:
所述A1和A2分别为每个流量数据采样成功的集合及采样失败的集合;所述p1和p2分别为每个流量数据采样成功的概率及失败的概率;所述ni为子集A1的样本集合个数,pi为子集A2的样本集合个数;所述p为所述N个流量数据样本中各个数据流量采样成功的总次数;所述n为所述N个流量数据样本中各个数据流量采样失败的总次数;所述mi为所述流量数据样本中的流量数据,所述i表示每个类中数据流量元素的标号,t为每个类中的流量数据样本的个数。
11.如权利要求10所述的网络流量数据的分类装置,其特征在于,根据麦克劳林公式对每个数据流量在其所在类的不确定性概率及期望进行简化处理后得到:每个数据流量在其所在类的不确定性概率为: 每个数据流量在其所在类的期望
为:
12.如权利要求11所述的网络流量数据的分类装置,其特征在于,所述权重计算模块具体用于根据所述期望及不确定性概率得到每个流量数据在其所在类的信息增益为:Gain(mi)=INFO(A1,A2)-E(mi);
根据所述信息增益得到每个流量数据的权重为:
所述i为某一个流量数据的标号,所述j为同一类中流量数据的标号,所述k为每类中流量数据的个数。
13.如权利要求9-12任一项所述的网络流量数据的分类装置,其特征在于,所述第二分类模块用于将权重值最相近的对应的流量数据归为同一组;或将权重值之间的差值由大到小两两对应的流量数据归为同一组。
14.如权利要求9-12任一项所述的网络流量数据的分类装置,其特征在于,所述第一分类模块包括:
分类中心确定子模块,用于根据预设规则在流量数据样本的数据量大小的集合中选取K个分类中心;
距离计算子模块,用于分别计算各个流量数据与各个分类中心的数据量大小的距离;
分类子模块,用于将每个流量数据与其对应的最短距离的分类中心的数据量大小作为同一组,得到K个分类组。
15.如权利要求14所述的网络流量数据的分类装置,其特征在于,所述分类中心确定子模块具体用于:
(1)在待分类的流量数据样本的数据量大小集合{x1,x2,…,xN}中,任意选取一个流量数据x1作为第一个分类中心Center1;
(2)计算样本集合中各个样本的数据量大小到所述第一分类中心的距离:||xi-Center1||,其中i=1,2,…,N;
(3)若||xj-Center1||=max{||xi-Center1||,i=1,2,...,N},j=1,2,…,N,那么xj作为第2个分类中心Center2=xj;
(4)逐个计算各个样本数据量大小{x1,x2,…,xN}与{Center1,Center2}之间的距离:
disti1为各个流量数据到第一分类中心的数据量
大小的距离,disti2为各个流量数据到第二分类中心的数据量大小的距离;
(5)选取各个分类中心的最小距离,并在各个最小距离中选取最大距离作为第三分类中心C3:若min(dj1,dj2,...,djr)=max{min(di1,di2,...,dir)i=1,2,...,N}j=1,2,...,N,那么Center3=xj;
(6)假设已经找到r个(r
min(dj1,dj2,...,djr)=max{min(di1,di2,...,dir)i=1,2,...,N}j=1,2,...,N则:Centerr+1=xj;重复上述步骤四,直到r+1=k为止;
已选取k个初始分类中心Center1(1),Center2(1),Centerk(1),括号内的序号为寻找分类中心迭代计算的次序号。
16.如权利要求15所述的网络流量数据的分类装置,其特征在于,所述第一分类中心模块具体用于:
步骤一:若d(xi,Centerj(I))=min{||xi-Centerj(I)||i=1,2,...,N}j=1,2,...,N;
则xi∈ωj(I),ωj表示第j个分类,其分类中心为Centerj(I);假设对所采集的数据分成ω
1、ω2、…,ωk个类,共计K个类;
步骤二:计算初始分类的分类中心的均值作为新的分类中心:
0≤j≤k,ωi为第i个分类;
步骤三:重新计算每个流量数据到新的分类中心的数据量大小的距离,将每个数据和最近的分类中心归为一组;
步骤四:计算误差平方和准则函数如下: 其中ni是簇
ωi中数据点的个数,xk(j)表示第j个分类ωj中的第k个数据元素;
重复进行步骤一至步骤三,直到分类中心的均值没有预设变化为止:若|Jc(I+1)<Jc(I)|<ξ成立,则算法结束,否则令I=I+1,返回执行步骤一开始。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种同时定位与稠密三维重建方法 | 2020-05-12 | 521 |
一种基于点云缺失的盘类元件识别方法及系统 | 2020-05-12 | 65 |
一种基于忆阻器阵列的K-means分类器及其分类方法 | 2020-05-13 | 491 |
一种基于UE速度的Radio Map分类定位方法 | 2020-05-14 | 426 |
一种融合折角板的自然定位方法及系统 | 2020-05-13 | 520 |
三维重建的数据处理方法、装置、电子设备与存储介质 | 2020-05-14 | 744 |
基于电压时序数据的台区户变关系识别方法及系统 | 2020-05-08 | 74 |
一种输水管网管漏损定位系统及定位方法 | 2020-05-13 | 994 |
一种钢构件圆柱体拟合算法 | 2020-05-13 | 447 |
一种基于k-means++质心初始化的k-means算法硬件实现方法及系统 | 2020-05-13 | 56 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。