首页 / 专利库 / 人工智能 / 数据库知识发现 / 一种基于人工智能的交换机故障预测系统及方法

一种基于人工智能的交换机故障预测系统及方法

阅读:360发布:2020-05-14

专利汇可以提供一种基于人工智能的交换机故障预测系统及方法专利检索,专利查询,专利分析的服务。并且一种基于 人工智能 的交换机故障预测系统及方法,属于IDC内交换机的故障预测领域,包括故障关联分析模 块 、时序数据预测模块、故障实时预测模块及故障指标关联 知识库 ;本 发明 通过故障关联分析模块、时序数据预测模块以及故障预测模块三部分识别出故障和性能指标之间的关系,从而推断出未来短期内即将发送故障,而非异常,进而准确预报交换机故障的具体 位置 ,实现对于故障的精准预测,本发明引入人工智能技术,通过关联分析和时序预测技术,实现故障的提前预测,指导人工介入,提高了交换机的运行 稳定性 ,降低了IDC内交换机设备的运维成本。,下面是一种基于人工智能的交换机故障预测系统及方法专利的具体信息内容。

1.一种基于人工智能的交换机故障预测方法,其特征在于,包括如下步骤:
步骤1:故障关联分析模获取故障管理系统中的历史故障数据,并根据故障管理系统中的历史故障数据识别出交换机历次故障的发生位置、故障类别和故障发生前后N分钟内吞吐量、延迟及丢包率三个性能指标的变化规律之间的关系,得到故障属性信息条目,并对故障属性条目进行文本聚类,经过聚类后按照关系型数据库存储规则存储至故障指标关联知识库中,其中,1≤N≤10;
其中,故障属性信息条目由故障名称、故障位置、故障时间、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间九个字段组成;
其中,关系型数据库存储规则为故障指标关联知识库内每条存储条目由类簇编号、类簇包含故障数、故障名称、故障位置、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间共十个字段构成;
步骤2:时序数据预测模块采集交换机所有端口的吞吐量、延迟及丢包率三个性能指标的实时数据,利用ARIMA算法预测出下一分钟各个性能指标的值,同时将吞吐量、延迟及丢包率三个性能指标的当前值和下一分钟预测值传送给故障实时预测模块;
步骤3:故障实时预测模块接收时序数据预测模块向其传送的数据,计算每个性能指标的当前指标值区间和变化率区间,识别性能指标的变化特征,并根据性能指标的变化特征在故障指标关联知识库内查找,发现匹配的存储条目,则取出存储条目的全部字段,进行可视化展示。
2.根据权利要求1所述的基于人工智能的交换机故障预测方法,其特征在于:所述吞吐量当前指标值区间、延迟当前指标值区间及丢包率当前指标值区间均由如下方式获得:将一分钟内性能指标的最大值与最小值之间平均划分成五个区间,分别为EL很低、SL偏低、C普通、SH偏高及EH很高五个区间编码,当前指标值处在哪个区间,则采用对应的区间编码表示。
3.根据权利要求1所述的基于人工智能的交换机故障预测方法,其特征在于:所述吞吐量变化率区间、延迟变化率区间及丢包率变化率区间均由如下方式获得:当前指标值与前一分钟指标值的差分计算,得出相应分钟与前一分钟的变化比例,按照增加不足10%、增加在10%~30%之间、增加在30%~60%之间、增加大于60%、降低不足10%、降低在10%~
30%之间、降低在30%~60%之间、降低大于60%共划分出八个区间,分别为A10、A130、A360、A610、R10、R130、R360及R610八个区间编码,变化比例介于哪一个区间就采用对应的区间编码表示。
4.一种基于人工智能的交换机故障预测系统,其特征在于,包括:故障关联分析模块、时序数据预测模块、故障实时预测模块及故障指标关联知识库;
所述故障关联分析模块用于根据故障管理系统中的历史故障数据,识别出交换机历次故障的发生位置、故障类别和故障发生前后N分钟内吞吐量、延迟及丢包率三个性能指标的变化规律之间的关系,得到故障属性信息条目,并对故障属性条目进行文本聚类,经过聚类后将其发送至故障指标关联知识库,其中,1≤N≤10;
其中,故障属性信息条目由故障名称、故障位置、故障时间、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间九个字段组成;
所述故障指标关联知识库用于接收故障关联分析模块向其发送的数据,并将其所接收的数据按照关系型数据库存储规则进行存储;
其中,关系型数据库存储规则为故障指标关联知识库内每条存储条目由类簇编号、类簇包含故障数、故障名称、故障位置、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间共十个字段构成;
所述时序数据预测模块用于实时采集交换机所有端口的吞吐量、延迟及丢包率三个性能指标的数据,并将其所采集的数据利用ARIMA算法预测出下一分钟各个性能指标的值,并将吞吐量、延迟及丢包率三个性能指标的当前值和下一分钟预测值传送给故障实时预测模块;
所述故障实时预测模块用于接收时序数据预测模块向其传送的数据,计算每个性能指标的当前指标值区间和变化率区间,识别性能指标的变化特征,并根据性能指标的变化特征在故障指标关联知识库内查找,发现匹配的存储条目,则取出存储条目的全部字段,进行可视化展示。

说明书全文

一种基于人工智能的交换机故障预测系统及方法

技术领域

[0001] 本发明属于IDC内交换机的故障预测领域,具体涉及一种基于人工智能的交换机故障预测系统及方法。

背景技术

[0002] 互联网数据中心IDC内存在着大量的网络设备,交换机是最典型的设备,通常一个大型的IDC内的交换机数量将达到千余台,每个交换机承载的网络流量巨大,甚至可达TB/S级别,当发生交换机的故障时(如端口失效、闪断、负载不均衡等),将会对业务带来灾难性的影响,所以针对于交换机的监控是IDC网络设备运维的重中之重。
[0003] 目前,针对于IDC内交换机的监控和运维方法一般包括如下几种情况:
[0004] (1)通过交换机自身提供的SNMP协议接口,将交换机运行数据采集并集中存储,利用自研或开源的第三方监控平台实现监控,如通过SNMP协议采集数据,存储于influxdb数据库,并通过grafana工具进行可视化展示。展示交换机的各端口健康度、网络流量、丢包率等,同时实时曲线的方式在页面展示,方便运维人员的查看并分析可能潜在的故障;
[0005] (2)在(1)的基础之上,针对于各类指标进行告警功能的支持,即设定一些基本的阈值,当实际指标触发阈值,则认为发生故障,并通过邮件或短信告警,通知运维人员处理故障;
[0006] (3)逐步引用了人工智能技术,如通过异常监测技术,避免了人工设定固定式的阈值工作,对于交换机历史的运行指标进行训练,得到模型,继而通过模型来监测实时运行指标的异常与否,针对异常点进行告警和通知。
[0007] 但现有方法主要存在如下缺陷
[0008] ①现有技术(1)中,采用SNM协议接口采集交换机自身的指标,从而可视化的方式,只是一种被动式的监控方法,需要运维人员随时关注可视化页面,并判断出指标的问题,较依赖于运维人员的经验;可能存在交换机故障漏查的情况。
[0009] ②相比现有技术(1),不同的是现有技术(2)提供了故障的判断机制,即简单的固定阈值方式,该方式虽然减少了运维人员的检测成本,但是也带来了诸多问题,如固定阈值过于生硬,往往会带来误报和漏报;另外人为设定的故障并不一定就代表着真实的故障,告警仅代表着指标的劣化而已,还未到引起故障的地步;
[0010] 现有技术(3)实现了对于交换机故障监控的一个跨越,引入人工智能里面的异常检测技术,即通过历史数据中归纳来的规律来判断实时的指标情况,降低了运维的成本,同时也降低了误报或漏报的比率,但是该方法也仅仅停留在异常的层面上,因为异常同样仅代表指标的劣化,并不能直接断定交换机将很快发生故障,可能异常指标劣化速度较慢,半个月后才带来故障,那么该方法其实很难保证故障预测的准确性和有效性。

发明内容

[0011] 本发明的目的是提供一种基于人工智能的交换机故障预测系统及方法,能够识别出故障和性能指标之间的关系;推断出未来短期内即将发生故障,而非异常,同时能够将交换机故障的具体位置预报准确。
[0012] 本发明为实现上述目的采用的技术方案是:
[0013] 一种基于人工智能的交换机故障预测方法,其特征在于,包括如下步骤:
[0014] 步骤1:故障关联分析模获取故障管理系统中的历史故障数据,并根据故障管理系统中的历史故障数据识别出交换机历次故障的发生位置、故障类别和故障发生前后N分钟内吞吐量、延迟及丢包率三个性能指标的变化规律之间的关系,得到故障属性信息条目,并对故障属性条目进行文本聚类,经过聚类后按照关系型数据库存储规则存储至故障指标关联知识库中,其中,1≤N≤10;
[0015] 其中,故障属性信息条目由故障名称、故障位置、故障时间、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间九个字段组成;
[0016] 其中,关系型数据库存储规则为故障指标关联知识库内每条存储条目由类簇编号、类簇包含故障数、故障名称、故障位置、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间共十个字段构成;
[0017] 步骤2:时序数据预测模块采集交换机所有端口的吞吐量、延迟及丢包率三个性能指标的实时数据,利用ARIMA算法预测出下一分钟各个性能指标的值,同时将吞吐量、延迟及丢包率三个性能指标的当前值和下一分钟预测值传送给故障实时预测模块;
[0018] 步骤3:故障实时预测模块接收时序数据预测模块向其传送的数据,计算每个性能指标的当前指标值区间和变化率区间,识别性能指标的变化特征,并根据性能指标的变化特征在故障指标关联知识库内查找,发现匹配的存储条目,则取出存储条目的全部字段,进行可视化展示。
[0019] 其中,所述吞吐量当前指标值区间、延迟当前指标值区间及丢包率当前指标值区间均由如下方式获得:将一分钟内性能指标的最大值与最小值之间平均划分成五个区间,分别为EL很低、SL偏低、C普通、SH偏高及EH很高五个区间编码,当前指标值处在哪个区间,则采用对应的区间编码表示。
[0020] 其中,所述吞吐量变化率区间、延迟变化率区间及丢包率变化率区间均由如下方式获得:当前指标值与前一分钟指标值的差分计算,得出相应分钟与前一分钟的变化比例,按照增加不足10%、增加在10%~30%之间、增加在30%~60%之间、增加大于60%、降低不足10%、降低在10%~30%之间、降低在30%~60%之间、降低大于60%共划分出八个区间,分别为A10、A130、A360、A610、R10、R130、R360及R610八个区间编码,变化比例介于哪一个区间就采用对应的区间编码表示。
[0021] 一种基于人工智能的交换机故障预测系统,其特征在于,包括:故障关联分析模块、时序数据预测模块、故障实时预测模块及故障指标关联知识库;
[0022] 所述故障关联分析模块用于根据故障管理系统中的历史故障数据,识别出交换机历次故障的发生位置、故障类别和故障发生前后N分钟内吞吐量、延迟及丢包率三个性能指标的变化规律之间的关系,得到故障属性信息条目,并对故障属性条目进行文本聚类,经过聚类后将其发送至故障指标关联知识库,其中,1≤N≤10;
[0023] 其中,故障属性信息条目由故障名称、故障位置、故障时间、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间九个字段组成;
[0024] 所述故障指标关联知识库用于接收故障关联分析模块向其发送的数据,并将其所接收的数据按照关系型数据库存储规则进行存储;
[0025] 其中,关系型数据库存储规则为故障指标关联知识库内每条存储条目由类簇编号、类簇包含故障数、故障名称、故障位置、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间共十个字段构成;
[0026] 所述时序数据预测模块用于实时采集交换机所有端口的吞吐量、延迟及丢包率三个性能指标的数据,并将其所采集的数据利用ARIMA算法预测出下一分钟各个性能指标的值,并将吞吐量、延迟及丢包率三个性能指标的当前值和下一分钟预测值传送给故障实时预测模块;
[0027] 所述故障实时预测模块用于接收时序数据预测模块向其传送的数据,计算每个性能指标的当前指标值区间和变化率区间,识别性能指标的变化特征,并根据性能指标的变化特征在故障指标关联知识库内查找,发现匹配的存储条目,则取出存储条目的全部字段,进行可视化展示。
[0028] 通过上述设计方案,本发明可以带来如下有益效果:本发明通过故障关联分析模块、时序数据预测模块以及故障预测模块三部分识别出故障和性能指标之间的关系,从而推断出未来短期内即将发送故障,而非异常,进而准确预报交换机故障的具体位置,实现对于故障的精准预测,本发明引入人工智能技术,通过关联分析和时序预测技术,实现故障的提前预测,指导人工介入,提高了交换机的运行稳定性,降低了IDC内交换机设备的运维成本。附图说明
[0029] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明示意性实施例及其说明用于理解本发明,并不构成本发明的不当限定,在附图中:
[0030] 图1为根据本发明实施例所述的基于人工智能的交换机故障预测方法原理图。

具体实施方式

[0031] 为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。本领域技术人员应当理解。下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。为了避免混淆本发明的实质,公知的方法和过程并没有详细的叙述。
[0032] 如图1所示,一种基于人工智能的交换机故障预测系统,包括故障关联分析模块、时序数据预测模块、故障实时预测模块及故障指标关联知识库;
[0033] 所述故障关联分析模块用于根据故障管理系统(如中国移动业务支撑网运营管理系统BOMC工单系统)中存储的历史故障数据,识别出历次故障的发生位置、故障类别和故障发生前后N分钟内吞吐量TT、延迟YC及丢包率DB三个性能指标的变化规律之间的关系,其中,1≤N≤10;
[0034] 故障与性能指标的关联规则挖掘过程:
[0035] a)故障和性能指标数据收集:故障关联分析模块收集故障管理系统的历史故障数据以及交换机发生故障前N分钟内性能指标数据,N的取值范围为1~10之间,如:N=1,代表着预测未来一分钟内的故障;
[0036] b)故障细分数据准备:
[0037] 对步骤a)中采集的历史故障数据按照故障名称、故障发生位置及故障发生时间进行划分,同时查询故障发生前N分钟的吞吐量TT、延迟YC及丢包率DB三个性能指标的序列,每个性能指标对应一个序列,序列长度为N(当N=1时,序列即是一个分钟的取值),序列内每个值采取分钟平均值方式计算得来,由此得到一条故障的属性信息,故障的属性信息包括故障名称、故障位置、故障时间、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间;
[0038] 故障名称如网络闪断,交换机阻塞等;
[0039] 故障发生位置如X交换机Y端口的形式;
[0040] 故障发生时间,精确到秒,如:2019年4月23日19点30分53秒,记为:20190423193053;
[0041] c)指标数据区间性处理:
[0042] 对步骤b)得到的故障属性信息进行进一步处理,及针对吞吐量TT、延迟YC及丢包率DB三个性能指标进行扩充,实现将性能指标的变化规律特性表现出来,每个性能指标扩充为两个指标,分别为当前指标值区间A和变化率区间B,区间划分方式如下:
[0043] 当前指标值区间A:将一分钟内性能指标的最大值与最小值之间平均划分成五个区间,分别为EL很低、SL偏低、C普通、SH偏高及EH很高五个区间编码,当前指标值处在哪一个区间,则采用对应的区间编码表示;
[0044] 变化率区间B:按照不足10%,10%~30%,30%~60%,大于60%,以及增加和降低两个维度,共划分出八个区间,分别为A10、A130、A360、A610、R10、R130、R360及R610,此处“增加”、“降低”指的是“变化”的两类,如果指标变大则为“增加”,如果指标变小则为“降低”,前面的不足10%,10%~30%,30%~60%,大于60%共四个变化率,每个变化率都会有增加和降低两个方向,有八个区间。八个编码含义:A10代表增加不足10%,A130代表增加在10%~30%之间,A360代表增加在30%~60%之间,A610代表增加大于60%,R10代表降低不足10%,R130代表降低在10%~30%之间,R360代表降低在30%~60%之间,R610代表降低大于60%,按照当前指标值与前一分钟指标值的差分计算,计算得出相应分钟与前一分钟的变化比例,变化比例介于哪一个区间就采用对应的区间编码表示;
[0045] 上述两个区间编码需要在编码前面加上指标代号,如:TT-EH,代表吞吐量当前很高;DB-R130,代表丢包率降低处于10%~30%之间。
[0046] d)经过上面的处理,每一条故障的属性信息被扩充为:
[0047] 故障名称、故障位置、故障时间、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间,共九个字段,示例如下:
[0048] 交换机阻塞/HS56交换机5号端口/20190423193053/TT-EH/TT-A10/YC-EL/YC-R610/DB-C/DB-A360;
[0049] f)选取过去一定时间段(如3个月)内所有故障数据按照前面方法构建属性信息条目,即每条故障拆为九个字段;可能产生上万级别的故障属性条目,针对所有属性条目进行文本聚类,可采用如DBSCAN/K-MEANS等算法进行。经过聚类运算将产生N类簇。每个类簇具有相似的特性,举例描述如下:
[0050] 类簇一:包含258条故障,特征表述为:
[0051] 交换机阻塞-5号端口-吞吐量较高-吞吐量增加30%到60%-丢包率较高-丢包率升高60%以上;
[0052] 类簇二:包含562条故障,特征表述为:
[0053] 交换机网络闪断-吞吐量降低60%以下-延迟较高-丢包率升高60%以上;
[0054] g)将以上各个类簇中含故障数大于M(M越大说明类簇越有效,可根据实际情况设定,存储于故障指标关联知识库内,简称为DB_FR,可使用关系型数据库存储,具体存储规则:
[0055] 故障指标关联知识库内每条存储条目由类簇编号/类簇包含故障数/三个性能指标(每个指标当前指标值区间编码/指标变化率区间编码两字段)/故障名称/故障位置共十个字段。
[0056] 所述故障指标关联知识库用于接收故障关联分析模块向其发送的数据,并将其所接收的数据按照关系型数据库存储规则进行存储;
[0057] 所述时序数据预测模块用于实时采集交换机所有端口的吞吐量、延迟及丢包率三个性能指标的数据,并将其所采集的数据利用ARIMA算法预测出下一分钟各个性能指标的值,并将吞吐量、延迟及丢包率三个性能指标的当前值和下一分钟预测值传送给故障实时预测模块;
[0058] 时序数据预测:
[0059] 针对于交换机所有端口的三个性能指标(吞吐量TT/延迟YC/丢包率DB)的实时数据(同为一分钟粒度的平均值),输入到时序数据预测模块,通过时序数据的常规预测算法(如ARIMA算法),预测出未来一分钟的各个性能指标的值;将三个性能指标的当前分钟值和下一分钟预测值,共计六个值传递给故障实时预测模块。
[0060] 所述故障实时预测模块用于识别性能指标的变化特征,并根据性能指标的变化特征在故障指标关联知识库内查找,发现匹配的存储条目,则取出存储条目的全部字段,进行可视化展示,其中“故障名称”和“故障位置”两个字段既可以作为即将发生(下一分钟)的故障,进行告警和通知,或结合自动化的应急手段进行故障规避;
[0061] 故障实时预测过程如下:
[0062] a)实时指标特征计算:获取时序数据预测模块传过来的三个性能指标共六个值,计算每个性能指标的当前指标值区间和变化率区间(方法同前面故障与性能指标的关联的关联过程中的步骤c)所述;
[0063] b)在步骤a)内已经将性能指标的变化特征识别出来,进而通过该特征去故障指标关联知识库(简称DB_FR)内查找,如果发现故障条目,则调取出对应故障条目的全部字段,进行可视化展示,其中“故障名称”和“故障位置”两个字段既可以作为即将发生(下一分钟)的故障,进行告警和通知,或结合自动化的应急手段进行故障规避。
[0064] 一种基于人工智能的交换机故障预测方法,包括如下步骤:
[0065] 步骤1:故障关联分析模块获取故障管理系统中的历史故障数据,并根据故障管理系统中的历史故障数据识别出交换机历次故障的发生位置、故障类别和故障发生前后N分钟内吞吐量、延迟及丢包率三个性能指标的变化规律之间的关系,得到故障属性信息条目,并对故障属性条目进行文本聚类,经过聚类后按照关系型数据库存储规则存储至故障指标关联知识库中,其中,1≤N≤10;
[0066] 其中,故障属性信息条目由故障名称、故障位置、故障时间、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间九个字段组成;
[0067] 其中,关系型数据库存储规则为故障指标关联知识库内每条存储条目由类簇编号、类簇包含故障数、故障名称、故障位置、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间共十个字段构成;
[0068] 步骤2:时序数据预测模块采集交换机所有端口的吞吐量、延迟及丢包率三个性能指标的实时数据,利用ARIMA算法预测出下一分钟各个性能指标的值,同时将吞吐量、延迟及丢包率三个性能指标的当前值和下一分钟预测值传送给故障实时预测模块;
[0069] 步骤3:故障实时预测模块接收时序数据预测模块向其传送的数据,计算每个性能指标的当前指标值区间和变化率区间,识别性能指标的变化特征,并根据性能指标的变化特征在故障指标关联知识库内查找,发现匹配的存储条目,则取出存储条目的全部字段,进行可视化展示,进行告警和通知或结合自动化的应急手段进行故障规避。
[0070] 本发明随着故障数据的不断积累,故障指标关联知识库的故障条目会越来越多,从而可以更高效的辅助运维人员预测出未来的故障。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈