首页 / 国际专利分类库 / 电学 / 电通信技术 / 无线通信网络 / 监督、监控或测试装置 / 一种虚掉电告警的检测处理方法及装置

一种虚掉电告警的检测处理方法及装置

申请号 CN201210014039.X 申请日 2012-01-17 公开(公告)号 CN103209430B 公开(公告)日 2017-10-27
申请人 中兴通讯股份有限公司; 发明人 杨玺坤;
摘要 本 发明 提供一种虚掉电告警的检测处理方法及装置,其中方法包括:根据基站上报的掉电告警信息创建或者更新网元的告警子池;遍历所述告警子池,判断出所述告警子池中的真实掉电告警或者虚掉电告警;根据基站上报的掉电告警恢复信息对所述告警子池中的真实掉电告警进行恢复或者屏蔽所述虚掉电告警,并将所述真实掉电告警以及所述掉电告警恢复信息上报至网管系统。本发明的方案可以对网管系统中所有网元进行统一监控,在基站产生虚掉电告警时可以有效的检测到并处理。
权利要求

1.一种虚掉电告警的检测处理方法,其特征在于,包括:
根据基站上报的掉电告警信息创建或者更新网元的告警子池;
遍历所述告警子池,判断出所述告警子池中的真实掉电告警或者虚掉电告警;
根据基站上报的掉电告警恢复信息对所述告警子池中的真实掉电告警进行恢复或者屏蔽所述虚掉电告警;
将所述真实掉电告警以及所述掉电告警恢复信息上报至网管系统;
所述遍历所述告警子池,判断出所述告警子池中的真实掉电告警或者虚掉电告警的步骤包括:遍历网元的告警子池,若所述网元的告警子池中存在掉电告警,则判断所述掉电告警在所述告警池中存在的当前时间-入池时间是否大于检测时间上界值Tmax,若大于,则从所述告警子池中删除此条掉电告警;否则,再判断所述当前时间-入池时间是否大于检测时间评价值Tfake,若大于,则认为此条掉电告警是真实的掉电告警;若小于,则进一步判断此条掉电告警的上报次数是否大于1,若小于1,则在所述告警子池中保留此条掉电告警,若大于1,则认为此条掉电告警是虚掉电告警。
2.根据权利要求1所述的虚掉电告警的检测处理方法,其特征在于,所述根据基站上报的掉电告警信息创建或者更新网元的告警子池的步骤包括:
接收基站上报的掉电告警信息;
从所述掉电告警中提取网元ID和告警码;
使用网元ID,在全局掉电告警索引池进行查询,若查询到了对应网元ID的网元的告警子池,则使用所述告警码在所述告警子池中查询所述告警子池中是否存在与所述告警码对应的掉电告警;
若存在与所述告警码对应的掉电告警,则将新上报的所述掉电告警覆盖子池中已经上报的掉电告警;若不存在与所述告警码对应的掉电告警,则保留所述掉电告警在所述告警子池中;
若没有查询对应网元ID的网元的告警子池,则保留此条掉电告警在为所述网元新建的告警子池中。
3.根据权利要求2所述的虚掉电告警的检测处理方法,其特征在于,所述将新上报的所述掉电告警覆盖子池中已经上报的掉电告警后还包括:
将此条掉电告警的计数器加1,并更新该条掉电告警的入池时间。
4.根据权利要求1所述的虚掉电告警的检测处理方法,其特征在于,
所述检测时间上界值Tmax=Tshut+Trestart,其中,所述Tshut为基站上报掉电告警后,执行运行状态记录并进行数据保存所需要的时间,Trestart为基站单板重新上电开始到上电完成所需要的时间;
所述检测时间评价值Tfake=Tshut+ΔT,其中,所述ΔT为小于Trestart的经验值。
5.根据权利要求4所述的虚掉电告警的检测处理方法,其特征在于,
所述Tmax=Max(Tshut1,Tshut2,……,Tshutn)+Max(Trestart1,Trestart2,……,Trestartn);
所述Tfake=Max(Tshut1,Tshut2,……,Tshutn)+ΔT;其中,n为正整数。
6.根据权利要求1所述的虚掉电告警的检测处理方法,其特征在于,所述根据基站上报的掉电告警恢复信息对所述告警子池中的真实掉电告警进行恢复的步骤包括:
接收基站上报的掉电告警恢复信息;
从掉电告警恢复信息中提取网元ID和告警码信息;
使用网元ID信息,对全局掉电告警索引池进行查询,判断是否查询到了对应网元ID的网元的告警子池,若没有查询到告警子池或者查询到告警子池但根据告警码在告警子池没有查询到该告警码对应的掉电告警,则恢复已经上报到网管的真实掉电告警;
若查询到该告警码对应的掉电告警,则删除此条掉电告警。
7.根据权利要求6所述的虚掉电告警的检测处理方法,其特征在于,所述删除此条掉电告警后还包括:
若所述告警子池为空,则释放告警子池空间。
8.根据权利要求1所述的虚掉电告警的检测处理方法,其特征在于,还包括:
延时Ts时间后,再次遍历所述告警子池。
9.一种虚掉电告警的检测处理装置,其特征在于,包括:
掉电告警接收模,用于根据基站上报的掉电告警信息创建或者更新网元的告警子池;
掉电告警检测模块,用于遍历所述告警子池,判断出所述告警子池中的真实掉电告警或者虚掉电告警;
掉电告警恢复模块,用于根据基站上报的掉电告警恢复信息对所述告警子池中的真实掉电告警进行恢复或者屏蔽所述虚掉电告警;
掉电告警上报模块,用于将所述真实掉电告警或者所述掉电告警恢复信息上报至网管系统;
所述掉电告警检测模块具体用于遍历网元的告警子池,若所述网元的告警子池中存在掉电告警,则判断所述掉电告警在所述告警池中存在的当前时间-入池时间是否大于检测时间上界值Tmax,若大于,则从所述告警子池中删除此条掉电告警;否则,再判断所述当前时间-入池时间是否大于检测时间评价值Tfake,若大于,则认为此条掉电告警是真实的掉电告警;若小于,则进一步判断此条掉电告警的上报次数是否大于1,若小于1,则在所述告警子池中保留此条掉电告警,若大于1,则认为此条掉电告警是虚掉电告警。
10.根据权利要求9所述的虚掉电告警的检测处理装置,其特征在于,所述掉电告警接收模块包括:
第一接收子模块,用于接收基站上报的掉电告警信息;
第一提取模块,用于从所述掉电告警中提取网元ID和告警码;
第一查询模块,用于使用网元ID,在全局掉电告警索引池进行查询,若查询到了对应网元ID的网元的告警子池,则调用第二查询模块,若没有查询对应网元ID的网元的告警子池,则保留此条掉电告警在为所述网元新建的告警子池中;
第二查询模块,用于使用所述告警码在所述告警子池中查询所述告警子池中是否存在与所述告警码对应的掉电告警;若存在与所述告警码对应的掉电告警,则将新上报的所述掉电告警覆盖子池中已经上报的掉电告警;若不存在与所述告警码对应的掉电告警,则保留所述掉电告警在所述告警子池中。
11.根据权利要求10所述的虚掉电告警的检测处理装置,其特征在于,所述掉电告警接收模块还包括:
更新模块,用于将此条掉电告警的计数器加1,并更新该条掉电告警的入池时间。
12.根据权利要求9所述的虚掉电告警的检测处理装置,其特征在于,
所述检测时间上界值Tmax=Tshut+Trestart,其中,所述Tshut为基站上报掉电告警后,执行运行状态记录并进行数据保存所需要的时间,Trestart为基站单板重新上电开始到上电完成所需要的时间;
所述检测时间评价值Tfake=Tshut+ΔT,其中,所述ΔT为小于Trestart的经验值。
13.根据权利要求9所述的虚掉电告警的检测处理装置,其特征在于,所述掉电告警恢复模块包括:
第二接收子模块,用于接收基站上报的掉电告警恢复信息;
第二提取模块,用于从掉电告警恢复信息中提取网元ID和告警码信息;
第三查询模块,用于使用网元ID信息,对全局掉电告警索引池进行查询,判断是否查询到了对应网元ID的网元的告警子池,若没有查询到告警子池或者查询到告警子池但根据告警码在告警子池没有查询到该告警码对应的掉电告警,则恢复之前已经上报到网管的真实掉电告警;若查询到该告警码对应的掉电告警,则删除此条掉电告警。

说明书全文

一种虚掉电告警的检测处理方法及装置

技术领域

[0001] 本发明涉及通信领域,特别是指一种虚掉电告警的检测处理方法及装置。

背景技术

[0002] 随着通信技术的飞速发展,基站产品无论是在软件系统研发还是在硬件制造工艺上,都有了非常大的提高。硬件方面,基站产品越来越向微型化发展,且在防淹,防雷等技术上都有了很大进步;软件方面,操作系统的运行更加稳定,在基站状态诊断,告警检测方面的机制更加完善和全面。在基站复位时,主控系统在断电之前,会对重要数据进行保存,对断电前的运行状态进行记录,并上报掉电告警给网管系统,以防止因为突然断电而造成无法上电等硬件损害。
[0003] 网管系统作为基站的操作维护中心,对基站实施配置管理,告警管理,性能管理,版本管理以及诊断管理等操作。在收到基站上报的掉电告警之后,网管系统将认为该基站处于不可用状态,并清除该基站的所有当前告警;同时,网管系统的其他一部分功能,也会因为基站处于不可用状态,而不再对此基站执行操作。直到基站重新上电成功,上报掉电告警恢复后,网管系统会认为该基站已恢复正常,所有对此基站的操作重新正常运行。
[0004] 随着无线通讯网络的普及,越来越多的城市和地区都实现了通讯网络的覆盖,基站产品也被逐渐架设于各种不同的环境中。部分环境由于电原因,在给基站供电过程中会出现电压电流不稳定。基站出于自我保护,会对外部电源的电压和电流进行检测,当电压和电流低至保证基站正常运行的值时,基站同样会对产生掉电告警,以提示基站供电出现问题,直到电压恢复时才上报恢复。但是,当电压不断波动时,就会导致基站频繁的上报掉电告警和恢复消息,而其本身并没有真的处于掉电状态,因此便出现不断虚报掉电告警的情况,我们称这种掉电告警为虚掉电告警。
[0005] 虚掉电告警对于网管的影响是非常大的,由于其特殊性,会欺骗网管系统,导致网管系统误判基站的运行状态,进而造成一系列与基站状态相关联的功能不能执行。并且,会导致正常存在的告警等重要数据被恢复掉,严重影响对基站的监控。如何很好的检测并处理虚掉电告警,是网管系统需要解决的重要问题。
[0006] 软件方面,由于网管软件往往承担的是上千个基站的长期管理和监控任务,因此,对软件的性能和体系结构以及部署方式都有严格的要求。如何很好的在网管系统中部署虚掉电告警的处理方案,使其不依赖网管系统而独立运行,并可以和网管系统正常通讯,更重要的,不会对网管系统的性能造成影响,是实现虚掉电告警检测方法需要考虑的关键问题。
[0007] 目前,在网管系统中,告警处理流程都相对统一。对于虚掉电告警这种特殊的告警,如何在不影响告警处理流程的基础上,对其实现检测和处理,并和告警处理流程很好地融合,也是实现方案中的一个关键点。
[0008] 最后,在虚掉电告警的判定问题上,目前只是依靠经验来判定。

发明内容

[0009] 本发明要解决的技术问题是提供一种虚掉电告警的检测处理方法及装置,可以对网管系统中所有网元进行统一监控,在某基站产生虚掉电告警时可以有效的检测到并处理,避免虚掉电告警影响网管系统,并可做到合理部署,独立运行,不增加网管系统的性能开销。
[0010] 为解决上述技术问题,本发明的实施例提供一种虚掉电告警的检测处理方法,包括:
[0011] 根据基站上报的掉电告警信息创建或者更新网元的告警子池;
[0012] 遍历所述告警子池,判断出所述告警子池中的真实掉电告警或者虚掉电告警;
[0013] 根据基站上报的掉电告警恢复信息对所述告警子池中的真实掉电告警进行恢复或者屏蔽所述虚掉电告警;
[0014] 将所述真实掉电告警以及掉电告警恢复信息上报至网管系统。
[0015] 其中,所述根据基站上报的掉电告警信息创建或者更新网元的告警子池的步骤包括:
[0016] 接收基站上报的掉电告警信息;
[0017] 从所述掉电告警中提取网元ID和告警码;
[0018] 使用网元ID,在全局掉电告警索引池进行查询,若查询到了对应网元ID的网元的告警子池,则使用所述告警码在所述告警子池中查询所述告警子池中是否存在与所述告警码对应的掉电告警;
[0019] 若存在与所述告警码对应的掉电告警,则将新上报的所述掉电告警覆盖子池中已经上报的掉电告警;若不存在与所述告警码对应的掉电告警,则保留所述掉电告警在所述告警子池中;
[0020] 若没有查询对应网元ID的网元的告警子池,则保留此条掉电告警在为所述网元新建的告警子池中。
[0021] 其中,所述将新上报的所述掉电告警覆盖子池中已经上报的掉电告警后还包括:
[0022] 将此条掉电告警的计数器加1,并更新该条掉电告警的入池时间。
[0023] 其中,所述遍历所述告警子池,判断出所述告警子池中的真实掉电告警或者虚掉电告警的步骤包括:
[0024] 遍历网元的告警子池,
[0025] 若所述网元的告警子池中存在掉电告警,则判断所述掉电告警在所述告警池中存在的当前时间-入池时间是否大于检测时间上界值Tmax,若大于,则从所述告警子池中删除此条掉电告警;否则,再判断所述当前时间-入池时间是否大于检测时间评价值Tfake,若大于,则认为此条掉电告警是真实的掉电告警;若小于,则进一步判断此条掉电告警的上报次数是否大于1,若小于1,则在所述告警子池中保留此条掉电告警,若大于1,则认为此条掉电告警是虚掉电告警。
[0026] 其中,所述检测时间上界值Tmax=Tshut+Trestart,其中,所述Tshut为基站上报掉电告警后,执行运行状态记录并进行数据保存所需要的时间,Trestart为基站单板重新上电开始到上电完成所需要的时间;
[0027] 所述检测时间评价值Tfake=Tshut+ΔT,其中,所述ΔT为小于Trestart的经验值。
[0028] 其中,所述Tmax=Max(Tshut1,Tshut2,……,Tshutn)+Max(Trestart1,Trestart2,……,Trestartn);
[0029] 所述Tfake=Max(Tshut1,Tshut2,……,Tshutn)+ΔT;其中,n为正整数。
[0030] 其中,所述根据基站上报的掉电告警恢复信息对所述告警子池中的真实掉电告警进行恢复的步骤包括:
[0031] 接收基站上报的掉电告警恢复信息;
[0032] 从掉电告警恢复信息中提取网元ID和告警码信息;
[0033] 使用网元ID信息,对全局掉电告警索引池进行查询,判断是否查询到了对应网元ID的网元的告警子池,若没有查询到告警子池或者查询到告警子池但根据告警码在告警子池没有查询到该告警码对应的掉电告警,则恢复之前已经上报到网管的掉电告警;
[0034] 若查询到该告警码对应的掉电告警,则删除此条掉电告警。
[0035] 其中,所述删除此条掉电告警后还包括:
[0036] 若所述告警子池为空,则释放告警子池空间。
[0037] 其中,上述方法还包括:
[0038] 延时Ts时间后,再次遍历所述告警子池。
[0039] 本发明的实施例还提供一种虚掉电告警的检测处理装置,包括:
[0040] 掉电告警接收模,用于根据基站上报的掉电告警信息创建或者更新网元的告警子池;
[0041] 掉电告警检测模块,用于遍历所述告警子池,判断出所述告警子池中的真实掉电告警或者虚掉电告警;
[0042] 掉电告警恢复模块,用于根据基站上报的掉电告警恢复信息对所述告警子池中的真实掉电告警进行恢复或者屏蔽所述虚掉电告警;
[0043] 掉电告警上报模块,用于将所述真实掉电告警以及所述掉电告警恢复信息上报至网管系统。
[0044] 其中,所述掉电告警接收模块包括:
[0045] 第一接收子模块,用于接收基站上报的掉电告警信息;
[0046] 第一提取模块,用于从所述掉电告警中提取网元ID和告警码;
[0047] 第一查询模块,用于使用网元ID,在全局掉电告警索引池进行查询,若查询到了对应网元ID的网元的告警子池,则调用第二查询模块,若没有查询对应网元ID的网元的告警子池,则保留此条掉电告警在为所述网元新建的告警子池中;
[0048] 第二查询模块,用于使用所述告警码在所述告警子池中查询所述告警子池中是否存在与所述告警码对应的掉电告警;若存在与所述告警码对应的掉电告警,则将新上报的所述掉电告警覆盖子池中已经上报的掉电告警;若不存在与所述告警码对应的掉电告警,则保留所述掉电告警在所述告警子池中。
[0049] 其中,所述掉电告警接收模块还包括:
[0050] 更新模块,用于将此条掉电告警的计数器加1,并更新该条掉电告警的入池时间。
[0051] 其中,所述掉电告警检测模块具体用于遍历网元的告警子池,若所述网元的告警子池中存在掉电告警,则判断所述掉电告警在所述告警池中存在的当前时间-入池时间是否大于检测时间上界值Tmax,若大于,则从所述告警子池中删除此条掉电告警;否则,再判断所述当前时间-入池时间是否大于检测时间评价值Tfake,若大于,则认为此条掉电告警是真实的掉电告警;若小于,则进一步判断此条掉电告警的上报次数是否大于1,若小于1,则在所述告警子池中保留此条掉电告警,若大于1,则认为此条掉电告警是虚掉电告警。
[0052] 其中,所述检测时间上界值Tmax=Tshut+Trestart,其中,所述Tshut为基站上报掉电告警后,执行运行状态记录并进行数据保存所需要的时间,Trestart为基站单板重新上电开始到上电完成所需要的时间;
[0053] 所述检测时间评价值Tfake=Tshut+ΔT,其中,所述ΔT为小于Trestart的经验值。
[0054] 其中,所述掉电告警恢复模块包括:
[0055] 第二接收子模块,用于接收基站上报的掉电告警恢复信息;
[0056] 第二提取模块,用于从掉电告警恢复信息中提取网元ID和告警码信息;
[0057] 第三查询模块,用于使用网元ID信息,对全局掉电告警索引池进行查询,判断是否查询到了对应网元ID的网元的告警子池,若没有查询到告警子池或者查询到告警子池但根据告警码在告警子池没有查询到该告警码对应的掉电告警,则恢复之前已经上报到网管的掉电告警;若查询到该告警码对应的掉电告警,则删除此条掉电告警。
[0058] 本发明的上述技术方案的有益效果如下:
[0059] 上述方案中,通过根据基站上报的掉电告警信息创建或者更新网元的告警子池,遍历所述告警子池,判断出所述告警子池中的真实掉电告警或者虚掉电告警,并根据基站上报的掉电告警恢复信息对所述告警子池中的真实掉电告警进行恢复或者屏蔽所述虚掉电告警,并将所述真实掉电告警以及所述掉电告警恢复信息上报至网管系统;可以对网管系统中所有网元进行统一监控,在某基站产生虚掉电告警时可以有效的检测到并处理,避免虚掉电告警影响网管系统,从而可以保证网管系统不受虚掉电告警的干扰,并可做到合理部署,独立运行,不增加网管系统的性能开销。附图说明
[0060] 图1为本发明的实施例虚掉电告警的检测处理方法的总流程示意图;
[0061] 图2为本发明的实施例对基站上报的掉电告警的处理方法流程示意图;
[0062] 图3为本发明的实施例检测和处理虚掉电告警的流程示意图;
[0063] 图4为本发明的实施例处理告警恢复的流程示意图;
[0064] 图5为本发明的虚掉电告警的检测处理装置结构示意图。

具体实施方式

[0065] 为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
[0066] 如图1所示,本发明的实施例提供一种虚掉电告警的检测处理方法,包括:
[0067] 步骤11,根据基站上报的掉电告警信息创建或者更新网元的告警子池;
[0068] 步骤12,遍历所述告警子池,判断出所述告警子池中的真实掉电告警或者虚掉电告警;
[0069] 步骤13,根据基站上报的掉电告警恢复信息对所述告警子池中的真实掉电告警进行恢复或者屏蔽所述虚掉电告警;
[0070] 步骤14,将所述真实掉电告警以及所述掉电告警恢复信息上报至网管系统。
[0071] 该实施例通过根据基站上报的掉电告警信息创建或者更新网元的告警子池,遍历所述告警子池,判断出所述告警子池中的真实掉电告警或者虚掉电告警,并根据基站上报的掉电告警恢复信息对所述告警子池中的真实掉电告警进行恢复或者屏蔽所述虚掉电告警,并将所述真实掉电告警以及所述掉电告警恢复信息上报至网管系统;可以对网管系统中所有网元进行统一监控,在某基站产生虚掉电告警时可以有效的检测到并处理,避免虚掉电告警影响网管系统,从而可以保证网管系统不受虚掉电告警的干扰,并可做到合理部署,独立运行,不增加网管系统的性能开销。
[0072] 在本发明的另一实施例中,包括上述步骤11-14的基础上,其中,步骤11包括:
[0073] 接收基站上报的掉电告警信息;
[0074] 从所述掉电告警中提取网元ID和告警码;
[0075] 使用网元ID,在全局掉电告警索引池进行查询,若查询到了对应网元ID的网元的告警子池,则使用所述告警码在所述告警子池中查询所述告警子池中是否存在与所述告警码对应的掉电告警;
[0076] 若存在与所述告警码对应的掉电告警,则将新上报的所述掉电告警覆盖子池中已经上报的掉电告警;若不存在与所述告警码对应的掉电告警,则保留所述掉电告警在所述告警子池中;
[0077] 若没有查询对应网元ID的网元的告警子池,则保留此条掉电告警在为所述网元新建的告警子池中。
[0078] 进一步地,将新上报的所述掉电告警覆盖子池中已经上报的掉电告警后还包括:
[0079] 将此条掉电告警的计数器加1,并更新该条掉电告警的入池时间。
[0080] 具体的,如图2所示,该流程包括:
[0081] 步骤21:接收到基站上报的掉电告警信息;
[0082] 步骤22:从告警信息中提取网元ID和告警码信息,供后续检索使用;
[0083] 步骤23:使用网元ID信息,对全局掉电告警索引池进行查询,并返回查询结果;
[0084] 步骤24:判断是否查询到了对应网元ID的网元掉电告警子池;
[0085] 步骤25:若查询到,则使用告警码作为键值在告警子池中进行查询;
[0086] 步骤26:判断告警子池中是否存在当前告警码的掉电告警;
[0087] 步骤27:若查询到,则表示之前已经上报了相同的掉电告警,将新上报的告警覆盖子池中旧的掉电告警;
[0088] 步骤28:覆盖后,将此掉电告警的计数器加1,表示相同掉电告警上报次数又增加了一次,作为后续检测虚掉电告警的标准;
[0089] 步骤29:计数器增加后,要更新入池时间,表示以当前新入池的掉电告警为准,供后续判断掉电告警使用;
[0090] 步骤30:若没有查询到对应网元ID的告警子池,则申请以此网元ID为键值的子池空间;
[0091] 步骤31:若没有查询到对应网元ID的告警子池,或者查询到但告警子池中没有对应当前检索告警码的掉电告警,则表示此掉电告警从未上报或者已经从池中清除,保存上报的掉电告警。
[0092] 其中,全局掉电告警索引池采用二级索引结构,将网元ID作为一级索引,构建网元告警子池,二级索引采用告警码,存储基站上报的掉电告警信息,入池时间,更新告警计数。第一级索引划分,使各网元之间的数据信息相互独立,便于对不同网元执行不同操作,二级索引以告警码为关键字,保证告警信息的唯一性,可扩展性。
[0093] 在本发明的另一实施例中,包括上述步骤11-14的基础上,其中,步骤12包括:
[0094] 遍历网元的告警子池,
[0095] 若所述网元的告警子池中存在掉电告警,则判断所述掉电告警在所述告警池中存在的当前时间-入池时间是否大于检测时间上界值Tmax,若大于,则从所述告警子池中删除此条掉电告警;否则,再判断所述当前时间-入池时间是否大于检测时间评价值Tfake,若大于,则认为此条掉电告警是真实的掉电告警;若小于,则进一步判断此条掉电告警的上报次数是否大于1,若小于1,则在所述告警子池中保留此条掉电告警,若大于1,则认为此条掉电告警是虚掉电告警。
[0096] 其中,所述检测时间上界值Tmax=Tshut+Trestart,其中,所述Tshut为基站上报掉电告警后,执行运行状态记录并进行数据保存所需要的时间,Trestart为基站单板重新上电开始到上电完成所需要的时间;
[0097] 所述检测时间评价值Tfake=Tshut+ΔT,其中,所述ΔT为小于Trestart的经验值。
[0098] 进一步地,所述Tmax=Max(Tshut1,Tshut2,……,Tshutn)+Max(Trestart1,Trestart2,……,Trestartn);
[0099] 所述Tfake=Max(Tshut1,Tshut2,……,Tshutn)+ΔT;其中,n为正整数。
[0100] 如果一个基站上报的掉电告警是真实的掉电告警,则再上报掉电告警之后,在小于Tshut的时间段内,不再有掉电告警或者掉电告警恢复上报,否则,则认为这个掉电告警为虚掉电告警。为包含临界值,设定检测掉电告警的评价值Tfake为:Tfake=Tshut+ΔT,其中ΔT为一个小于Trestart的经验值。对于Tshut和Trestart的取值,通过实验获得,测试了若干次基站重启的时间,经过统计选取其概率最大的时间段的最大值,对于个别时间最短或最长的样本,认为其不具一般性而删除。假设进行样本采集的实验次数为n,则最后检测掉电告警的评价值为:Tfake=Max(Tshut1,Tshut2,……,Tshutn)+ΔT,因此,如果当前需要判断的掉电告警在池中时间大于Tfake,可以认为其为真实的掉电告警,并将其上报给网管系统。当掉电告警产生后,如果基站重新上电完成后仍没有被恢复,则此掉电告警已失效。规定检测时间的上界Tmax为:Tmax=Tshut+Trestart,也就是说,超过这个时间如果仍然没有恢复掉电告警,会认为网元已经完成了复位,那么此条掉电告警不应再上报,需要丢弃。最终得出:
[0101] Tmax=Max(Tshut1,Tshut2,……,Tshutn)+Max(Trestart1,Trestart2,……,Trestartn),用这些评价值作为检测处理虚掉电告警的标准。
[0102] 具体地,如图3所示,检测和处理虚掉电告警包括:
[0103] 步骤41:对索引池中所有网元的告警子池进行遍历;
[0104] 步骤42:判断每个网元的告警子池中是否存在掉电告警,若索引池为空,则跳转至步骤53;
[0105] 步骤43:判断当前时间-入池时间是否大于Tmax,若大于则跳转至步骤48;
[0106] 步骤44:若当前时间-入池时间小于Tmax,且某子池中存在掉电告警,则判断此掉告警当前时间-入池时间是否大于Tfake,若小于,则跳转至步骤50;
[0107] 步骤45:,若当前时间-入池时间大于Tfake,则可判断此掉电告警为真实的掉电告警;
[0108] 步骤46:从索引池该网元对应子池中删除此条已判断为真实的掉电告警;
[0109] 步骤47:上报此条掉电告警至网管的告警管理模块;
[0110] 步骤48:若经过步骤43判断已大于Tmax,则此掉电告警已经超过上报时间;
[0111] 步骤49:从索引池该网元对应子池中删除此条已经超过上报时间的掉电告警;
[0112] 步骤50:如果经步骤44判断不大于Tfake,则判断当前告警计数是否大于1,若不大于则跳转至步骤52;
[0113] 步骤51:若当前告警计数已经大于1,则检测出此掉电告警为虚掉电告警;
[0114] 步骤52:在索引池中保留此掉电告警,等待下次轮询判断其是否为真实掉电告警;
[0115] 步骤53:上述流程执行全部结束后,延迟时间Ts,对索引池进行下一次轮询。
[0116] 该实施例中,检测过程中,采用延时轮询的机制,对索引池中所有网元的告警子池进行轮询,若满足条件:当前时间-入池时间>Tfake,则可以判定其为真实掉电告警,通知网管系统;若当前时间-入池时间Tfake的判定条件,进行上报;若当前时间-入池时间>Tmax,则直接将此条掉电告警从池中删除,不上报给网管系统。
[0117] 在本发明的另一实施例中,包括上述步骤11-14的基础上,其中,步骤13包括:
[0118] 接收基站上报的掉电告警恢复信息;
[0119] 从掉电告警恢复信息中提取网元ID和告警码信息;
[0120] 使用网元ID信息,对全局掉电告警索引池进行查询,判断是否查询到了对应网元ID的网元的告警子池,若没有查询到告警子池或者查询到告警子池但根据告警码在告警子池没有查询到该告警码对应的掉电告警,则恢复之前可能已经上报到网管的掉电告警;
[0121] 若查询到该告警码对应的掉电告警,则删除此条掉电告警。
[0122] 进一步地,删除此条掉电告警后还包括:
[0123] 若所述告警子池为空,则释放告警子池空间。
[0124] 具体地,如图4所示,对于基站上报的掉电告警恢复信息,其处理方法流程如下:
[0125] 步骤61:接收到基站上报的掉电告警恢复信息;
[0126] 步骤62:从告警恢复信息中提取网元ID和告警码信息,供后续检索使用;
[0127] 步骤63:使用网元ID信息,对全局掉电告警索引池进行查询,并返回查询结果;
[0128] 步骤64:判断是否查询到了对应网元ID的网元掉电告警子池,若没有查询到,则直接跳转至步骤70;
[0129] 步骤65:若查询到,则使用告警码作为键值在子池中进行查询;
[0130] 步后66:判断子池中是否存在当前告警码的掉电告警,若不存在,则直接跳转至步骤70;
[0131] 步骤67:若查询到,则删除此条告警,说明此掉电告警在没有上报之前就已经被基站上报的掉电告警恢复信息所恢复;
[0132] 步骤68:删除后,判断告警子池是否已为空,若不为空,则直接跳转至步骤70;
[0133] 步骤69:若已空,则释放告警子池空间,保证索引池的空间使用可以得到回收;告警子池使用弹性的内存分配,只有存在掉电告警的基站子池将会分配空间,在基站子池中掉电告警因出池或恢复被清空后,会对子池的空间进行回收,以此种策略保证掉电告警池不产生内存泄漏
[0134] 步骤70:上报掉电告警恢复信息至网管告警模块,恢复之前可能已经上报到网管的真实掉电告警;
[0135] 现有的网管系统中,并没有针对虚掉电告警的检测和处理技术。由于外部电源的波动,对于基站硬件来说是不可控的,因此产生虚掉电告警的可能性很大。由于虚掉电告警产生的网管系统一系列例如告警恢复,以及与基站状态相关操作的变化等,会在实际应用中,对用户造成很大影响。本发明提供的虚掉电告警检测处理方法,很好的解决了这个问题。
[0136] 现有的网管系统中,对于告警的操作往往都采用统一流程,入告警上报,恢复以及告警同步等,对于各网元的操作也是如此,在保证统一流程的同时,对具有特殊性告警的差异化处理支持不够。本发明在不破坏告警操作的整体流程的基础上,实现了对掉电告警这种特殊告警的特殊处理,基于多级索引的数据结构还可以针对不同网元的掉电告警进行差异化处理,使得网管系统管理各基站之间的独立性更强。
[0137] 现有的网管系统中,对于一些评价标准的制定,如超时时间,握手次数等,往往采用人为设置经验值的方式。本发明所提供的评价标准,是经过多次实验,去除极端值的样本,筛选符合统计概率的数据进行计算得出,这为本发明在运行过程中对数据判定提供了较为科学的依据。
[0138] 如图5所示,本发明的实施例还提供一种虚掉电告警的检测处理装置,包括:
[0139] 掉电告警接收模块,用于根据基站上报的掉电告警信息创建或者更新网元的告警子池;
[0140] 掉电告警检测模块,用于遍历所述告警子池,判断出所述告警子池中的真实掉电告警或者虚掉电告警;
[0141] 掉电告警恢复模块,用于根据基站上报的掉电告警恢复信息对所述告警子池中的真实掉电告警进行恢复或者屏蔽所述虚掉电告警;
[0142] 掉电告警上报模块,用于将所述真实掉电告警以及所述掉电告警恢复信息上报至网管系统。
[0143] 该实施例中,当网管系统接收到其管理的某个基站上报的掉电告警后,首先会由掉电告警接收模块将该掉电告警发送至掉电告警检测模块进行处理,由该检测模块判断出是真实掉电告警或者是虚掉电告警,根据基站上报的掉电告警恢复信息对所述告警子池中的真实掉电告警进行恢复或者屏蔽所述虚掉电告警,并将所述真实掉电告警以及所述掉电告警恢复信息上报至网管系统;可以对网管系统中所有网元进行统一监控,在某基站产生虚掉电告警时可以有效的检测到并处理,避免虚掉电告警影响网管系统,并可做到合理部署,独立运行,不增加网管系统的性能开销。
[0144] 进一步地,上述掉电告警接收模块包括:
[0145] 第一接收子模块,用于接收基站上报的掉电告警信息;
[0146] 第一提取模块,用于从所述掉电告警中提取网元ID和告警码;
[0147] 第一查询模块,用于使用网元ID,在全局掉电告警索引池进行查询,若查询到了对应网元ID的网元的告警子池,则调用第二查询模块,若没有查询对应网元ID的网元的告警子池,则保留此条掉电告警在为所述网元新建的告警子池中;
[0148] 第二查询模块,用于使用所述告警码在所述告警子池中查询所述告警子池中是否存在与所述告警码对应的掉电告警;若存在与所述告警码对应的掉电告警,则将新上报的所述掉电告警覆盖子池中已经上报的掉电告警;若不存在与所述告警码对应的掉电告警,则保留所述掉电告警在所述告警子池中。
[0149] 优选的,掉电告警接收模块还可以包括:
[0150] 更新模块,用于将此条掉电告警的计数器加1,并更新该条掉电告警的入池时间。
[0151] 其中,所述掉电告警检测模块具体用于遍历网元的告警子池,若所述网元的告警子池中存在掉电告警,则判断所述掉电告警在所述告警池中存在的当前时间-入池时间是否大于检测时间上界值Tmax,若大于,则从所述告警子池中删除此条掉电告警;否则,再判断所述当前时间-入池时间是否大于检测时间评价值Tfake,若大于,则认为此条掉电告警是真实的掉电告警;若小于,则进一步判断此条掉电告警的上报次数是否大于1,若小于1,则在所述告警子池中保留此条掉电告警,若大于1,则认为此条掉电告警是虚掉电告警。
[0152] 其中,所述检测时间上界值Tmax=Tshut+Trestart,其中,所述Tshut为基站上报掉电告警后,执行运行状态记录并进行数据保存所需要的时间,Trestart为基站单板重新上电开始到上电完成所需要的时间;
[0153] 所述检测时间评价值Tfake=Tshut+ΔT,其中,所述ΔT为小于Trestart的经验值。
[0154] 所述Tmax=Max(Tshut1,Tshut2,……,Tshutn)+Max(Trestart1,Trestart2,……,Trestartn);
[0155] 所述Tfake=Max(Tshut1,Tshut2,……,Tshutn)+ΔT;其中,n为正整数。
[0156] 其中,所述掉电告警恢复模块包括:
[0157] 第二接收子模块,用于接收基站上报的掉电告警恢复信息;
[0158] 第二提取模块,用于从掉电告警恢复信息中提取网元ID和告警码信息;
[0159] 第三查询模块,用于使用网元ID信息,对全局掉电告警索引池进行查询,判断是否查询到了对应网元ID的网元的告警子池,若没有查询到告警子池或者查询到告警子池但根据告警码在告警子池没有查询到该告警码对应的掉电告警,则恢复之前可能已经上报到网管的掉电告警;若查询到该告警码对应的掉电告警,则删除此条掉电告警;并进一步用于在所述告警子池为空时,释放告警子池空间
[0160] 本发明提出的虚掉电告警检测处理装置,以模块形式实现,其运行状态由自身控制,网管系统在初始化时将其启动,之后不再驱动此模块,将虚掉电告警的处理完全交由此模块。
[0161] 在体系结构上,该装置没有部署在网管系统服务器端的管理应用功能层面中,而可以部署在网元适配功能层面中,优势在于降低管理应用层作为网管运行控制核心的开销,另外由于网元适配层面更接近网元,使得对消息的应对更为及时,处理更为迅速。
[0162] 目前的网管系统,对于告警方面的处理都在告警管理模块中实现,对于复杂的告警过滤,告警屏蔽,告警归并以及告警的数据库存取功能,全部在管理应用层实现,这种实现模式将网管的功能集中化,但会导致管理应用层的规模过于庞大,运行效率受到影响。本发明以模块形式实现,不需告警管理对其进行驱动,可以独立运行,和告警管理功能形成协作的模式,降低了和告警管理模块的耦合度。另外,本发明实现于更接近基站一侧的网元适配层,对基站上报的告警进行接收和处理更为迅速,减轻了管理应用层的工作负荷,使网管系统各层面的比重更为合理。
[0163] 需要说明的是:该装置是与上述方法相对应的装置,上述方法中所有实现实施例均适用于该装置实施例中,也能达到相同的技术效果。
[0164] 以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
QQ群二维码
意见反馈