一种业务系统的巡检方法及装置

申请号 CN202011123698.8 申请日 2020-10-20 公开(公告)号 CN112258683B 公开(公告)日 2022-07-01
申请人 云账户技术(天津)有限公司; 发明人 任兵; 王兆坤; 邹永强; 杨晖;
摘要 本 发明 提供一种业务系统的巡检方法及装置,该方法包括:对筛选出的边界场景进行配置;根据所述边界场景的配置,采用 指定 的巡检方式对所述边界场景进行巡检;若巡检出所述边界场景异常,进行巡检问题告警。本发明中,解决了当系统发生 稳定性 问题时,可以预先发现问题,在造成损失前解决问题,避免造成损失后的大量善后工作,确保系统在关键的边界场景下的运行稳定性。
权利要求

1.一种业务系统的巡检方法,其特征在于,包括:
对筛选出的边界场景进行配置;所述边界场景包括以下至少一项:系统峰值场景、系统边界场景、业务边界场景、关键功能、敏感操作;被筛选出的边界场景是针对系统峰值场景、系统边界场景、业务边界场景、关键功能、敏感操作,通过对系统的业务和影响进行巡检必要性分析,筛选出要巡检的场景以及针对各个场景设计巡检方式;
根据所述边界场景的配置,采用指定的巡检方式对所述边界场景进行巡检;对边界场景的配置涉及描述具体场景数据特点、场景触发方式以及该场景发生异常时对应的告警策略;
若巡检出所述边界场景异常,进行巡检问题告警;
所述进行巡检问题告警包括:
若巡检出所述边界场景异常,则启用单独的通知通道或高优先级的通知通道进行告警,通知关注人进行异常维护处理,并记录告警次数;
若所述关注人未在指定时间进行异常维护处理,则再次启用单独的通知通道或高优先级的通知通道进行告警,通知关注人进行异常维护处理,直至异常场景被处理;所述指定时间随告警次数的增加而减少。
2.根据权利要求1所述的业务系统的巡检方法,其特征在于,所述进行巡检问题告警还包括:
创建工单,并对工单的处理时间进行监控。
3.根据权利要求1所述的业务系统的巡检方法,其特征在于,所述进行巡检问题告警还包括:
若所述关注人未在指定时间进行异常维护处理或进行巡检问题告警次数达到阈值时,则再次启用单独的通知通道或高优先级的通知通道向所述关注人的上一级进行告警。
4.根据权利要求1所述的业务系统的巡检方法,其特征在于,
所述巡检包括:查询类巡检和修改类巡检;
对筛选出的边界场景进行配置包括:
所述查询类巡检的配置采用线上数据,所述线上数据包括:价值客户和/或关键查询类用户数据;
所述修改类巡检的配置采用构造虚拟账户和/或虚拟订单的方式。
5.根据权利要求1所述的业务系统的巡检方法,其特征在于,
所述巡检方式包括以下至少一项:http请求巡检、接口调用巡检、特定条件下的系统巡检。
6.一种业务系统的巡检装置,其特征在于,包括:
配置模,用于对筛选出的边界场景进行配置;所述边界场景包括以下至少一项:系统峰值场景、系统边界场景、业务边界场景、关键功能、敏感操作;被筛选出的边界场景是针对系统峰值场景、系统边界场景、业务边界场景、关键功能、敏感操作,通过对系统的业务和影响力进行巡检必要性分析,筛选出要巡检的场景以及针对各个场景设计巡检方式;
巡检模块,用于根据所述边界场景的配置,采用指定的巡检方式对所述边界场景进行巡检;对边界场景的配置涉及描述具体场景数据特点、场景触发方式以及该场景发生异常时对应的告警策略;
告警模块,若巡检出所述边界场景异常,进行巡检问题告警;所述告警模块包括:
第一子处理模块,用于若巡检出所述边界场景异常,则启用单独的通知通道或高优先级的通知通道进行告警,通知关注人进行异常维护处理,并记录告警次数;
若所述关注人未在指定时间进行异常维护处理,则再次启用单独的通知通道或高优先级的通知通道进行告警,通知关注人进行异常维护处理,直至异常场景被处理;所述指定时间随告警次数的增加而减少。
7.根据权利要求6所述的业务系统的巡检装置,其特征在于,所述告警模块还包括:
第二子处理模块,用于创建工单,并对工单的处理时间进行监控。
8.根据权利要求6所述的业务系统的巡检装置,其特征在于,所述告警模块还包括:
第三子处理模块,用于若所述关注人未在指定时间进行异常维护处理或进行巡检问题告警次数达到阈值时,则再次启用单独的通知通道或高优先级的通知通道向所述关注人的上一级进行告警。
9.一种服务器,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1‑5所述的业务系统的巡检方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1‑5所述的业务系统的巡检方法的步骤。

说明书全文

一种业务系统的巡检方法及装置

技术领域

[0001] 本发明涉及网络信息领域,尤其涉及一种业务系统的巡检方法及装置。

背景技术

[0002] 对于软件系统来说,在生产环境严密复杂流程下,存在很多极端场景和边界场景,这些场景下的系统表现,往往就是系统的真实服务能另一个重要表现;如何实时的评估和全面的观测系统的真实服务能力,是软件系统的一个基础问题。
[0003] 系统中的峰值场景或边界场景,不同于系统中的高频通用场景,在系统中出现的几率较低,事后监控的方式,往往滞后太多,并且很容易被其他监控信息淹没;在业务应用中,很多峰值条件或临界条件,往往有很重大的业务影响,需要特别关注。如极高权限用户操作系统时的系统响应;系统资源占用高峰阶段,关键功能的服务能力;重大金额订单的处理时效等等;一旦出现线上问题,及时进行事后告警非常重要;极端场景下的系统指标正常,也保证了常态场景下的系统稳定。

发明内容

[0004] 本发明提供一种业务系统的巡检方法及装置,用于解决当系统发生稳定性问题时,可以预先发现问题,在造成损失前解决问题,避免造成损失后的大量善后工作,确保系统在关键的边界场景下的运行稳定性的问题。
[0005] 为了解决上述问题,本发明是这样实现的:
[0006] 第一方面,本发明实施例提供了一种业务系统的巡检方法,包括:
[0007] 对筛选出的边界场景进行配置;
[0008] 根据所述边界场景的配置,采用指定的巡检方式对所述边界场景进行巡检;
[0009] 若巡检出所述边界场景异常,进行巡检问题告警。
[0010] 可选的,所述进行巡检问题告警包括:
[0011] 若巡检出所述边界场景异常,则启用单独的通知通道或高优先级的通知通道进行告警,通知关注人进行异常维护处理,并记录告警次数;
[0012] 若所述关注人未在指定时间进行异常维护处理,则再次启用单独的通知通道或高优先级的通知通道进行告警,通知关注人进行异常维护处理,直至异常场景被处理;所述指定时间随告警次数的增加而减少。
[0013] 可选的,所述进行巡检问题告警还包括:
[0014] 创建工单,并对工单的处理时间进行监控。
[0015] 可选的,所述进行巡检问题告警还包括:
[0016] 若所述关注人未在指定时间进行异常维护处理或进行巡检问题告警次数达到阈值时,则再次启用单独的通知通道或高优先级的通知通道向所述关注人的上一级进行告警。
[0017] 可选的,所述边界场景包括以下至少一项:系统峰值场景、系统边界场景、业务边界场景、关键功能、敏感操作。
[0018] 可选的,所述巡检包括:查询类巡检和修改类巡检;
[0019] 对筛选出的边界场景进行配置包括:
[0020] 所述查询类巡检的配置采用线上数据,所述线上数据包括:价值客户和/或关键查询类用户数据;
[0021] 所述修改类巡检的配置采用构造虚拟账户和/或虚拟订单的方式。
[0022] 可选的,所述巡检方式包括以下至少一项:http请求巡检、接口调用巡检、特定条件下的系统巡检。
[0023] 第二方面,本发明实施例提供了一种业务系统的巡检装置,包括:
[0024] 配置模,用于对所述边界场景进行配置;
[0025] 巡检模块,用于根据所述边界场景的配置,采用指定的巡检方式对所述边界场景进行巡检;
[0026] 告警模块,用于若巡检出所述边界场景异常,进行巡检问题告警。
[0027] 可选的,所述告警模块包括:
[0028] 第一子处理模块,用于若巡检出所述边界场景异常,则启用单独的通知通道或高优先级的通知通道进行告警,通知关注人进行异常维护处理,并记录告警次数;
[0029] 若所述关注人未在指定时间进行异常维护处理,则再次启用单独的通知通道或高优先级的通知通道进行告警,通知关注人进行异常维护处理,直至异常场景被处理;所述指定时间随告警次数的增加而减少。
[0030] 可选的,所述告警模块还包括:
[0031] 第二子处理模块,用于创建工单,并对工单的处理时间进行监控。
[0032] 可选的,所述告警模块还包括:
[0033] 第三子处理模块,用于若所述关注人未在指定时间进行异常维护处理或进行巡检问题告警次数达到阈值时,则再次启用单独的通知通道或高优先级的通知通道向所述关注人的上一级进行告警。
[0034] 第三方面,提供了一种服务器,该服务器包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的业务系统的巡检方法的步骤。
[0035] 第四方面,提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的业务系统的巡检方法的步骤。
[0036] 本发明实施例中,通过对边界场景的自动巡检,主动观测系统的响应能力,及时的暴露和解决系统的问题,当系统发生稳定性问题时,可以预先发现问题,在造成损失前解决问题,避免造成损失后的大量善后工作,确保系统在关键的边界场景下的运行稳定性,同时当巡检的边界场景设计非常合理时,可以保证一般场景下系统运行更加稳定,巡检的结果也可以作为一种系统实时稳定性的展示窗口。附图说明
[0037] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0038] 图1为本发明实施例提供的一种业务系统的巡检方法的流程图
[0039] 图2为本发明实施例提供的一种业务系统的巡检装置的架构图;
[0040] 图3为本发明实施例提供的一种服务器架构图。

具体实施方式

[0041] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
[0042] 除非另作定义,本发明中使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也相应地改变。
[0043] 请参考图1,本发明实施例提供了一种业务系统的巡检方法,包括:
[0044] 步骤11:对筛选出的边界场景进行配置;
[0045] 步骤12:根据所述边界场景的配置,采用指定的巡检方式对所述边界场景进行巡检;
[0046] 步骤13:若巡检出所述边界场景异常,进行巡检问题告警。
[0047] 本发明实施例中,步骤11中被筛选出的边界场景是针对系统峰值场景、系统边界场景、业务边界场景(如金额巨大的订单)、关键功能、敏感操作等若干场景通过对系统的业务和影响力进行巡检必要性分析,筛选出要巡检的场景以及针对各个场景设计巡检方式;步骤12中对边界场景的配置涉及描述具体场景数据特点、场景触发方式以及该场景发生异常时对应的告警策略。
[0048] 本发明实施例中,通过对边界场景的自动巡检,主动观测系统的响应能力,及时的暴露和解决系统的问题,当系统发生稳定性问题时,可以预先发现问题,在造成损失前解决问题,确保系统在关键的边界场景下的运行稳定性。
[0049] 本发明实施例中,可选的,所述进行巡检问题告警包括:
[0050] 若巡检出所述边界场景异常,则启用单独的通知通道或高优先级的通知通道进行告警,通知关注人进行异常维护处理,并记录告警次数;
[0051] 若所述关注人未在指定时间进行异常维护处理,则再次启用单独的通知通道或高优先级的通知通道进行告警,通知关注人进行异常维护处理,直至异常场景被处理;所述指定时间随告警次数的增加而减少。
[0052] 所述进行巡检问题告警还包括:
[0053] 若巡检出所述边界场景异常,则启用单独的通知通道或高优先级的通知通道进行告警,通知关注人进行异常维护处理,并记录告警次数;同时创建工单,并对工单的处理时间进行监控。
[0054] 所述进行巡检问题告警还包括:
[0055] 若巡检出所述边界场景异常,则启用单独的通知通道或高优先级的通知通道进行告警,通知关注人进行异常维护处理,并记录告警次数;
[0056] 若所述关注人未在指定时间进行异常维护处理或进行巡检问题告警次数达到阈值时,则再次启用单独的通知通道或高优先级的通知通道向所述关注人的上一级进行告警。
[0057] 本发明实施例中,上述告警方式根据巡检出问题的优先级进行选择,告警文案和告警通道(企业微信、短信、拨打电话)在系统中预先设置好,当出现问题需要告警时根据对应异常时自动进行选择并告警。
[0058] 本发明实施例中,可选的,所述边界场景包括以下至少一项:系统峰值场景、系统边界场景、业务边界场景、关键功能、敏感操作。
[0059] 本发明实施例中的系统峰值场景,如:高峰时刻系统的响应指标;系统边界场景,如:高权限用户和用巨量订单的价值客户;业务边界场景,如:金额巨大的订单。
[0060] 本发明实施例中,可选的,所述巡检包括:查询类巡检和修改类巡检;
[0061] 对筛选出的边界场景进行配置包括:
[0062] 所述查询类巡检的配置采用线上数据,所述线上数据包括:价值客户和/或关键查询类用户数据;
[0063] 所述修改类巡检的配置采用构造虚拟账户和/或虚拟订单的方式。
[0064] 本发明实施例中,所述修改类巡检中为巡检构造用于测试的虚拟账户,用该虚拟账户的数据检验系统的运行情况,不影响其他账户,与真实数据进行隔离;同时也可周期性的通过自动化脚本进行数据准备,以供巡检请求时操作使用。
[0065] 本发明实施例中,可选的,所述巡检方式包括以下至少一项:http请求巡检、接口调用巡检、特定条件下的系统巡检。
[0066] 本发明实施例中,所述http请求巡检采用curl命令;所述接口调用巡检可使用定时任务模拟;所述特定条件下的系统巡检可自定义触发条件,条件满足时开始场景模拟。
[0067] 本发明实施例中,通过对边界场景的自动巡检,主动观测系统的响应能力,及时的暴露和解决系统的问题,当系统发生稳定性问题时,可以预先发现问题,在造成损失前解决问题,避免造成损失后的大量善后工作,确保系统在关键的边界场景下的运行稳定性,同时当巡检的边界场景设计非常合理时,可以保证一般场景下系统运行更加稳定,巡检的结果也可以作为一种系统实时稳定性的展示窗口。
[0068] 请参考图2,本发明实施例提供了一种业务系统的巡检装置,包括:
[0069] 配置模块21,用于对所述边界场景进行配置;
[0070] 巡检模块22,用于根据所述边界场景的配置,采用指定的巡检方式对所述边界场景进行巡检;
[0071] 告警模块23,用于若巡检出所述边界场景异常,进行巡检问题告警。
[0072] 本发明实施例中,配置模块21中被筛选出的边界场景是针对系统峰值场景、系统边界场景、业务边界场景(如金额巨大的订单)、关键功能、敏感操作等若干场景通过对系统的业务和影响力进行巡检必要性分析,筛选出要巡检的场景以及针对各个场景设计巡检方式;巡检模块22中对边界场景的配置涉及描述具体场景数据特点、场景触发方式以及该场景发生异常时对应的告警策略。
[0073] 本发明实施例中,通过对边界场景的自动巡检,主动观测系统的响应能力,及时的暴露和解决系统的问题,当系统发生稳定性问题时,可以预先发现问题,在造成损失前解决问题,确保系统在关键的边界场景下的运行稳定性。
[0074] 本发明实施例中,可选的,所述告警模块包括:
[0075] 第一子处理模块,用于若巡检出所述边界场景异常,则启用单独的通知通道或高优先级的通知通道进行告警,通知关注人进行异常维护处理,并记录告警次数;
[0076] 若所述关注人未在指定时间进行异常维护处理,则再次启用单独的通知通道或高优先级的通知通道进行告警,通知关注人进行异常维护处理,直至异常场景被处理;所述指定时间随告警次数的增加而减少。
[0077] 本发明实施例中,可选的,所述告警模块还包括:
[0078] 第二子处理模块,用于创建工单,并对工单的处理时间进行监控。
[0079] 本发明实施例中,可选的,所述告警模块还包括:
[0080] 第三子处理模块,用于若所述关注人未在指定时间进行异常维护处理或进行巡检问题告警次数达到阈值时,则再次启用单独的通知通道或高优先级的通知通道向所述关注人的上一级进行告警。
[0081] 本发明实施例中,上述告警方式根据巡检出问题的优先级进行选择,告警文案和告警通道(企业微信、短信、拨打电话)在系统中预先设置好,当出现问题需要告警时根据对应异常时自动进行选择并告警。
[0082] 本发明实施例中,通过对边界场景的自动巡检,主动观测系统的响应能力,及时的暴露和解决系统的问题,当系统发生稳定性问题时,可以预先发现问题,在造成损失前解决问题,避免造成损失后的大量善后工作,确保系统在关键的边界场景下的运行稳定性,同时当巡检的边界场景设计非常合理时,可以保证一般场景下系统运行更加稳定,巡检的结果也可以作为一种系统实时稳定性的展示窗口。
[0083] 请参考图3,本发明实施例还提供一种服务器30,包括处理器31,存储器32,存储在存储器32上并可在所述处理器31上运行的计算机程序,该计算机程序被处理器31执行时实现上述应用于服务器的业务系统的巡检方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0084] 本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述业务系统的巡检方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read‑Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
[0085] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0086] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0087] 以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
QQ群二维码
意见反馈