一种计算服务监控系统和方法

申请号 CN202011164292.4 申请日 2020-10-27 公开(公告)号 CN112291112B 公开(公告)日 2022-11-15
申请人 中国光大银行股份有限公司; 发明人 解培; 冯帆;
摘要 本 发明 实施例 公开了一种 云 计算服务 监控系统 和方法。其中,系统包括:至少一个云计算服务主机、至少一个监控 插件 、服务注册中心模 块 、监控模块、数据存储分析模块以及告警模块;监控模块按照预设时间间隔,定时通过服务注册中心模块提供的各目标监控插件的调用 接口 ,调用各目标监控插件采集所对应的待监控云计算服务主机的监测指标数据;告警模块对云计算服务监控告警规则进行管理,根据监测指标告警规则定时扫描监控模块获取的监测指标数据,判断是否产生告警信息;若是,则根据告警消息处理规则发送告警信息;数据存储分析模块对监测指标数据进行存储,并对监测指标数据做 可视化 展示。本发明实施例的技术方案可以提高云计算服务监控效率。
权利要求

1.一种计算服务监控系统,其特征在于,包括:
至少一个云计算服务主机、至少一个监控插件、服务注册中心模、监控模块、告警模块以及数据存储分析模块;
其中,各所述云计算服务主机,用于提供云计算服务;
各所述监控插件,安装于对应的云计算服务主机中,用于采集所对应的云计算服务主机的监测指标数据;
所述服务注册中心模块,用于对各所述监控插件进行管理,管理各所述监控插件的生命周期,并提供各所述监控插件的调用接口
所述监控模块,用于根据当前云计算服务监控规则,确定至少一个待监控云计算服务主机,以及与各所述待监控云计算服务主机对应的目标监控插件;按照预设时间间隔,定时通过所述服务注册中心模块提供的各所述目标监控插件的调用接口,调用各所述目标监控插件采集所对应的待监控云计算服务主机的监测指标数据,并获取各所述目标监控插件采集的监测指标数据;将所述监测指标数据发送至所述数据存储分析模块;
所述告警模块,用于对云计算服务监控告警规则进行管理,所述云计算服务监控告警规则包括监测指标告警规则和告警消息处理规则;根据所述监测指标告警规则,定时扫描所述监控模块获取的监测指标数据,判断是否产生告警信息;若是,则根据所述告警消息处理规则发送告警信息;
所述数据存储分析模块,用于对所述监测指标数据进行存储,并对所述监测指标数据做可视化展示;
所述云计算服务监控系统还包括:对外接口模块;
所述对外接口模块,用于提供标准化的对外管理接口;
其中,每一个云计算服务主机与一个监控插件对应。
2.根据权利要求1所述的系统,其特征在于,所述监控插件通过使用底层函数以及预设脚本,采集所对应的云计算服务主机的监测指标数据。
3.根据权利要求2所述的系统,其特征在于,所述监控插件包括:采集器单元和服务注册单元;
所述采集器单元,用于通过使用底层函数以及预设脚本,采集所对应的云计算服务主机的监测指标数据;
所述服务注册单元,用于对所述监控插件进行服务注册或者服务注销。
4.根据权利要求3所述的系统,其特征在于,所述服务注册中心模块包括:服务注册单元、对外接口单元以及健康检查单元;
所述服务注册单元,用于对请求进行服务注册的监控插件进行存储,完成所述请求进行服务注册的监控插件的注册;
所述对外接口单元,用于提供注册的监控插件的调用接口;
所述健康检查单元,用于定期检查注册的监控插件的工作状态为可用状态或者不可用状态。
5.根据权利要求4所述的系统,其特征在于,所述服务注册中心模块还包括:服务注销单元;
所述服务注销单元,用于在注册的监控插件中,删除工作状态为不可用状态的监控插件或者请求进行服务注销的监控插件。
6.根据权利要求1所述的系统,其特征在于,所述告警模块包括:告警规则生成器;
所述告警规则生成器,用于获取用户输入的告警指标、告警阈值以及逻辑运算符,根据所述告警指标、所述告警阈值以及所述逻辑运算符,生成至少一条监测指标告警规则;
其中,所述逻辑运算符包括与逻辑运算符以及或逻辑运算符。
7.根据权利要求6所述的系统,其特征在于,所述告警规则生成器,还用于获取用户输入的告警消息配置信息,根据所述告警消息配置信息,生成告警消息处理规则。
8.根据权利要求1所述的系统,其特征在于,所述数据存储分析模块包括;数据存储单元和数据可视化单元;
所述数据存储单元,用于根据预设存储规则,将所述监测指标数据存储至数据库
所述数据可视化单元,用于使用图形化组件,根据预设监控图形模板和所述监测指标数据,生成监控图形界面。
9.一种云计算服务监控方法,应用于如权利要求1‑8中任一项所述的一种云计算服务监控系统中,其特征在于,所述方法包括:
监控模块根据当前云计算服务监控规则,确定至少一个待监控云计算服务主机,以及与各所述待监控云计算服务主机对应的目标监控插件;
监控模块按照预设时间间隔,定时通过服务注册中心模块提供的各所述目标监控插件的调用接口,调用各所述目标监控插件采集所对应的待监控云计算服务主机的监测指标数据,并获取各所述目标监控插件采集的监测指标数据;
告警模块根据监测指标告警规则,定时扫描所述监控模块获取的监测指标数据,判断是否产生告警信息;若是,则根据告警消息处理规则发送告警信息;
监控模块将所述监测指标数据发送至数据存储分析模块;
数据存储分析模块对所述监测指标数据进行存储,并对所述监测指标数据做可视化展示;
对外接口模块,用于提供标准化的对外管理接口;
其中,每一个云计算服务主机与一个监控插件对应。

说明书全文

一种计算服务监控系统和方法

技术领域

[0001] 本发明实施例涉及云计算技术领域,尤其涉及一种云计算服务监控系统和方法。

背景技术

[0002] 随着云计算的飞速发展,IT资源的爆炸式增长,使得IT企业对云计算服务的监控需求越来越庞大。为了了解并提高云计算服务的性能,需要对云计算服务进行监控。
[0003] 相关技术中,通常使用监控告警软件根据的配置参数,逐个对云计算服务主机进行管理。目前企业使用的大部分监控告警软件存在配置复杂,无友好的交互界面,无法和资源管理相结合的问题,导致云计算服务监控效率较低。
[0004] 应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

[0005] 本发明提供一种云计算服务监控系统和方法,以提高云计算服务监控效率。
[0006] 第一方面,本发明实施例提供了一种云计算服务监控系统,包括:
[0007] 至少一个云计算服务主机、至少一个监控插件、服务注册中心模、监控模块、数据存储分析模块以及告警模块;
[0008] 其中,各所述云计算服务主机,用于提供云计算服务;
[0009] 各所述监控插件,安装于对应的云计算服务主机中,用于采集所对应的云计算服务主机的监测指标数据;
[0010] 所述服务注册中心模块,用于对各所述监控插件进行管理,管理各所述监控插件的生命周期,并提供各所述监控插件的调用接口
[0011] 所述监控模块,用于根据当前云计算服务监控规则,确定至少一个待监控云计算服务主机,以及与各所述待监控云计算服务主机对应的目标监控插件;按照预设时间间隔,定时通过所述服务注册中心模块提供的各所述目标监控插件的调用接口,调用各所述目标监控插件采集所对应的待监控云计算服务主机的监测指标数据,并获取各所述目标监控插件采集的监测指标数据;将所述监测指标数据发送至所述数据存储分析模块;
[0012] 所述告警模块,用于对云计算服务监控告警规则进行管理,所述云计算服务监控告警规则包括监测指标告警规则和告警消息处理规则;根据所述监测指标告警规则,定时扫描所述监控模块获取的监测指标数据,判断是否产生告警信息;若是,则根据所述告警消息处理规则发送告警信息;
[0013] 所述数据存储分析模块,用于对所述监测指标数据进行存储,并对所述监测指标数据做可视化展示。
[0014] 第二方面,本发明实施例还提供了一种云计算服务监控方法,包括:
[0015] 监控模块根据当前云计算服务监控规则,确定至少一个待监控云计算服务主机,以及与各所述待监控云计算服务主机对应的目标监控插件;
[0016] 监控模块按照预设时间间隔,定时通过服务注册中心模块提供的各所述目标监控插件的调用接口,调用各所述目标监控插件采集所对应的待监控云计算服务主机的监测指标数据,并获取各所述目标监控插件采集的监测指标数据;
[0017] 告警模块根据监测指标告警规则,定时扫描所述监控模块获取的监测指标数据,判断是否产生告警信息;若是,则根据告警消息处理规则发送告警信息;
[0018] 监控模块将所述监测指标数据发送至数据存储分析模块;
[0019] 数据存储分析模块对所述监测指标数据进行存储,并对所述监测指标数据做可视化展示。
[0020] 本发明通过监控模块根据当前云计算服务监控规则,确定至少一个待监控云计算服务主机,以及与各待监控云计算服务主机对应的目标监控插件,然后按照预设时间间隔,定时通过服务注册中心模块提供的各目标监控插件的调用接口,调用各目标监控插件采集所对应的待监控云计算服务主机的监测指标数据,并获取各目标监控插件采集的监测指标数据;通过告警模块对云计算服务监控告警规则进行管理,云计算服务监控告警规则包括监测指标告警规则和告警消息处理规则,根据监测指标告警规则,定时扫描监控模块获取的监测指标数据,判断是否产生告警信息,若是,则根据告警消息处理规则发送告警信息;通过数据存储分析模块对监测指标数据进行存储,并对监测指标数据做可视化展示,可以通过动态注册的监控插件,自动采集云计算服务主机的监测指标数据,并对监测指标数据做可视化展示,可以定时扫描监测指标数据,判断是否产生告警信息,大大的降低了传统监控需要对主机逐个管理的复杂度,提高了云计算服务监控效率,让云计算服务的计算资源能够实时被监控。
[0021] 参照后文的说明和附图,详细公开了本申请的特定实施方式,指明了本申请的原理可以被采用的方式。应该理解,本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本申请的实施方式包括许多改变、修改和等同。
[0022] 针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
[0023] 应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

[0024] 所包括的附图用来提供对本申请实施例的进一步的理解,其构成了说明书的一部分,用于例示本申请的实施方式,并与文字描述一起来阐释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0025] 图1为本发明实施例一提供的一种云计算服务监控系统的结构示意图。
[0026] 图2为本发明实施例二提供的一种云计算服务监控方法的流程图

具体实施方式

[0027] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都应当属于本申请保护的范围。
[0028] 实施例一
[0029] 图1为本发明实施例一提供的一种云计算服务监控系统的结构示意图。本发明实施例可适用于对各云计算服务主机进行监控的情况。如图1所示,该云计算服务监控系统具体可以包括:至少一个云计算服务主机11、至少一个监控插件12、服务注册中心模块13、监控模块14、告警模块15以及数据存储分析模块16,下面对其结构和功能进行说明。
[0030] 其中,各云计算服务主机11,用于提供云计算服务。
[0031] 各监控插件12,安装于对应的云计算服务主机11中,用于采集所对应的云计算服务主机11的监测指标数据。
[0032] 服务注册中心模块13,用于对各监控插件11进行管理,管理各监控插件12的生命周期,并提供各监控插件12的调用接口。
[0033] 监控模块14,用于根据当前云计算服务监控规则,确定至少一个待监控云计算服务主机,以及与各待监控云计算服务主机对应的目标监控插件;按照预设时间间隔,定时通过服务注册中心模块13提供的各目标监控插件的调用接口,调用各目标监控插件采集所对应的待监控云计算服务主机的监测指标数据,并获取各目标监控插件采集的监测指标数据;将监测指标数据发送至数据存储分析模块16。
[0034] 告警模块15,用于对云计算服务监控告警规则进行管理,云计算服务监控告警规则包括监测指标告警规则和告警消息处理规则;根据监测指标告警规则,定时扫描监控模块14获取的监测指标数据,判断是否产生告警信息;若是,则根据告警消息处理规则发送告警信息。
[0035] 数据存储分析模块16,用于对监测指标数据进行存储,并对监测指标数据做可视化展示。
[0036] 可选的,各云计算服务主机11是用于提供云计算服务的主机。各云计算服务主机11的操作系统可以为linux操作系统、windows操作系统、FreeBSD操作系统或者darwin操作系统。
[0037] 可选的,通过手动安装或内置模板方式在每一个云计算服务主机11中安装一个监控插件12。即每一个云计算服务主机11与一个监控插件12对应的。各监控插件12与所对应的云计算服务主机11的操作系统适配。各监控插件12在启动后,注册到服务注册中心模块13,向服务注册中心模块13注册调用接口以及监测指标数据类型等信息供服务注册中心模块13管理,并会作为系统服务,监听监控模块14的调用请求。各监控插件12在监听到监控模块14的调用请求时,采集所对应的云计算服务主机11的监测指标数据。
[0038] 监测指标数据是云计算服务主机11在特定时间点或特定时间范围的某规则下的特征值或计算值。示例性的,监测指标数据可以为某一时间点云计算服务主机11的中央处理器(Central Processing Unit,CPU)使用率、内存使用率等。
[0039] 进一步的,在上述技术方案的基础上,监控插件12通过使用底层函数以及预设脚本,采集所对应的云计算服务主机11的监测指标数据。
[0040] 进一步的,在上述技术方案的基础上,云计算服务监控系统还包括:对外接口模块;对外接口模块,用于提供标准化的对外管理接口。用户可以通过对外接口模块调用监控插件12采集监测指标数据,采集频率和采集的监测指标数据的类型均由用户控制,还可以通过对外接口模块对监控插件12进行配置和修改,避免云计算服务监控系统压过大和监控插件12不方便修改的问题。
[0041] 进一步的,在上述技术方案的基础上,监控插件12包括:采集器单元和服务注册单元;采集器单元,用于通过使用底层函数以及预设脚本,采集所对应的云计算服务主机11的监测指标数据;服务注册单元,用于对监控插件12进行服务注册或者服务注销。
[0042] 具体的,监控插件12可以通过服务注册单元向服务注册中心模块13发送服务注册请求,向服务注册中心模块13注册调用接口以及监测指标数据类型等信息供服务注册中心模块13管理。监控插件12可以通过服务注册单元向服务注册中心模块13发送服务注销请求,请求服务注册中心模块13在注册的监控插件中删除该监控插件12。
[0043] 具体的,监控插件12在启动后会作为系统服务,监听监控模块14的调用请求。监控插件12在监听到监控模块14的调用请求时,通过采集器单元通过使用底层函数以及预设脚本,采集所对应的云计算服务主机11的监测指标数据。
[0044] 可选的,服务注册中心模块13对所有已注册的监控插件12进行管理,管理各监控插件12的生命周期,并对外提供各监控插件12的调用接口。监控模块14可以从服务注册中心模块13获取各监控插件12的调用接口访问方式,通过各监控插件12的调用接口,调用各监控插件12采集所对应的云计算服务主机11的监测指标数据。
[0045] 进一步的,在上述技术方案的基础上,服务注册中心模块13包括:服务注册单元、对外接口单元以及健康检查单元;服务注册单元,用于对请求进行服务注册的监控插件12进行存储,完成请求进行服务注册的监控插件12的注册;对外接口单元,用于提供注册的监控插件12的调用接口;健康检查单元,用于定期检查注册的监控插件12的工作状态为可用状态或者不可用状态。
[0046] 具体的,服务注册中心模块13通过服务注册单元对请求进行服务注册的监控插件12进行存储,存储请求进行服务注册的监控插件12注册的调用接口以及监测指标数据类型等信息,完成请求进行服务注册的监控插件12的注册。服务注册中心模块13通过对外接口单元对外提供注册的监控插件12的调用接口。服务注册中心模块13通过健康检查单元定期检查注册的监控插件12的工作状态为可用状态或者不可用状态,避免监控插件12占用由于系统压力导致不可用。
[0047] 进一步的,在上述技术方案的基础上,服务注册中心模块13还包括:服务注销单元;服务注销单元,用于在注册的监控插件12中,删除工作状态为不可用状态的监控插件12或者请求进行服务注销的监控插件12。
[0048] 具体的,服务注册中心模块13在通过健康检查单元检查注册的监控插件12中存在工作状态为不可用状态的监控插件12时,通过服务注销单元在注册的监控插件12中,删除工作状态为不可用状态的监控插件12。服务注册中心模块13通过服务注销单元在注册的监控插件12中,删除请求进行服务注销的监控插件12。可选的,针对无法安装监控插件12的云计算服务主机11,在服务注册中心模块13进行辅助注册,以使外部可以获知该云计算服务主机11无法安装监控插件12。
[0049] 可选的,当前云计算服务监控规则包括当前需要监控的云计算服务主机11的标识信息。针对不同的云计算服务,可以设置不同的云计算服务监控规则。
[0050] 具体的,监控模块14根据当前需要监控的云计算服务主机11的标识信息,在全部云计算服务主机11中,确定当前需要监控的云计算服务主机11作为待监控云计算服务主机,以及与各待监控云计算服务主机对应的目标监控插件。监控模块14按照预设时间间隔,定时通过服务注册中心模块13提供的各目标监控插件的调用接口,向各目标监控插件发送调用请求,通过调用请求调用各目标监控插件采集所对应的待监控云计算服务主机的监测指标数据。各目标监控插件在监听到监控模块的调用请求时,使用底层函数以及预设脚本,采集所对应的云计算服务主机的监测指标数据。监控模块14获取各目标监控插件采集的监测指标数据。预设时间间隔可以根据业务需求进行设置。监控模块14将监测指标数据发送至数据存储分析模块16。
[0051] 告警模块15对云计算服务监控告警规则进行管理,云计算服务监控告警规则包括监测指标告警规则和告警消息处理规则。
[0052] 每一条监测指标告警规则即为一条告警条件。告警模块15获取用户输入的告警指标、告警阈值以及逻辑运算符,并根据告警指标、告警阈值以及逻辑运算符,生成至少一条监测指标告警规则。其中,逻辑运算符包括与逻辑运算符以及或逻辑运算符。示例性的,告警模块15根据输入的告警指标“CPU使用率、内存使用率”、告警阈值“80%”以及与逻辑运算符,生成一条监测指标告警规则“CPU使用率或者内存使用率大于80%”。
[0053] 针对不同的云计算服务,用户可以自定义不同的监测指标告警规则,也可以选择指定的告警对象、告警等级。告警模块15支持多种告警指标,用户可以自定义逻辑运算符和告警指标,可以用与逻辑运算符以及或逻辑运算符组合多条监测指标告警规则,使其满足更多的使用场景。告警对象可以自由选择,支持按组织机构和应用来选择,或简单的单选多选等。
[0054] 可选的,提供预设的信息输入界面给用户。用户基于预设的信息输入界面输入告警指标、告警阈值以及逻辑运算符。告警模块15根据告警指标、告警阈值以及逻辑运算符,生成至少一条监测指标告警规则。由此,根据用户输入信息抽取出常用的监测指标告警规则,用界面化来实现用户自定义不同的监测指标告警规则,来大大简化用户配置告警规则的工作量,且用户不需要具备专业的运维知识就能在界面上生成一条监测指标告警规则。
[0055] 告警消息处理规则包括告警消息发送方式。告警消息发送方式包括告警消息文本模板和告警消息发送通道。告警消息发送通道可以为钉钉、微信、短信或者邮件等第三方服务的开放接口。根据告警消息文本模板可以生成告警消息文本。通过告警消息发送通道可以将告警消息文本发送至告警对象的第三方服务账户。
[0056] 具体的,告警模块15根据监测指标告警规则,定时扫描监控模块14获取的监测指标数据。如果扫描到满足监测指标告警规则的监测指标数据,则确定产生告警信息,根据告警消息处理规则发送告警信息。如果没有扫描到满足监测指标告警规则的监测指标数据,则确定不产生告警信息,继续根据监测指标告警规则,定时扫描监控模块14获取的监测指标数据。
[0057] 进一步的,在上述技术方案的基础上,告警模块15包括:告警规则生成器;告警规则生成器,用于获取用户输入的告警指标、告警阈值以及逻辑运算符,根据告警指标、告警阈值以及逻辑运算符,生成至少一条监测指标告警规则;其中,逻辑运算符包括与逻辑运算符以及或逻辑运算符。
[0058] 进一步的,在上述技术方案的基础上,告警规则生成器,还用于获取用户输入的告警消息配置信息,根据告警消息配置信息,生成告警消息处理规则。告警消息配置信息可以包括告警消息文本模板信息和告警消息发送通道信息。
[0059] 数据存储分析模块16对海量监测指标数据进行存储,将监测指标数据定期归档存储至数据库中。可选的,数据库可以为clickhouse数据库。数据存储分析模块16可以基于clickhouse数据库,将监测指标数据批量按天存储。该数据存储方式更为灵活,可以通过控制数据保留参数来归档过去的监测指标数据,避免了监测指标数据占用磁盘空间过大造成浪费和性能下降。同时归档的监测指标数据也可以再次恢复查看,对有统计需求的用户来说,这样能够提取出过去产生的监测指标数据,从而进行监测指标数据分析。
[0060] 数据存储分析模块16可以配置数据可视化分析图形工具,通过数据可视化分析图形工具对监测指标数据做可视化展示。可选的,数据可视化分析图形工具可以为grafana图形化组件。数据存储分析模块16基于grafana图形化组件,预先配置监控图形模板,生成预设监控图形模板。数据存储分析模块16可以从数据库中获取监测指标数据,自动使用grafana图形化组件,根据预设监控图形模板和监测指标数据,渲染生成监控图形界面。该方法能够最大限度地复用图形模板,提升使用者对不同监测指标数据配置监控图形界面的效率。
[0061] 进一步的,在上述技术方案的基础上,数据存储分析模块16包括;数据存储单元和数据可视化单元;数据存储单元,用于根据预设存储规则,将监测指标数据存储至数据库;数据可视化单元,用于使用图形化组件,根据预设监控图形模板和监测指标数据,生成监控图形界面。
[0062] 本发明实施例的技术方案,提供了一种云计算服务监控系统,通过监控模块根据当前云计算服务监控规则,确定至少一个待监控云计算服务主机,以及与各待监控云计算服务主机对应的目标监控插件,然后按照预设时间间隔,定时通过服务注册中心模块提供的各目标监控插件的调用接口,调用各目标监控插件采集所对应的待监控云计算服务主机的监测指标数据,并获取各目标监控插件采集的监测指标数据;通过告警模块对云计算服务监控告警规则进行管理,云计算服务监控告警规则包括监测指标告警规则和告警消息处理规则,根据监测指标告警规则,定时扫描监控模块获取的监测指标数据,判断是否产生告警信息,若是,则根据告警消息处理规则发送告警信息;通过数据存储分析模块对监测指标数据进行存储,并对监测指标数据做可视化展示,可以通过动态注册的监控插件,自动采集云计算服务主机的监测指标数据,并对监测指标数据做可视化展示,可以定时扫描监测指标数据,判断是否产生告警信息,大大的降低了传统监控需要对主机逐个管理的复杂度,提高了云计算服务监控效率,让云计算服务的计算资源能够实时被监控。
[0063] 实施例二
[0064] 图2为本发明实施例二提供的一种云计算服务监控方法的流程图。本发明实施例可适用于对各云计算服务主机进行监控的情况。该方法可以应用于如本发明上述实施例提供的云计算服务监控系统中。如图2所示,该方法具体可以包括如下步骤:
[0065] 步骤201、监控模块根据当前云计算服务监控规则,确定至少一个待监控云计算服务主机,以及与各所述待监控云计算服务主机对应的目标监控插件。
[0066] 可选的,当前云计算服务监控规则包括当前需要监控的云计算服务主机的标识信息。针对不同的云计算服务,可以设置不同的云计算服务监控规则。
[0067] 具体的,监控模块根据当前需要监控的云计算服务主机的标识信息,在全部云计算服务主机中,确定当前需要监控的云计算服务主机作为待监控云计算服务主机,以及与各待监控云计算服务主机对应的目标监控插件。
[0068] 步骤202、监控模块按照预设时间间隔,定时通过服务注册中心模块提供的各所述目标监控插件的调用接口,调用各所述目标监控插件采集所对应的待监控云计算服务主机的监测指标数据,并获取各所述目标监控插件采集的监测指标数据。
[0069] 可选的,监控模块按照预设时间间隔,定时通过服务注册中心模块提供的各目标监控插件的调用接口,向各目标监控插件发送调用请求,通过调用请求调用各目标监控插件采集所对应的待监控云计算服务主机的监测指标数据。各目标监控插件在监听到监控模块的调用请求时,使用底层函数以及预设脚本,采集所对应的云计算服务主机的监测指标数据。监控模块获取各目标监控插件采集的监测指标数据。
[0070] 可选的,预设时间间隔可以根据业务需求进行设置。
[0071] 步骤203、告警模块根据监测指标告警规则,定时扫描所述监控模块获取的监测指标数据,判断是否产生告警信息;若是,则根据告警消息处理规则发送告警信息。
[0072] 可选的,告警模块根据监测指标告警规则,定时扫描监控模块获取的监测指标数据。如果扫描到满足监测指标告警规则的监测指标数据,则确定产生告警信息,根据告警消息处理规则发送告警信息。如果没有扫描到满足监测指标告警规则的监测指标数据,则确定不产生告警信息,继续根据监测指标告警规则,定时扫描监控模块获取的监测指标数据。
[0073] 告警模块对云计算服务监控告警规则进行管理,云计算服务监控告警规则包括监测指标告警规则和告警消息处理规则。
[0074] 每一条监测指标告警规则即为一条告警条件。告警模块获取用户输入的告警指标、告警阈值以及逻辑运算符,并根据告警指标、告警阈值以及逻辑运算符,生成至少一条监测指标告警规则。其中,逻辑运算符包括与逻辑运算符以及或逻辑运算符。示例性的,告警模块根据输入的告警指标“CPU使用率、内存使用率”、告警阈值“80%”以及与逻辑运算符,生成一条监测指标告警规则“CPU使用率或者内存使用率大于80%”。
[0075] 针对不同的云计算服务,用户可以自定义不同的监测指标告警规则,也可以选择指定的告警对象、告警等级。告警模块支持多种告警指标,用户可以自定义逻辑运算符和告警指标,可以用与逻辑运算符以及或逻辑运算符组合多条监测指标告警规则,使其满足更多的使用场景。告警对象可以自由选择,支持按组织机构和应用来选择,或简单的单选多选等。
[0076] 可选的,提供预设的信息输入界面给用户。用户基于预设的信息输入界面输入告警指标、告警阈值以及逻辑运算符。告警模块根据告警指标、告警阈值以及逻辑运算符,生成至少一条监测指标告警规则。由此,根据用户输入信息抽取出常用的监测指标告警规则,用界面化来实现用户自定义不同的监测指标告警规则,来大大简化用户配置告警规则的工作量,且用户不需要具备专业的运维知识就能在界面上生成一条监测指标告警规则。
[0077] 告警消息处理规则包括告警消息发送方式。告警消息发送方式包括告警消息文本模板和告警消息发送通道。告警消息发送通道可以为钉钉、微信、短信或者邮件等第三方服务的开放接口。根据告警消息文本模板可以生成告警消息文本。通过告警消息发送通道可以将告警消息文本发送至告警对象的第三方服务账户。
[0078] 步骤204、监控模块将所述监测指标数据发送至数据存储分析模块。
[0079] 可选的,监控模块将监测指标数据异步发送至数据存储分析模块。
[0080] 步骤205、数据存储分析模块对所述监测指标数据进行存储,并对所述监测指标数据做可视化展示。
[0081] 可选的,数据存储分析模块对海量监测指标数据进行存储,将监测指标数据定期归档存储至数据库中。可选的,数据库可以为clickhouse数据库。数据存储分析模块可以基于clickhouse数据库,将监测指标数据批量按天存储。该数据存储方式更为灵活,可以通过控制数据保留参数来归档过去的监测指标数据,避免了监测指标数据占用磁盘空间过大造成浪费和性能下降。同时归档的监测指标数据也可以再次恢复查看,对有统计需求的用户来说,这样能够提取出过去产生的监测指标数据,从而进行监测指标数据分析。
[0082] 可选的,数据存储分析模块可以配置数据可视化分析图形工具,通过数据可视化分析图形工具对监测指标数据做可视化展示。可选的,数据可视化分析图形工具可以为grafana图形化组件。数据存储分析模块基于grafana图形化组件,预先配置监控图形模板,生成预设监控图形模板。数据存储分析模块可以从数据库中获取监测指标数据,自动使用grafana图形化组件,根据预设监控图形模板和监测指标数据,渲染生成监控图形界面。该方法能够最大限度地复用图形模板,提升使用者对不同监测指标数据配置监控图形界面的效率。
[0083] 本发明实施例的技术方案,提供了一种云计算服务监控方法,通过监控模块根据当前云计算服务监控规则,确定至少一个待监控云计算服务主机,以及与各待监控云计算服务主机对应的目标监控插件,然后按照预设时间间隔,定时通过服务注册中心模块提供的各目标监控插件的调用接口,调用各目标监控插件采集所对应的待监控云计算服务主机的监测指标数据,并获取各目标监控插件采集的监测指标数据;通过告警模块对云计算服务监控告警规则进行管理,云计算服务监控告警规则包括监测指标告警规则和告警消息处理规则,根据监测指标告警规则,定时扫描监控模块获取的监测指标数据,判断是否产生告警信息,若是,则根据告警消息处理规则发送告警信息;通过数据存储分析模块对监测指标数据进行存储,并对监测指标数据做可视化展示,可以通过动态注册的监控插件,自动采集云计算服务主机的监测指标数据,并对监测指标数据做可视化展示,可以定时扫描监测指标数据,判断是否产生告警信息,大大的降低了传统监控需要对主机逐个管理的复杂度,提高了云计算服务监控效率,让云计算服务的计算资源能够实时被监控。
[0084] 注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
QQ群二维码
意见反馈