一种评估应用系统健康度的方法及装置
技术领域
本发明涉及应用系统健康评估
技术领域
,具体涉及一种评估应用系统健康度的方法及装置。背景技术
随着信息技术的发展,数据中心的应用系统为用户提供越来越多的服务,应用系统的安全稳定运行是向用户提供优质服务的前提,因此需要对应用系统的健康度进行评估。
目前评估应用系统的健康度的方式主要为:基于网络态势、计算资源和存储资源等软件层面上的数据来评估应用系统的健康度。但是,应用系统的稳定运行会受到多方面因素的影响,仅单方面从软件层面上对应用系统的健康度进行评估,无法准确的评估应用系统的健康度,进而造成应用系统存在较大的安全隐患。
发明内容
有鉴于此,本发明实施例提供一种评估应用系统健康度的方法及装置,以解决现有评估应用系统的健康度的方式存在的无法准确评估应用系统的健康度等问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种评估应用系统健康度的方法,所述方法包括:
根据用于指示数据中心的基础设施出现异常的告警信息,确定至少一个异常基础设施;
利用所述数据中心中所有基础设施与所有IT设备之间预设的第一关联关系,确定与所述至少一个异常基础设施相关联的至少一个第一IT设备;
利用所述数据中心中所有IT设备与所有应用系统之间预设的第二关联关系,确定与所述至少一个第一IT设备相关联的至少一个待评估应用系统;
针对每个待评估应用系统,基于所述第二关联关系,确定与所述待评估应用系统相关联的至少一个第二IT设备,及获取所述待评估应用系统的高可用度;
针对每个待评估应用系统,基于所述待评估应用系统对应的所述至少一个第二IT设备和所述高可用度,结合所述至少一个第一IT设备,评估所述待评估应用系统的健康度。
优选的,所述针对每个待评估应用系统,基于所述待评估应用系统对应的所述至少一个第二IT设备和所述高可用度,结合所述至少一个第一IT设备,评估所述待评估应用系统的健康度,包括:
针对每个待评估应用系统,确定所述待评估应用系统对应的所述至少一个第二IT设备与所述至少一个第一IT设备之间的IT设备重合度;
针对每个待评估应用系统,利用所述IT设备重合度和所述待评估应用系统的所述高可用度,评估所述待评估应用系统的健康度。
优选的,所述根据用于指示数据中心的基础设施出现异常的告警信息,确定至少一个异常基础设施,包括:
解析用于指示数据中心的基础设施出现异常的告警信息,得到所述告警信息中包含的至少一条位置信息;
确定与所述至少一条位置信息对应的基础设施为异常基础设施。
优选的,评估所述待评估应用系统的健康度之后,还包括:
针对每个待评估应用系统,若所述待评估应用系统的所述健康度低于健康度阈值,向指定对象发送用于指示所述待评估应用系统异常的第一提示信息。
优选的,评估所述待评估应用系统的健康度之后,还包括:
针对每个待评估应用系统,根据所述待评估应用系统对应的所述IT设备重合度,确定关注优先级,向指定对象发送包含所述关注优先级的第二提示信息。
优选的,所述根据用于指示数据中心的基础设施出现异常的告警信息,确定至少一个异常基础设施之前,还包括:
周期性获取用于指示数据中心的基础设施出现异常的告警信息。
本发明实施例第二方面公开一种评估应用系统健康度的装置,所述装置包括:
第一确定单元,用于根据用于指示数据中心的基础设施出现异常的告警信息,确定至少一个异常基础设施;
第二确定单元,用于利用所述数据中心中所有基础设施与所有IT设备之间预设的第一关联关系,确定与所述至少一个异常基础设施相关联的至少一个第一IT设备;
第三确定单元,用于利用所述数据中心中所有IT设备与所有应用系统之间预设的第二关联关系,确定与所述至少一个第一IT设备相关联的至少一个待评估应用系统;
处理单元,用于针对每个待评估应用系统,基于所述第二关联关系,确定与所述待评估应用系统相关联的至少一个第二IT设备,及获取所述待评估应用系统的高可用度;
评估单元,用于针对每个待评估应用系统,基于所述待评估应用系统对应的所述至少一个第二IT设备和所述高可用度,结合所述至少一个第一IT设备,评估所述待评估应用系统的健康度。
优选的,所述评估单元具体用于:针对每个待评估应用系统,确定所述待评估应用系统对应的所述至少一个第二IT设备与所述至少一个第一IT设备之间的IT设备重合度;针对每个待评估应用系统,利用所述IT设备重合度和所述待评估应用系统的所述高可用度,评估所述待评估应用系统的健康度。
优选的,所述第一确定单元具体用于:解析用于指示数据中心的基础设施出现异常的告警信息,得到所述告警信息中包含的至少一条位置信息;确定与所述至少一条位置信息对应的基础设施为异常基础设施。
优选的,所述装置还包括:
提示单元,用于针对每个待评估应用系统,若所述待评估应用系统的所述健康度低于健康度阈值,向指定对象发送用于指示所述待评估应用系统异常的第一提示信息。
基于上述本发明实施例提供的一种评估应用系统健康度的方法及装置,该方法为:根据用于指示数据中心的基础设施出现异常的告警信息,确定至少一个异常基础设施;利用数据中心中所有基础设施与所有IT设备之间预设的第一关联关系,确定与至少一个异常基础设施相关联的至少一个第一IT设备;利用数据中心中所有IT设备与所有应用系统之间预设的第二关联关系,确定与至少一个第一IT设备相关联的至少一个待评估应用系统;针对每个待评估应用系统,基于第二关联关系,确定与待评估应用系统相关联的至少一个第二IT设备,及获取待评估应用系统的高可用度;针对每个待评估应用系统,基于待评估应用系统对应的至少一个第二IT设备和高可用度,结合至少一个第一IT设备,评估待评估应用系统的健康度。当数据中心的基础设施出现故障时,根据异常基础设施确定受影响的应用系统,并将异常基础设施作为评估应用系统的健康度的依据之一,从多维度评估应用系统的健康度,提高评估准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种评估应用系统健康度的方法的流程图;
图2为本发明实施例提供的数据中心的供配电结构的示意图;
图3为本发明实施例提供的机柜和IT设备之间的关联关系示意图;
图4为本发明实施例提供的IT设备与应用系统之间的关联关系示意图;
图5为本发明实施例提供的一种评估应用系统健康度的装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,目前在评估应用系统的健康度时,主要是单方面从软件层面上对应用系统的健康度进行评估,而由于应用系统的稳定运行会受到多方面因素的影响,现有评估应用系统健康度的方式的准确度较低,进而造成应用系统存在较大的安全隐患。
因此,本发明实施例提供一种评估应用系统健康度的方法及装置,当数据中心的基础设施出现故障时,根据异常基础设施确定受影响的应用系统,并将异常基础设施作为评估应用系统的健康度的依据之一,从多维度评估应用系统的健康度,以提高健康度的评估准确性。
发明人经研究发现,目前大多数数据中心的基础设施都实现了高可用性,例如供配电系统采用双路市电和柴油发电机组来进行配电,又例如制冷系统采用N+1冗余设计。所以当数据中心的基础设施出现异常且未直接影响IT设备的正常运行时,从应用系统层面上对于基础设施的异常是没有任何感知的,虽然基础设施出现异常未对IT设备产生直接影响,但基础设施出现异常会使IT设备和应用系统存在安全隐患。因此本发明实施例提供了一种评估应用系统健康度的方法及装置,将基础设施作为评估应用系统的健康度的依据之一,在提高健康度的评估准确度的同时,也能解决前述提及的安全隐患,具体实现方式详见以下各个实施例的说明。
需要说明的是,数据中心包含IT设备和基础设施,数据中心的IT设备为诸如服务器设备、网络设备、存储设备和安全设备等一系列提供数据服务的设备;数据中心的基础设施为供配电系统、不间断电源(Uninterrupted Power Supply,UPS)系统、终端配电系统和空调系统等,例如:柴油发电机组、蓄电池组、精密配电柜、电源分配单元(PowerDistribution Unit,PDU)和精密空调。
参见图1,示出了本发明实施例提供的一种评估应用系统健康度的方法的流程图,该方法包括:
步骤S101:根据用于指示数据中心的基础设施出现异常的告警信息,确定至少一个异常基础设施。
优选的,在执行步骤S101之前,周期性获取用于指示数据中心的基础设施出现异常的告警信息,具体实现中,利用预设的采集脚本,按照预设周期从监控系统中获取该告警信息。
需要说明的是,利用监控系统对数据中心的基础设施进行监控,当监控到基础设施出现异常时,监控系统会生成相应的告警信息,该告警信息至少包含了出现异常的基础设施的属性和位置信息等。
在具体实现步骤S101的过程中,解析用于指示数据中心的基础设施出现异常的告警信息,得到告警信息中包含的至少一条位置信息;确定与至少一条位置信息对应的基础设施为异常基础设施。也就是说,解析该告警信息,可得到出现异常的基础设施所对应的位置信息,通过位置信息可确定哪一基础设施出现异常,从而确定出现异常的基础设施为异常基础设施,相当于对出现异常的基础设施进行定位。
通过上述方式,利用告警信息,确定数据中心中的至少一个异常基础设施。
步骤S102:利用数据中心中所有基础设施与所有IT设备之间预设的第一关联关系,确定与至少一个异常基础设施相关联的至少一个第一IT设备。
需要说明的是,配置管理数据库(Configuration Management Database,CMDB)中会涵盖数据中心的所有基础设施、IT设备和应用系统(部署在IT设备中)等的配置信息,例如:基础设施的配置信息包含了基础设施的类别、品牌和位置等信息,IT设备的配置信息包含了IT设备的厂商和位置等信息,应用系统的配置信息包含了应用系统的主备关系等信息。
需要说明的是,CMDB还包含了诸如精密配电柜编号、PDU编号、机柜编号、IT设备序列号、应用系统名称、应用经理和应用经理联系方式等信息。
预先根据CMDB中获取的数据中心的所有基础设施和IT设备的配置信息,构建基础设施与IT设备之间的第一关联关系,例如:利用基础设施与IT设备的位置关系构建第一关联关系,该第一关联关系指示哪些基础设施与哪些IT设备之间具有关联关系,如图2示出的数据中心的供配电结构的示意图所示,图2示出了数据中心的UPS系统、精密配电柜、PDU和IT设备之间的关联关系。
需要说明的是,上述所提及的根据位置关系构建基础设施与IT设备的第一关联关系仅用于举例说明,也可采用其它诸如编号等能表征基础设施与IT设备的关联关系的信息作为构建第一关联关系的依据,在此不做具体限定。
在具体实现步骤S102的过程中,根据预先构建的数据中心中所有基础设施与所有IT设备之间预设的第一关联关系,针对每个异常基础设施,确定与该异常基础设施相关联的至少一个第一IT设备。所确定得到的所有第一IT设备即为受到异常基础设施影响的IT设备,进而可定位得到受影响的IT设备范围(由所有第一IT设备构成)。
例如:假设根据告警信息确定得到数据中心的机房A中某台精密空调出现故障,出现故障的精密空调即为异常基础设施,由于该出现故障的精密空调与机房A中的所有IT设备具有第一关联关系,则机房A中的所有IT设备即为与出现故障的精密空调相关联的第一IT设备,也就是该机房A中的所有IT设备均受到影响(此时其它机房中的IT设备不受到该出现故障的精密空调的影响)。
又例如:假设根据告警信息确定机柜A的PDU出现故障,则机柜A中的所有IT设备即为与出现故障的PDU相关联的第一IT设备(此时其它机柜中的IT设备不受到该出现故障的PDU的影响)。为更好解释说明此示例,通过图3示出的机柜和IT设备之间的关联关系示意图进行解释说明。
如图3所示,机柜01中包含了IT设备A(部署了应用系统X和应用系统Y)、IT设备B(部署了应用系统Z)和IT设备C(部署了应用系统W),机柜02中包含了IT设备D(部署了应用系统X和应用系统Y)、IT设备E(部署了应用系统Z)和IT设备F(部署了应用系统U和应用系统V)。当机柜01中的PDU02出现故障时,机柜01中的IT设备A、IT设备B和IT设备C为与PDU02相关联的第一IT设备。
步骤S103:利用数据中心中所有IT设备与所有应用系统之间预设的第二关联关系,确定与至少一个第一IT设备相关联的至少一个待评估应用系统。
需要说明的是,应用系统部署在IT设备中,由于应用系统存在多种部署方式(如单机部署、集群部署和分布式部署等),因此一个IT设备中可能部署了多个应用系统,一个应用系统也可能部署在多个设备中。
预先根据CMDB获取的数据中心的所有IT设备和应用系统的配置信息,构建IT设备与应用系统之间的第二关联关系,该第二关联关系指示:IT设备中部署了哪些应用系统以及应用系统部署在哪些IT设备中。
在具体实现步骤S103的过程中,利用数据中心中所有IT设备与所有应用系统之间预设的第二关联关系,针对每个第一IT设备,确定与该第一IT设备相关联的至少一个应用系统(此时称为待评估应用系统);每个第一IT设备可确定得到至少一个应用系统。也就是说,第一IT设备为受到异常基础设施影响的IT设备,待评估应用系统为根据第一IT设备确定的受到异常基础设施影响的应用系统,进而可定位得到受影响的应用系统范围(由待评估应用系统构成)。
例如:如图4示出的IT设备与应用系统之间的关联关系示意图,第一IT设备(即受影响的IT设备)分别为IT设备A、IT设备B和IT设备C,IT设备A中部署了应用系统X和应用系统Y,IT设备B中部署了应用系统Z,IT设备C中部署了应用系统W,则根据IT设备A所确定得到的待评估应用系统为应用系统X和应用系统Y,根据IT设备B所确定得到的待评估应用系统为应用系统Z,根据IT设备C所确定得到的待评估应用系统为应用系统W。
又例如:结合图2示出的内容,若图2中某一机房的UPS故障,则第一IT设备为该机房中的所有IT设备,而待评估应用系统则为该机房中的所有IT设备中所部署的应用系统。
步骤S104:针对每个待评估应用系统,基于第二关联关系,确定与待评估应用系统相关联的至少一个第二IT设备,及获取待评估应用系统的高可用度。
需要说明的是,由上述内容可知,一个应用系统可能部署在多个IT设备中,在具体实现步骤S104的过程中,针对每个待评估应用系统,基于第二关联关系(IT设备与应用系统之间的关联关系),确定与该待评估应用系统具有关联关系的至少一个第二IT设备,进而得到该待评估应用系统的IT设备列表(包含与该待评估应用系统具有关联关系的所有第二IT设备)。
例如:结合图4示出的内容,根据IT设备A所确定得到的待评估应用系统为应用系统X和应用系统Y,应用系统X还部署在IT设备D中,则应用系统X所对应的IT设备列表包含了IT设备A和IT设备D。
针对每个待评估应用系统,在确定与该待评估应用系统相关联的至少一个第二IT设备时,还获取该待评估应用系统的高可用度(也称为应用系统冗余度)。
在一些具体实施例中,可根据待评估应用系统的部署方式和高可用情况(如多活、双活和主备等高可用情况),确定待评估应用系统的高可用度。
步骤S105:针对每个待评估应用系统,基于待评估应用系统对应的至少一个第二IT设备和高可用度,结合至少一个第一IT设备,评估待评估应用系统的健康度。
在具体实现步骤S105的过程中,针对每个待评估应用系统,利用公式(1)确定该待评估应用系统对应的至少一个第二IT设备与至少一个第一IT设备之间的IT设备重合度M。
M=X/Y (1)
在公式(1)中,X为与第一IT设备相同的第二IT设备的个数(相当于待评估应用系统的哪些第二IT设备为第一IT设备),Y为评估应用系统的第二IT设备的总个数。
可以理解的是,针对每个待评估应用系统,该待评估应用系统对应的IT设备重合度,可指示该待评估应用系统对应的全部第二IT设备为第一IT设备或部分第二IT设备为第一IT设备,相当于指示:该待评估应用系统对应的IT设备列表全部在受影响的IT设备范围内或者部分在受影响的IT设备范围内。
针对每个待评估应用系统,利用该待评估应用系统对应的IT设备重合度和高可用度,评估该待评估应用系统的健康度。
优选的,在评估待评估应用系统的健康度时,还可结合异常基础设施的类型、待评估应用系统对应的IT设备重合度和高可用度,评估待评估应用系统的健康度。
优选的,针对每个待评估应用系统,若该待评估应用系统的健康度低于健康度阈值,向指定对象(如运维人员)发送用于指示待评估应用系统异常的第一提示信息,该第一提示信息还可携带该待评估应用系统的健康度,健康度可采用预设形式进行展示,例如:健康度可采用分数的形式展示,也可采用诸如“健康”、“良好”和“一般”等评价词展示,在此对于展示健康度的形式不做具体限定。
优选的,针对每个待评估应用系统,根据该待评估应用系统对应的IT设备重合度,确定关注优先级(IT设备重合度越高则关注优先级越高),向指定对象发送包含关注优先级的第二提示信息。使运维人员根据各个待评估应用系统的关注优先级,优先查看关注优先级高的待评估应用系统,也就是给出处理建议,建议优先处理哪一待评估应用系统。
在本发明实施例中,根据用于指示数据中心的基础设施出现异常的告警信息,确定至少一个异常基础设施。利用数据中心中所有基础设施与所有IT设备之间预设的第一关联关系,确定与至少一个异常基础设施相关联的至少一个第一IT设备。利用数据中心中所有IT设备与所有应用系统之间预设的第二关联关系,确定与至少一个第一IT设备相关联的至少一个待评估应用系统。针对每个待评估应用系统,基于第二关联关系,确定与待评估应用系统相关联的至少一个第二IT设备,及获取待评估应用系统的高可用度。针对每个待评估应用系统,基于待评估应用系统对应的至少一个第二IT设备和高可用度,结合至少一个第一IT设备,评估待评估应用系统的健康度。将异常基础设施作为评估应用系统的健康度的依据之一,从多维度评估应用系统的健康度,提高评估准确性。
与上述本发明实施例提供的一种评估应用系统健康度的方法相对应,参见图5,本发明实施例还提供了一种评估应用系统健康度的装置的结构框图,该装置包括:第一确定单元501、第二确定单元502、第三确定单元503、处理单元504和评估单元505;
第一确定单元501,用于根据用于指示数据中心的基础设施出现异常的告警信息,确定至少一个异常基础设施。
在具体实现中,第一确定单元501具体用于:解析用于指示数据中心的基础设施出现异常的告警信息,得到告警信息中包含的至少一条位置信息;确定与至少一条位置信息对应的基础设施为异常基础设施。
第二确定单元502,用于利用数据中心中所有基础设施与所有IT设备之间预设的第一关联关系,确定与至少一个异常基础设施相关联的至少一个第一IT设备。
第三确定单元503,用于利用数据中心中所有IT设备与所有应用系统之间预设的第二关联关系,确定与至少一个第一IT设备相关联的至少一个待评估应用系统。
处理单元504,用于针对每个待评估应用系统,基于第二关联关系,确定与待评估应用系统相关联的至少一个第二IT设备,及获取待评估应用系统的高可用度。
评估单元505,用于针对每个待评估应用系统,基于待评估应用系统对应的至少一个第二IT设备和所述高可用度,结合至少一个第一IT设备,评估待评估应用系统的健康度。
在具体实现中,评估单元505具体用于:针对每个待评估应用系统,确定待评估应用系统对应的至少一个第二IT设备与至少一个第一IT设备之间的IT设备重合度;针对每个待评估应用系统,利用IT设备重合度和待评估应用系统的高可用度,评估待评估应用系统的健康度。
在本发明实施例中,根据用于指示数据中心的基础设施出现异常的告警信息,确定至少一个异常基础设施。利用数据中心中所有基础设施与所有IT设备之间预设的第一关联关系,确定与至少一个异常基础设施相关联的至少一个第一IT设备。利用数据中心中所有IT设备与所有应用系统之间预设的第二关联关系,确定与至少一个第一IT设备相关联的至少一个待评估应用系统。针对每个待评估应用系统,基于第二关联关系,确定与待评估应用系统相关联的至少一个第二IT设备,及获取待评估应用系统的高可用度。针对每个待评估应用系统,基于待评估应用系统对应的至少一个第二IT设备和高可用度,结合至少一个第一IT设备,评估待评估应用系统的健康度。将异常基础设施作为评估应用系统的健康度的依据之一,从多维度评估应用系统的健康度,提高评估准确性。
优选的,结合图5示出的内容,该装置还包括:
提示单元,用于针对每个待评估应用系统,若待评估应用系统的健康度低于健康度阈值,向指定对象发送用于指示待评估应用系统异常的第一提示信息。
优选的,结合图5示出的内容,该装置还包括:
第四确定单元,用于针对每个待评估应用系统,根据待评估应用系统对应的IT设备重合度,确定关注优先级,向指定对象发送包含关注优先级的第二提示信息。
优选的,结合图5示出的内容,该装置还包括:
获取单元,用于周期性获取用于指示数据中心的基础设施出现异常的告警信息。
综上所述,本发明实施例提供一种评估应用系统健康度的方法及装置,当数据中心的基础设施出现故障时,根据异常基础设施确定受影响的应用系统,并将异常基础设施作为评估应用系统的健康度的依据之一,从多维度评估应用系统的健康度,提高健康度的评估准确性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:一种电设备显示处理方法