故障处理方法、装置、故障处理设备及存储介质

文档序号:7376 发布日期:2021-09-17 浏览:28次 英文

故障处理方法、装置、故障处理设备及存储介质

技术领域

本申请涉及计算机

技术领域

,尤其涉及一种故障处理方法、一种故障处理装置、一种故障处理设备及一种计算机可读存储介质。

背景技术

随着容器及容器编排技术的流行,越来越多的企业通过(kubernetes,K8S)管理平台管理企业的IT系统。其中,K8S管理平台主要用于管理IT系统中的各个集群。在IT系统执行业务的过程中,IT系统中的各个集群可能会出现故障,现有方案通常通过人工的方式在K8S管理平台中对IT系统中的集群进行运维。但是,随着科学技术的发展,由于K8S管理平台管理的集群内容器的数量庞大,或者运维人员的运维能力有限等因素,可能导致人工运维的难度大、效率低,无法快速精准的对故障集群进行故障处理。因此,如何快速精准地对故障集群进行故障处理是一个重要研究课题。

发明内容

本申请实施例提供了一种故障处理方法、装置、故障处理设备及存储介质,通过故障排查路径对集群进行排查分析,可以更准确的进行故障处理。

第一方面,本申请实施例提供了一种故障处理方法,该故障处理方法包括:

响应于对目标集群进行故障处理的触发操作,获取目标集群对应的目标故障排查路径;其中该目标故障排查路径包括N个故障排查层级,N为大于1的整数;

基于目标故障排查路径中的N个故障排查层级对目标集群进行故障排查,得到目标集群对应的每个故障排查层级的故障排查结果;

根据目标集群的每个故障排查层级的故障排查结果确定M个异常故障排查层级,M≤N,M为正整数;

确定M个异常故障排查层级中每个异常故障排查层级对应的策略,并基于每个异常故障排查层级对应的策略执行故障处理。

第二方面,本申请实施例提供了一种故障处理装置,该故障处理装置包括:

获取单元,用于响应于对目标集群进行故障处理的触发操作,获取目标集群对应的目标故障排查路径;其中,该目标故障排查路径包括N个故障排查层级,N为大于1的整数;

故障排查单元,用于基于目标故障排查路径中的N个故障排查层级对目标集群进行故障排查,得到目标集群对应的每个故障排查层级的故障排查结果;

确定单元,用于根据目标集群的每个故障排查层级的故障排查结果确定M个异常故障排查层级,M≤N,M为正整数;

故障处理单元用于确定M个异常故障排查层级中每个异常故障排查层级对应的策略,并基于每个异常故障排查层级对应的策略执行故障处理。

第三方面,本申请实施提供了一种故障处理设备,该故障处理设备包括处理器、输入设备、输出设备和存储器,该处理器、输入设备、输出设备和存储器相互连接,其中,存储器用于存储计算机程序,计算机程序包括程序,处理器被配置用于调用所述程序,执行第一方面所述的故障处理方法。

第四方面,本申请实施提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使处理器执行第一方面所述的故障处理方法。

在本申请实施例中,故障处理设备可以响应于对目标集群进行故障处理的触发操作,获取目标集群对应的目标故障排查路径,该目标故障排查路径包括N个故障排查层级;N为大于1的整数。基于目标故障排查路径中的N个故障排查层级对目标集群进行故障排查,得到目标集群对应的每个故障排查层级的故障排查结果。根据目标集群的每个故障排查层级的故障排查结果确定M个异常故障排查层级,M≤N,M为正整数;并确定M个异常故障排查层级中每个异常故障排查层级对应的策略,以及基于每个异常故障排查层级对应的策略执行故障处理。由于本申请实施例中的故障处理设备可以直接根据目标故障排查路径对目标集群进行故障排查,无需人工参与,可有效节省人力资源,提升故障处理效率;并且,还可不受运维用户的运维能力限制,可以快速精准的故障定位。除此之外,由于针对异常故障排查层级预设了策略,可以直接基于异常故障排查层级对应的策略执行故障处理。故障处理过程也不受运维用户的运维能力限制,可以快速精准的执行故障处理,进一步提升故障处理的效率与准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种K8S管理平台的架构示意图;

图2是本申请实施例提供的一种故障处理方法的流程示意图;

图3是本申请实施例提供的一种区块链的结构示意图;

图4是本申请实施例提供的另一种故障处理方法的流程示意图;

图5是本申请实施例提供的一种故障处理装置的结构示意图;

图6是本申请实施例提供的一种故障处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

随着容器及容器编排技术的流行,越来越多的企业通过K8S管理平台管理企业的IT系统,助力企业快速发展。经过一段时期的发展,K8S管理平台管理的集群越来越多,管理的容器数量也急剧增长,这给传统的运维工作带来了复杂性,从而影响了IT系统的稳定性。因此,亟需一种高效能的K8S管理平台去管理这些数量庞大的容器和集群以降低运营风险。为此,业内陆续推出了K8S管理平台,例如kubernetes-dashboard、Kuboard、kubesphere、Rancher和Lens等等。然而,现有的这些K8S管理平台都只涵盖了K8S的基本管理功能,如:新建集群,管理namespace、pod等等。为了保证IT系统的稳定性,除了基本的管理功能之外,K8S管理平台还需要具有故障诊断以及故障处理功能。

基于此,本申请实施例提供了一种故障处理方法、装置、故障处理设备及存储介质。在该故障处理方法中,故障处理设备响应于对目标集群进行故障处理的触发操作,获取目标集群对应的目标故障排查路径,该目标故障排查路径包括N个故障排查层级;N为大于1的整数。基于目标故障排查路径中的N个故障排查层级对目标集群进行故障排查,得到目标集群对应的每个故障排查层级的故障排查结果。根据目标集群的每个故障排查层级的故障排查结果确定M个异常故障排查层级,M≤N,M为正整数;并确定M个异常故障排查层级中每个异常故障排查层级对应的策略,以及基于每个异常故障排查层级对应的策略执行故障处理。可有效节省人力资源,提升故障处理效率;并且,还可不受运维用户的运维能力限制,可以快速精准地对故障集群进行故障处理。

在一个实施例中,该故障处理方法可用于对故障集群进行故障处理。该故障处理方法可应用在如图1所示的K8S管理平台中,如图1所示,该K8S管理平台可至少包括:故障处理设备11和集群12。其中,故障处理设备11可以是具有数据处理能力的任意设备。该故障处理设备11可以是如图1所示的服务器,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、内容分发网络(Content Delivery Network,CDN)、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器等等。该故障处理设备11还可以是终端设备,该终端设备可以包括但不限于:智能手机、平板电脑、膝上计算机、可穿戴设备、台式计算机等等。其中,集群12可以是指服务器(或者容器服务器)的集合。该集群12可以包括的服务器的数量可以是一个或多个,例如,集群12可以是如图1所示的服务器12a,服务器12b,和服务器12c的集合。

基于上述描述,下面详细阐述本申请实施例的故障处理方法。参见图2,图2示出了一种故障处理方法。如图2所示,该方法包括S201-S204:

S201:响应于对目标集群进行故障处理的触发操作,获取目标集群对应的目标故障排查路径,该目标故障排查路径包括N个故障排查层级;N为大于1的整数。

其中,目标集群可以是和故障处理设备建立有通信连接的任一集群,目标集群中可以包括一个或多个服务器。

在一个实施例中,当目标集群中的服务器产生故障时,故障处理设备可在检测到来自目标集群的告警消息时,确定检测到对该目标集群进行故障处理的触发操作。

其中,当目标集群中的服务器产生故障时,该目标集群将进行告警提醒。在该目标集群进行告警提醒时,将向负责人(即对目标集群进行维护的人员)发送告警消息,那么,故障处理设备可以在确定目标集群向负责人发送了告警消息时,确定检测到对该目标集群进行故障处理的触发操作。

其中,一个集群可以对应有一个故障排查路径,该故障排查路径可以包括多个故障排查层级。例如,一个故障排查路径可以包括7个故障排查层级,该7个故障排查层级分别为:核心组件(MASTER)的健康程度、核心组件的负载情况、机器节点(NODE)整体负载情况、每个机器节点的负载情况、每个机器节点的DNS错误次数、每个机器节点的INGRESS错误次数、每个机器节点的标签。其中,需要说明,本申请实施例所涉及的机器节点均可以为服务器。

故障处理设备可以获取目标集群对应的目标故障排查路径。在一个实施例中,各个集群的故障排查路径均可以相同,那么故障处理设备可以直接将这一个故障排查路径作为目标集群的目标故障排查路径。在另一个实施例中,各个集群的故障排查路径不完全相同。例如,可以多个集群对应于一个故障排查路径,又例如,可以一个集群对应于一个排障路径。故障处理设备可以根据目标集群确定出该目标集群对应的目标故障排查路径。其中,该目标排障路径可以包括N个故障排查层级,N为大于1的整数。

S202:基于目标故障排查路径中的N个故障排查层级对目标集群进行故障排查,得到目标集群对应的每个故障排查层级的故障排查结果。

在一个实施例中,一个故障排查层级可以对应一个优先级,故障处理设备可以基于N个故障排查层级中每个故障排查层级的优先级,按照优先级由高到低的顺序依次对目标集群进行故障排查。

例如,仍承接S201的例子,上述7个故障排查层级按照优先级由高到低的的顺序依次为:核心组件的健康程度、核心组件的负载情况、机器节点的整体负载情况、每个机器节点的负载情况、每个机器节点的DNS错误次数、每个机器节点的INGRESS错误次数、每个机器节点的标签。那么,故障处理设备将依次执行下列步骤:对核心组件的健康程度进行故障排查,得到核心组件的健康程度对应的故障排查结果。对核心组件的负载情况进行故障排查,得到核心组件的负载情况对应的故障排查结果。对机器节点的整体负载情况进行故障排查,得到机器节点的整体负载情况对应的故障排查结果。对每个机器节点的负载情况进行故障排查,得到每个机器节点的负载情况对应的故障排查结果。对每个机器节点的DNS错误次数进行故障排查,得到每个机器节点的DNS错误次数对应的故障排查结果。对每个机器节点的INGRESS错误次数进行故障排查,得到每个机器节点的INGRESS错误次数对应的故障排查结果。对每个机器节点的标签进行故障排查,得到每个机器节点的标签对应的故障排查结果。

在一个实施例中,故障处理设备可以对故障排查层级对应的日志信息进行故障排查,得到该故障排查层级对应的故障排查结果。针对N个故障排查层级中的任一故障排查层级(即目标故障排查层级)来说,故障处理设备可以获取目标故障排查层级对应的日志信息,并对目标故障排查层级对应的日志信息进行故障排查,得到目标故障排查层级的目标故障排查结果。可选的,本申请实施例还可以结合人工智能技术中的机器学习实现对目标故障排查层级的智能排查。具体的,故障处理设备可以通过机器学习构建N个故障排查模型,当故障处理设备需要对目标故障排查层级进行故障排查时,可以获取该目标故障排查层级对应的日志信息,并调用该目标故障排查层级对应的故障排查模型对该日志信息进行分析,得到该目标故障排查层级的目标故障排查结果。通过目标故障排查模型确定目标故障排查层级对应的目标故障排查结果,可以降低故障排查的出错率。

其中,一个故障排查层级可以对应多个候选故障排查类别。故障处理设备通过故障排查,可以从该故障排查层级的多个候选故障排查类别中确定目标故障排查类别,即故障排查结果。其中,多个候选故障排查类别的数量可以包括两个或两个以上。

多个候选故障排查类别的数量可以直接为两个。例如,核心组件的健康程度可以对应于“正常”和“异常”两个候选故障排查类别,故障处理设备可以从“正常”和“异常”两个候选故障排查类别中确定出“核心组件的健康程度”这一故障排查层级对应的目标故障排查类别。

又例如,每个机器节点的DNS错误次数可以对应于“正常”和“异常”两个候选故障排查类别,故障处理设备可以从“正常”和“异常”两个候选故障排查类别中确定出“每个机器节点的DNS错误次数”这一故障排查层级对应的目标故障排查类别。其中,“每个机器节点的DNS错误次数”这一个故障排查层级的目标故障排查类别可以与DNS错误次数异常的机器节点的数量相关。例如,当目标集群中包括2个服务器(也可以称为机器节点)时,若DNS错误次数异常的服务器的数量大于或等于1,则“每个机器节点的DNS错误次数”这一故障层级的目标故障排查类别为“异常”。其中,DNS错误次数异常的服务器可以是指服务器的DNS错误次数大于一定的阈值。

多个候选故障排查类别的数量还可以为两个以上。例如,“每个机器节点的DNS错误次数”这一个故障排查层级的目标故障排查类别可以与DNS错误次数异常的机器节点的数量相关。当目标集群中包括2个服务器时,“每个机器节点的DNS错误次数”这一个故障排查层级的候选故障排查类别可以包括0,1和2。若DNS错误次数异常的服务器的数量为0,则“每个机器节点的DNS错误次数”这一故障层级的目标故障排查类别为“0”。若DNS错误次数异常的服务器的数量为1,则“每个机器节点的DNS错误次数”这一故障层级的目标故障排查类别为“1”。若DNS错误次数异常的服务器的数量为2,则“每个机器节点的DNS错误次数”这一故障层级的目标故障排查类别为“2”。又例如,每个机器节点的DNS错误次数”这一个故障排查层级的目标故障排查类别可以与每个服务器的DNS错误次数相关。当目标集群中包括2个服务器时,服务器1和服务器2,且每个机器节点的DNS错误次数可以分别为“小于或等于2次”、“大于2次”。那么“每个机器节点的DNS错误次数”这一个故障排查层级的候选故障排查类别可以包括:“服务器1的DNS错误次数小于或等于2次,服务器2的DNS错误次数小于或等于2次”、“服务器1的DNS错误次数小于或等于2次,服务器2的DNS错误次数大于2次”、“服务器1的DNS错误次数大于2次,服务器2的DNS错误次数小于或等于2次”和“服务器1的DNS错误次数大于2次,服务器2的DNS错误次数大于2次”。等等。

在一个实施例中,故障处理设备在得到N个故障排查层级对应的故障排查结果时,还可以基于目标集群对应的N个故障排查层级的故障排查结果生成故障通知列表,以便基于该故障通知列表生成通知消息,提醒负责人。具体的,该故障通知列表可以包括故障排查层级标识字段项和故障排查结果字段项。故障排查层级标识字段项用于存储故障排查层级的标识,可以表示为“故障排查层级名称”,如表1中的第一行第一列所示;故障排查结果字段项用于存储故障排查层级对应的故障排查结果,可以表示为“故障排查结果”,如表1中的第一行第二列所示。

目标故障排查层级的标识存储在故障排查层级标识字段项的任一位置处,目标故障排查结果存储在故障排查结果字段项中与任一位置对应的位置处。如表1中所示,“核心组件的健康程度”这一故障排查层级的名称“核心组件的健康程度”存储在第二行第一列,“核心组件的健康程度”这一故障排查层级的故障排查结果“正常”,存储在第二行第二列。

表1

在一个实施例中,为了数据的安全性,当故障处理设备生成了故障通知列表时,还可以将该目标集群对应的故障通知列表写入区块链(Block Chain),便于用户查看。

区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构,并以密码学方式保证数据不可篡改和不可伪造的分布式账本。多个独立的分布式节点保存相同的记录。区块链技术实现了去中心化,成为了可信的数字资产存储、转移和交易的基石。

以图3所示的区块链的结构示意图为例,每当有新的数据需要写入区块链,这些数据会汇总到一个区块(block)中,添加在已有区块链的末端,通过共识算法保证每个节点新添加的区块是完全相同的。每个区块内记录了若干个印刷资源信息,同时包含了前一个区块的哈希(hash)值,所有区块就是通过这种方式保存前一个区块中的hash值,按顺序相连,组成了区块链。区块链中下一个区块的区块头中会存储前一个区块的哈希值,当前一个区块中的故障通知列表发生变化时,本区块的哈希值也会随之改变,因此上传至区块链网络中的故障通知列表难以被篡改,提高了数据的可靠性。

S203:根据目标集群的每个故障排查层级的故障排查结果确定M个异常故障排查层级,M≤N,M为正整数。

具体的,当故障排查层级的目标故障排查类别为预设故障排查类别时,故障处理设备可以确定该故障排查层级为异常故障排查层级。例如,核心组件的健康程度这一故障排查层级的预设故障排查类别为“异常”,当核心组件的健康程度”这一故障排查层级对应的目标故障排查类别为“异常”时,故障处理设备可以确定“核心组件的健康程度”这一故障排查层级为异常故障排查层级。

故障处理设备可以根据目标集群的每个故障排查层级的故障排查结果依次确定出M个异常故障排查层级,M≤N,M为正整数。

进一步的,为了寻找异常故障排查层级的根本原因,故障处理设备可以获取异常故障排查层级对应的日志信息。可选的,故障处理设备可以在日志信息展示界面展示异常故障排查层级对应的日志信息,以便负责人结合经验进行分析。可选的,故障处理设备也可以将日志信息发送至日志分析模型,以便进一步分析该异常故障排查层级的故障原因。

例如,若“核心组件的健康程度”这一故障排查层级为异常故障排查层级,那么故障处理设备可以获取核心组件的健康程度对应的日志信息,可以包括以下一种或多种:ERROR日志,系统日志,K8S EVENT信息,POD监控信息、主机监控指标信息和变更发版情况等等。

S204:确定M个异常故障排查层级中每个异常故障排查层级对应的策略,并基于每个异常故障排查层级对应的策略执行故障处理。

故障处理设备内预存了异常故障排查层级对应的策略,故障处理设备可以确定M个异常故障排查层级中每个异常故障排查层级对应的策略,并基于每个异常故障排查层级对应的策略执行故障处理。

在本申请实施例中,故障处理设备可以响应于对目标集群进行故障处理的触发操作,获取目标集群对应的目标故障排查路径,该目标故障排查路径包括N个故障排查层级。基于目标故障排查路径中的N个故障排查层级对目标集群进行故障排查,得到目标集群对应的每个故障排查层级的故障排查结果。根据目标集群的每个故障排查层级的故障排查结果确定M个异常故障排查层级;并确定M个异常故障排查层级中每个异常故障排查层级对应的策略,以及基于每个异常故障排查层级对应的策略执行故障处理。由于本申请实施例中的故障处理设备可以直接根据目标故障排查路径对目标集群进行故障排查,无需人工参与,可有效节省人力资源,提升故障处理效率;并且,还可不受运维用户的运维能力限制,可以快速精准的故障定位。除此之外,由于针对异常故障排查层级预设了策略,可以直接基于异常故障排查层级对应的策略执行故障处理。故障处理过程也不受运维用户的运维能力限制,可以快速精准的执行故障处理,进一步提升故障处理的效率与准确性。

参见上述图2所示方法实施例的相关描述可知,图2所示的故障处理方法可以通过根据异常故障排查层级对应的策略执行故障处理。基于此,当需要确定异常故障排查层级对应的策略时,为了更准确的执行故障处理,还可以根据目标集群的故障场景信息确定异常故障排查层级对应的策略,并基于这个策略执行故障处理。参见图4所示,本申请实施例还提出了一种故障处理方法,该故障处理方法包括S401-S403:

S401:获取目标集群的故障场景信息。

其中,故障场景信息可以包括目标集群对应业务的告警信息。例如,目标集群中的业务出现502,又例如,目标集群中的业务出现unknowhost等等。

S402:根据目标集群的故障场景信息确定每个异常故障排查层级对应的策略。

针对一个异常故障排查层级,不同的故障场景信息可以对应有不同的策略。例如,当每个机器节点的INGRESS错误次数为异常故障排查层级时,若目标集群对应的业务出现502,故障处理设备可以确定该异常故障排查层级对应的策略为:重启每个机器节点上的ingress,若目标集群仍然故障,则对每个机器节点上的ingress进行监控检查,查看是否有不正常的ingress,并关闭具有不正常ingress的机器节点。

若目标集群对应的业务出现unknowhost,故障处理设备可以确定该异常故障排查层级对应的策略为:依次重启每个机器节点上的coredns。若目标集群仍然故障,重启每个机器节点上的kube-proxy。若目标集群仍然故障,对每个机器节点上的ingress进行监控检查,查看是否有不正常的ingress,并关闭具有不正常ingress的机器节点。

S403:根据异常故障排查层级对应的策略执行故障处理。

在一些实施例中,还可能需要将目标集群中的业务数据转移到该目标集群对应的参考集群中,以便参考集群可以接续执行业务。

可选的,当目标集群出现故障(即目标集群中的服务器出现故障或者目标集群中的机器节点出现故障)时,故障处理设备可以直接获取目标集群对应的参考集群,将目标集群中的业务数据发送至参考集群,以使得参考集群执行目标集群对应的业务。

可选的,当目标集群中的M个异常故障排查层级中存在关键故障排查层级时,故障处理设备可以获取目标集群对应的参考集群,将目标集群中的业务数据发送至参考集群,以使得参考集群执行目标集群对应的业务。例如,由于“核心组件的健康程度”这一故障排查层级为目标集群的关键故障排查层级,对目标集群的业务影响较大,当“核心组件的健康程度”这一故障排查层级为异常故障排查层级时,故障处理设备需要将目标集群中的业务数据发送至参考集群,以使得参考集群执行目标集群对应的业务。

可选的,还可以根据异常故障排查层级的数量M确定是否进行数据转移。当M大于预设值时,N个故障排查层级中的大多数故障排查层级均存在异常,那么故障处理设备可以将目标集群中的业务数据发送至参考集群,以使得参考集群执行目标集群对应的业务。

在本申请实施例中,当需要确定异常故障排查层级对应的策略时,可以根据目标集群的故障场景信息确定异常故障排查层级对应的策略,并基于这个策略执行故障处理。由于故障处理设备在执行故障处理时考虑了目标集群的故障场景信息,可以更准确的确定异常故障排查层级对应的策略,并基于异常故障处理排查层级的策略执行故障处理,可以更准确的执行故障处理。

基于上述故障处理方法实施例的描述,本申请实施例还公开了一种故障处理装置,所述故障处理装置可以是运行于上述所提及的故障处理设备中的一个计算机程序(包括程序代码)。该故障处理装置可以执行图2或图4所示的方法。请参见图5,所述故障处理装置可以运行如下单元:

获取单元501,用于响应于对目标集群进行故障处理的触发操作,获取目标集群对应的目标故障排查路径;其中,该目标故障排查路径包括N个故障排查层级,N为大于1的整数;

故障排查单元502,用于基于目标故障排查路径中的N个故障排查层级对目标集群进行故障排查,得到目标集群对应的每个故障排查层级的故障排查结果;

确定单元503,用于根据目标集群的每个故障排查层级的故障排查结果确定M个异常故障排查层级,M≤N,M为正整数;

故障处理单元504用于确定M个异常故障排查层级中每个异常故障排查层级对应的策略,并基于每个异常故障排查层级对应的策略执行故障处理。

在一些可行的实施方式中,一个故障排查层级对应一个优先级;

故障排查单元502基于目标故障排查路径中的N个故障排查层级对目标集群进行故障排查,包括:

获取N个故障排查层级中每个故障排查层级的优先级;

基于N个故障排查层级中每个故障排查层级的优先级,按照优先级由高到低的顺序依次对目标集群进行故障排查。

在一些可行的实施方式中,故障排查单元502基于目标故障排查路径中的N个故障排查层级对目标集群进行故障排查,得到目标集群对应的每个故障排查层级的故障排查结果,包括:

获取目标故障排查层级对应的日志信息;该目标故障排查层级是N个故障排查层级中的任一故障排查层级;

对目标故障排查层级对应的日志信息进行故障排查,得到目标故障排查层级的目标故障排查结果。

在一些可行的实施方式中,故障排查单元502得到目标集群对应的每个故障排查层级的故障排查结果之后,故障排查单元502还用于:

基于目标集群对应的每个故障排查层级的故障排查结果生成故障通知列表;

该故障通知列表包括故障排查层级标识字段项和故障排查结果字段项;该目标故障排查层级的标识存储在故障排查层级标识字段项的任一位置处,目标故障排查结果存储在故障排查结果字段项中与任一位置对应的位置处。

在一些可行的实施方式中,确定单元503根据目标集群的每个故障排查层级的故障排查结果确定M个异常故障排查层级之后,获取单元501还用于获取M个异常故障排查层级的日志信息,并通过日志信息展示界面展示异常故障排查层级对应的日志信息。

在一些可行的实施方式中,故障处理单元504用于确定M个异常故障排查层级中每个异常故障排查层级对应的策略,包括:

获取目标集群的故障场景信息;

根据目标集群的故障场景信息确定每个异常故障排查层级对应的策略。

在一些可行的实施方式中,故障处理单元504用于确定M个异常故障排查层级中每个异常故障排查层级对应的策略,并基于每个异常故障排查层级对应的策略执行故障处理,包括:

当M个异常故障排查层级中存在关键故障排查层级时,获取目标集群对应的参考集群;

将目标集群中的业务数据发送至参考集群,以使得参考集群执行目标集群对应的业务。

可以理解的是,本实施例的故障处理装置的各单元可根据上述方法实施例图2或者图4中的方法具体实现,其具体实现过程可以参照上述方法实施例图2或者图4的相关描述,此处不再赘述。

根据本申请的另一个实施例,图5所示的故障处理装置中的各个单元可以分别或者全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以是由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,基于故障处理装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。

根据本申请的另一个实施例,可以通过包括中央处理单元(Central ProcessingUnit,CPU),随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件。例如计算机的通用计算设备上运行能够执行如图2或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图5所示的故障处理装置,以及来实现本申请实施例的故障处理方法。所述的计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述故障处理设备中,并在其中运行。

在本申请实施例中,故障处理装置可以响应于对目标集群进行故障处理的触发操作,获取目标集群对应的目标故障排查路径,该目标故障排查路径包括N个故障排查层级,并基于目标故障排查路径中的N个故障排查层级对目标集群进行故障排查,得到目标集群对应的每个故障排查层级的故障排查结果。根据目标集群的每个故障排查层级的故障排查结果确定M个异常故障排查层级;并确定M个异常故障排查层级中每个异常故障排查层级对应的策略,以及基于每个异常故障排查层级对应的策略执行故障处理。由于本申请实施例中的故障处理装置可以直接根据目标故障排查路径对目标集群进行故障排查,无需人工参与,可有效节省人力资源,提升故障处理效率;并且,还可不受运维用户的运维能力限制,可以快速精准的故障定位。除此之外,由于针对异常故障排查层级预设了策略,可以直接基于异常故障排查层级对应的策略执行故障处理。故障处理过程也不受运维用户的运维能力限制,可以快速精准的执行故障处理,进一步提升故障处理的效率与准确性。

基于上述故障处理方法实施例的描述,本申请实施例还公开了一种故障处理设备。请参见图6,该故障处理设备至少包括处理器601、输入接口602、输出接口603以及计算机存储介质604可通过总线或其他方式连接。

所述计算机存储介质604是故障处理设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质604既可以包括故障处理设备的内置存储介质,当然也可以包括故障处理设备支持的扩展存储介质。计算机存储介质604提供存储空间,该存储空间存储了故障处理设备的操作系统。并且,在该存储空间中还存放了适于被处理器601加载并执行的一条或多条指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器;可选的,还可以是至少一个远离前述处理器的计算机存储介质、所述处理器可以称为中央处理单元(CentralProcessing Unit,CPU),是故障处理设备的核心以及控制中心,适于被实现一条或多条指令,具体加载并执行一条或多条指令从而实现相应的方法流程或功能。

在一个实施例中,可由处理器601加载并执行计算机存储介质604中存放的一条或多条指令,以实现执行如图2或图4中所示的相应方法所涉及的各步骤,具体实现中,计算机存储介质604中的一条或多条指令由处理器601加载并执行以下步骤:

响应于对目标集群进行故障处理的触发操作,获取目标集群对应的目标故障排查路径;其中,该目标故障排查路径包括N个故障排查层级;N为大于1的整数;

基于目标故障排查路径中的N个故障排查层级对目标集群进行故障排查,得到目标集群对应的每个故障排查层级的故障排查结果;

根据目标集群的每个故障排查层级的故障排查结果确定M个异常故障排查层级,M≤N,M为正整数;

确定M个异常故障排查层级中每个异常故障排查层级对应的策略,并基于每个异常故障排查层级对应的策略执行故障处理。

在一些可行的实施方式中,一个故障排查层级对应一个优先级;

处理器601基于目标故障排查路径中的N个故障排查层级对目标集群进行故障排查,包括:

获取N个故障排查层级中每个故障排查层级的优先级;

基于N个故障排查层级中每个故障排查层级的优先级,按照优先级由高到低的顺序依次对目标集群进行故障排查。

在一些可行的实施方式中,处理器601基于目标故障排查路径中的N个故障排查层级对目标集群进行故障排查,得到目标集群对应的每个故障排查层级的故障排查结果,包括:

获取目标故障排查层级对应的日志信息;该目标故障排查层级是N个故障排查层级中的任一故障排查层级;

对目标故障排查层级对应的日志信息进行故障排查,得到目标故障排查层级的目标故障排查结果。

在一些可行的实施方式中,处理器601得到目标集群对应的每个故障排查层级的故障排查结果之后,处理器601还用于:

基于目标集群对应的每个故障排查层级的故障排查结果生成故障通知列表;

该故障通知列表包括故障排查层级标识字段项和故障排查结果字段项;该目标故障排查层级的标识存储在故障排查层级标识字段项的任一位置处,目标故障排查结果存储在故障排查结果字段项中与任一位置对应的位置处。

在一些可行的实施方式中,处理器601根据目标集群的每个故障排查层级的故障排查结果确定M个异常故障排查层级之后,处理器601还用于获取M个异常故障排查层级的日志信息,并通过日志信息展示界面展示异常故障排查层级对应的日志信息。

在一些可行的实施方式中,处理器601用于确定M个异常故障排查层级中每个异常故障排查层级对应的策略,包括:

获取目标集群的故障场景信息;

根据目标集群的故障场景信息确定每个异常故障排查层级对应的策略。

在一些可行的实施方式中,处理器601用于确定M个异常故障排查层级中每个异常故障排查层级对应的策略,并基于每个异常故障排查层级对应的策略执行故障处理,包括:

当M个异常故障排查层级中存在关键故障排查层级时,获取目标集群对应的参考集群;

将目标集群中的业务数据发送至参考集群,以使得参考集群执行目标集群对应的业务。

可以理解的是,本实施例的故障处理装置的各单元可根据上述方法实施例图2或者图4中的方法具体实现,其具体实现过程可以参照上述方法实施例图2或者图4的相关描述,此处不再赘述。

在本申请实施例中,故障处理设备可以响应于对目标集群进行故障处理的触发操作,获取目标集群对应的目标故障排查路径,该目标故障排查路径包括N个故障排查层级。基于目标故障排查路径中的N个故障排查层级对目标集群进行故障排查,得到目标集群对应的每个故障排查层级的故障排查结果。根据目标集群的每个故障排查层级的故障排查结果确定M个异常故障排查层级;并确定M个异常故障排查层级中每个异常故障排查层级对应的策略,以及基于每个异常故障排查层级对应的策略执行故障处理。由于本申请实施例中的故障处理设备可以直接根据目标故障排查路径对目标集群进行故障排查,无需人工参与,可有效节省人力资源,提升故障处理效率;并且,还可不受运维用户的运维能力限制,可以快速精准的故障定位。除此之外,由于针对异常故障排查层级预设了策略,可以直接基于异常故障排查层级对应的策略执行故障处理。故障处理过程也不受运维用户的运维能力限制,可以快速精准的执行故障处理,进一步提升故障处理的效率与准确性。

需要说明的是,本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。故障处理设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该故障处理设备执行上述故障处理方法实施例图2或图4中所执行的步骤。

以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于申请所涵盖的范围。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:数据库删除数据的恢复方法、装置、设备和存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!