一种分布式存储系统的节点状态检测方法和装置
技术领域
本发明涉及设备检测领域,更具体地,特别是指一种分布式存储系统的节点状态检测方法和装置。
背景技术
分布式存储系统,各个节点都运行着存储程序,当一个或几个节点出现CPU(中央处理器)、内存、网络或磁盘处于一种健康状态与故障状态之间的亚健康状态时,则这些节点会成为整个分布式存储系统的性能瓶颈。为了可以更快的检测出亚健康状态,则需要更短的时间间隔来采集节点的各类资源使用情况的信息,进而导致记录节点的各类资源的日志变的变大,占用磁盘空间变大,此时有可能影响到系统的稳定性;一旦日志占满了磁盘,还会影响到系统日志的可追溯性。
针对现有技术中节点日志过大影响磁盘空间和节点稳定性的问题,目前尚无有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种分布式存储系统的节点状态检测方法和装置,能够降低日志占用空间,维持节点状态检测的可用性和节点稳定性。
基于上述目的,本发明实施例的第一方面提供了一种分布式存储系统的节点状态检测方法,包括执行以下步骤:
使用数据队列周期性地获取节点状态数据并将节点状态数据写入数据队列,直到数据队列的尺寸达到处理阈值;
使用预设的特征矩阵处理数据队列,获得存储有节点状态数据的信息的稀疏矩阵,将稀疏矩阵压缩并记录到节点日志;
响应于接收到节点状态检测指示,而从节点日志中提取并解压缩稀疏矩阵,使用特征矩阵处理稀疏矩阵获得数据队列,并提取出节点状态数据;
基于节点状态数据确定分布式存储系统的节点状态,并基于节点状态选择性地发出亚健康告警或错误告警。
在一些实施方式中,节点状态数据包括以下至少之一:节点的处理器占用率、内存占用率、交换机占用率、网络时延、网络丢包率、磁盘读写速率。
在一些实施方式中,数据队列为二维数组队列,其中二维数组队列的行数为数据队列的尺寸达到处理阈值时的采集次数,二维数组队列的列数节点状态数据的种类数。
在一些实施方式中,使用数据队列周期性地获取节点状态数据并将节点状态数据写入数据队列包括周期性地执行以下步骤:获取节点状态数据,在二维数组队列的行末尾中新建一行,并将节点状态数据以其每一种类数据均与二维数组队列的列一一对应的方式写入新建行。
在一些实施方式中,方法还包括:在将稀疏矩阵压缩并记录到节点日志之后,还清空数据队列并再次周期性地获取节点状态数据以写入数据队列。
在一些实施方式中,基于节点状态数据确定分布式存储系统的节点状态包括:将节点状态数据中的每一种类均分别与该种类的错误阈值和亚健康阈值进行比较。
在一些实施方式中,基于节点状态选择性地发出亚健康告警或错误告警包括:
响应于确定存在至少一个种类的节点状态数据的数值落入了该种类的错误阈值所限定的范围内,而发出错误告警;
响应于确定不存在任何种类的节点状态数据的数值落入了该种类的错误阈值所限定的范围内,但存在至少一个种类的节点状态数据的数值落入了该种类的亚健康阈值所限定的范围内,而发出亚健康告警;
响应于确定不存在任何种类的节点状态数据的数值落入了该种类的错误阈值或亚健康阈值所限定的范围内,而不发出任何告警。
在一些实施方式中,方法还包括:响应于确定不存在任何种类的节点状态数据的数值落入了该种类的错误阈值或亚健康阈值所限定的范围内,并且在此前已经针对节点发出过亚健康告警,而发出亚健康告警恢复信息。
在一些实施方式中,针对每个亚健康告警最多仅发出一次亚健康告警恢复信息。
本发明实施例的第二方面提供了一种装置,包括:
处理器;
控制器,存储有处理器可运行的程序代码,处理器在运行程序代码时执行以下步骤:
使用数据队列周期性地获取节点状态数据并将节点状态数据写入数据队列,直到数据队列的尺寸达到处理阈值;
使用预设的特征矩阵处理数据队列,获得存储有节点状态数据的信息的稀疏矩阵,将稀疏矩阵压缩并记录到节点日志;
响应于接收到节点状态检测指示,而从节点日志中提取并解压缩稀疏矩阵,使用特征矩阵处理稀疏矩阵获得数据队列,并提取出节点状态数据;
基于节点状态数据确定分布式存储系统的节点状态,并基于节点状态选择性地发出亚健康告警或错误告警。
在一些实施方式中,节点状态数据包括以下至少之一:节点的处理器占用率、内存占用率、交换机占用率、网络时延、网络丢包率、磁盘读写速率。
在一些实施方式中,数据队列为二维数组队列,其中二维数组队列的行数为数据队列的尺寸达到处理阈值时的采集次数,二维数组队列的列数节点状态数据的种类数。
在一些实施方式中,使用数据队列周期性地获取节点状态数据并将节点状态数据写入数据队列包括周期性地执行以下步骤:获取节点状态数据,在二维数组队列的行末尾中新建一行,并将节点状态数据以其每一种类数据均与二维数组队列的列一一对应的方式写入新建行。
在一些实施方式中,步骤还包括:在将稀疏矩阵压缩并记录到节点日志之后,还清空数据队列并再次周期性地获取节点状态数据以写入数据队列。
在一些实施方式中,基于节点状态数据确定分布式存储系统的节点状态包括:将节点状态数据中的每一种类均分别与该种类的错误阈值和亚健康阈值进行比较。
在一些实施方式中,基于节点状态选择性地发出亚健康告警或错误告警包括:
响应于确定存在至少一个种类的节点状态数据的数值落入了该种类的错误阈值所限定的范围内,而发出错误告警;
响应于确定不存在任何种类的节点状态数据的数值落入了该种类的错误阈值所限定的范围内,但存在至少一个种类的节点状态数据的数值落入了该种类的亚健康阈值所限定的范围内,而发出亚健康告警;
响应于确定不存在任何种类的节点状态数据的数值落入了该种类的错误阈值或亚健康阈值所限定的范围内,而不发出任何告警。
在一些实施方式中,步骤还包括:响应于确定不存在任何种类的节点状态数据的数值落入了该种类的错误阈值或亚健康阈值所限定的范围内,并且在此前已经针对节点发出过亚健康告警,而发出亚健康告警恢复信息。
在一些实施方式中,针对每个亚健康告警最多仅发出一次亚健康告警恢复信息。
本发明具有以下有益技术效果:本发明实施例提供的分布式存储系统的节点状态检测方法和装置,通过使用数据队列周期性地获取节点状态数据并将节点状态数据写入数据队列,直到数据队列的尺寸达到处理阈值;使用预设的特征矩阵处理数据队列,获得存储有节点状态数据的信息的稀疏矩阵,将稀疏矩阵压缩并记录到节点日志;响应于接收到节点状态检测指示,而从节点日志中提取并解压缩稀疏矩阵,使用特征矩阵处理稀疏矩阵获得数据队列,并提取出节点状态数据;基于节点状态数据确定分布式存储系统的节点状态,并基于节点状态选择性地发出亚健康告警或错误告警的技术方案,能够降低日志占用空间,维持节点状态检测的可用性和节点稳定性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的分布式存储系统的节点状态检测方法的流程示意图;
图2为本发明提供的分布式存储系统的节点状态检测方法的前两步骤的流程示意图;
图3为本发明提供的分布式存储系统的节点状态检测方法的后两步骤的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种降低日志占用空间,维持节点状态检测的可用性和节点稳定性的分布式存储系统的节点状态检测方法的一个实施例。图1示出的是本发明提供的分布式存储系统的节点状态检测方法的流程示意图。
所述的分布式存储系统的节点状态检测方法,如图1所示,包括执行以下步骤:
步骤S101,使用数据队列周期性地获取节点状态数据并将节点状态数据写入数据队列,直到数据队列的尺寸达到处理阈值;
步骤S103,使用预设的特征矩阵处理数据队列,获得存储有节点状态数据的信息的稀疏矩阵,将稀疏矩阵压缩并记录到节点日志;
步骤S105,响应于接收到节点状态检测指示,而从节点日志中提取并解压缩稀疏矩阵,使用特征矩阵处理稀疏矩阵获得数据队列,并提取出节点状态数据;
步骤S107,基于节点状态数据确定分布式存储系统的节点状态,并基于节点状态选择性地发出亚健康告警或错误告警。
本发明提出了一种基于压缩感知的节点资源记录及亚健康诊断的装置,使用特定矩阵将一段时间间隔采集的所有的存储系统的CPU占用率、内存占用率、Swap(交换机)占用率、网络时延、网络丢包及磁盘的IO(读写)速率等特征转换为稀疏矩阵,并记录非零值作为日志文件。检测亚健康的程序,读取日志文件经过反向矩阵计算恢复节点一段时间内的资源占用信息,并判断各个资源是否处于亚健康状态,若存在亚健康状态,上报告警。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
在一些实施方式中,节点状态数据包括以下至少之一:节点的处理器占用率、内存占用率、交换机占用率、网络时延、网络丢包率、磁盘读写速率。
在一些实施方式中,数据队列为二维数组队列,其中二维数组队列的行数为数据队列的尺寸达到处理阈值时的采集次数,二维数组队列的列数节点状态数据的种类数。
在一些实施方式中,使用数据队列周期性地获取节点状态数据并将节点状态数据写入数据队列包括周期性地执行以下步骤:获取节点状态数据,在二维数组队列的行末尾中新建一行,并将节点状态数据以其每一种类数据均与二维数组队列的列一一对应的方式写入新建行。
在一些实施方式中,方法还包括:在将稀疏矩阵压缩并记录到节点日志之后,还清空数据队列并再次周期性地获取节点状态数据以写入数据队列。
结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
在一些实施方式中,基于节点状态数据确定分布式存储系统的节点状态包括:将节点状态数据中的每一种类均分别与该种类的错误阈值和亚健康阈值进行比较。
在一些实施方式中,基于节点状态选择性地发出亚健康告警或错误告警包括:
响应于确定存在至少一个种类的节点状态数据的数值落入了该种类的错误阈值所限定的范围内,而发出错误告警;
响应于确定不存在任何种类的节点状态数据的数值落入了该种类的错误阈值所限定的范围内,但存在至少一个种类的节点状态数据的数值落入了该种类的亚健康阈值所限定的范围内,而发出亚健康告警;
响应于确定不存在任何种类的节点状态数据的数值落入了该种类的错误阈值或亚健康阈值所限定的范围内,而不发出任何告警。
在一些实施方式中,响应于确定不存在任何种类的节点状态数据的数值落入了该种类的错误阈值或亚健康阈值所限定的范围内,并且在此前已经针对节点发出过亚健康告警,而发出亚健康告警恢复信息。
在一些实施方式中,针对每个亚健康告警最多仅发出一次亚健康告警恢复信息。
本文所述的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
下面根据具体实施例进一步阐述本发明的具体实施方式。
本发明实施例可以拆分为“生成日志”和“解析日志”两个部分,分别对应步骤S101、103和步骤S105、107,并分别参见图2和图3来了解对应的一部分实施方式。
图2对应步骤S101、103:
(1)创建二维数组队列,二维数组队列用于记录每个采集时间点所有系统资源信息,包括CPU占用率、内存占用率、Swap占用率、网络时延、网络丢包及磁盘的IO速率等。
(2)判断队列是否不满,不满则跳到(3);满则跳到(6)。
(3)采集系统资源信息,包括CPU占用率、内存占用率、Swap占用率、网络时延、网络丢包及磁盘的IO速率等。
(4)将所有采集的信息计入队列.
(5)等待一段时间后返回(2)。
(6)将整个队列所有值与特定矩阵相乘做变换为稀疏矩阵。
(7)压缩稀疏矩阵并记录到日志。
(8)队列头出队,并返回(2)。
图2构造了持续采集和输出日志的方法,该方法能够在长时间内以较低的存储成本连续生产日志。
图3对应步骤S105、107:
(1)读取日志信息。
(2)读取的信息与特定矩阵相乘恢复之前记录的系统资源信息,包括CPU占用率、内存占用率、Swap占用率、网络时延、网络丢包及磁盘的IO速率等特征。
(3)根据获取到的系统资源信息,判断各个资源项是否大于了亚健康告警的阈值。
(4)如果大于亚健康告警阈值则告警;如果不大于亚健康告警阈值则上报告警恢复。
在本实施例中仅阐述了亚健康告警,而事实上错误告警也可以使用同样方式来实施,或者二者同时实施。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
从上述实施例可以看出,本发明实施例提供的分布式存储系统的节点状态检测方法,通过使用数据队列周期性地获取节点状态数据并将节点状态数据写入数据队列,直到数据队列的尺寸达到处理阈值;使用预设的特征矩阵处理数据队列,获得存储有节点状态数据的信息的稀疏矩阵,将稀疏矩阵压缩并记录到节点日志;响应于接收到节点状态检测指示,而从节点日志中提取并解压缩稀疏矩阵,使用特征矩阵处理稀疏矩阵获得数据队列,并提取出节点状态数据;基于节点状态数据确定分布式存储系统的节点状态,并基于节点状态选择性地发出亚健康告警或错误告警的技术方案,能够降低日志占用空间,维持节点状态检测的可用性和节点稳定性。
需要特别指出的是,上述分布式存储系统的节点状态检测方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于分布式存储系统的节点状态检测方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种降低日志占用空间,维持节点状态检测的可用性和节点稳定性的分布式存储系统的节点状态检测装置的一个实施例。装置包括:
处理器;
控制器,存储有处理器可运行的程序代码,处理器在运行程序代码时执行以下步骤:
使用数据队列周期性地获取节点状态数据并将节点状态数据写入数据队列,直到数据队列的尺寸达到处理阈值;
使用预设的特征矩阵处理数据队列,获得存储有节点状态数据的信息的稀疏矩阵,将稀疏矩阵压缩并记录到节点日志;
响应于接收到节点状态检测指示,而从节点日志中提取并解压缩稀疏矩阵,使用特征矩阵处理稀疏矩阵获得数据队列,并提取出节点状态数据;
基于节点状态数据确定分布式存储系统的节点状态,并基于节点状态选择性地发出亚健康告警或错误告警。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一些实施方式中,节点状态数据包括以下至少之一:节点的处理器占用率、内存占用率、交换机占用率、网络时延、网络丢包率、磁盘读写速率。
在一些实施方式中,数据队列为二维数组队列,其中二维数组队列的行数为数据队列的尺寸达到处理阈值时的采集次数,二维数组队列的列数节点状态数据的种类数。
在一些实施方式中,使用数据队列周期性地获取节点状态数据并将节点状态数据写入数据队列包括周期性地执行以下步骤:获取节点状态数据,在二维数组队列的行末尾中新建一行,并将节点状态数据以其每一种类数据均与二维数组队列的列一一对应的方式写入新建行。
在一些实施方式中,步骤还包括:在将稀疏矩阵压缩并记录到节点日志之后,还清空数据队列并再次周期性地获取节点状态数据以写入数据队列。
在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
在一些实施方式中,基于节点状态数据确定分布式存储系统的节点状态包括:将节点状态数据中的每一种类均分别与该种类的错误阈值和亚健康阈值进行比较。
在一些实施方式中,基于节点状态选择性地发出亚健康告警或错误告警包括:
响应于确定存在至少一个种类的节点状态数据的数值落入了该种类的错误阈值所限定的范围内,而发出错误告警;
响应于确定不存在任何种类的节点状态数据的数值落入了该种类的错误阈值所限定的范围内,但存在至少一个种类的节点状态数据的数值落入了该种类的亚健康阈值所限定的范围内,而发出亚健康告警;
响应于确定不存在任何种类的节点状态数据的数值落入了该种类的错误阈值或亚健康阈值所限定的范围内,而不发出任何告警。
在一些实施方式中,响应于确定不存在任何种类的节点状态数据的数值落入了该种类的错误阈值或亚健康阈值所限定的范围内,并且在此前已经针对节点发出过亚健康告警,而发出亚健康告警恢复信息。
在一些实施方式中,针对每个亚健康告警最多仅发出一次亚健康告警恢复信息。
本发明例公开所述的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。
从上述实施例可以看出,本发明实施例提供的分布式存储系统的节点状态检测装置,通过使用数据队列周期性地获取节点状态数据并将节点状态数据写入数据队列,直到数据队列的尺寸达到处理阈值;使用预设的特征矩阵处理数据队列,获得存储有节点状态数据的信息的稀疏矩阵,将稀疏矩阵压缩并记录到节点日志;响应于接收到节点状态检测指示,而从节点日志中提取并解压缩稀疏矩阵,使用特征矩阵处理稀疏矩阵获得数据队列,并提取出节点状态数据;基于节点状态数据确定分布式存储系统的节点状态,并基于节点状态选择性地发出亚健康告警或错误告警的技术方案,能够降低日志占用空间,维持节点状态检测的可用性和节点稳定性。
需要特别指出的是,上述装置的实施例采用了所述分布式存储系统的节点状态检测方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述分布式存储系统的节点状态检测方法的其他实施例中。当然,由于所述分布式存储系统的节点状态检测方法实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于所述装置也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:一种区块链网络异常检测方法