基于集成分类模型的分类方法及相关设备
技术领域
本公开涉及计算机
技术领域
,具体而言,涉及一种基于集成分类模型的分类方法及装置、计算机可读存储介质、电子设备。背景技术
集成分类模型(Stacking模型,又称为Stacked Generalization模型),是一种集成分类算法,也可以看作一种特殊的组合策略。
集成分类模型中的基分类器的选择,极大地影响了集成分类模型的性能。如何确定集成分类模型中选择哪些分类器以及选择多少个分类器作为基分类器,以构建一个鲁棒的集成分类模型是一个亟待解决的技术问题。
因此,需要一种新的基于集成分类模型的分类方法及装置、计算机可读存储介质、电子设备。
需要说明的是,在上述
背景技术
部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开实施例提供一种基于集成分类模型的分类方法及装置、计算机可读存储介质、电子设备,能够解决上述相关技术中存在的构建鲁棒的集成分类模型的技术问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供一种基于集成分类模型的分类方法,所述方法包括:构建所述集成分类模型,所述集成分类模型包括基分类器层,所述基分类器层包括基分类器;利用模型训练样本集训练所述集成分类模型;获得当前待分类数据;以及通过训练完的所述集成分类模型处理所述当前待分类数据,获得所述当前待分类数据的目标分类结果。
其中,构建所述集成分类模型包括:从N个分类器中选择k个分类器,获得至少两种分类器组合,k为大于或等于2且小于或等于N的正整数,N为大于或等于2的正整数;基于每种分类器组合中包含的分类器的数量,确定每种分类器组合的目标分类器个数指标;根据每种分类器组合的目标分类器个数指标确定每种分类器组合的加权个数准确性多样性度量指标;根据每种分类器组合的加权个数准确性多样性度量指标从所述至少两种分类器组合中确定目标分类器组合;将所述目标分类器组合中的分类器作为所述集成分类模型的所述基分类器层中的所述基分类器。
本公开实施例提供一种基于集成分类模型的分类装置,所述装置包括:集成分类模型构建单元,用于构建所述集成分类模型,所述集成分类模型包括基分类器层,所述基分类器层包括基分类器;集成分类模型训练单元,用于利用模型训练样本集训练所述集成分类模型;当前待分类数据获得单元,用于获得当前待分类数据;以及目标分类结果获得单元,用于通过训练完的所述集成分类模型处理所述当前待分类数据,获得所述当前待分类数据的目标分类结果。
其中,所述集成分类模型构建单元包括:分类器组合获得单元,用于从N个分类器中选择k个分类器,获得至少两种分类器组合,k为大于或等于2且小于或等于N的正整数,N为大于或等于2的正整数;目标分类器个数指标确定单元,用于基于每种分类器组合中包含的分类器的数量,确定每种分类器组合的目标分类器个数指标;加权个数准确性多样性度量指标确定单元,用于根据每种分类器组合的目标分类器个数指标确定每种分类器组合的加权个数准确性多样性度量指标;目标分类器组合确定单元,用于根据每种分类器组合的加权个数准确性多样性度量指标从所述至少两种分类器组合中确定目标分类器组合;基分类器确定单元,用于将所述目标分类器组合中的分类器作为所述集成分类模型的所述基分类器层中的所述基分类器。
本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中所述的基于集成分类模型的分类方法。
本公开实施例提供了一种电子设备,包括:至少一个处理器;存储装置,配置为存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如上述实施例中所述的基于集成分类模型的分类方法。
在本公开的一些实施例所提供的技术方案中,在构建集成分类模型的过程中,通过从给定的可供选择的多个分类器中选择不同数量的分类器,以获得多种分类器组合,然后根据每种分类器组合中包含的分类器的数量,可以确定每种分类器组合的目标分类器个数指标,并进一步根据每种分类器组合的目标分类器个数指标来确定每种分类器组合的加权个数准确性多样性度量指标,然后根据每种分类器组合的加权个数准确性多样性度量指标来从上述多种分类器组合中选择一个最优的分类器组合作为目标分类器组合,由于在确定最优的分类器组合的过程中,考虑了每种分类器组合中包含的分类器的数量这个因素,使得最终确定的最优的分类器组合可以根据实际情况从给定的可供选择的多个分类器中确定最优的分类器的数量,使得构建的集成分类模型的基分类器具有最优的分类器的个数。当将本公开实施例提供的方法应用不同的集成分类模型的构建时,则可以适用于不同分类器个数的基分类器的选择,提供了一种更具有普适性的选择策略,最终使得构建的集成分类模型的鲁棒性更强。将经过训练的该集成分类模型应用于分类问题中时,则可以提高集成分类模型的分类效率和性能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据本公开的一实施例的基于集成分类模型的分类方法的流程图。
图2示意性示出了图1中步骤S12在一示例性实施例中的流程图。
图3示意性示出了图1中步骤S13在一示例性实施例中的流程图。
图4示意性示出了图3中步骤S131在一示例性实施例中的流程图。
图5示意性示出了图3中步骤S132在一示例性实施例中的流程图。
图6示意性示出了根据本公开的一实施例的基于集成分类模型的分类方法的流程图。
图7示意性示出了根据本公开的一实施例的基于集成分类模型的分类方法的流程图。
图8示意性示出了根据本公开的一实施例的基于集成分类模型的分类方法的示意图。
图9示意性示出了根据本公开的一实施例的基于集成分类模型的分类方法的示意图。
图10示意性示出了根据本公开的一实施例的基于集成分类模型的分类装置的框图。
图11示出了可以应用本公开实施例的基于集成分类模型的分类方法的示例性场景示意图。
图12示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在至少一个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和步骤,也不是必须按所描述的顺序执行。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本说明书中,用语“一个”、“一”、“该”、“所述”和“至少一个”用以表示存在至少一个要素/组成部分/等;用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”、“第二”和“第三”等仅作为标记使用,不是对其对象的数量限制。
下面结合附图对本公开示例实施方式进行详细说明。
基于上述相关技术中存在的技术问题,本公开实施例提出了一种基于集成分类模型的分类方法,以用于至少部分解决上述问题。本公开各实施例提供的方法可以由任意的电子设备来执行,例如服务器,或者终端,或者服务器与终端之间进行交互,本公开对此不做限定。
图1示意性示出了根据本公开的一实施例的基于集成分类模型的分类方法的流程图。如图1所示,本公开实施例提供的方法可以包括以下步骤。
在步骤S1中,构建所述集成分类模型,所述集成分类模型包括基分类器层,所述基分类器层包括基分类器。
本公开实施例中,集成分类模型又可以称之为Stacking模型,是一种分层模型集成框架,可以包括多层(两层或者两层以上),在下面的举例说明中,均以两层为例进行举例说明,但本公开并不限定于此。
其中,第一层包括多个(两个或者两个以上)基分类器,称之为基分类器层(Base-Level)。该多个基分类器可以是不同类型的分类器,也可以是相同类型但参数不同的分类器。第二层称之为基分类器的次级分类器层(Meta-Level)。
参考图1,上述步骤S1可以进一步包括以下步骤S11-S15以用于确定集成分类模型中的基分类器层中的基分类器。
在步骤S11中,从N个分类器中选择k个分类器,获得至少两种分类器组合,k为大于或等于2且小于或等于N的正整数,N为大于或等于2的正整数。
其中,从N个给定的可供选择的分类器中每次选择k个分类器,至多可以获得种分类器组合。
在步骤S12中,基于每种分类器组合中包含的分类器的数量,确定每种分类器组合的目标分类器个数指标。
本公开实施例中,目标分类器个数指标是用于衡量分类器组合中包含的分类器的数量的指标。
例如,上述种分类器组合中,当k=2时,则对应分类器组合中包含的分类器的数量等于2;当k=3时,则对应分类器组合中包含的分类器的数量等于3;以此类推,当k=N时,则对应分类器组合中包含的分类器的数量等于N。
在步骤S13中,根据每种分类器组合的目标分类器个数指标确定每种分类器组合的加权个数准确性多样性度量指标。
在步骤S14中,根据每种分类器组合的加权个数准确性多样性度量指标从所述至少两种分类器组合中确定目标分类器组合。
在步骤S15中,将所述目标分类器组合中的分类器作为所述集成分类模型的所述基分类器层中的所述基分类器。
本公开实施例中,在计算每种分类器组合的加权个数准确性多样性度量指标时,考虑了每种分类器组合中包含的分类器的数量,即引入了每种分类器组合的目标分类器个数指标,使得所获得的加权个数准确性多样性度量指标可以适用于不同个数的分类器的选择以作为基分类器。
Stacking模型设计的整体原则是基分类器“好而不同”,“好”即代表准确性,“不同”即代表“多样性”。从下表1可以看出,当基分类器准确性和多样性相同,但基分类器个数不同时,也可能会影响Stacking模型的效果,特别是当用于训练Stacking模型的模型训练样本集中的样本数远大于基分类器个数时,一般而言基分类器个数越多,Stacking模型学习更充分。因此,本公开实施例通过引入目标分类器个数指标,可以适用于不同个数的基分类器选择。
表1Stacking模型基分类器效果及Stacking效果示意图
样本1
样本2
样本3
基分类器1的分类结果
√(分类正确)
√
×
基分类器2的分类结果
×(分类不正确)
√
√
基分类器3的分类结果
√
×
√
Stacking模型的分类结果
√
√
√
在步骤S2中,利用模型训练样本集训练所述集成分类模型。
本公开实施例中,基分类器层的输入为模型训练样本集,基分类器的次级分类器层以第一层中的基分类器的输出作为特征加入模型训练样本集进行再训练,得到完整的集成分类模型。集成分类模型融合之后能够提高集成分类模型的预测准确度。
在步骤S3中,获得当前待分类数据。
本公开实施例中,当前待分类数据可以根据不同的分类场景来相应确定,本公开对此不做限定。
在步骤S4中,通过训练完的所述集成分类模型处理所述当前待分类数据,获得所述当前待分类数据的目标分类结果。
本公开实施例中,当前待分类数据的目标分类结果可以根据不同的分类场景来确定,本公开对此不做限定。由于Stacking模型对基分类器的输出进行了再学习,从而能够保证Stacking模型具有更好更鲁棒的分类性能。
本公开实施方式提供的基于集成分类模型的分类方法,在构建集成分类模型的过程中,通过从给定的可供选择的多个分类器中选择不同数量的分类器,以获得多种分类器组合,然后根据每种分类器组合中包含的分类器的数量,可以确定每种分类器组合的目标分类器个数指标,并进一步根据每种分类器组合的目标分类器个数指标来确定每种分类器组合的加权个数准确性多样性度量指标,然后根据每种分类器组合的加权个数准确性多样性度量指标来从上述多种分类器组合中选择一个最优的分类器组合作为目标分类器组合,由于在确定最优的分类器组合的过程中,考虑了每种分类器组合中包含的分类器的数量这个因素,使得最终确定的最优的分类器组合可以根据实际情况从给定的可供选择的多个分类器中确定最优的分类器的数量,使得构建的集成分类模型的基分类器具有最优的分类器的个数。当将本公开实施例提供的方法应用不同的集成分类模型的构建时,则可以适用于不同分类器个数的基分类器的选择,提供了一种更具有普适性的选择策略,最终使得构建的集成分类模型的鲁棒性更强。将经过训练的该集成分类模型应用于分类问题中时,则可以提高集成分类模型的分类效率和性能。
图2示意性示出了图1中步骤S12在一示例性实施例中的流程图。如图2所示,本公开实施例中上述步骤S12可以进一步包括以下步骤。
在步骤S121中,根据每种分类器组合中包含的分类器的数量,确定每种分类器组合的分类器个数。
例如,上述种分类器组合中,当k=2时,对应分类器组合中包含的分类器的数量等于2,则对应分类器组合的分类器个数为2;当k=3时,对应分类器组合中包含的分类器的数量等于3,则对应分类器组合的分类器个数为3;以此类推,当k=N时,对应分类器组合中包含的分类器的数量等于N,则对应分类器组合的分类器个数为N。
在步骤S122中,从所述至少两种分类器组合的分类器个数中确定最大分类器个数和最小分类器个数。
例如,上述种分类器组合中,一共有个分类器个数k,对这个分类器个数k进行降序或者升序排列,可以从中确定最大分类器个数kmax和最小分类器个数kmin。
在步骤S123中,根据所述最大分类器个数、所述最小分类器个数和每种分类器组合的分类器个数,确定每种分类器组合的目标分类器个数指标。
例如,可以根据以下公式对每种分类器组合的分类器个数k进行最大最小归一化,获得每种分类器组合的归一化分类器个数,将其作为对应分类器组合的目标分类器个数指标kscale:
其中,2≤k≤N。
本公开实施例中,通过对每种分类器组合的分类器个数进行归一化,将归一化分类器个数作为每种分类器组合的目标分类器个数指标,可以使得根据每种分类器组合的目标分类器个数指标获得每种分类器组合的加权个数准确性多样性度量指标不受量纲的影响,更具有普适性。
图3示意性示出了图1中步骤S13在一示例性实施例中的流程图。如图3所示,本公开实施例中上述步骤S13可以进一步包括以下步骤。
在步骤S131中,获得每种分类器组合的目标准确性指标。
本公开实施例中,目标准确性指标是用于衡量分类器组合中的分类器的分类准确性性能的指标。
在步骤S132中,获得每种分类器组合的目标多样性指标。
本公开实施例中,目标多样性指标是用于衡量分类器组合中的分类器的多样性性能的指标。
在步骤S133中,确定准确性权重、多样性权重和分类器个数权重。
例如,可以用α表示准确性权重,代表控制分类器组合中的分类器的分类准确性重要程度的权重;可以用β代表多样性权重,代表控制分类器组合中的分类器的多样性重要程度的权重;可以用λ表示分类器个数权重,代表控制分类器组合中的分类器的数量重要程度的权重。
其中,α+β+λ=1,0<α<1,0<β<1,0<λ<1。
当α>β时,代表准确性比多样性重要,根据加权个数准确性多样性度量指标优先选择更加准确而不是更加多样的基分类器;当α<β时,代表多样性比准确性重要,根据加权个数准确性多样性度量指标优先选择更加多样而不是更加准确的基分类器。
若认为准确性、多样性、分类器的数量同等重要,则目标准确性指标、目标多样性指标、目标分类器个数指标具有相同的权重,即
在步骤S134中,根据每种分类器组合的目标准确性指标Rig和所述准确性权重、目标多样性指标Vari和所述多样性权重、以及目标分类器个数指标和所述分类器个数权重,确定每种分类器组合的加权个数准确性多样性度量指标。
Stacking模型中基分类器的选择,极大地影响了Stacking模型的性能。鲁棒的集成分类模型不仅应该是准确的,而且应该是多样的。因此,设计集成分类模型时,希望能够根据准确性和多样性,对基分类器进行选择。设计一个好的集成分类模型的总体原则是使得基分类器“好而不同”,即基分类器需同时满足准确性和多样性因素。
为了平衡基分类器的准确性和多样性,本公开实施例提出了加权个数准确性多样性度量指标(Weighted Number Accuracy and Diversity,WNAD),根据WNAD指标来对Stacking模型的基分类器进行选择。其中,WNAD的值越大,集成分类模型的性能越好。
例如,可以根据以下公式计算每种分类器组合的加权个数准确性多样性度量指标WNAD:
本公开实施例中,可以根据WNAD指标来对Stacking模型的基分类器进行选择。每种分类器组合的加权个数准确性多样性度量指标WNAD定义为每种分类器组合的目标准确性指标Rig、目标多样性指标Vari和目标分类器个数指标kscale之间的加权调和平均值。
图4示意性示出了图3中步骤S131在一示例性实施例中的流程图。如图4所示,本公开实施例中上述步骤S131可以进一步包括以下步骤。
在步骤S1311中,获得每种分类器组合中的每一个分类器的准确性度量指标。
在示例性实施例中,获得每种分类器组合中的每一个分类器的准确性度量指标,可以包括:将第一分类器训练样本集中的第一样本输入至每种分类器组合中的每一个分类器,获得每种分类器组合中的每一个分类器输出的对应第一样本的预测标签;根据每种分类器组合中的每一个分类器输出的对应第一样本的预测标签及其真实标签,确定每种分类器组合中的每一个分类器的真正样本数、假负样本数、假正样本数和真负样本数;根据每种分类器组合中的每一个分类器的真正样本数和假负样本数确定每种分类器组合中的每一个分类器的真正样本率;根据每种分类器组合中的每一个分类器的假正样本数和真负样本数确定每种分类器组合中的每一个分类器的假正样本率;根据每种分类器组合中的每一个分类器的真正样本率及其假正样本率的差值的最大值,确定每种分类器组合中的每一个分类器的正负样本分隔程度指标;根据每种分类器组合中的每一个分类器的正负样本分隔程度指标,确定每种分类器组合中的每一个分类器的准确性度量指标。
本公开实施例中,正负样本分隔程度指标也可以称之为KS(Kolmogorov-Smirnov)值,其中KS曲线(Kolmogorov-Smirnov Curve)横轴为不同的分类阈值,纵轴为真正样本率(TPr,分类器输出的第一样本的预测标签为正样本,且该第一样本的真实标签也为正样本的比率)和假正样本率(FPr,分类器输出的第一样本的预测标签为正样本,但该第一样本的真实标签却不是正样本的比率)的变化曲线。
可以根据以下公式计算每个分类器的KS值:
KS值=max|TPr-FPr| (3)
即KS值取的是TPr和FPr差值的最大值,可以用于衡量区分预测正负样本的分隔程度。一定范围内,KS值越大,表明正负样本区分的程度越好,说明模型区分度越高。
以二分类为例,分类器可以接sigmoid函数(S型函数)输出第一样本的预测概率,在0-1之间取分类阈值,若预测概率大于或等于该分类阈值,则该第一样本的预测标签为正样本;若预测概率小于该分类阈值,则该第一样本的预测标签为负样本。
KS值的取值范围是[0,1],可以乘以100%。KS值参考取值范围如下表2所示:
表2
本公开实施例中,可以使用分类结果混淆矩阵来辅助评估每个分类器构建后的分类性能,如下表3所示,分类结果混淆矩阵给出了分类器得到的预测标签和真实标签(第一样本在真实情况下的类别信息)。
表3分类结果混淆矩阵
基于上述分类结果混淆矩阵(以二分类为例,见表3),每个分类器的真正样本率(TPr)和假正样本率(FPr)的计算方法如下:
在示例性实施例中,获得每种分类器组合中的每一个分类器的准确性度量指标,可以包括:将第二分类器训练样本集中的第二样本输入至每种分类器组合中的每一个分类器,获得每种分类器组合中的每一个分类器输出的对应第二样本的预测标签;根据每种分类器组合中的每一个分类器输出的对应第二样本的预测标签及其真实标签,确定每种分类器组合中的每一个分类器的真正样本数、假负样本数、假正样本数和真负样本数;根据每种分类器组合中的每一个分类器的真正样本数和假负样本数确定每种分类器组合中的每一个分类器的真正样本率;根据每种分类器组合中的每一个分类器的假正样本数和真负样本数确定每种分类器组合中的每一个分类器的假正样本率;根据每种分类器组合中的每一个分类器的真正样本率及其假正样本率,确定每种分类器组合中的每一个分类器的曲线下面积指标;根据每种分类器组合中的每一个分类器的曲线下面积指标,确定每种分类器组合中的每一个分类器的准确性度量指标。
在其他实施例中,还可以采用每个分类器的曲线下面积指标AUC(Area UnderCurve)来确定每种分类器组合中的每一个分类器的准确性度量指标。AUC即ROC(receiveroperating characteristic curve,接受者操作特性曲线)曲线下的面积,用来衡量一个分类器的性能,其中,AUC的值越大,表明该分类器的分类性能越好。
ROC曲线给出的是不同分类阈值情况下真正样本率(TPr)和假正样本率(FPr)的变化曲线,即纵坐标为真正样本率(TPr),横坐标为假正样本率(FPr)。为了使得ROC曲线之间能更好的进行比较,可以采用AUC来衡量一个分类器的性能。
实际应用中,可以是先基于训练好的分类器得出第二样本的预测概率,然后将该第二样本的预测概率与给定的分类阈值进行比较,若该预测概率大于给定的分类阈值,则将该第二样本的预测标签为正样本,反之则为负样本。对于不同的分类任务,该分类阈值的取值也是不一样的。
以上述表3举例的二分类为例,基于上述分类结果混淆矩阵以及公式(4)和(5),可以计算出每个分类器的真正样本率TPr和假正样本率FPr。
在示例性实施例中,获得每种分类器组合中的每一个分类器的准确性度量指标,可以包括:将第三分类器训练样本集中的第三样本输入至每种分类器组合中的每一个分类器,获得每种分类器组合中的每一个分类器输出的对应第三样本的预测标签;根据每种分类器组合中的每一个分类器输出的对应第三样本的预测标签及其真实标签,确定每种分类器组合中的每一个分类器的真正样本数和假负样本数;根据每种分类器组合中的每一个分类器的真正样本数和假负样本数确定每种分类器组合中的每一个分类器的召回率;根据每种分类器组合中的每一个分类器的召回率,确定每种分类器组合中的每一个分类器的准确性度量指标。
本公开实施例中,召回率Recall也可以称之为查全率,是真正样本占所有真实标签为正样本的比值。查全率越高,表示分类器对正样本的召回性能越好。召回率在某些应用场景是很重要的指标,比如对于捕获“坏用户”,这类型场景就很关注召回率,即在所有的“坏用户”中,分类器能够捕获多少比例的“坏用户”。
还是以上述二分类的分类结果混淆矩阵为例,可以根据以下公式计算每个分类器的召回率:
需要说明的是,衡量分类器的准确性度量指标并不限于上述例举的KS值、AUC指标和召回率。例如,还可以采用以下准确度指标Acc(Accuracy的简写)来衡量分类器的效果,准确度指标越大,表示分类器分类正确的样本占总样本的比例越大。
例如,可以根据以下公式计算准确度指标Acc:
本公开实施例中,可以将每个分类器的KS值、AUC指标、召回率、准确度指标Acc中的任意一个作为每一个分类器的准确性度量指标,也可以选择每个分类器的KS值、AUC指标、召回率、准确度指标Acc中的任意几个进行组合运算获得每一个分类器的准确性度量指标,例如进行加权求和,本公开对此不做限定。
在步骤S1312中,根据每种分类器组合中的每一个分类器的准确性度量指标获得每种分类器组合的准确性度量指标均值。
例如,对种分类器组合中的每一种分类器组合,分别计算对应分类器组合中的所有分类器的准确性度量指标的均值,作为对应分类器组合的准确性度量指标均值。
例如,若选择每个分类器的KS值作为每一个分类器的准确性度量指标,则可以将每一种分类器组合内的所有分类器的KS值求均值获得KS值均值KSmean,作为对应分类器组合的准确性度量指标均值。
在步骤S1313中,从所述至少两种分类器组合的准确性度量指标均值中确定最大准确性度量指标均值和最小准确性度量指标均值。
例如,上述种分类器组合一共可以计算获得个准确性度量指标均值,对这个准确性度量指标均值Rigmean进行升序或者降序排列,确定其中的最大准确性度量指标均值Rigmean-max和最小准确性度量指标均值Rigmean-min。
在步骤S1314中,根据所述最大准确性度量指标均值、所述最小准确性度量指标均值和每种分类器组合的准确性度量指标均值,确定每种分类器组合的目标准确性指标。
例如,可以根据以下公式对每种分类器组合的准确性度量指标均值进行最大最小归一化,获得每种分类器组合的归一化准确性度量指标均值,将其作为对应分类器组合的目标准确性指标Rig:
本公开实施例中,通过对每种分类器组合的准确性度量指标均值进行归一化,将归一化准确性度量指标均值作为每种分类器组合的目标准确性指标,可以使得根据每种分类器组合的目标准确性指标获得每种分类器组合的加权个数准确性多样性度量指标不受量纲的影响,更具有普适性。
图5示意性示出了图3中步骤S132在一示例性实施例中的流程图。如图5所示,本公开实施例中上述步骤S132可以进一步包括以下步骤。
在步骤S1321中,获得每种分类器组合中的每两个分类器的多样性衡量指标。
本公开实施例中,每种分类器组合中的每两个分类器的多样性衡量指标Div是用于衡量不同分类器组合成的集成分类模型多样性的指标,可以采用Q统计量、相关系数、Kappa(卡帕)统计量等中的任意一种或者多种的组合(例如加权平均)来作为每两个分类器的多样性衡量指标,下面对其进行举例说明。
在示例性实施例中,所述至少两种分类器组合可以包括第一分类器组合,所述第一分类器组合可以包括第一分类器和第二分类器。
例如,第一分类器组合可以是上述种分类器组合中的任意一个分类器组合,第一分类器和第二分类器可以是该第一分类器组合中的任意两个分类器。这里通过如何计算第一分类器组合中的第一分类器和第二分类器为例,举例说明如何计算每种分类器组合中的每两个分类器的多样性衡量指标,其他分类器组合中的每两个分类器的多样性衡量指标的计算方式与此类似。
其中,获得每种分类器组合中的每两个分类器的多样性衡量指标,可以包括:将第四分类器训练样本集中的第四样本分别输入至所述第一分类器和所述第二分类器,获得所述第一分类器和所述第二分类器各自输出的对应第四样本的预测标签;根据所述第一分类器和所述第二分类器各自输出的对应第四样本的预测标签及其真实标签,获得所述第一分类器和所述第二分类器同时分类正确的样本数、所述第一分类器分类正确且所述第二分类器分类不正确的样本数、所述第一分类器分类不正确且所述第二分类器分类正确的样本数、以及所述第一分类器和所述第二分类器均分类不正确的样本数;根据所述第一分类器和所述第二分类器同时分类正确的样本数、所述第一分类器分类正确且所述第二分类器分类不正确的样本数、所述第一分类器分类不正确且所述第二分类器分类正确的样本数、以及所述第一分类器和所述第二分类器均分类不正确的样本数,确定所述第一分类器组合中的所述第一分类器和所述第二分类器的多样性衡量指标。
需要说明的是,本公开实施例提及的第一分类器训练样本集至第四分类器训练样本集可以是相同的用于训练分类器的样本集,也可以是不同的用于训练分类器的样本集,对应的第一样本至第四样本可以是相同的,也可以是不同的,本公开对此不做限定。
本公开实施例中,可以基于如下表4所示的两分类器分类结果表(这里的两分类器中的分类器i假设是第一分类器,分类器j假设是第二分类器),可以计算第一分类器和第二分类器的多样性衡量指标。
表4两分类器分类结果表
其中,a是指分类器i和分类器j同时分类正确的样本数,b是分类器i分类正确且分类器j分类不正确的样本数、c是分类器i分类不正确且分类器j分类正确的样本数、以及d是分类器i和分类器j均分类不正确的样本数。比如共有M个第四样本,则a+b+c+d=M,M为大于或等于1的正整数。
在示例性实施例中,根据所述第一分类器和所述第二分类器同时分类正确的样本数、所述第一分类器分类正确且所述第二分类器分类不正确的样本数、所述第一分类器分类不正确且所述第二分类器分类正确的样本数、以及所述第一分类器和所述第二分类器均分类不正确的样本数,确定所述第一分类器组合中的所述第一分类器和所述第二分类器的多样性衡量指标,可以包括:根据所述第一分类器和所述第二分类器同时分类正确的样本数、所述第一分类器分类正确且所述第二分类器分类不正确的样本数、所述第一分类器分类不正确且所述第二分类器分类正确的样本数、以及所述第一分类器和所述第二分类器均分类不正确的样本数,获得所述第一分类器组合中的所述第一分类器和所述第二分类器的相关系数;根据所述第一分类器组合中的所述第一分类器和所述第二分类器的相关系数,获得所述第一分类器组合中的所述第一分类器和所述第二分类器的多样性衡量指标。
本公开实施例中,若用相关系数作为第一分类器和第二分类器的多样性衡量指标,则可以根据以下公式计算第一分类器和第二分类器之间的相关系数ρi,j:
其中,ρi,j取值范围为[-1,1],若第一分类器和第二分类器正相关则ρi,j的值为正,反之为负。相关系数为0时,表示多样性最强。
在示例性实施例中,根据所述第一分类器和所述第二分类器同时分类正确的样本数、所述第一分类器分类正确且所述第二分类器分类不正确的样本数、所述第一分类器分类不正确且所述第二分类器分类正确的样本数、以及所述第一分类器和所述第二分类器均分类不正确的样本数,确定所述第一分类器组合中的所述第一分类器和所述第二分类器的多样性衡量指标,可以包括:根据所述第一分类器和所述第二分类器同时分类正确的样本数、所述第一分类器分类正确且所述第二分类器分类不正确的样本数、所述第一分类器分类不正确且所述第二分类器分类正确的样本数、以及所述第一分类器和所述第二分类器均分类不正确的样本数,获得所述第一分类器组合中的所述第一分类器和所述第二分类器的Q统计量;根据所述第一分类器组合中的所述第一分类器和所述第二分类器的Q统计量,获得所述第一分类器组合中的所述第一分类器和所述第二分类器的多样性衡量指标。
本公开实施例中,若用Q统计量(Q-statistic)作为第一分类器和第二分类器的多样性衡量指标,则可以根据以下公式计算第一分类器和第二分类器之间的Q统计量Qi,j:
其中,Qi,j取值范围为[-1,1],若第一分类器和第二分类器正相关则Qi,j的值为正,反之为负。Q统计量为0时,表示多样性最强。
在示例性实施例中,根据所述第一分类器和所述第二分类器同时分类正确的样本数、所述第一分类器分类正确且所述第二分类器分类不正确的样本数、所述第一分类器分类不正确且所述第二分类器分类正确的样本数、以及所述第一分类器和所述第二分类器均分类不正确的样本数,确定所述第一分类器组合中的所述第一分类器和所述第二分类器的多样性衡量指标,可以包括:根据所述第一分类器和所述第二分类器同时分类正确的样本数、所述第一分类器分类正确且所述第二分类器分类不正确的样本数、所述第一分类器分类不正确且所述第二分类器分类正确的样本数、以及所述第一分类器和所述第二分类器均分类不正确的样本数,获得所述第一分类器组合中的所述第一分类器和所述第二分类器的卡帕统计量;根据所述第一分类器组合中的所述第一分类器和所述第二分类器的卡帕统计量,获得所述第一分类器组合中的所述第一分类器和所述第二分类器的多样性衡量指标。
本公开实施例中,若用卡帕统计量(Kappa-statistic)作为第一分类器和第二分类器的多样性衡量指标,则可以根据以下公式计算第一分类器和第二分类器之间的卡帕统计量Kappai,j:
m=a+b+c+d (14)
若第一分类器和第二分类器对所有第四样本都返回相同的预测标签,则Kappa统计量的值为1;若第一分类器和第二分类器只是偶然达成一致,则Kappa统计量的值为0;当第一分类器和第二分类器达成一致的概率甚至低于偶然时,Kappa统计量为负值。Kappa统计量越小,多样性越强。
在步骤S1322中,根据每种分类器组合中的每两个分类器的多样性衡量指标获得每种分类器组合的多样性衡量指标均值。
例如,对上述种分类器组合中的每一种分类器组合中的每两个分类器的多样性衡量指标Div求均值,获得每种分类器组合的多样性衡量指标均值Divmean。
在步骤S1323中,从所述至少两种分类器组合的多样性衡量指标均值中确定最大多样性衡量指标均值和最小多样性衡量指标均值。
例如,对上述获得的个分类器组合的多样性衡量指标均值Divmean进行降序或升序排列,从中确定最大多样性衡量指标均值Divmean-max和最小多样性衡量指标均值Divmean-min。
在步骤S1324中,根据所述最大多样性衡量指标均值、所述最小多样性衡量指标均值和每种分类器组合的多样性衡量指标均值,确定每种分类器组合的目标多样性指标。
例如,可以根据以下公式对每种分类器组合的多样性衡量指标均值Divmean进行最大最小归一化,获得每种分类器组合的归一化多样性衡量指标均值,将其作为对应分类器组合的目标多样性指标Vari:
本公开实施例中,通过对每种分类器组合的多样性衡量指标均值进行归一化,将归一化多样性衡量指标均值作为每种分类器组合的目标多样性指标,可以使得根据每种分类器组合的目标多样性指标获得每种分类器组合的加权个数准确性多样性度量指标不受量纲的影响,更具有普适性。
需要说明的是,对于WNAD指标中衡量准确性和多样性的指标,可以根据实际应用有多种选择,并不限于上述举例。
下面通过图6和图7实施例对上述实施例提供的方法进行举例说明。
图6示意性示出了根据本公开的一实施例的基于集成分类模型的分类方法的流程图。
假设要从N个分类器中选择其中k个(2≤k≤N)作为Stacking模型的基分类器,则这k个分类器组合的WNAD指标的计算流程如图6所示。
在步骤S601中,从N个分类器中选择其中k个分类器,获得多种分类器组合。
例如,获得种分类器组合。
在步骤S602中,将样本输入至每种分类器组合中的k个分类器中的每一个分类器,分别获得每一个分类器输出的预测概率。
将样本输入至每种分类器组合的每一个分类器中,每一个分类器可以分别输出对应样本的预测概率。
在步骤S603中,根据每一个分类器输出的预测概率计算每种分类器组合的KS值均值。
将每一个分类器输出的预测概率与设定的分类阈值进行比较,可以确定对应样本的预测标签,根据对应样本的真实标签,即可确定如上述实施例所述的真正样本数TP、假负样本数FN、假正样本数FP和真负样本数TN,据此可以计算获得每一个分类器的真正样本率和假正样本率,然后可以获得每一个分类器的KS值,将对应分类器组合中所有分类器的KS值求均值,即可获得每种分类器组合的KS值均值KSmean。
在步骤S604中,对每种分类器组合的KS值均值进行归一化,获得每种分类器组合的归一化KS值均值。
本公开实施例中,可以对KS值均值采用最大最小归一化,但本公开并不限定于此。
例如,对种分类器组合的个KS值均值KSmean进行降序或者升序排列,可以确定最大KS值均值和最小KS值均值,参照上述最大最小归一化公式,可以获得每种分类器组合的归一化KS值均值KSmean-norm。
在步骤S605中,进行分类阈值调整,根据每一个分类器输出的预测概率和分类阈值确定每一个分类器针对对应样本的预测标签。
本公开实施例中,根据每一个分类器输出的对应样本的预测概率和分类阈值,可以确定对应样本的预测标签。分类阈值是可以调整的。
在步骤S606中,根据每一个分类器针对对应样本的预测标签,计算每种分类器组合的相关系数均值。
根据每一个分类器的预测标签及其对应样本的真实标签,可以确定该分类器针对该样本的分类是否正确,据此可以获得与上述实施例类似的第一分类器和第二分类器的分类结果表,根据每种分类器组合中的每两分类器的分类结果表,可以计算获得每两分类器的相关系数,对每种分类器组合中的每两分类器的相关系数求均值,即可获得每种分类器组合的相关系数均值Corrmean。
在步骤S607中,对每种分类器组合的相关系数均值进行归一化,获得每种分类器组合的归一化相关系数均值。
本公开实施例中,可以对相关系数均值采用最大最小归一化,但本公开并不限定于此。
例如,对种分类器组合的个相关系数均值Corrmean进行降序或者升序排列,可以确定最大相关系数均值和最小相关系数均值,参照上述最大最小归一化公式,可以获得每种分类器组合的归一化相关系数均值Corrmean-norm。
在步骤S608中,确定每种分类器组合的分类器个数k。
在步骤S609中,对每种分类器组合的分类器个数进行归一化,获得每种分类器组合的归一化分类器个数。
本公开实施例中,可以对分类器个数k采用最大最小归一化,但本公开并不限定于此。
例如,对种分类器组合的个分类器个数k进行降序或者升序排列,可以确定最大分类器个数和最小分类器个数,参照上述最大最小归一化公式,可以获得每种分类器组合的归一化分类器个数kscale。
在步骤S610中,根据每种分类器组合的归一化KS值均值、归一化相关系数均值和归一化分类器个数计算每种分类器组合的WNAD指标。
本公开实施例中,采用分类器KS值均值并对其进行归一化后获得的归一化KS值均值KSmean-norm作为目标准确性指标Rig,采用分类器组合的每两分类器相关系数均值并对其进行归一化后获得的归一化相关系数均值Corrmean-norm作为目标多样性指标Vari,采用分类器个数并对其进行归一化后获得的归一化分类器个数kscale作为目标分类器个数指标,则得到的WNAD指标下公式所示:
其中,α+β+λ=1且0<α,β,λ<1。
若认为准确性、多样性、分类器个数同等重要,即目标准确性指标、目标多样性指标、目标分类器个数指标具有相同的权重,即则公式(16)可简化为公式(17):
本公开实施例提供的方法,在计算WNAD指标过程中,对目标准确性指标、目标多样性指标、目标分类器个数指标进行了归一化处理,使得WNAD指标不受量纲的影响,更具有普适性。
图7示意性示出了根据本公开的一实施例的基于集成分类模型的分类方法的流程图。如图7所示,本公开实施例提供的方法可以包括以下步骤。
在步骤S701中,从N个分类器中选择其中k个分类器,获得多种分类器组合。
假设要从N个分类器中选择其中k个(2≤k≤N)分类器,则共有种分类器组合,对于每一种分类器组合,进行如下操作。
在步骤S702中,对每种分类器组合中的每一个分类器,基于其预测概率,计算每一个分类器的KS值。
对每一个分类器,基于其对样本的预测概率,计算每一个分类器的KS值。例如若某一个分类器为二分类器,预测标签y取值为0(例如代表负样本)或1(例如代表正样本),则预测概率即为将样本的预测标签预测为1的概率p,p取值[0,1],如p=0.7。
在步骤S703中,根据每种分类器组合中的每一个分类器的KS值,计算每种分类器组合的KS值均值。
再计算对应分类器组合的KS值均值。
在步骤S704中,对每种分类器组合中的每一个分类器,基于其预测概率,并根据分类阈值调整,计算每一个分类器的预测标签。
对每一个分类器,基于其预测概率p的取值,根据分类阈值调整,得到分类器的预测标签(是1还是0),比如p的取值为0.7,大于设定的分类阈值0.5,即因为0.7>0.5,将其预测标签归为1。
上述过程中涉及分类阈值调整,即为类别不平衡学习的基本策略“再缩放”,即若y'=p,y'即为分类器预测为负样本(坏样本,对应的正样本也可以称之为好样本)的预测概率。
在步骤S705中,基于预测标签,计算每种分类器组合中的每两个分类器的相关系数,取均值获得每种分类器组合的相关系数均值。
根据每个样本的预测标签和真实标签,就可以得知每个分类器对每个样本是否分类正确,从而可以得到如上所述的两分类器分类结果表,这里假设选择相关系数来衡量多样性。实验验证选取相关系数衡量多样性比较鲁棒。但根据实际情况也可以选择其他衡量多样性的指标,比如上述Q统计量或者Kappa统计量,或者Q统计量、Kappa统计量和相关系数三者的加权求和。
再对每种分类器组合中的每两分类器的相关系数取均值,获得每种分类器组合的相关系数均值。
在步骤S706中,对每种分类器组合的KS值均值、相关系数均值和分类器个数分别进行最大最小归一化,分别作为每种分类器组合的目标准确性指标、目标多样性指标和目标分类器个数指标。
分别对每种分类器组合的KS值均值、相关系数均值和分类器个数分别进行最大最小归一化,作为每种分类器组合的目标准确性指标、目标多样性指标和目标分类器个数指标。
在步骤S707中,根据每种分类器组合的目标准确性指标、目标多样性指标和目标分类器个数指标,计算每种分类器组合的加权个数准确性多样性度量指标。
根据上述公式(16)或(17)计算得到每种分类器组合的的WNAD指标。
在步骤S708中,将每种分类器组合的加权个数准确性多样性度量指标进行降序排列,选择加权个数准确性多样性度量指标最大的分类器组合作为集成分类模型的基分类器层中的基分类器。
将个WNAD指标的值进行降序或者升序排序,则最大的WNAD指标对应的分类器组合,即为该Stacking模型的最优分类器组合,将其作为集成分类模型的基分类器层。
本公开实施方式提供的方法,一方面,引入了目标分类器个数指标,使得WNAD指标更适用于不同个数的基分类器选择;另一方面,对目标准确性指标、目标多样性指标、目标分类器个数指标进行了归一化处理,使得WNAD指标不受量纲的影响,更具有普适性。
图8示意性示出了根据本公开的一实施例的基于集成分类模型的分类方法的示意图。
如图8所示,假设分类器总数N=7,并假设这7个分类器分别为LR(Logistic,回归分类器)、DNN(Deep Neural Networks,深度神经网络)、RF(random Forest,随机森林)、AdaBoost(是一种迭代算法,针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器))、GBDT(Gradient BoostingDecision Tree,梯度提升树)、XGBoost(eXtreme Gradient Boosting,极端梯度提升)、LightGBM(Light Gradient Boosting Machine,轻型梯度提升机器)。需要说明的是,这7种分类器仅用于举例说明,实际中可以根据需要提供任何类型的分类器。
从这7个分类器中选择k个分类器,则可以形成分类器组合1、分类器组合2直至分类器组合120,即120种分类器组合。要从这120种分类器组合中,选择最优分类器组合。
根据上述实施例提供的方法和公式,可以计算获得分类器组合1的WNAD指标1、分类器组合2的WNAD指标2直至分类器组合120的WNAD指标120。
然后从WNAD指标1、WNAD指标2直至WNAD指标120中选择WNAD指标最大的最优分类器组合作为基分类器层。
假设这120种分类器组合对应的WNAD指标的前5种分类器组合示意如下表5:
表5
根据上表5,基于WNAD指标,选出的最优分类组合(对应WNAD指标的值最大)为LR+DNN+GBDT+XGBoost+LightGBM,而该最优分类器组合对应的Stacking模型框架如图9所示。
如图9所示,集成分类模型的基分类器层包括LR、DNN、GBDT、XGBoost、LightGBM,将模型训练样本集输入至基分类器层,获得预测概率。之后进行归一化,然后输入至集成分类模型的次级分类器层,这里假设次级分类器层采用LR,但本公开并不限定于此,然后输出概率。
本公开实施方式提供的方法,提出了一种基于WNAD指标的Stacking模型的基分类器的选择方式,通过引入目标分类器个数指标,使得WNAD指标适用于不同个数的基分类器的选择,具有普适性。WNAD指标为Stacking集成分类模型中基分类器的选择提供了一种新的具有普适性的策略,辅助快速搭建Stacking集成分类模型,提高Stacking模型应用于分类问题中的效率和性能,对于所有分类场景都很适用。此外,WNAD指标对目标准确性指标、目标多样性指标、目标分类器个数指标进行了归一化处理,使得WNAD指标不受量纲的影响,更具有普适性。
图10示意性示出了根据本公开的一实施例的基于集成分类模型的分类装置的框图。如图10所示,本公开实施例提供的基于集成分类模型的分类装置1000可以包括集成分类模型构建单元1010、集成分类模型训练单元1020、当前待分类数据获得单元1030以及目标分类结果获得单元1040。
本公开实施例中,集成分类模型构建单元1010可以用于构建所述集成分类模型,所述集成分类模型可以包括基分类器层,所述基分类器层可以包括基分类器。集成分类模型训练单元1020可以用于利用模型训练样本集训练所述集成分类模型。当前待分类数据获得单元1030可以用于获得当前待分类数据。目标分类结果获得单元1040可以用于通过训练完的所述集成分类模型处理所述当前待分类数据,获得所述当前待分类数据的目标分类结果。
其中,所述集成分类模型构建单元1010可以包括:分类器组合获得单元1011、目标分类器个数指标确定单元1012、加权个数准确性多样性度量指标确定单元1013、目标分类器组合确定单元1014以及基分类器确定单元1015。
本公开实施例中,分类器组合获得单元1011可以用于从N个分类器中选择k个分类器,获得至少两种分类器组合,k为大于或等于2且小于或等于N的正整数,N为大于或等于2的正整数。目标分类器个数指标确定单元1012可以用于基于每种分类器组合中包含的分类器的数量,确定每种分类器组合的目标分类器个数指标。加权个数准确性多样性度量指标确定单元1013可以用于根据每种分类器组合的目标分类器个数指标确定每种分类器组合的加权个数准确性多样性度量指标。目标分类器组合确定单元1014可以用于根据每种分类器组合的加权个数准确性多样性度量指标从所述至少两种分类器组合中确定目标分类器组合。基分类器确定单元1015可以用于将所述目标分类器组合中的分类器作为所述集成分类模型的所述基分类器层中的所述基分类器。
本公开实施方式提供的基于集成分类模型的分类装置,在构建集成分类模型的过程中,通过从给定的可供选择的多个分类器中选择不同数量的分类器,以获得多种分类器组合,然后根据每种分类器组合中包含的分类器的数量,可以确定每种分类器组合的目标分类器个数指标,并进一步根据每种分类器组合的目标分类器个数指标来确定每种分类器组合的加权个数准确性多样性度量指标,然后根据每种分类器组合的加权个数准确性多样性度量指标来从上述多种分类器组合中选择一个最优的分类器组合作为目标分类器组合,由于在确定最优的分类器组合的过程中,考虑了每种分类器组合中包含的分类器的数量这个因素,使得最终确定的最优的分类器组合可以根据实际情况从给定的可供选择的多个分类器中确定最优的分类器的数量,使得构建的集成分类模型的基分类器具有最优的分类器的个数。当将本公开实施例提供的方法应用不同的集成分类模型的构建时,则可以适用于不同分类器个数的基分类器的选择,提供了一种更具有普适性的选择策略,最终使得构建的集成分类模型的鲁棒性更强。将经过训练的该集成分类模型应用于分类问题中时,则可以提高集成分类模型的分类效率和性能。
在示例性实施例中,目标分类器个数指标确定单元1012可以包括:分类器组合分类器个数确定单元,可以用于根据每种分类器组合中包含的分类器的数量,确定每种分类器组合的分类器个数;分类器个数最值确定单元,可以用于从所述至少两种分类器组合的分类器个数中确定最大分类器个数和最小分类器个数;分类器组合目标分类器个数指标获得单元,可以用于根据所述最大分类器个数、所述最小分类器个数和每种分类器组合的分类器个数,确定每种分类器组合的目标分类器个数指标。
在示例性实施例中,加权个数准确性多样性度量指标确定单元1013可以包括:目标准确性指标获得单元,可以用于获得每种分类器组合的目标准确性指标;目标多样性指标获得单元,可以用于获得每种分类器组合的目标多样性指标;准确性多样性个数权重确定单元,可以用于确定准确性权重、多样性权重和分类器个数权重;加权个数准确性多样性度量指标获得单元,可以用于根据每种分类器组合的目标准确性指标和所述准确性权重、目标多样性指标和所述多样性权重、以及目标分类器个数指标和所述分类器个数权重,确定每种分类器组合的加权个数准确性多样性度量指标。
在示例性实施例中,目标准确性指标获得单元可以包括:准确性度量指标获得单元,可以用于获得每种分类器组合中的每一个分类器的准确性度量指标;准确性度量指标均值获得单元,可以用于根据每种分类器组合中的每一个分类器的准确性度量指标获得每种分类器组合的准确性度量指标均值;准确性度量指标均值最值确定单元,可以用于从所述至少两种分类器组合的准确性度量指标均值中确定最大准确性度量指标均值和最小准确性度量指标均值;目标准确性指标确定单元,可以用于根据所述最大准确性度量指标均值、所述最小准确性度量指标均值和每种分类器组合的准确性度量指标均值,确定每种分类器组合的目标准确性指标。
在示例性实施例中,准确性度量指标获得单元可以包括:第一样本预测标签获得单元,可以用于将第一分类器训练样本集中的第一样本输入至每种分类器组合中的每一个分类器,获得每种分类器组合中的每一个分类器输出的对应第一样本的预测标签;第一样本样本数确定单元,可以用于根据每种分类器组合中的每一个分类器输出的对应第一样本的预测标签及其真实标签,确定每种分类器组合中的每一个分类器的真正样本数、假负样本数、假正样本数和真负样本数;第一真正样本率确定单元,可以用于根据每种分类器组合中的每一个分类器的真正样本数和假负样本数确定每种分类器组合中的每一个分类器的真正样本率;第一假正样本率确定单元,可以用于根据每种分类器组合中的每一个分类器的假正样本数和真负样本数确定每种分类器组合中的每一个分类器的假正样本率;正负样本分隔程度指标确定单元,可以用于根据每种分类器组合中的每一个分类器的真正样本率及其假正样本率的差值的最大值,确定每种分类器组合中的每一个分类器的正负样本分隔程度指标;第一分类器准确性度量指标确定单元,可以用于根据每种分类器组合中的每一个分类器的正负样本分隔程度指标,确定每种分类器组合中的每一个分类器的准确性度量指标。
在示例性实施例中,准确性度量指标获得单元可以包括:第二样本预测标签获得单元,可以用于将第二分类器训练样本集中的第二样本输入至每种分类器组合中的每一个分类器,获得每种分类器组合中的每一个分类器输出的对应第二样本的预测标签;第二样本样本数确定单元,可以用于根据每种分类器组合中的每一个分类器输出的对应第二样本的预测标签及其真实标签,确定每种分类器组合中的每一个分类器的真正样本数、假负样本数、假正样本数和真负样本数;第二真正样本率确定单元,可以用于根据每种分类器组合中的每一个分类器的真正样本数和假负样本数确定每种分类器组合中的每一个分类器的真正样本率;第二假正样本率确定单元,可以用于根据每种分类器组合中的每一个分类器的假正样本数和真负样本数确定每种分类器组合中的每一个分类器的假正样本率;曲线下面积指标确定单元,可以用于根据每种分类器组合中的每一个分类器的真正样本率及其假正样本率,确定每种分类器组合中的每一个分类器的曲线下面积指标;第二分类器准确性度量指标确定单元,可以用于根据每种分类器组合中的每一个分类器的曲线下面积指标,确定每种分类器组合中的每一个分类器的准确性度量指标。
在示例性实施例中,准确性度量指标获得单元可以包括:第三样本预测标签获得单元,可以用于将第三分类器训练样本集中的第三样本输入至每种分类器组合中的每一个分类器,获得每种分类器组合中的每一个分类器输出的对应第三样本的预测标签;第三样本样本数确定单元,可以用于根据每种分类器组合中的每一个分类器输出的对应第三样本的预测标签及其真实标签,确定每种分类器组合中的每一个分类器的真正样本数和假负样本数;分类器召回率确定单元,可以用于根据每种分类器组合中的每一个分类器的真正样本数和假负样本数确定每种分类器组合中的每一个分类器的召回率;第三分类器准确性度量指标确定单元,可以用于根据每种分类器组合中的每一个分类器的召回率,确定每种分类器组合中的每一个分类器的准确性度量指标。
在示例性实施例中,目标多样性指标获得单元可以包括:两分类器多样性衡量指标获得单元,可以用于获得每种分类器组合中的每两个分类器的多样性衡量指标;分类器组合多样性衡量指标均值获得单元,可以用于根据每种分类器组合中的每两个分类器的多样性衡量指标获得每种分类器组合的多样性衡量指标均值;分类器组合多样性衡量指标均值最值确定单元,可以用于从所述至少两种分类器组合的多样性衡量指标均值中确定最大多样性衡量指标均值和最小多样性衡量指标均值;分类器组合目标多样性指标确定单元,可以用于根据所述最大多样性衡量指标均值、所述最小多样性衡量指标均值和每种分类器组合的多样性衡量指标均值,确定每种分类器组合的目标多样性指标。
在示例性实施例中,所述至少两种分类器组合可以包括第一分类器组合,所述第一分类器组合可以包括第一分类器和第二分类器。其中,两分类器多样性衡量指标获得单元可以包括:第四样本预测标签获得单元,可以用于将第四分类器训练样本集中的第四样本分别输入至所述第一分类器和所述第二分类器,获得所述第一分类器和所述第二分类器各自输出的对应第四样本的预测标签;两分类器分类结果表获得单元,可以用于根据所述第一分类器和所述第二分类器各自输出的对应第四样本的预测标签及其真实标签,获得所述第一分类器和所述第二分类器同时分类正确的样本数、所述第一分类器分类正确且所述第二分类器分类不正确的样本数、所述第一分类器分类不正确且所述第二分类器分类正确的样本数、以及所述第一分类器和所述第二分类器均分类不正确的样本数;两分类器多样性衡量指标确定单元,可以用于根据所述第一分类器和所述第二分类器同时分类正确的样本数、所述第一分类器分类正确且所述第二分类器分类不正确的样本数、所述第一分类器分类不正确且所述第二分类器分类正确的样本数、以及所述第一分类器和所述第二分类器均分类不正确的样本数,确定所述第一分类器组合中的所述第一分类器和所述第二分类器的多样性衡量指标。
在示例性实施例中,两分类器多样性衡量指标确定单元可以包括:两分类器相关系数获得单元,可以用于根据所述第一分类器和所述第二分类器同时分类正确的样本数、所述第一分类器分类正确且所述第二分类器分类不正确的样本数、所述第一分类器分类不正确且所述第二分类器分类正确的样本数、以及所述第一分类器和所述第二分类器均分类不正确的样本数,获得所述第一分类器组合中的所述第一分类器和所述第二分类器的相关系数;相关系数多样性衡量指标获得单元,可以用于根据所述第一分类器组合中的所述第一分类器和所述第二分类器的相关系数,获得所述第一分类器组合中的所述第一分类器和所述第二分类器的多样性衡量指标。
在示例性实施例中,两分类器多样性衡量指标确定单元可以包括:两分类器Q统计量获得单元,可以用于根据所述第一分类器和所述第二分类器同时分类正确的样本数、所述第一分类器分类正确且所述第二分类器分类不正确的样本数、所述第一分类器分类不正确且所述第二分类器分类正确的样本数、以及所述第一分类器和所述第二分类器均分类不正确的样本数,获得所述第一分类器组合中的所述第一分类器和所述第二分类器的Q统计量;Q统计量多样性衡量指标获得单元,可以用于根据所述第一分类器组合中的所述第一分类器和所述第二分类器的Q统计量,获得所述第一分类器组合中的所述第一分类器和所述第二分类器的多样性衡量指标。
在示例性实施例中,两分类器多样性衡量指标确定单元可以包括:两分类器卡帕统计量获得单元,可以用于根据所述第一分类器和所述第二分类器同时分类正确的样本数、所述第一分类器分类正确且所述第二分类器分类不正确的样本数、所述第一分类器分类不正确且所述第二分类器分类正确的样本数、以及所述第一分类器和所述第二分类器均分类不正确的样本数,获得所述第一分类器组合中的所述第一分类器和所述第二分类器的卡帕统计量;卡帕统计量多样性衡量指标获得单元,可以用于根据所述第一分类器组合中的所述第一分类器和所述第二分类器的卡帕统计量,获得所述第一分类器组合中的所述第一分类器和所述第二分类器的多样性衡量指标。
本公开实施例的基于集成分类模型的分类装置的其它内容可以参照上述实施例。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
本攻克实施例提供的方案涉及人工智能的机器学习技术。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
实现本公开实施例提供的方法或者装置的电子设备可以是各种类型的终端或服务器。
其中,服务器可以是独立的服务器,也可以是多个服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本公开在此不做限制。
图11示出了可以应用本公开实施例的基于集成分类模型的分类方法的示例性场景示意图。
参见图11,终端1120通过网络1130连接服务器1110,网络1130可以是广域网或者局域网,又或者是二者的组合。
终端1120(运行有客户端,例如教育学习客户端、搜索客户端等)可以被用来获取用户的当前待分类数据。终端1120获取当前待分类数据后,通过网络1130将当前待分类数据发送给服务器1110,服务器1110根据当前待分类数据,调用上述构建并训练好的Stacking集成分类模型,预测与当前待分类数据对应的目标分类结果,将目标分类结果反馈给终端1120。
本公开实施例构建的Stacking集成分类模型对于所有分类场景都很适用。
例如,信贷风控场景,搭建风控模型,来预测一个申请贷款的用户在未来发生逾期的风险/概率。对于信贷风控场景,为了提高单一分类器的预测能力,可以采用上述实施例构建并训练的Stacking集成分类模型,对多个基分类器的输出结果进行再训练,进一步提高模型的分类效果。
再例如,广告点击率预测等分类场景中也可以使用上述Stacking集成分类模型。
需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何需要对视频中的敏感元素进行遮挡处理的场景。
下面参考图12,其示出了适于用来实现本申请实施例的电子设备的结构示意图。图12示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
参照图12,本公开实施例提供的电子设备可以包括:处理器1201、通信接口1202、存储器1203和通信总线1204。
其中处理器1201、通信接口1202和存储器1203通过通信总线1204完成相互间的通信。
可选的,通信接口1202可以为通信模块的接口,如GSM(Global System forMobile communications,全球移动通信系统)模块的接口。处理器1201用于执行程序。存储器1203用于存放程序。程序可以包括计算机程序,该计算机程序包括计算机操作指令。其中,程序中可以包括:游戏客户端的程序。
处理器1201可以是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本公开实施例的一个或多个集成电路。
存储器1203可以包含高速RAM(random access memory,随机存取存储器)存储器,也可以还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
其中,程序可具体用于:构建所述集成分类模型,所述集成分类模型包括基分类器层,所述基分类器层包括基分类器;利用模型训练样本集训练所述集成分类模型;获得当前待分类数据;以及通过训练完的所述集成分类模型处理所述当前待分类数据,获得所述当前待分类数据的目标分类结果。其中,构建所述集成分类模型包括:从N个分类器中选择k个分类器,获得至少两种分类器组合,k为大于或等于2且小于或等于N的正整数,N为大于或等于2的正整数;基于每种分类器组合中包含的分类器的数量,确定每种分类器组合的目标分类器个数指标;根据每种分类器组合的目标分类器个数指标确定每种分类器组合的加权个数准确性多样性度量指标;根据每种分类器组合的加权个数准确性多样性度量指标从所述至少两种分类器组合中确定目标分类器组合;将所述目标分类器组合中的分类器作为所述集成分类模型的所述基分类器层中的所述基分类器。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例的各种可选实现方式中提供的方法。
需要理解的是,在本公开附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:目标检测方法及相关设备