一种基于特征确定交并比阈值的目标检测方法

文档序号:8344 发布日期:2021-09-17 浏览:21次 英文

一种基于特征确定交并比阈值的目标检测方法

技术领域

本发明涉及目标检测

技术领域

,尤其涉及的是一种基于特征确定交并比阈值的目标检测方法。

背景技术

随着科学技术的迅速发展,目标检测也越来越得到关注。目标检测是计算机视觉中一个基础但重要的任务,具有巨大的实用价值且应用范围极广,在自动驾驶、医疗决策、监控、人机交互等许多领域都有着重要应用。在目标检测过程中,需要设置交并比(IOU,Intersection over Union)阈值,通过交并比阈值划分正负样本。

现有技术中,通常在目标检测过程中设置一个固定的交并比阈值,基于该固定的交并比阈值划分正负样本并进行目标检测。现有技术的问题在于,固定的交并比阈值没有考虑到不同的图片具有不一样的难度,在设计交并比阈值时没有考虑到可以使用图片特征信息,无法针对不同的图片调整用于划分正负样本的交并比阈值,不利于提高目标检测的准确性。

因此,现有技术还有待改进和发展。

发明内容

本发明的主要目的在于提供一种基于特征确定交并比阈值的目标检测方法,旨在解决现有技术中通过固定的交并比阈值划分正负样本并进行目标检测时,固定的交并比阈值没有考虑到不同的图片具有不一样的难度,无法针对不同的图片调整用于划分正负样本的交并比阈值,不利于提高目标检测的准确性的问题。

为了实现上述目的,本发明提供一种基于特征确定交并比阈值的目标检测方法,其中,上述方法包括:

获取目标图片的目标特征信息,上述目标特征信息体现上述目标图片的特征;

获取交并比分布数据,上述交并比分布数据是体现区域提案网络输出的候选框与对应的真实标注框之间的交并比的统计分布的数据;

基于上述目标特征信息和上述交并比分布数据获取目标交并比阈值;

基于上述目标交并比阈值对上述目标图片进行目标检测。

可选的,上述获取目标图片的目标特征信息,包括:

获取上述目标图片对应的特征图;

将上述特征图输入全连接层进行特征学习,获得上述目标图片的目标特征信息。

可选的,上述获取交并比分布数据包括:

获取区域提案网络输出的候选框;

基于上述候选框获取上述交并比分布数据。

可选的,上述基于上述候选框获取上述交并比分布数据,包括:

分别获取与各上述候选框对应的真实标注框;

计算获取各候选框与对应的真实标注框之间的统计交并比数据;

基于上述统计交并比数据和预设的交并比区间获取各交并比区间中包含的候选框数目占上述候选框的总数的比例,统计获取交并比分布信息;

基于上述交并比分布信息获取上述交并比分布数据。

可选的,上述基于上述交并比分布信息获取上述交并比分布数据,包括:

基于上述交并比分布信息计算获取交并比均值和交并比方差;

分别使用全连接层对上述交并比均值和上述交并比方差进行学习,获取目标交并比均值和目标交并比方差,作为上述交并比分布数据。

可选的,上述基于上述目标特征信息和上述交并比分布数据获取目标交并比阈值,包括:

将上述目标特征信息、上述目标交并比均值和上述目标交并比方差作为正态分布公式的输入,通过全连接层网络学习获取目标分布公式;

基于上述目标分布公式获取交并比调整增量;

获取预设的交并比基础参数,基于上述交并比基础参数和上述交并比调整增量获取上述目标交并比阈值。

可选的,上述基于上述目标交并比阈值对上述目标图片进行目标检测,包括:

基于上述目标交并比阈值进行正负样本划分,通过两阶段目标检测的方式对上述目标图片进行目标检测。

可选的,在上述基于上述目标交并比阈值对上述目标图片进行目标检测之后,上述方法还包括:

获取回归框;

基于上述回归框获取回归难度分布信息;

基于上述回归难度分布信息计算获取难度分布偏态系数;

基于上述难度分布偏态系数和上述交并比调整增量计算获取目标损失;

将上述目标损失进行梯度回传。

可选的,上述基于上述回归框获取回归难度分布信息,包括:

分别获取与上述回归框对应的真实标注框,计算上述真实标注框和上述回归框的回归交并比;

对于每一个上述真实标注框,基于上述回归交并比获取各上述真实标注框对应的目标数目,其中,上述目标数目为上述真实标注框对应的目标回归框的个数,上述目标回归框与上述真实标注框的目标交并比大于预设回归阈值;

获取预设的目标数目区间,分别统计各目标数目区间对应分布的真实标注框的比例,作为上述回归难度分布信息。

可选的,上述目标损失为目标难度乘积和0之间的较大者,其中,上述目标难度乘积为上述难度分布偏态系数与上述交并比调整增量的乘积。

由上可见,本发明方案获取目标图片的目标特征信息,上述目标特征信息体现上述目标图片的特征;获取交并比分布数据,上述交并比分布数据是体现区域提案网络输出的候选框与对应的真实标注框之间的交并比的统计分布的数据;基于上述目标特征信息和上述交并比分布数据获取目标交并比阈值;基于上述目标交并比阈值对上述目标图片进行目标检测。与现有技术中通过固定的交并比阈值划分正负样本并进行目标检测的方案相比,本发明方案可以根据目标图片的目标特征信息获取与该目标图片的目标交并比阈值,从而可以针对不同的目标图片调整对应的用于划分正负样本的目标交并比阈值,有利于提高目标检测的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种单阶段目标检测示意图;

图2是本发明实施例提供的一种两阶段目标检测示意图;

图3是本发明实施例提供的一种基于特征确定交并比阈值的目标检测方法的流程示意图;

图4是本发明实施例图3中步骤S100的具体流程示意图;

图5是本发明实施例图3中步骤S200的具体流程示意图;

图6是本发明实施例图5中步骤S202的具体流程示意图;

图7是本发明实施例提供的一种候选框与真实标注框之间的IOU阈值比例分布示意图;

图8是本发明实施例提供的一种FDI结构示意图;

图9是本发明实施例提供的一种基于特征确定交并比阈值的目标检测方法在图3中步骤S400之后的步骤示意图;

图10是本发明实施例提供的偏态示意图;

图11是本发明实施例提供的一种目标损失算法结构示意图;

图12是本发明实施例提供的一种回归难度分布示意图;

图13是本发明实施例提供的一种目标检测网络框架示意图;

图14是本发明实施例提供的一种Faster R-CNN与FDI算法IOU分布条形对比图;

图15是本发明实施例提供的一种可视化对比示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于检测到”。

下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但本发明还可以采用其它不同于在此描述的方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。

随着科学技术的迅速发展,目标检测也越来越得到关注。目标检测任务是在给定的图像中,对图像中的实例进行定位与预测实例的类别,目标检测是计算机视觉中一个基础但重要的任务,具有巨大的实用价值且应用范围极广,在自动驾驶、医疗决策、监控、人机交互等许多领域都有着重要应用。数字图像是日常生活中不可缺少的信息媒介,随着5G技术应用的推广,图像数据有了更快的获取渠道和更多的场景,对图像的目标进行精确的定位和分类变得越来越重要。目标检测任务主要有单阶段目标检测和两阶段目标检测两种实现方式,单阶段目标检测输入图片后,在输出候选框的同时直接进行最终的定位与分类,均由一个网络完成;而两阶段目标检测在输入图片之后,首先使用区域提案网络生成建议区域,在最后的检测器中再进行分类与定位,由两个网络完成。图1是本发明实施例提供的一种单阶段目标检测示意图,图2是本发明实施例提供的一种两阶段目标检测示意图。如图1所示,单阶段目标检测直接通过卷积网络(CNN)之后就给出位置和类别信息,检测速度较快,但是检测精度较低,小物体的检测效果差。如图2所示,两阶段目标检测中,输入的图片经过卷积网(CNN)后进入区域提案网络(RPN,Region proposal network),RPN输出设定个数的锚点框,然后将锚点框送入后面的候选框检测器(Bbox Head,Bounding box Head),检测器经过挑选后,根据候选框从卷积网络的特征中获取对应候选框位置的特征,最终进行分类(Cls,Classification)和回归(Reg,Regression)。本发明实施例中,主要基于两阶段目标检测方式进行目标检测,虽然目前两阶段目标检测的精度已经较高,但仍然存在很多问题。其中,在目标检测过程中,需要设置交并比(IOU,Intersection over Union)阈值,通过交并比阈值划分正负样本。设置不同的IOU阈值定义正样本对精度的影响明显。在两阶段的目标检测中,样本与真实标注的IOU阈值越高,样本质量越好,但是过高的IOU阈值可能会引起样本过少而导致过拟合(模型训练时由于正样本不足够,损失将偏向简单样本)。

R-CNN首先提取出候选区域,接着经过卷积网络进一步提取特征,但是因为候选区域数量极大,每一个候选区域都要经过一次卷积的前向传递,导致严重耗时,因此提出了Fast R-CNN。Fast R-CNN设计了ROI Pooling对候选区域的特征进行提取,使用softmax替代SVM分类,在网络中添加多任务损失函数边框回归。并进一步设计了RPN,RPN是有监督的完全卷积网络,不仅加快了候选区域生成的速度,而且能够有效的预测广泛尺度和纵横比锚点框,使得检测速度大幅度提高,整个目标检测网络可以进行端到端训练,两阶段目标检测就此诞生。但由于Faster R-CNN使用骨干网络最后的特征层进行目标预测,会导致对不同尺度的物体检测变得困难,尤其是小物体。针对该问题,设计了特征金字塔网络(FPN,Feature pyramid network)。在卷积网络的设计中,一般浅层网络分辨率高但通道数较小,而深层网络分辨率较低但通道数较大,即深层网络语义信息强而空间细节信息弱,而浅层网络语义信息弱但空间细节信息强。FPN利用深层语义信息增强空间细节信息较强的底层网络,其简单有效的结构在检测多尺度物体方面取得了较大的成功,之后被广泛的使用。本发明实施例中,基于FPN进行目标检测。

现有技术中,进行目标检测时,通常在目标检测过程中设置一个固定的交并比阈值,基于该固定的交并比阈值划分正负样本并进行目标检测。例如,近年来大部分两阶段的目标检测算法都是基于Faster R-CNN进行改进,Faster R-CNN为手动设置的IOU阈值,其中在候选框检测器中IOU阈值设置为0.5,即候选框与真实框的IOU超过0.5的认定为正样本,低于0.5的认定为负样本,根据正负样本比例为3:1的情况下进行训练。但基于固定的交并比阈值对训练时的正负样本进行粗暴的划分时,往往没有考虑到卷积神经网络训练是一个动态的过程,检测器面对不同的图片具有不同的识别能力。同时随着训练的不断推进,检测器对同一张图片的识别能力也在不断的提高。现有技术的问题在于,固定的交并比阈值没有考虑到不同的图片具有不一样的难度,无法针对不同的图片调整用于划分正负样本的交并比阈值,不利于提高目标检测的准确性。

为了解决现有技术的问题,本发明提供一种基于特征确定交并比阈值的目标检测方法,在本发明实施例中,获取目标图片的目标特征信息,上述目标特征信息体现上述目标图片的特征;获取交并比分布数据,上述交并比分布数据是体现区域提案网络输出的候选框与对应的真实标注框之间的交并比的统计分布的数据;基于上述目标特征信息和上述交并比分布数据获取目标交并比阈值;基于上述目标交并比阈值对上述目标图片进行目标检测。与现有技术中通过固定的交并比阈值划分正负样本并进行目标检测的方案相比,本发明方案可以根据目标图片的目标特征信息获取与该目标图片的目标交并比阈值,而目标图片的目标特征信息可以体现目标图片的特征定位难度。因此本发明方案中可以基于每一张目标图像的特征定位难度进行交并比阈值动态设置,针对不同的目标图片调整对应的用于划分正负样本的目标交并比阈值,若当前图像的目标定位难度较大,则自行降低IOU阈值,拿到更多正样本进行训练,反之则获得自行提高IOU阈值,获得质量更高的正样本进行训练,有利于提高目标检测的准确性。

示例性方法

如图3所示,本发明实施例提供一种基于特征确定交并比阈值的目标检测方法,具体的,上述方法包括如下步骤:

步骤S100,获取目标图片的目标特征信息,上述目标特征信息体现上述目标图片的特征。

其中,上述目标图片是需要进行目标检测的图片。可选的,可以基于本发明实施例中提供的目标检测方法依次对多张目标图片进行目标检测,具体的,依次对每一张目标图片进行处理,获得各目标图片对应的交并比阈值并对各目标图片进行目标检测即可。本实施例中,以对一张目标图片进行的具体操作为例进行说明。上述目标特征信息体现上述目标图片的特征。

步骤S200,获取交并比分布数据,上述交并比分布数据是体现区域提案网络输出的候选框与对应的真实标注框之间的交并比的统计分布的数据。

其中,上述交并比分布数据是训练图片对应的候选框与真实标注框的交并比分布的数据,具体可以包括训练图片对应的候选框与真实标注框的交并比对应的均值和方差等分布数据。上述训练图片为预先获取的用于对神经网络进行训练的图片。

步骤S300,基于上述目标特征信息和上述交并比分布数据获取目标交并比阈值。

步骤S400,基于上述目标交并比阈值对上述目标图片进行目标检测。

具体的,上述目标交并比阈值用于在两阶段目标检测过程中作为对应的目标图片的交并比阈值来划分正负样本,从而实现对目标图片的目标检测。因为上述目标交并比阈值是基于目标图片对应的目标特征信息计算获得的,各目标图片对应有不同的目标特征信息,所以采用本发明实施例中的方法可以为不同的目标图片生成对应不同的目标交并比阈值,考虑不同目标图片的实际需求,有利于提高目标检测的准确性。

由上可见,本发明实施例提供的基于特征确定交并比阈值的目标检测方法获取目标图片的目标特征信息,上述目标特征信息体现上述目标图片的特征;获取交并比分布数据,上述交并比分布数据是体现区域提案网络输出的候选框与对应的真实标注框之间的交并比的统计分布的数据;基于上述目标特征信息和上述交并比分布数据获取目标交并比阈值;基于上述目标交并比阈值对上述目标图片进行目标检测。与现有技术中通过固定的交并比阈值划分正负样本并进行目标检测的方案相比,本发明方案可以根据目标图片的目标特征信息获取与该目标图片的目标交并比阈值,而目标图片的目标特征信息可以体现目标图片的特征定位难度。因此本发明方案中可以基于每一张目标图像的特征定位难度进行交并比阈值动态设置,针对不同的目标图片调整对应的用于划分正负样本的目标交并比阈值,若当前图像的目标定位难度较大,则自行降低IOU阈值,拿到更多正样本进行训练,反之则获得自行提高IOU阈值,获得质量更高的正样本进行训练,有利于提高目标检测的准确性。

具体的,本实施例中,如图4所示,上述步骤S100包括:

步骤S101,获取上述目标图片对应的特征图。

步骤S102,将上述特征图输入全连接层进行特征学习,获得上述目标图片的目标特征信息。

其中,上述特征图可以是目标图片对应的处于骨干网络深层的特征图,从而可以从特征图中获取丰富的语义信息,充分反映当前的目标图片的具体信息。

具体的,本实施例中,对Faster R-CNN在ResNet50骨干网络上训练模型,当然,实际使用过程中,还可以采用其它目标检测算法和训练网络,在此不做具体限定。进一步的,为了充分利用骨干网络的信息提取功能,网络从FPN的最高层(P6)层获取特征图,该层的特征图处于骨干网络深层,具备丰富的语义信息,能够充分反映当前图像的具体信息。然后将P6特征图送入专门设计的全连接层进行学习,获得上述特征图中浓缩的特征信息,将上述特征信息记为X,进一步的,为了便于计算,可以进一步使用全连接层对上述P6特征图对应的特征信息进行压缩,如下公式(1)所示:

x′=σ(w5*X+b5) (1)

其中,x′为压缩获得的目标特征信息,w5为全连接层权重,b5为全连接层的偏置,σ表示激活函数(具体为tanh激活函数),如此,将特征向量(即特征信息X)压缩为1×1×1的大小后,经过tanh激活函数获得目标特征信息x′,从而可以基于目标特征信息x′计算目标交并比阈值。全连接层是用于将高维度的信息转换成低维度的信息,例如,可以将N*C*W*H大小的特征图转换为1×1×1×1大小的矩阵(即一个数字),可以看作这个数字可以代表该图片的整体信息,其中N为图片的数量,C表示维度,W为宽,H为高。

具体的,本实施例中,如图5所示,上述步骤S200包括:

步骤S201,获取区域提案网络输出的候选框。

步骤S202,基于上述候选框获取上述交并比分布数据。

其中,上述交并比分布数据是训练图片对应的候选框与真实标注框的IOU分布的数据。

具体的,本实施例中,如图6所示,上述步骤S202包括:

步骤S2021,分别获取与各上述候选框对应的真实标注框。

步骤S2022,计算获取各候选框与对应的真实标注框之间的统计交并比数据。

步骤S2023,基于上述统计交并比数据和预设的交并比区间获取各交并比区间中包含的候选框数目占上述候选框的总数的比例,统计获取交并比分布信息。

步骤S2024,基于上述交并比分布信息获取上述交并比分布数据。

具体的,上述候选框是训练图片对应的候选框,本实施例中,预先获取训练图片集合对网络进行训练,从而对目标图片进行目标检测。上述真实标注框是训练图片中各候选框对应的通过人工等手段对图像进行精准标注之后的标注框,可选的,可以直接选用现有技术中提供的部分真实标注图片集作为对应的训练图片集合。

本发明对训练中正常的IOU分布进行了统计,统计获得IOU分布趋近于正态分布,因此本实施例中对训练图片的IOU分布进行统计,计算对应的均值和方差,然后将其作为特征进行编码,同时将上述特征图进行编码,分别进行解码后根据正态分布的公式进行计算,获得交并比调整增量,基于交并比调整增量获取目标交并比阈值,进行正负样本划分。图7是本发明实施例提供的一种候选框与真实标注框之间的IOU阈值比例分布示意图,其中横轴为IOU区间,纵轴为不同IOU区间的候选框个数占候选框总数的比例。具体的,对FasterR-CNN在ResNet50骨干网络上训练模型,然后使用不同迭代的模型对区域提案网络获取的锚点框(即候选框)进行统计并可视化,便于观察分布情况。针对每张训练图片,计算从区域提案网络中获取的锚点框与真实标注框的IOU,作为统计交并比数据。根据不同的IOU将候选框个数统计到不同的IOU区间下,其中,上述IOU区间是预先设置的交并比区间,其具体的区间个数和区间长度可以根据实际需求进行设置和调整。本实施例中,以0.1为间隔,对从0到1之间的区间进行划分获得IOU区间,统计不同IOU区间所含候选框个数占总体的具体比例,对所有训练图片进行统一的统计运算,将计算出来的IOU分布进行平均,作为上述交并比分布信息。具体的,首先针对一张图片计算出IOU分布,然后对所有图片进行同样的计算,最终将属于同一个IOU区间的比例相加,然后除以图片数目,获得交并比分布信息,上述交并比分布信息中包括一张训练图片中各个IOU区间所含候选框的占总体的平均比例。如此,将训练图片集合的总体IOU分布平均为一张训练图片对应的IOU分布,有利于体现一张“平均图片”的统计信息,从而在对一张目标图片进行目标检测时,有利于提高该统计信息的准确性,更好的体现与一张目标图片对应的统计信息。可选的,上述交并比分布信息还可以是各训练图片对应的实际的IOU分布,即每一训练图片对应的实际的各IOU区间中候选框数目占总体的比例。图7中只展示了IOU大于0.3的IOU分布,由图7可见,在0.3至0.4区间IOU阈值的样本最多,随着IOU逐渐增大,锚点框数量越来越少,这其中一个原因是实例所占图片面积较小,候选框框中的大部分都是背景;另一个原因是使用了非极大抑制算法去除一部分重叠区域过大的锚点框,在正负样本原本就不均衡的情况下,使用非极大抑制算法筛选后正负样本依然会不平衡,正负样本个数同时减少,但是少了很多重叠区域过大且分数较低的。图7中还展示了不同迭代次数对应的比例,其中每一个区间中,第一个条形代表第二次迭代、第二个条形代表第六次迭代、第三个条形代表最后一次迭代,随着迭代次数的增加,IOU阈值较小的锚点框逐渐减少,高IOU阈值区间的锚点框数量逐渐增多,这说明了模型性能逐渐增强,检测器对候选框的回归能力增强。

Faster R-CNN默认IOU阈值为0.5,这种设置存在的问题是,网络训练的时候将锚点框与真实标注框IOU低于0.5的视为负样本,模型对IOU低于0.5的样本几乎不具备回归能力。目标检测最后的检测器与区域提案网络是相辅相成的,区域提案网络从骨干网络中提取锚点框,然后计算的损失可以影响到骨干网络,目标检测最后的检测器同样对骨干网络和区域提案网络的训练有着巨大的影响,检测器从锚点框中选取一部分符合要求的候选框,从骨干网络中提取对应区域位置的特征图,用与分类与回归,然后计算损失影响整个网络。本发明实施例中,根据每张图片所具备的难度,将一部分低于0.5阈值的锚点框归为正样本进行训练,不仅为模型训练增加了更多的正样本,避免了更多的参数导致测试时间延长,且提高了模型的性能。

具体的,上述步骤S2024包括:基于上述交并比分布信息计算获取交并比均值和交并比方差;分别使用全连接层对上述交并比均值和上述交并比方差进行学习,获取目标交并比均值和目标交并比方差,作为上述交并比分布数据。其中,上述交并比均值和交并比方差是根据交并比分布信息中所有的IOU计算获得的IOU的均值和方差。可选的,上述交并比均值和交并比方差也可以是根据训练图片集合中计算获得的所有候选框与真实标注框之间的IOU的均值和方差;可选的,还可以针对每一张训练图片计算对应的交并比均值和交并比方差,从而通过全连接层对各训练图片对应的交并比均值和交并比方差进行编码和解码获得对应的目标交并比均值和交并比方差,在此不做具体限定。具体的,本实施例中,将上述交并比均值和交并比方差分别记为mean和var,分别使用全连接层对上述交并比均值和交并比方差进行编码和解码。具体的,使用全连接层对mean和var进行学习,分别获得对应的目标交并比均值m′和目标交并比方差v′,如下公式(2)和公式(3)所示:

m′=w2(w1*mean+b1)+b2 (2)

v′=w4(w3*var+b3)+b4 (3)

其中,wi为全连接层权重,bi为全连接层的偏置,i=1,2,3,4;可选的,可以使用同一个全连接层进行对上述交并比均值和交并比方差进行学习,以及对特征图进行特征信息压缩获取,也可以使用不同的全连接层进行上述操作。本实施中,使用不同的全连接层进行上述操作(包括对特征信息的处理),因此不同的wi和bi(i=1,2,3,4,5)代表不同的全连接层参数,即每一个i代表一个全新的全连接层,互不干扰,具体的参数可以根据实际需求进行设置和调整,在此不做具体限定。在训练过程中,全连接层能够学习到候选框与真实标注框之间的IOU分布信息。在做决策时,对于每一张目标图片,网络都能根据前面学习到的全体图片的分布信息和输入的当前图片的目标特征信息,即结合全局信息与局部信息,从而做出针对当前目标图片的决策(目标交并比阈值)。本实施例中,将mean和var分别作为全连接层的输入,获得的m′和v′分别为编码解码后的目标交并比均值和目标交并比方差。

具体的,本实施例中,上述步骤S300包括:将上述目标特征信息、上述目标交并比均值和上述目标交并比方差作为正态分布公式的输入,通过全连接层网络学习获取目标分布公式;基于上述目标分布公式获取交并比调整增量;获取预设的交并比基础参数,基于上述交并比基础参数和上述交并比调整增量获取上述目标交并比阈值。

具体的,本实施例中,上述目标分布公式由正态分布公式和激活函数构成,具体如下公式(4)所示:

其中,μ为tanh激活函数,ΔI为计算获得的交并比调整增量,e为自然常数。基于上述公式(4)将调整增量大小进行限制,以免过大或者过小,导致正负样本分配极不稳定。网络使用x′,m′和v′作为正态分布公式的输入,使用全连接层网络学习当前图片适合的分布公式,最后计算出交并比调整增量ΔI。在网络训练稳步推进时,随着训练次数的增加,检测器对于候选框的回归能力愈强,ΔI对应同一张图像迭代次数的提高会不断的提高。

上述预设的交并比基础参数是预先设置的交并比阈值的基本值,可以根据实际需求进行设置和调整。可以针对不同的训练图片的集合以及需要进行目标检测的目标图片的集合,根据实验获得最佳的交并比基础参数的值,本实施例中,根据实验获得的交并比基础参数的值为0.4。本实施例中,将交并比基础参数与交并比调整增量的和作为上述目标交并比阈值,如下公式(5)所示:

Inow=Ibase+ΔI (5)

其中,Inow是目标交并比阈值,即为当前的目标图片设置的交并比阈值,Ibase是上述交并比基础参数,ΔI是上述交并比调整增量。

在一种具体应用场景中,通过一种特征驱动交并比(FDI,Feature Driven IOU)结构来实施上述基于特征确定交并比阈值的目标检测方法,图8是本发明实施例提供的一种FDI结构示意图,如图8所示,上述FDI结构分别对特征图进行处理获得目标特征信息x′,对候选框对应的交并比均值进行处理获得目标交并比均值m′,对候选框对应的交并比方差进行处理获得目标交并比方差v′,然后通过上述公式(4)获得上述交并比调整增量ΔI,从而可以获得目标交并比阈值,不同于其他算法中使用统计方法,本发明将特征图并入IOU阈值预测中,每张图片锚点框的IOU分布可以看作近似于正态分布。图8中正方体个数竖向变换表示经过了网络的不同层数之后的维度大小变换。本发明结合了基于事实的统计结果与每张目标图片的特征图,使得该方法可以根据整体训练集的统计信息和模型学习到的语义信息针对性地设计IOU阈值。基于每张图片都具有各自的特点且目标检测定位难度也不一样这一认识,使用每张图片的具体特征对IOU阈值针对性的进行设计,有利于提高目标检测准确性。

具体的,本实施例中,上述步骤S400包括:基于上述目标交并比阈值进行正负样本划分,通过两阶段目标检测的方式对上述目标图片进行目标检测。

其中,具体进行目标检测的过程可以参照现有的目标检测方法,在此不做具体限定。本实施例中,判断每张图片中实例目标的分割难度,针对每张图片学习出所需要的IOU阈值,最终在检测器中使用该IOU阈值划分正负样本。

具体的,本实施例中,如图9所示,在上述基于上述目标交并比阈值对上述目标图片进行目标检测之后,上述方法还包括:

步骤A100,获取回归框。

步骤A200,基于上述回归框获取回归难度分布信息。

步骤A300,基于上述回归难度分布信息计算获取难度分布偏态系数。

步骤A400,基于上述难度分布偏态系数和上述交并比调整增量计算获取目标损失。

步骤A500,将上述目标损失进行梯度回传。

本实施例中,在计算获得上述目标交并比阈值之后,还基于目标交并比计算获取目标损失,将目标损失进行梯度回传,优化网络使其能针对下一张类似的图片对应的目标交并比阈值进行优化。回归框是对候选框进行回归后的结果。本实施例中,根据检测器对候选框进行回归之后的信息,判断当前检测器对当前图片的敏感度。若检测器对当前图片的候选框较为敏感,回归之后的回归框与真实标注框匹配程度高,得到的IOU阈值较高;若检测器对当前图片较为不敏感,回归之后的回归框与真实标注框的匹配程度低,得到的IOU阈值较低。当检测器对图片敏感时应设置高一些的IOU阈值,当检测器对图片不够敏感时应设置低一些的IOU阈值,从而对前面FDI结构进行梯度回传调整学习。

本发明中目标损失根据每张图片的难度分布偏态系数计算获得,偏态是对数据分布对称性的测度,偏度系数的取值有三种情景:当数据序列呈正态分布的时候,由于均值两侧的数据完全对称分布,它的三阶中心矩必定为零,满足正态分布的数据序列的偏度系数也必定等于零。当数据序列非对称分布的时候,有两种可能,如果均值的左侧数据较多,则它右侧的“离群”数据对三阶中心矩的计算结果影响较大,所以三阶中心矩取正值,即当数据的分布呈右偏的时候,其偏度系数将大于零。如果均值的右侧数据较多,则其左侧的“离群”数据对三阶中心矩的计算结果影响较大,所以三阶中心矩取负值,即当数据的分布呈左偏的时候,其偏度系数将小于零。图10是本发明实施例提供的偏态示意图,如图10所示,在右偏的分布中,由于大部分数据都在均值的左侧,且均值的右侧存在“离群”数据,这就使得分布曲线的右侧出现一个长长的拖尾;而在左偏的分布中,由于大部分数据都在均值的右侧,且均值的左侧存在“离群”数据,从而造成分布曲线的左侧出现一个长长的拖尾。

图11是本发明实施例提供的一种目标损失算法结构示意图,如图11所示,首先使用检测器将回归框作为输入,根据回归框计算对每张图像设计的回归难度分布,接着计算难度分布偏态系数,最后合并难度分布偏态系数与交并比调整增量,计算获得目标损失。

可选的,上述步骤A200包括:分别获取与上述回归框对应的真实标注框,计算上述真实标注框和上述回归框的回归交并比;对于每一个上述真实标注框,基于上述回归交并比获取各上述真实标注框对应的目标数目,其中,上述目标数目为上述真实标注框对应的目标回归框的个数,上述目标回归框与上述真实标注框的目标交并比大于预设回归阈值;获取预设的目标数目区间,分别统计各目标数目区间对应分布的真实标注框的比例,作为上述回归难度分布信息。

在设计回归难度分布时,本发明针对每个真实标注框和回归框进行IOU计算,这里计算要求较高质量的回归框(即目标回归框)才认为回归效果良好,故设置上述回归阈值为0.5,回归框与真实标注框IOU大于0.5才认为检测器对当前实例具有较好的识别能力。上述回归阈值还可以根据实际需求进行设置和调整,在此不做具体限定。本实施例中,针对每个真实标注框,收集与其IOU>0.5的回归框且该回归框应归为当前真实标注框的实例的个数。表1是本发明实施例提供的一种回归框分布情况示意,如表1所示,假设当前图像一共有8个真实标注框,用编号分别表示为1至8,属于不同编号的真实标注框且与其IOU大于0.5的回归框个数分别为:0,5,17,8,6,12,9,10。

表1

真实标注框编号 1 2 3 4 5 6 7 8
IOU>0.5回归框个数 0 5 17 8 6 12 9 10

进一步的,统计获取难度回归分布图,作为难度分布信息,图12是本发明实施例提供的一种回归难度分布示意图,横轴为IOU>0.5的回归框(即目标回归框)的数量区间,纵轴为该区间对应的真实标注框的数量占真实标注框的总数的比例(即该区间对应分布的真实标注框的比例)。上述预设的数目区间是预先设置的目标回归框的个数对应的划分区间,可以根据实际需求进行设置和调整。本实施例中设置11个区间,图12中只展示其中8个区间,根据表1数据,为了方便计算,将不同区间统计的真实标注框个数占当前计算的真实标注框总数的比例作为纵轴,即可获得图12。具体的,上述难度分布信息包括目标数目区间和该区间统计的真实标注框数目占当前计算的真实标注框总数的比例,上述难度分布信息不一定需要以难度回归分布图的形式表示。由图12中可知,有些实例会具有较多的正样本,有些实例相对少一些,本实施例中从全局的情况出发,若大部分实例趋向于拥有较少的正样本,那么这张图应判定为难度较高,难度增量应为低一些或者为负。若大部分实例趋向于拥有更多的正样本,那么图像应判定为难度较低,相对的,难度增量可高一些或者为正数。横轴[0,2]表示为0,1,2都属于这个区间,最后根据难度分布信息计算难度分布偏态系数如下公式(6)所示:

其中,T为目标数目区间的个数,本实施例中T=11,Ki是对应的第i个目标数目区间的区间中间值,本实施例中,Ki依次为:[1,4,7,10,13,16,19,22,25,28,31],如Ki=1是区间[0,2]的中间值。随着区间数值的增加,对应回归框个数逐渐减少,当区间中间值达到30以上时,回归框数量更为稀少,因此本实施例中将最后一个中间值31代表区间中间值大于30的区间进行统计。是上述Ki的均值,Fi是上述获得的回归难度分布(真实标注框的比例),即第i个区间对应的真实标注框个数占当前计算的真实标注框总数的比例,例如,F1=1/8=0.125。τ是回归难度分布的标准差,即上述Fi的标准差。

可选的,上述目标损失为目标难度乘积和0之间的较大者,其中,上述目标难度乘积为上述难度分布偏态系数与上述交并比调整增量的乘积。

从前面的分析可以得到,当检测器针对某张图片中的实例回归能力较强的时候,每个实例的候选框回归之后会更接近于真实标注框,即IOU会更高,这里设置中间判定阈值为0.5,当IOU大于0.5,回归难度分布曲线应为左偏, 同理,当网络回归能力较弱时,对众多候选框的回归较差,更加偏离真实标注框,则IOU大于0.5的回归框会较少,曲线应为右偏,因此,本实施例中,根据如下所示的公式(7)计算获得目标损失lossFDI

时,说明检测器识别当前图像的难度较低,因此调整增量可为正,即提高当前的IOU阈值,ΔI>0;当时,说明检测器识别当前图像的难度较高,调整增量可为负,即降低当前的IOU阈值,ΔI<0。综上所述,本发明的目标损失可以总结为时符合要求,损失为零,时,不满足要求,计算目标损失并进行回传训练,此时将的值直接定为目标损失的值。其中,时,既可以视为不需要回传训练,也可以视为回传的目标损失为0,两者的意义是一样的。可选的,也可以通过回传学习直接对上述目标交并比阈值进行调整,而不是对交并比调整增量进行调整,在此不做具体限定。

在一种具体应用场景中,通过特征驱动交并比损失(FDI loss)计算模块计算目标损失并进行回传,来影响对于下一张目标图片的交并比调整增量的计算,提高对下一张目标图片的目标检测的精准性。图13是本发明实施例提供的一种目标检测网络框架示意图,如图13所示,计算获得交并比调整增量ΔI,基于交并比调整增量ΔI和预设的交并比基础参数Ibase计算获得目标交并比阈值Inow,然后基于目标交并比阈值Inow进行目标检测(例如,进行正负样本划分、特征提取等),然后通过公式(7)所示的目标损失函数,基于回归框计算获得目标损失lossFDI,将上述目标损失lossFDI进行梯度回传以对下一张目标图片的交并比调整增量ΔI进行约束。本实施例中,基于目标损失函数对目标交并比阈值Inow进行一定的监督,该损失函数能够根据当前回归框的质量对交并比调整增量ΔI进行约束。候选框检测器对当前的候选框进行回归,拿到回归之后的回归框与图片的真实标注框,计算图片的难度分布偏态系数根据难度分布偏态系数与本发明在FDI中计算得出的交并比调整增量ΔI计算最终的目标损失lossFDI,将目标损失lossFDI进行梯度回传。在这个过程中,随着训练的不断推进,模型对于图片的识别能力逐渐加强,即使是针对同一张图片,本发明的FDI计算的目标交并比阈值Inow也会不断的变化,逐渐向高IOU阈值推进,正样本数量能够保持稳定,同时加快模型的收敛速度,提高定位精度。本发明在测试时并不需要加入IOU预测分支进行测试,所以从测试来看就是并未添加任何额外的参数,最终,本发明在目标检测上有较大的性能提升而且并未影响测试时长。

本发明实施例中,还提供一种针对上述基于特征确定交并比阈值的目标检测方法的具体实验。实验数据集为MS-COCO数据集,使用COCO数据集约12万张图像进行训练,5千张图像进行验证,4万张图像用于测试,最后使用COCO评估标准对本发明的算法进行评估,所有展示的实验结果都遵循标准COCO的平均精确度(AP)指标,AP50(AP50代表IOU阈值50%),AP75(AP75代表IOU阈值75%)。本发明还展示了APS,APM,APL,它们分别对应于小、中、大尺度的结果。在验证集进行本地评估和上传测试集在COCO平台评估,以下展示的实验结果均为百分比,省略百分号。

图14是本发明实施例提供的一种Faster R-CNN与FDI算法IOU分布条形对比图,其中,FDI算法即为本发明中的基于特征确定交并比阈值的目标检测方法,图中,每个区间的第一个条形与Faster R-CNN对应,第二个条形与FDI算法对应。基于ResNet50对原FasterR-CNN中区域提案网络中获取的锚点框进行统计,计算其与真实标注框的IOU值,将IOU>0.5的数值分为五个区间,间隔为0.1,将统计出来的输入该IOU区间的候选框个数按照百分比进行展示,生成每个区间的第一个条形。基于Faster R-CNN添加本发明的FDI结构后对区域提案网络后的锚点框进行同样的计算,生成每个区间的第二个条形。可见,本发明的方法明显的增加了不同IOU区间的锚点框的个数,区域提案网络中获取的锚点框质量有明显的提高,对于目标检测任务,锚点框定位更加准确会带动总体性能的提高。

表2

表2是本发明实施例提供的COCO验证集val中测试实验评估结果,如表2所示,可以在不同的骨干网络,不同目标检测算法上实现本发明的方法,表2中选用Faster R-CNN与Cascade R-CNN分别在骨干网络ResNet-50-FPN和ResNet-101-FPN上实验。在Faster R-CNN中,将本发明的FDI添加到区域提案网络之后,候选框检测器之前获取到目标交并比阈值后送入检测器进行正负样本的划分。在Cascade R-CNN中,本发明分别对三个不同阶段的检测器使用了FDI进行实验,其中在第二和第三级别添加FDI后提升效果并不明显,最终本发明将FDI添加到区域提案网络与第一级别的候选框检测器之间。经过第一级别检测框的回归,紧随其后的两级别检测器所输入的候选框质量已经足够好,因此需要更高的IOU进行训练,故第二级别和第三级别维持原来0.6和0.7的IOU阈值。在ResNet-50-FPN上面,本发明的Faster R-CNN FDI相比原来的Faster R-CNN mAP提高1.6%,本发明的Cascade R-CNN FDI相比原Cascade R-CNN提高1.2%。本发明的FDI不仅适用于原始的Faster R-CNN,而且适应专门针对IOU进行设计的Cascade R-CNN算法。不仅如此,在更深的网络ResNet-101-FPN中,本发明的FDI在Faster R-CNN和Cascade R-CNN分别提高1.1%和0.5%。

表3

I<sub>base</sub> AP AP<sub>50</sub> AP<sub>75</sub> AP<sub>S</sub> AP<sub>M</sub> AP<sub>L</sub>
0.3 37.2 58.7 40.4 21.4 41.0 47.8
0.35 37.9 59.7 40.9 22.2 41.7 49.3
0.4 38.0 60.1 41.1 22.0 41.8 49.0
0.45 37.7 59.3 40.8 21.9 41.2 49.1
0.5 37.8 59.5 40.5 21.8 41.4 48.9
0.55 37.6 58.9 40.7 21.8 41.1 49.4
0.6 37.1 58.8 40.1 21.5 41.0 47.7

表3是本发明实施例提供的交并比基础参数对比实验结果,本发明的FDI中只有一个手动设置的超参数,即交并比基础参数Ibase,本发明设置不同的值进行实验。针对交并比基础参数本发明设置了一共7组对比实验,包括0.3,0.35,0.4,0.45,0.5,0.55,0.6,实验基于Faster R-CNN,骨干网络为ResNet-50,单尺度训练,单尺度在验证集中评估最终结果。在这七个值中,所有的值设定在验证集上的评估结果都比原始的Faster R-CNN mAP基准36.4%结果要高,证明本发明设计的算法具有较好的稳定性。从表格评估结果可以看出在0.35到0.5的区间中,mAP结果差距不大,交并比基础参数为0.35时候为37.9%,交并比基础参数为0.45,0.5时,mAP为37.7%,37.8%,最好的结果在交并比基础参数为0.4时取得,峰值为38%。

表4是本发明实施例提供的算法消融实验的结果,为了验证本发明的算法FDI的有效性,做了进一步的实验论证,如表4所示,本发明使用ResNet-50作为骨干网络,在FasterR-CNN,单尺度训练,单尺度在验证集上验证得出结果。实验条件1为现有技术的训练条件,即不添加本发明的FDI和FDI loss,训练Faster R-CNN基准mAP为36.4%。实验条件2为将IOU阈值调整为0.4,不使用交并比调整增量和目标损失进行调整,得出mAP为35.9%,比原来Faster R-CNN降低0.5%。COCO数据集具有数据规模大、目标实例和类别多、场景存在遮挡等各种复杂情况,故对于在COCO这类大型数据集上训练的目标检测任务,1%的提升亦可以视为较大的提高。但是这里降低0.5%说明仅仅是降低IOU阈值并不是一个好的设计方案,直接调低IOU阈值会导致很多原本识别准确率较高的图片获得更加多的正样本,虽然准确率低的也能获得一部分正样本,但是并不足以弥补整体不平衡缺陷。实验条件3是基于本发明提供的基于特征确定交并比阈值的方法,设置交并比基础参数为0.4,通过交并比调整增量和目标损失进行调整获得目标交并比阈值,相对于Faster R-CNN提高1.6%,相对于直接设计固定IOU阈值的检测器提高2.1%,证明了本发明的算法针对不同的图片进行设计确实有效。

表4

实验条件 AP
1 36.4
2 35.9
3 38.0

表5是本发明实施例提供的COCO测试集test-dev中测试实验评估结果,如表5所示,本发明在COCO数据集中的测试集进行测试,然后提交COCO竞赛平台获得本发明在test-dev中的评估结果,相对于验证集val,测试集要多四倍左右,约2W左右张图片,能够更加准确的衡量出算法是否有效。除了Cascade R-CNN+FDI+MS方法为多尺度训练和测试之外,其他方法皆为单尺度训练和测试。在这里本发明与众多方法进行比较,罗列了不同的骨干网络上的评估结果,第一列为不同对比算法展示,第二列为算法骨干网络,同时展示了所有AP结果值。本发明实验使用的骨干网络主要为ResNet系列,深度神经网络容易出现退化问题,在网络深度不断加深时,会出现准确度饱和或者精度下降的情况,ResNet能够解决这个问题,帮助更深的网络收敛。故为了证明当网络深度不断加深时,本发明的算法仍然具有较大优势,实验结果主要在ResNet系列网络上进行评估。本发明同时列举了其他不同的骨干网络的一些算法实验作为对比。在目标检测实验评估上,Relation Net在ResNet-101基础上结果为39%mAP,而在Faster R-CNN上添加本发明的FDI结构在test-dev上能够达到40%,提高1%的mAP。在Libra R-CNN ResNet-101上,mAP为40.3%,Libra R-CNN是针对目标检测中三个不平衡进行改进的,样本不平衡为其中之一,本发明的FDI其中一个初衷也是针对样本不平衡进行设计的,在使用同样的骨干网络训练的情况下仅仅比Libra R-CNN低0.3%。

表5

Detector Backbone AP AP<sub>50</sub> AP<sub>75</sub> AP<sub>S</sub> AP<sub>M</sub> AP<sub>L</sub>
Faster R-CNN ResNet-101 38.8 60.9 42.3 22.3 42.2 48.6
Faster R-CNN by G-RM Inception-ResNet-V2 34.7 55.5 36.7 13.5 38.1 52.0
Faster R-CNN w/TDM Inception-ResNet-V2-TDM 36.8 57.5 39.2 16.2 39.8 52.1
DeNet-101(wide) ResNet-101 33.8 53.4 36.1 12.3 36.1 50.8
Deformable R-FCN Aligned-Inception-ResNet 37.5 58.0 40.8 19.4 40.1 50.2
Mask R-CNN ResNet-50 38.2 59.0 40.4 21.9 40.9 49.5
DCN w Relation Net ResNet-101 39.0 58.6 42.9
Libra R-CNN ResNet-101 40.3 61.3 43.9 22.9 43.1 51.0
Regionlets ResNet-101 39.3 59.8 21.7 43.7 52.5
Cascade R-CNN ResNet-50 40.7 59.3 44.1 23.1 43.6 51.4
Cascade R-CNN ResNet-101 42.4 61.1 46.1 23.6 45.4 54.1
Faster R-CNN+FDI ResNet-50 38.6 60.6 41.7 22.1 41.5 48.3
Faster R-CNN+FDI ResNet-101 40.3 62.5 43.9 23.0 43.6 51.1
Mask R-CNN+FDI ResNet-50 39.3 61.1 42.7 22.5 42.2 49.4
Cascade R-CNN+FDI ResNet-50 41.6 60.2 45.2 23.2 44.3 53.3
Cascade R-CNN+FDI ResNet-101 42.8 61.6 46.6 23.5 45.6 55.0
Cascade R-CNN+FD+MS ResNet-101 43.3 62.1 47.2 27.5 47.2 51.7

本发明同时将本发明的结构添加到实例分割任务中进行测试,在Mask R-CNN中,使用ResNet-50为骨干网络,平均精度为38.2%,同样的配置添加本发明的FDI后,结果为39.3%,精度提高有1.1%。这说明本发明的方法不仅仅适用于目标检测,而且适用于实例分割甚至是全景分割。两阶段的实例分割和全景分割,与目标检测网络结构重合度较高,实例分割仅比目标检测多了一个像素分割检测器,主要任务为将候选框内的实例像素分割出来。不管是两阶段的目标检测还是实例分割,首先都需要获取较好质量的候选框,故本发明的算法同样适合实例分割,全景分割在实例分割的基础上多了一个语义分割检测器分支和全景分割检测器分支,但是其网络结构基础也需要目标检测任务支撑。

对于Cascade R-CNN,本发明在上述的验证集实验中充分说明了本发明算法的优势,在数量为四倍的测试集中亦然,证明本发明的方法具有较好的鲁棒性。相比在验证集中,测试集上的结果提高了约0.3%,同时本发明在Cascade R-CNN中做了多尺度训练和多尺度测试实验,在测试集中达到了43.3%的结果,本发明在大型数据集上证明了算法的有效性。

同时,还可以对目标检测结果进行可视化,方便进行对比分析。图15是本发明实施例提供的一种可视化对比示意图,其中,人脸处的灰色实心框是为保护隐私而在获得对比示意结果后设置的马赛克,与发明的对比实验无关。在Faster R-CNN网络上,基于ResNet50骨干网络的配置上进行训练,在验证集进行测试,并对回归框大于分类得分大于0.5的结果进行可视化。具体的,图15划分为(a),(b),(c),(d)四行,其中(a)和(b)为Faster R-CNN+FDI,(c)和(d)为在Faster R-CNN基准上与FDI进行对比的实验。COCO数据集中有较多的大物体,常规算法在测试时获取到足够多的回归样本之后,根据框与框之间的重叠程度与分类得分,经过非极大抑制算法对重叠度高的候选框进行剔除。但这样做存在的问题是,即使是回归之后的回归框也不一定能够与真实标注框有较大的重叠面积,故就会出现(c-1),(c-4),(d-2),(d-3)中出现的问题,虽然输出的回归框定位准确,但是仍然有一部分回归框框中实例的小区域,而且得分较高。这部分回归框因为重叠面积低于非极大抑制算法中设定的阈值,故留存了下来。作为对比,本发明的算法在(a-1),(a-4),(b-2),(b-3)上表现出较大优势,经过本发明提出的算法训练后,这些候选框都能回归出接近真实标注框的回归框,故在非极大抑制算法的筛选下,能够将最好的回归框留下。本发明的算法不仅对于一些只框中了部分区域的候选框有较好的回归效果,而且对于整体的实例也有较好的回归效果,如(a-3),(b-1),相比(c-3),(d-1)只框中了部分目标实例,本发明的模型能够较好覆盖整个目标实例,即使像(a-3)这样,手部区域伸直远离躯体,本发明的模型也能较好的识别出来。综上所述,证明了本发明方法在不同的骨干网络和不同的基础算法上的通用性和有效性。

可选的,对应于上述基于特征确定交并比阈值的目标检测方法,还可以提供一种基于特征确定交并比阈值的目标检测装置,用于执行上述基于特征确定交并比阈值的目标检测方法,实现目标检测。

可选的,还可以在智能终端或计算机可读存储介质中存储基于特征确定交并比阈值的目标检测程序,通过执行该程序来实现上述基于特征确定交并比阈值的目标检测方法对应的步骤,在此不做具体限定。

应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以所述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将所述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,所述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。所述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:基于双尺度时空分块互注意力的课堂动作识别方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!