目标检测方法、装置及系统、高级驾驶辅助系统

文档序号:8326 发布日期:2021-09-17 浏览:32次 英文

目标检测方法、装置及系统、高级驾驶辅助系统

技术领域

本发明涉及自动驾驶

技术领域

,尤其涉及一种目标检测方法、装置及系统、高级驾驶辅助系统。

背景技术

随着近年来自动驾驶技术的快速发展,车辆运行过程中的环境感知问题显得尤为重要。且由于自动驾驶对于安全性要求很高,如何提高感知精度是核心问题,所以传感器融合则变得不可或缺。

在高级驾驶辅助系统(Advanced Driving Assistance System,简称ADAS)领域中,现有的环境感知系统考虑了采用多传感器融合技术来提高感知性能,常用的方案为摄像头和雷达的融合。

当前基于摄像头和激光雷达融合的方式主要有决策级、目标级、特征级的融合方式。其中,决策级融合是指将各传感器的感知信息传送给决策系统前没有提前建立传感器之间相互的匹配关系,这在一定程度上增加了决策系统的决策难度,且不利于决策系统做出更优的决策方案。特征级融合是近两年较热门的研究方向,但对于图像和点云两种不同模态的数据,直接进行特征融合未必能达到最优的性能,如何进行更有效的特征融合仍旧是需要继续探索的方向。现有的目标级融合方案多为串联结构,例如,首先通过卷积神经网络(Convolutional Neural Networks,简称CNN)得到图像中的检测框,然后提取图像检测框内部的点云数据继续进行前背景点分割及3D目标框的回归,该方法3D检测性能受图像目标检测性能影响较大,图像的漏误检将直接导致点云目标的漏误检。又例如,首先通过一些传统方法对点云数据进行处理,首先通过一定策略分割出地面点并将其过滤,然后对剩下的点进行空间聚类,提取目标的3D感兴趣区域,然后将3D感兴趣区域投影至图像提取出对应的2D区域,再用传统的2DCNN网络进行目标框的分类和回归,上述两种方法均为串联的检测框架结构,最终的检测性能上限受两者中较差的一方限制,没有充分发挥融合应有的优势。

发明内容

有鉴于此,本发明实施例提供了一种目标检测方法、装置及系统、高级驾驶辅助系统,用以解决现有技术中基于串联结构的目标级融合方案,其检测性能受限于性能较低的一方的技术问题。

一方面,本发明实施例提供了一种目标检测方法,包括:对采集到的图像数据进行图像目标检测以得到多个图像检测目标的图像检测框;利用预设神经网络对采集到的点云数据进行点云目标检测以得到多个点云检测目标的3D目标框;将各个所述点云检测目标的3D目标框投影至图像像素坐标系以得到对应的各个2D投影框;基于所述图像像素坐标系,计算每个所述点云检测目标的2D投影框与每个所述图像检测框之间的IOU值;根据所述IOU值对各个所述图像检测目标与各个所述点云检测目标做融合,以得到融合目标。

可选的,所述根据所述IOU值对各个所述图像检测目标与各个所述点云检测目标做融合,以得到融合目标包括:分别确定所有点云检测目标的2D投影框中与各个所述图像检测目标的图像检测框之间最大IOU值所对应的点云检测目标的2D投影框;分别判断每个所述最大IOU值是否大于IOU阈值;若所述最大IOU值大于所述IOU阈值,则将所述最大IOU值对应的点云检测目标作为融合目标。

可选的,所述分别判断每个所述最大IOU值是否大于IOU阈值之后还包括:若所述最大IOU值小于所述IOU阈值,则判断所述最大IOU值对应的图像检测目标的置信度是否大于第一置信度阈值;若是,则将所述最大IOU值对应的图像检测目标作为所述融合目标。

可选的,目标检测方法还包括:遍历所有点云检测目标,判断其中未融合的点云检测目标的置信度是否大于第二置信度阈值;若是,则将所述未融合的点云检测目标组委所述融合目标。

可选的,所述预设神经网络包括Point-RPN网络和Point-RCNN网络;所述利用预设神经网络对采集到的点云数据进行点云目标检测以得到多个点云检测目标的3D目标框包括:将所述点云数据输入至所述Point-RPN网络进行处理,以得到多个3D建议框;将所述多个3D建议框输入至所述Point-RCNN网络,以从每个所述3D建议框中获取相应的点云数据;对所述点云数据进行特征提取,以得到一个预设维度的全局特征;将所述预设维度的全局特征分别通过分类支路和回归支路以对每个所述3D建议框进行分类,且在所述3D建议框分类为正样本的情况下,对所述3D建议框进行回归以得到所述点云检测目标的3D目标框。

可选的,所述将所述点云数据输入至所述Point-RPN网络进行处理,以得到多个3D建议框包括:对所述点云数据依照不同的尺度进行网格划分以进行体素化处理,得到不同尺度的体素化点云数据;分别从不同尺度的体素化点云数据中提取相应尺度的特征图;从主干网络中选取与不同尺度的特征图相对应的特征地图,并将特征地图与特征图对应尺度的特征图进行融合,以得到多个3D建议框。

可选的,所述将各个所述点云检测目标的3D目标框投影至图像像素坐标系以得到对应的各个2D投影框包括:将各个点云检测目标的3D目标框的参数转换为三维空间中对应的顶点坐标;基于相机透视变换原理,将各个3D目标框在所述三维空间中的顶点坐标转换为图像像素坐标系中对应的像素坐标;将所述图像像素坐标系中各个3D目标框对应的像素坐标转换为对应的各个2D投影框的坐标。

另一方面,本发明实施例还提供了一种目标检测装置,包括:图像目标检测模块,用于对采集到的图像数据进行图像目标检测以得到多个图像检测目标的图像检测框;点云目标检测模块,用于利用预设神经网络对采集到的点云数据进行点云目标检测以得到多个点云检测目标的3D目标框;投影处理模块,用于将各个所述点云检测目标的3D目标框投影至图像像素坐标系以得到对应的各个2D投影框;IOU值计算模块,用于基于所述图像像素坐标系,计算每个所述点云检测目标的2D投影框与每个所述图像检测框之间的IOU值;融合处理模块,用于根据所述IOU值对各个所述图像检测目标与所述点云目标队列中的各个点云检测目标做目标级融合,以得到融合目标。

再一方面,本发明实施例还提供了一种高级驾驶辅助系统,包括上述目标检测系统。

又一方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述目标检测方法。

与现有技术相比,本技术方案至少具有如下有益效果:

根据本发明实施例提供的目标检测方法,分别对采集到的图像数据进行图像目标检测得到多个图像检测目标和对采集到的点云数据进行点云目标检测得到点云检测目标。然后,将各个点云检测目标的3D目标框投影至图像像素坐标系得到对应的各个2D投影框;在图像像素坐标系下,计算得到的每个所述点云检测目标的2D投影框与每个所述图像检测框之间的IOU值,基于IOU值将满足所设定的融合逻辑的图像检测目标和点云检测目标做目标级融合,以得到融合目标。其中,对于未做融合的图像检测目标和点云检测目标,进一步根据各自的置信度来判断是否将其作为融合目标。由于图像检测目标具有丰富的语义信息,对于目标的分类效果更佳,但测距精度较低,而利用雷达采集到的点云数据具有较高的测距精度,对两者进行融合则可以取长补短,输出更加准确有效的环境感知结果。因此,本发明实施例充分考虑了图像检测和点云3D目标检测各自的优势,达到了比使用单一传感数据更优的3D检测性能。

进一步,在利用预设神经网络(例如Point-RCNN网络)对点云数据进行点云目标检测时,借鉴了图像目标检测中Faster-RCNN的算法思路,设计了一种两阶段(包含Point-RPN网络和Point-RCN网络)的点云目标检测算法,通过Point-RPN网络对点云数据进行处理生成一系列3D建议框(proposals),Point-RCNN网络将由Point-RPN网络生成的3Dproposals作为输入,并对proposals进行进一步的分类和回归,大幅提高点云3D检测算法的性能。

进一步,在Point-RPN网络中利用了改进的Point Pillars算法实现。相比于现有的Point Pillars算法,改进的Point Pillars算法采用多尺度的点云网格划分,并对多尺度的点云网格特征进行融合,从而提升了Point-RPN网络的检测性能。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的目标检测方法的一个具体实施例的流程示意图;

图2是本发明实施例提供的目标检测方法中利用Point-RPN网络的网络结构示意图;

图3是本发明实施例提供的目标检测方法中Point-RCNN网络的网络结构示意图;

图4是本发明实施例提供的目标检测方法中目标级融合算法的一个具体实施例的流程示意图;

图5是本发明实施例提供的目标检测装置的一个具体实施例的结构示意图;

图6是本发明实施例提供的一种目标检测系统的结构示意图。

具体实施方式

为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。

应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

图1是本发明实施例提供的目标检测方法的一个具体实施例的流程示意图。参考图1,所述目标检测方法包括:

步骤101、对采集到的图像数据进行图像目标检测以得到多个图像检测目标的图像检测框;

步骤102、利用预设神经网络对采集到的点云数据进行点云目标检测以得到多个点云检测目标的3D目标框;

步骤103、将各个所述点云检测目标的3D目标框投影至图像像素坐标系以得到对应的各个2D投影框;

步骤104、基于所述图像像素坐标系,计算每个所述点云检测目标的2D投影框与每个所述图像检测框之间的IOU值;

步骤105、根据所述IOU值对各个所述图像检测目标与各个所述点云检测目标做目标级融合,以得到融合目标。

本实施例提供的目标检测方法应用于具有摄像头和雷达的目标检测系统。其中,摄像头可以是单摄像头或多摄像头、雷达可以采用激光雷达。

在进行目标检测过程中,分别利用摄像头对场景进行拍摄以采集2D的图像数据以及利用雷达对场景进行扫描可以采集点云数据。其中,所述点云数据是指在一个三维坐标系中的一组向量的集合。这些向量通常以X、Y、Z三维坐标的形式表示,主要用来表示一个物体的外表面形状;而且除了(X,Y,Z)代表的几何位置信息之外,点云数据还可以表示一个点的RGB颜色,灰度值,深度,分割结果等。

本实施例所述的目标检测方法的执行主体是目标检测系统中的处理器。

如步骤101所述,对采集到的图像数据进行图像目标检测以得到多个图像检测目标的图像检测框。

具体地,从场景中采集到的图像数据可能包含多种类别的检测目标(例如,机动车、非机动车、行人等),利用多目标检测(Multiple Object Detection,简称MOD)网络可以从图像中分别检测出不同类别的图像检测目标,从而得到多个图像检测目标的图像检测框。其中,所述多目标检测网络可以利用基于卷积神经网络(Convolutional NeuralNetworks,简称CNN)的深度学习方法实现,主要是对场景中的多个类别的目标进行检测,检测后可以获得图像检测目标在图像中的位置和尺寸信息,并在图像数据中通过图像检测框标识检测到的图像检测目标。

进一步,由于仅根据图像检测目标的位置和尺寸信息依旧不能直接供决策系统做出准确的控制决策,因此利用单目测距(对应单摄像头)或双目测距(对应两个或两个以上的摄像头)来对图像检测目标距离摄像头的相对位置进行估计,获取图像检测目标在场景中的大致位置,保证了较好的测距精度。

如步骤102所述,利用预设神经网络对采集到的点云数据进行点云目标检测以得到多个点云检测目标的3D目标框。

在本实施例中,所述预设神经网络可以采用Point-RCNN网络。所述Point-RCNN网络是一种两阶段(two-stage)的网络,包括Point-RPN网络和Point-RCNN网络。

具体来说,本步骤包括:

步骤1021、将所述点云数据输入至所述Point-RPN网络进行处理,以得到多个3D建议框;

步骤1022、将所述多个3D建议框输入至所述Point-RCNN网络,以从每个所述3D建议框中获取相应的点云数据;

步骤1023、对所述点云数据进行特征提取,以得到一个预设维度的全局特征;

步骤1024、将所述预设维度的全局特征分别通过分类支路和回归支路以对每个所述3D建议框进行分类,且在所述3D建议框分类为正样本的情况下,对所述3D建议框进行回归以得到所述点云检测目标的3D目标框。

在本实施例中,先利用Point-RPN网络对采集到的点云数据进行处理以得到多个初步的3D proposals。由于这些初步的3D proposals的准确性还不够高,因此称为3D建议框。

其中,所述Point-RPN网络利用了改进后的Point Pillars算法实现。

本领域技术人员理解,现有的Point Pillars算法采用网格划分的方式对点云数据进行预处理,且只在俯视图的两个维度上进行划分,并通过mini-pointnet网络将每个网格中的点云数据映射为固定长度的特征向量,生成一个固定长宽的伪图像,然后用2D卷积神经网络继续进行特征提取及后续目标检测任务。改进后的Point Pillars算法采用了多尺度网格划分,并对多尺度的网格特征进行融合,提升了Point-RPN网络的检测性能。

具体地,所述步骤1021包括:

步骤10211、对所述点云数据依照不同的尺度进行网格划分以进行体素化处理,得到不同尺度的体素化点云数据;

步骤10212、分别从不同尺度的体素化点云数据中提取相应尺度的特征图;

步骤10213、从主干网络中选取与不同尺度的特征图相对应的特征图,并将对应尺度的特征图进行融合,以得到多个3D建议框。

下面结合Point-RPN网络的网络结构对上述步骤10211~步骤10213的具体实施过程进行描述。

图2是本发明实施例提供的目标检测方法中利用Point-RPN网络的网络结构示意图。

参考图2,输入的点云数据经过3D目标探测器(VoxelFPN)进行网格(pillar)划分,在划分网格的尺度上采用了多尺度的pillar划分,如图2中所示划分为s×s、2s×2s、4s×4s三种尺度的网格(pillar),上述网格划分过程是对所述点云数据进行体素化处理,每个网格内的点云数据即为体素化点云数据。

然后,经过体素特征提取模块(Voxel feature extraction)从不同尺度的每个网格特征后得到输出的特征图分别为(C1,H,W)、(C2,H/2,W/2)、(C3,H/4,W/4),并将经由体素特征提取模块输出的特征图输入至多尺度特征融合(Multi-scale feature aggregation)模块。在多尺度特征融合模块中,输出的特征图分别与主干网络(backbone)中对应尺度的特征图(feature map)做融合,从而实现多尺度的网格特征(Pillar Feature)之间的融合。再通过探测模块基于融合后的网格特征得到多个3D建议框。

进一步,在主干网络中也借鉴了FPN的设计思路,设计了一种bottom-up和top-down的结构,实现多尺度特征的融合。在生成3D建议框时,在每个场景中做非极大值抑制算法(NMS)操作,过滤掉重叠度较大的3D建议框,保留置信度前N的目标(若不够N个目标则输出全部目标)输出至Point-RCNN网络。

如步骤1022所述,步骤1022、将所述多个3D建议框输入至所述Point-RCNN网络,以从每个所述3D建议框中获取相应的点云数据。

如步骤1023所述,对所述点云数据进行特征提取,以得到一个预设维度的全局特征。

图3是本发明实施例提供的目标检测方法中Point-RCNN网络的网络结构示意图。

参考图3,将点云数据和由Point-RPN网络输出的3D建议框作为所述Point-RCNN网络的输入,并对3D建议框进行进一步的分类和回归。结合Point-RPN网络输出的3D建议框和点云数据,所述Point-RCNN网络从每个所述3D建议框中获取相应的点云数据,然后通过点云数据Encoder编码对每个所述3D建议框内的点云数据的特征进行编码。其中,点云数据Encoder编码采用PointNet++作为主干网络。在点云数据Encoder编码中,采用集合抽象(Set Abstraction,简称SA)对点云数据的特征逐渐降采样以提取深层特征,最终得到一个预设维度(C维)的全局特征。其中,全局特征的维度可以自由设定,例如C=512。

如步骤1024所述,将所述预设维度的全局特征分别通过分类支路和回归支路以对每个所述3D建议框进行分类,且在所述3D建议框分类为正样本的情况下,对所述3D建议框进行回归以得到所述点云检测目标的3D目标框。

具体地,继续参考图3,分别通过一个分类分支对3D proposals进行分类,分类分支是基于对上述得到的C维特征向量进行置信度预测的结果来对3D proposals进行分类。根据分类结果,若3D建议框为正样本(即属于某一分类类别的3D建议框),则通过一个回归分支来进一步对3D建议框进行回归,以得到点云检测目标的3D目标框。

对于每一个3D目标框,设其经过Point-RPN的回归结果为(xi,yi,zi,wi,li,hii),则根据(xi,yi,zi)和θi可以对3D目标框内的点云数据进行平移和旋转的空间变换,将点云数据转换至局部正则坐标系下,然后在该坐标系下回归参数的偏差量。设GT框的参数为(xgt,ygt,zgt,wgt,lgt,hgtgt),则对应的回归量偏差为:

Δθ=θgti

其中,中心点的偏移量为局部正则坐标系下的偏移量,尺度的偏移量为相对于所有训练数据中对应目标尺度均值的偏移量,偏转角偏移量为与真值框偏转角的偏差。损失函数采用Smooth L1 loss。

进一步,利用雷达的测距功能测量点云检测目标距离雷达的距离。其中,雷达测距技术可以采用现有技术,在此不再赘述。

如步骤103所述,将各个所述点云检测目标的3D目标框投影至图像像素坐标系以得到对应的各个2D投影框。

本领域技术人员理解,要对多种不同传感器采集到的数据进行融合,则需要同一坐标系。在本实施例中,在对图像数据和点云数据进行融合之前,选定图像像素坐标系为统一坐标系。然后,将点云检测目标的3D目标框投影至图像像素坐标系中,从而得到对应的2D投影框,根据2D投影框与图像检测目标的图像检测框之间的相对位置关系来进行融合。

在本实施例中,本步骤包括:

步骤1031、将各个点云检测目标的3D目标框的参数转换为三维空间中对应的顶点坐标;

步骤1032、基于相机透视变换原理,将各个3D目标框在所述三维空间中的顶点坐标转换为图像像素坐标系中对应的像素坐标;

步骤1033、根据所述图像像素坐标系中各个3D目标框对应的像素坐标,取所有投影点组成的外接矩形框的顶点作为对应的各个2D投影框的坐标。

具体来说,假设点云目标队列为其中参数(xi,yi,zi,wi,li,hii)为第i个点云检测目标的3D目标框的参数。3D目标框也可以通过三维空间中的8个顶点来表示,因此可以将(xi,yi,zi,wi,li,hii)转换为

进一步,根据相机透视变换原理可知,在相机坐标系下,三维空间中的一个点X坐标为(x,y,z,1)其转换至图像像素坐标系下的一点Y的坐标为(u,v,1)。

故将点云检测目标在三维空间中的坐标:

转换至图像像素坐标系下的像素坐标为:

取所有投影点组成的外接矩形框的顶点作为对应的各个2D投影框的坐标:

其中

如步骤104所述,基于所述图像像素坐标系,计算每个所述点云检测目标的2D投影框与每个所述图像检测框之间的IOU值。

本领域技术人员理解,IOU值是一种评价两个边框(bounding box)相互重合程度的指标,即它们的交集与并集的比值。IOU值等于两个bounding box的交集面积除以它们并集的面积。当两个bounding box没有任何交集时,IOU为0;当两个bounding box完全重合时,IOU为1。因此,IOU值的取值范围是[0,1]。

在本实施例中,在图像像素坐标系下,计算每个所述点云检测目标的2D投影框与每个所述图像检测框的IOU值。例如,有m个点云检测目标,有n个图像目标,则分别计算每一个点云检测目标的2D投影框与其他各个图像检测目标的图像检测框的IOU值,从而可以得到一个m×n的IOU矩阵。

如步骤105所述,根据所述IOU值对各个所述图像检测目标与各个所述点云检测目标做目标级融合,以得到融合目标。

在本实施例中,本步骤包括:

步骤1051、分别确定所有点云检测目标的2D投影框中与各个所述图像检测目标的图像检测框之间最大IOU值所对应的点云检测目标的2D投影框。

具体地,根据上文所述,若一个点云检测目标的2D投影框与一个图像检测框之间的IOU值越大,则表示该点云检测目标的2D投影框与该图像检测框之间的重合度越高。因此,分别确定所有点云检测目标的2D投影框中与每个所述图像检测目标的图像检测框之间最大IOU值所对应的点云检测目标的2D投影框。也就是说,找出与每个图像检测目标的图像检测框的重合度最高的点云检测目标的2D投影框。

此外,也可以是分别确定所有图像检测目标的2D投影框中与每个所述点云检测目标的2D投影框之间最大IOU值所对应的图像检测目标的2D投影框。

步骤1052、分别判断每个所述最大IOU值是否大于IOU阈值。

其中,所述IOU阈值可以自行预先设定,例如若IOU值的取值范围为[0,1],则设置IOU阈值为0.8。

步骤1053、若所述最大IOU值大于所述IOU阈值,则将所述最大IOU值对应的点云检测目标作为融合目标。

具体地,若两者最大IOU值大于所述IOU阈值,则将对应的点云检测目标与图像检测目标做融合。由于图像检测目标的图像检测框没有目标的三维空间位置、尺度和朝向等信息,因此在做目标级融合时,是将最大IOU值对应的点云检测目标作为融合目标。所述融合目标中,检测框选取该点云检测目标的3D目标框,并将最大IOU值对应的点云检测目标和图像检测目标的置信度均值作为融合目标的置信度。进一步,根据雷达测距原理获得所述融合目标在3D空间中的位置信息。

步骤1054、若所述最大IOU值小于所述IOU阈值,则判断所述最大IOU值对应的图像检测目标的置信度是否大于第一置信度阈值。

具体地,若两者的最大IOU值小于所述IOU阈值,则进一步判断最大IOU值对应的图像检测目标的置信度是否大于所述第一置信度阈值。其中,所述图像检测目标的置信度为该图像检测目标为所要检测某一类别目标的可靠度。所述第一置信度阈值可以自行预先设定。

步骤1055、若是,则将所述最大IOU值对应的图像检测目标作为所述融合目标。

也就是说,若所述最大IOU值对应的图像检测目标未与点云检测目标进行融合,但因为该图像检测目标的置信度较高(即大于设定的第一置信度阈值),仍将该图像检测目标作为所述融合目标。进一步,根据单目测距或者双目测距算法获得该图像检测目标在3D空间中的位置信息。

反之,若该图像检测目标的置信度小于所述第一置信度阈值,则直接将该图像检测目标过滤。

步骤1056、遍历所有点云检测目标,判断其中未融合的点云检测目标的置信度是否大于第二置信度阈值。

具体地,对每个所述点云检测目标进行一次遍历,若其已与图像检测目标进行了融合则跳过,若还未融合则对该点云检测目标的置信度做进一步判断,即判断该点云检测目标的置信度是否大于第二置信度阈值。其中,所述第二置信度阈值可以自行预先设定。

步骤1057、若是,则将所述未融合的点云检测目标作为所述融合目标。

具体地,若未融合的点云检测目标的置信度较高(即大于设定的第二置信度阈值),仍将该点云检测目标作为所述融合目标。反之,若该点云检测目标的置信度小于所述第二置信度阈值,则直接将该点云检测目标过滤。

可以看出,在得到的所有融合目标中包含了单独的未融合的图像检测目标和点云检测目标。由于图像检测目标具有丰富的语义信息,对于目标的分类效果更佳,但单目测距或双目测距的精度较低,而点云检测目标是利用雷达测距,其具有较高的测距精度,通过对两者进行融合则可以取长补短,输出更加准确有效的环境感知结果。

图4是本发明实施例提供的目标检测方法中目标级融合算法的一个具体实施例的流程示意图。参考图4,所述目标级融合算法包括如下步骤:

步骤401、假设点云目标队列Qlidar

步骤402、假设图像目标队列Qimage

步骤403、点云目标投影至图像得到2D投影框为

步骤404、根据图像目标队列Qimage中的图像检测框和2D投影框计算IOU矩阵Mm×n

步骤405、依次确定图像检测目标i(i=1,2,3…,n)。

步骤406、找到与图像检测目标i的IOU值最大的点云检测目标j,最大IOU值为

步骤407、若其中T为IOU阈值;若步骤407的判断结果为是,则执行步骤409;若步骤407的判断结果为否,则执行步骤408。

步骤408、图像检测目标的置信度是否大于C1,其中C1为第一置信度阈值;若步骤408的判断结果为是,则执行步骤410。

步骤409、融合图像检测目标i和点云检测目标j,并将融合后的融合目标输出至融合目标队列Qfusion

步骤410、将图像检测目标i输出至融合目标队列Qfusion

步骤411、若i<=n;若步骤411的判断结果为是,即尚未遍历完图像目标队列,则i=i+1;若步骤411的判断结果为否,执行步骤412;

步骤412、将未与图像检测目标融合且置信度大于C2的点云检测目标输出至融合目标队列Qfusion;其中C2为第二置信度阈值。

图5是本发明实施例提供的目标检测装置的一个具体实施例的结构示意图。参考图5,所述目标检测装置5包括:

图像目标检测模块51,用于对采集到的图像数据进行图像目标检测以得到多个图像检测目标的图像检测框。点云目标检测模块52,用于利用预设神经网络对采集到的点云数据进行点云目标检测以得到多个点云检测目标的3D目标框。投影处理模块53,用于将各个所述点云检测目标的3D目标框投影至图像像素坐标系以得到对应的各个2D投影框。IOU值计算模块54,用于基于所述图像像素坐标系,计算每个所述点云检测目标的2D投影框与每个所述图像检测框之间的IOU值。融合处理模块55,用于根据所述IOU值对各个所述图像检测目标与各个所述点云检测目标做目标级融合,以得到融合目标。

其中,所述融合处理模块55包括:投影框确定单元551,用于分别确定所有点云检测目标的2D投影框中与各个所述图像检测目标的图像检测框之间最大IOU值所对应的点云检测目标的2D投影框。IOU值判断单元552,用于分别判断每个所述最大IOU值是否大于IOU阈值。融合处理单元553,用于若所述最大IOU值大于所述IOU阈值,则将所述最大IOU值对应的点云检测目标作为融合目标输出至所述融合目标。

所述融合处理模块55还包括:第一置信度判断单元554,用于若所述最大IOU值小于所述IOU阈值,则判断所述最大IOU值对应的图像检测目标的置信度是否大于第一置信度阈值;所述融合处理单元553,还用于若所述第一置信度判断单元554的判断结果为是,则将所述最大IOU值对应的图像检测目标作为所述融合目标。

所述融合处理模块55还包括:第二置信度判断单元555,用于遍历所有点云检测目标,判断其中未融合的点云检测目标的置信度是否大于第二置信度阈值;所述融合处理单元553,还用于若所述第二置信度判断单元555的判断结果为是,则将所述未融合的点云检测目标作为所述融合目标。

所述预设神经网络包括Point-RPN网络和Point-RCNN网络。所述点云目标检测模块52包括:Point-RPN网络处理单元521,用于将所述点云数据输入至所述Point-RPN网络进行处理,以得到多个3D建议框;并将所述多个3D建议框输入至所述Point-RCNN网络,以从每个所述3D建议框中获取相应的点云数据。Point-RCNN网络处理单元522,用于对所述点云数据进行特征提取,以得到一个预设维度的全局特征;将所述预设维度的全局特征分别通过分类支路和回归支路以对每个所述3D建议框进行分类,且在所述3D建议框分类为正样本的情况下,对所述3D建议框进行回归以得到所述点云检测目标的3D目标框。

所述Point-RPN网络处理单元521包括:体素化处理单元(图中未示出),用于对所述点云数据依照不同的尺度进行网格划分以进行体素化处理,得到不同尺度的体素化点云数据;特征图提取单元(图中未示出),用于分别从不同尺度的体素化点云数据中提取相应尺度的特征图;3D建议框确定单元(图中未示出),用于从主干网络中选取与不同尺度的特征图相对应的特征地图,并将特征地图与特征图进行融合,以得到多个3D建议框。

所述投影处理模块53包括:空间转换单元531,用于将各个点云检测目标的3D目标框的参数转换为三维空间中对应的顶点坐标。坐标转换单元532,用于基于相机透视变换原理,将各个3D目标框在所述三维空间中的顶点坐标转换为图像像素坐标系中对应的像素坐标。2D投影框坐标确定单元533,用于将所述图像像素坐标系中各个3D目标框对应的像素坐标转换为对应的各个2D投影框的坐标。

上述模块、单元的具体实现过程可以参考上述方法实施例,在此不再赘述。

图6是本发明实施例提供的一种目标检测系统的结构示意图。

参考图6,所述目标检测系统6包括:摄像头61、雷达62、处理器63、存储器64以及存储在所述存储器上并可在所述处理器上运行的计算机程序。所述处理器63执行所述计算机程序时,执行上述方法实施例所述的目标检测方法。所述摄像头61用于采集图像数据,所述雷达62用于采集点云数据。所述摄像头61可以包括单个摄像头或者多个摄像头。所述雷达62可以采用激光雷达。

所述处理器63执行计算机程序时所述执行的目标检测方法的具体过程可以参考上文方法实施例,在此不再赘述。

本发明实施例还提供了一种高级驾驶辅助系统,所述高级驾驶辅助系统包括上述目标检测系统。高级驾驶辅助系统主要对汽车行驶场景下行驶车辆前视区域内的机动车目标、非机动车目标和行人目标(简称机非人目标)进行3D检测。高级驾驶辅助系统利用本申请提供的目标检测系统通过融合点云数据和图像数据实现对机非人目标的3D检测,提高对前视区域内环境的感知精度及检测效果。

本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述目标检测方法的实施例中的各个步骤。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。

应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:车辆周围环境的识别方法、装置及相关设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!