一种基于时空间特征的行人车辆异常行为检测方法

文档序号:8374 发布日期:2021-09-17 浏览:31次 英文

一种基于时空间特征的行人车辆异常行为检测方法

技术领域

本发明属于交通场景下异常行为检测

技术领域

,具体涉及一种基于时空间特征的行人车辆异常行为检测方法。

背景技术

随着现代社会的发展,汽车日益成为人类生活中不可分割的一部分,给人们的日常出行提供了极大的便利,但同时,随着汽车保有量和车流密度的不断增加,也带来了交通堵塞,交通安全事故频发等一系列问题。行人车辆异常行检测的提出,能够辅助驾驶员安全行驶,提醒行人避开异常行为区域,甚至针对自动驾驶车辆,与车辆控制系统相结合,自主规避异常区域,这对保证交通场景内的安全有着极大的助力。

目前,针对车辆行人异常行为检测的研究,基于深度学习的方法是国内外学者研究的主流趋势。卷积神经网络CNN具有强大的表征能力和较高的检测精度,但只能提取空间特征,因而常常与长短期记忆网络LSTM结合,以此提取时空间特征。如陈莹等提出一种基于卷积自编码网络和长短期记忆网络对视频帧编码、解码的检测方法。基于光流法的方法是以光流法提取视频帧的光流特征,并以此进行分类,得出异常行为区域。如N.Rasheed等利用LK光流法提取目标对象特征,并反馈到前馈神经网络上进行分类。

基于深度学习的方法因其具有强大的表征能力和较高的检测精度而被广泛应用,但是需要有大量的样本数据支撑。针对小样本数据,极易因为颜色亮度等参数的变化影响到对于异常行为的判断。而基于光流法的方法依靠前后两帧图像提取光流特征,对于弱运动的目标不够敏感,不如基于深度学习方法的鲁棒性好,但对普遍行为不需要大量样本数据支撑即可有较高的检测精度。基于深度学习的方法会随着样本数据的增加而表现的越来越好,但需要弥补前期小样本数据的不足。

发明内容

本发明所要解决的技术问题是:提供一种基于时空间特征的行人车辆异常行为检测方法,在小样本数据条件下具有较高的检测精度。

为解决上述技术问题,本发明提供一种基于时空间特征的行人车辆异常行为检测方法,包括以下步骤:

步骤10)基于深度学习法,检测得到样品视频的第一异常区域和第一正常区域;

步骤20)基于光流法,检测得到样品视频的第二异常区域和第二正常区域;

步骤30)根据贝叶斯理论,结合第一异常区域、第一正常区域、第二异常区域和第二正常区域,得到样品视频的异常区域。

作为本发明实施例的进一步改进,所述步骤30)具体包括:

步骤301)利用式(1)计算得到第一后验概率:

式中,p(Ad|o)表示第一后验概率,p(d)表示步骤10)检测出的第一异常区域的准确率,nAd表示第二异常区域内的像素点落在第一异常区域内的个数,NAd表示第一异常区域内的像素点的总数,nNd表示第二异常区域内的像素点落在第一正常区域内的个数;

步骤302)利用式(2)计算得到第二后验概率:

式中,p(Ao|d)表示第二后验概率,p(o)表示步骤20)检测出的第二异常区域的准确率,nAo表示第一异常区域内的像素点落在第二异常区域内的个数,NAo表示第二异常区域内的像素点的总数,nNo表示第一异常区域内的像素点落在第二正常区域内的个数;

步骤303)将第一后验概率作为第一异常区域内的像素点的权重,将第二后验概率作为第二异常区域内的像素点的权重,利用式(3)得到样品视频的异常区域:

式中,Af表示样品视频的异常区域,AAd表示第一异常区域,AAo表示第二异常区域。

作为本发明实施例的进一步改进,所述步骤10)具体包括:

步骤101)将连续的样品视频帧输入卷积神经网络模型,得到样品视频帧的初级预测结果;所述初级预测结果包括每帧图像中的特征向量及预测的初级区域信息,区域信息包括区域中心坐标、区域长宽、置信度和分类结果;

步骤102)将连续的样品视频帧的初级预测结果输入长短期记忆网络模型,得到样品视频帧的次级预测结果;所述次级预测结果包括每帧图像中预测的次级区域信息,区域信息包括区域中心坐标、区域长宽、置信度和分类结果;

步骤103)将次级预测结果中的分类结果均为异常的区域组成第一异常区域;图像中去除第一异常区域的其他所有区域组成第一正常区域。

作为本发明实施例的进一步改进,所述卷积神经网络模型采用Yolov3架构;将输入图像分别分成13×13、26×26和52×52个格子,每个格子设定3个预测框负责检测落入该格子的物体,获取物体中心坐标、预测框长宽和置信度;通过解码过程计算得出针对整个图像的3个预测框的信息,并根据得分,选出得分最高的预测框区域作为检测出的区域。

作为本发明实施例的进一步改进,卷积神经网络模型的损失函数由置信度误差、IOU误差和分类误差三部分组成,并利用随机梯度下降优化器进行更新优化。

作为本发明实施例的进一步改进,所述长短期记忆网络模型包括1个长短期记忆网络层和1个输出层;长短期记忆网络模型的损失函数由置信度误差、IOU误差和分类误差三部分组成,并利用随机梯度下降优化器进行更新优化。

作为本发明实施例的进一步改进,所述步骤20)具体包括:

步骤201)基于ViBe对样品视频逐帧进行前景提取,提取出动态区域;

步骤202)根据光流法计算动态区域的光流,并根据动态区域的光流特征进行分类,提取出样品视频的第二异常区域和第二正常区域。

作为本发明实施例的进一步改进,所述步骤202)具体包括:

利用式(4)计算动态区域内像素点的光流:

Ixu+Iyv=-It

式中,ni表示预设窗口内的第i个像素点,Ix表示像素点对x方向的偏导,Iy表示像素点对y方向的偏导,It表示像素点对时间t的偏导,u表示像素点在x方向上的速度,v表示像素点在y方向上的速度;

将动态区域内的像素点的光流的均值作为动态区域的光流特征,在训练过程中,通过手工标记异常区域的方式,对视频帧中的每个动态区域赋予真实标签,并利用网格搜索法对光流模型自动调参;采用支持向量机SVM作为分类器,对动态区域进行标签预测,将标记为异常的动态区域总和作为第二异常区域,标记为正常的动态区域总和作为第二正常区域。

与现有技术相比,本发明的技术方案具有以下有益效果:本发明实施例提供的基于时空间特征的行人车辆异常行为检测方法,将基于深度学习方法检测得到的结果和基于光流法方法检测得到的结果,基于贝叶斯理论进行融合,既可弥补小样本数据时基于深度学习方法的表现不足的问题,又可弥补基于光流法针对弱运动目标敏感度不足的问题,从而在没有大样本数据支撑下,提高对异常行为的检测精度和性能。

附图说明

图1为本发明实施例的基于时空间特征的行人车辆异常行为检测方法的流程图;

图2为本发明实施例方法中长短期记忆网络的架构图;

图3(a)为本发明具体实施例中的原始图片,图3(b)为本发明具体实施例中对图3(a)基于ViBe提取出的动态区域的二值图。

具体实施方式

下面对本发明的技术方案进行详细的说明。

本发明实施例提供一种基于时空间特征的行人车辆异常行为检测方法,如图1所示,包括以下步骤:

步骤10)基于深度学习法,检测得到样品视频的第一异常区域和第一正常区域;

步骤20)基于光流法,检测得到样品视频的第二异常区域和第二正常区域;

步骤30)根据贝叶斯理论,结合第一异常区域、第一正常区域、第二异常区域和第二正常区域,得到样品视频的异常区域。

本发明实施例方法,将基于深度学习方法检测得到的结果和基于光流法方法检测得到的结果,基于贝叶斯理论进行融合,既可弥补小样本数据时基于深度学习方法的表现不足的问题,又可弥补基于光流法针对弱运动目标敏感度不足的问题,从而在没有大样本数据支撑下,提高对异常行为的检测精度和性能。

优选的,步骤30)具体包括:

步骤301)利用式(1)计算得到第一后验概率:

式中,p(Ad|o)表示第一后验概率,p(d)表示步骤10)检测出的第一异常区域的准确率,nAd表示第二异常区域内的像素点落在第一异常区域内的个数,NAd表示第一异常区域内的像素点的总数,nAd表示第二异常区域内的像素点落在第一正常区域内的个数。

步骤302)利用式(2)计算得到第二后验概率:

式中,p(Ao|d)表示第二后验概率,p(o)表示步骤20)检测出的第二异常区域的准确率,nAo表示第一异常区域内的像素点落在第二异常区域内的个数,NAo表示第二异常区域内的像素点的总数,nNo表示第一异常区域内的像素点落在第二正常区域内的个数。

步骤303)将第一后验概率作为第一异常区域内的像素点的权重,将第二后验概率作为第二异常区域内的像素点的权重,利用式(3)得到融合后区域,将融合后区域作为样品视频的异常区域。

式中,Af表示融合后区域,AAd表示第一异常区域,AAo表示第二异常区域。

若第一后验概率较大,则选用第一异常区域作为融合后的区域;若第一后验概率较小,选用第二异常区域作为融合后的区域。

与传统方法相比,贝叶斯理论以具有主观性的先验概率入手,并可以不断修正概率,使得准确率得到较大提升。采用贝叶斯理论进行区域融合,将后验概率作为区域检测准确率的权重,可以提高融合后区域的检测精度。

基于深度学习方法的检测具有较好的检测精度和鲁棒性,但依赖于大量的样本数据。在实际中通常较难获取大量的、具有针对性的样本,不得不采用较少的样本数据进行训练,由此极易产生同一类异常行为因为亮度等参数的变化而漏检的问题。而基于光流法的方法对于普遍行为不需要大量数据的支撑即可有较好的表现,针对速度引发的异常行为如急刹车等有较好的检测效果,但随着样本数据的不断积累,其检测精度通常都低于深度学习的方法。采用贝叶斯理论进行融合,无疑可以在小样本数据时弥补深度学习方法的不足;在大样本数据时能具有较高的检测精度。

优选的,步骤10)具体包括:

步骤101)将连续的样品视频帧输入卷积神经网络模型,得到样品视频帧的初级预测结果。初级预测结果包括每帧图像中的特征向量及预测的初级区域信息,区域信息包括区域中心坐标、区域长宽、置信度和分类结果。

步骤102)将连续的样品视频帧的初级预测结果输入长短期记忆网络模型,得到样品视频帧的次级预测结果。次级预测结果包括每帧图像中预测的次级区域信息,区域信息包括区域中心坐标、区域长宽、置信度和分类结果。

步骤103)将次级预测结果中的分类结果均为异常的区域组成第一异常区域,图像中去除第一异常区域的其他所有区域组成第一正常区域。

本发明实施例方法利用卷积神经网络模型仅能提取图像中的空间特征来检测异常行为区域,缺少时间上的联系。通过与LSTM相结合,建立起帧与帧之间的联系,筛选保留之前帧中的信息,有利于对异常行为区域的追踪检测。

进一步,卷积神经网络模型采用Yolov3架构。将输入图像分别分成13×13、26×26和52×52个格子,每个格子设定3个预测框负责检测落入该格子的物体,获取物体中心坐标、预测框长宽和置信度。通过解码过程计算得出针对整个图像的3个预测框的信息,并根据得分,选出得分最高的预测框区域作为检测出的区域。

进一步,卷积神经网络模型的损失函数由置信度误差、IOU误差和分类误差三部分组成,并利用随机梯度下降优化器进行更新优化。

本发明实施例方法采用Yolov3架构的卷积神经网络模型,与RCNN系列和SSD相比,具有更快的检测速度和较低的背景误检率。YOLOv3网络模型设计了3种不同尺寸的网格划分,有利于提高对不同尺寸大小的目标区域的检测精度。

优选的,如图2所示,长短期记忆网络模型包括1个长短期记忆网络层和1个输出层。长短期记忆网络模型的损失函数由置信度误差、IOU误差和分类误差三部分组成,并利用随机梯度下降优化器进行更新优化。

若采用基于Deep Sort的方法,建立起的时间上的联系是相邻帧之间的,无法保留先前相隔较远的图像帧中的信息。本发明实施例方法采用LSTM网络可保留间隔时间较远的图像帧信息,能够更好地对检测区域进行追踪预测。

优选的,步骤20)具体包括:

步骤201)基于ViBe对样品视频逐帧进行前景提取,提取出动态区域。

具体的,针对视频帧中的每一个像素点,都会储存一个样本集,该样本集为该像素点过去的像素值和与其相邻点的像素值。针对视频帧中每一个像素点新的像素值,都会与其样本集进行比较判断该像素点是否为背景点,以此提取动态区域。例如,原始图如图3(a)所示,基于ViBe提取出动态区域的灰值图如图3(b)所示。

步骤202)根据光流法计算动态区域的光流,并根据动态区域的光流特征进行分类,提取出样品视频的第二异常区域和第二正常区域。

进一步,所述步骤202)具体包括:

利用式(3)计算动态区域内像素点的光流:

Ixu+Iyv=-It

式中,ni表示预设窗口内的第i个像素点,Ix表示像素点对x方向的偏导,Iy表示像素点对y方向的偏导,It表示像素点对时间t的偏导,u表示像素点在x方向上的速度,v表示像素点在y方向上的速度。

将视频帧分成若干小部分,并假设这些小部分内保持相同的瞬时速度,则对于给定大小的窗口,可得:

以此可解得该区域的光流。

将动态区域内的像素点的光流的均值作为动态区域的光流特征,在训练过程中,通过手工标记异常区域的方式,对视频帧中的每个动态区域赋予真实标签,并利用网格搜索法对光流模型自动调参;采用支持向量机SVM作为分类器,对动态区域进行标签预测,将标记为异常的动态区域总和作为第二异常区域,标记为正常的动态区域总和作为第二正常区域。

较为常见的前景提取方法有帧差法、光流法等。帧差法提取的动态目标极易出现内部区域出现空洞的问题,即仅检测出运动物体的轮廓;光流法提取动态目标时易受噪声和遮挡的影响,造成的误差较大。本发明实施例方法采用ViBe具有较好的检测效果,检测速度较快,对噪声也具有一定的鲁棒性。

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解,本发明不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:手写识别方法、系统、客户端和服务器端

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!