基于手机用户和poi数据的城市入室盗窃犯罪风险评估方法

文档序号:8869 发布日期:2021-09-17 浏览:34次 英文

基于手机用户和POI数据的城市入室盗窃犯罪风险评估方法

技术领域

本发明提供一种城市犯罪风险评估方法,具体涉及一种利用移动手机用户数据和城市 POI数据开展城市犯罪风险的监测与评估技术,属于公共安全

技术领域

背景技术

社会经济条件与地理环境通常与犯罪行为的发生密切相关,并影响其空间分布。城市兴趣点(Point of interest,POI)数据能够反映周边地理环境,已经成为研究地理环境对犯罪影响的重要数据源。社会经济要素关注的对象为社区居住的不稳定性、社会经济地位以及居住区的土地使用情况等。因此,邻里、社区的年龄、收入、职业、流动人口等人口结构以及社会联系、集体效能等社会经济要素是犯罪地理学中十分重要的研究视角。

现有社会经济数据的来源多为政府统计数据,存在数据统计尺度大、更新慢等缺点。随着智能手机的普及和大数据技术的发展,使用手机用户数据获取区域社会经济指标已成为可能。目前在犯罪学领域,手机用户数据背后的属性数据并未深入挖掘,从手机用户数据获得的精细尺度的社会经济特征数据,能够为开展城市犯罪风险评估提供新的手段。

发明内容

为了克服犯罪风险研究中所使用的社会经济统计数据的局限性,本发明提出一种新的基于移动手机用户数据和城市兴趣点数据的城市入室盗窃犯罪风险评估方法。该方法涉及如下概念:

手机用户数据(Mobile phone user data,MPU):是指移动服务商或第三方关联公司在移动手机信令数据和购买电话卡时的用户注册信息基础上,采用算法生成的一定网格大小的手机用户经济和社会特征数据集,每个250米网格通常包括的字段有:居住人口数、本地居住人口数、外地居住人口数、身份未知居住人口数、各年龄段居住人口数、居住人口的富裕指数等。

POI:“Point of Interest”的缩写,中文翻译为“兴趣点”。每个POI包含四方面信息,名称、类别、坐标、分类。例如:在地理信息系统中,一个POI可以是一栋建筑、一个商铺、一个邮筒、一个公交站等。

夜间灯光数据:是指由搭载在遥感卫星上的可见光或近红外成像辐射仪,在夜间获取过境地球表面的灯火辐射亮度值,本发明所提及的夜间灯光数据是由我国自主发射的LJ-1号卫星系统获取的夜间灯光数据。

城市路网数据:城市路网数据使用的是OSM(Open Street Map)提供的道路路网,数据包括道路位置、道路等级、道路名称。研究使用道路类别为motorway、trunk、primary、secondary、 tertiary的道路及其连接。将3条及以上的上述等级道路相交的节点作为城市重要节点。

本发明旨在通过引入移动手机用户数据和城市POI数据、卫星夜间灯光数据,克服传统社会经济统计数据按行政单元统计带来的不足,采用随机森林算法构建基于多尺度特征变量的城市入室盗窃犯罪风险评估预测模型,通过本发明可以为城市入室盗窃犯罪防范和警力配置提供支持。

本发明提供的技术方案如下:

一种基于移动手机用户数据和POI数据的城市入室盗窃犯罪风险评估方法:采用随机森林算法构建基于多尺度特征变量的城市入室盗窃犯罪风险评估预测模型,利用该模型对入室盗窃风险进行评估预测,所述模型的构建包括如下步骤:

A.提取服务于城市入室盗窃犯罪风险评估模型的多尺度特征变量,即从手机用户数据、城市POI数据、城市路网数据和夜间灯光数据中提取特征变量,具体包括:

A1.基于手机用户数据的多尺度社会经济特征变量的提取方法为:

以手机用户数据中的各网格为中心,以多个K×K网格的移动窗口进行聚合滤波分析,将移动窗口内的均值作为中心网格在该尺度下的特征值。其中K为奇数,优选为1~11的奇数,例如分别以1×1、3×3、5×5、7×7个网格的移动窗口进行聚合滤波分析,得到能反映社会经济特征的多尺度特征变量。为了体现不同区域的年龄构成、经济状况差别、外地人口比例差别,在本发明的实施例中,不直接使用居住人口数,而是计算各个年龄段、各级富裕度、本地外地人口占居住人口的比例。共得到20种特征4个空间尺度(1×1个网格、3×3个网格、5×5个网格、7×7个网格)的80个特征变量。

A2.基于城市POI数据的多尺度密度特征提取方法为:

选择与入室盗窃相关的POI,将POI数据划归为多个类别分别提取各类别的空间密度,在本发明的一个实施例中,将POI点数据归为12个类别,包括ATM、餐饮、超市、警务设施、商店、市场、网吧、写字楼、医院、住宅区、娱乐场所、专卖店。

考虑到不同类别的POI影响范围不同,在本发明的一个实施例中提取距离网格250m、 500m、750m、1000m、1500m范围内的各类别POI的密度值。

具体实施方式

为对每个POI点生成相应距离的缓冲区,若缓冲区与网格相交则认为该POI点在网格相应距离内。最后计算得到12种POI在5种空间尺度下的共60种POI密度特征。

A3.路网可达性特征提取方法为:

城市道路连接犯罪背景空间和犯罪场所空间,同时街道的空间可达性也会影响城市土地利用方式和社会经济活动,从而对入室盗窃犯罪的时空模式产生影响。路网可达性是城市小区或路网节点相互之间居民出行或车辆行驶平均时间的倒数,一定程度上能够反映空间可达性。基于OSM城市路网提取研究区各网格的路网可达性。具体来说,首先将3条及以上重要道路相交的路口作为城市重要节点,将每种不同等级的道路参照研究区实际情况赋予不同的速度。然后基于城市路网计算每个节点到其他城市节点的最短行程时间,计算每个节点到其他节点的平均时间,并将平均时间的倒数作为该节点的路网可达性。最后利用克里金插值生成研究区网格(大小为250m)的路网可达性栅格影像。

式中,A(i)为节点i的可达性,N为节点总数,tij表示节点i到节点j的最短时长。

A4.夜间灯光特征提取方法为:

通过遥感卫星获取城市夜间灯光的影像数据,首先将较低分辨率的夜间灯光影像重采样至较高分辨率,然后计算网格内该较高分辨率的夜间灯光影像均值,以此作为网格的夜间灯光值。在本发明的一个实施例中,由我国自主发射的珞珈一号遥感卫星(LJ-1)获取夜间灯光数据,首先将130m的夜间灯光重采样至10m分辨率,之后再计算250m网格内10m分辨率的夜间灯光影像值的均值,作为1个250m网格的夜间灯光值。

B.城市入室盗窃犯罪风险评估模型的特征选择与尺度优化,具体实现方法如下:

首先分析每种特征的不同尺度对入室盗窃风险建模精度的影响,确定每种特征的最优空间尺度,具体计算方式如B1所述。之后,利用递归消除法基于OOB(Out Of Bag)误差计算特征重要性,对特征集进行筛选与优化,具体计算方式如B2所述。特征重要性(VI,Variable Importance)的计算是通过迭代训练森林中单颗树t的过程中,随机置换第i个特征,然后比较该特征被置换前后估计器的OOB误差变化,并将变量Xi被置换前后的模型精度的差值作为衡量该特征对所在估计器的重要程度,记做VIti,即特征i对随机森林中的每一颗树都有一个重要性值。对于整个模型而言,特征i的重要性VIti是森林中所有树对应的特征i重要性的平均值,计算公式如下:

式中N代表随机森林中决策树的数量,Eti表示变量Xi被替换前第t颗树的OOB误差,EPti表示将变量Xi替换后第t颗树的OOB误差。

B1.基于均方误差(MSE)为每一个入选特征确定最优空间尺度,具体实现方法如下:

为了衡量不同尺度下各种特征对建模精度的影响,分别计算每种特征被随机值替换后模型MSE的变化。具体来说,首先基于所有特征集F训练得到模型M,并计算模型的均方误差(Mean Square Errors,MSE),记为MSE{F}。之后使用一个随机值替换特征Fi的值得到新的特征集取值,基于模型M预测得到替换后的模型的MSE,记为重复多次(如H=20 次)这种替换以消去随机森林选取特征的随机性,这个过程成为置换检验,然后计算该特征的平均均方误差增量,记为IMSE(average Increase in the Mean Square Error),之后并算该特征的IMSE占所有特征IMSE之和的比例,记为归一化均方误差增量NIMSE(Normalized average Increase in the Mean Square Error)。NIMSE值为正表示该特征置换后模型精度降低, NIMSE值为负表示该特征置换后精度提高。不同尺度的同一特征选择NIMSE最大的尺度作为该特征的最优空间尺度。

式中,IMSEi代表置换第i个特征后均方误差增大的值,为置换第i个特征后模型的均方误差,MSE{F}为基于所有特征集训练得到的模型均方误差,NIMSEi为第i个特征的 IMSE占所有特征IMSE总和的比例,k代表重复第k次消去特征选择的随机性,j代表第j 个特征,N代表全部特征数,H代表置换检验的重复次数。

B2.基于特征重要性进行特征筛选,具体步骤如下:

确定各个特征的最优空间尺度后,剔除其余尺度的特征,使用二分法和递归特征消除法对最优空间尺度特征集进行筛选。具体来说:1)基于最优尺度的特征集进行模型训练后,将随机森林训练得到的变量重要性进行降序排列;2)利用二分法保留重要性在前50%的特征作为新的特征集,再次进行模型的训练并得到新的特征重要性和均方根误差(RMSE,Root Mean Square Error);3)若精度提高或不变则重复步骤2),若精度下降则将步骤2)中筛选后的特征集作为初筛后的特征集。同时,二分法进行特征筛选的过程中会将部分较为重要的特征直接剔除。因此需要在二分法初筛后,向精度最优的特征集中按照重要性高低逐个加入上次剔除的特征,选取模型误差最小的特征集作为最终的特征集。

C.随机森林模型样本集的划分按如下方式进行:

为了避免训练样本之间的空间自相关,本发明采取将城市区域的入室盗窃样本数据进行四分区域划分,其中两块区域中的网格作为训练集训练模型,一块区域中的网格作为验证集用于模型调参,剩余一块区域中的网格用作测试集测试模型精度(图2)。在样本划分时应保证测试集的网格数和居住人口数均占总体1/5以上,同时训练集中发生入室盗窃犯罪的网格比例与测试集基本相同。

D.入室盗窃犯罪风险评估模型训练方法实现如下:

在步骤B确定的最优特征集基础上,通过比较模型在验证集上的精度进行模型参数选取,确定随机森林中最重要的3个参数:决策树的个数、决策树的最大特征数、决策树的最大深度。参数决定了模型的预测精度和计算效率。通过不断改变参数,比较验证集的表现对模型进行评估得到模型最优参数,完成模型训练。

E.模型精度验证与评价方法实现如下:

随机森林的模型训练过程是基于误差最小化原则实现对训练样本的最优化拟合,在此过程中模型的泛化能力也是衡量模型好坏的重要因素。因此模型的评价和检验是整个建模过程中的一项重要工作。本研究使用决定系数(R2)和均方根误差(RMSE,Root MeanSquare Errors) 两个参数作为模型评价指标,计算公式如下:

式中,yi为第i个样本的真实值,为第i个样本的预测值,为样本真实值的平均值,n 为样本数量。

以上两个指标为对每个网格预测值准确度的综合评判,其中R2越大,RMSE越小,说明模型预测准确度越高。而犯罪风险中更加关注犯罪风险的相对高低,预测结果中高风险地区的准确性对于减少警力巡逻成本有重要意义。因此研究分别对预测结果的风险值前5%、前 10%、前20%的区域进行查准率(precision)检验,即分别将预测风险值前5%、10%、20%的区域作为正例,剩余区域作为负例,计算预测是正例的结果中确实为正例的比例,计算公式如下:

式中,Preratio代表查准率,ratio为高风险地区的比例,在本研究中分别为5%、10%和 20%,TP表示预测正确的高风险区域的网格数目,FP表示预测为高风险区域真实为非高风险区域的网格数目。

与现有技术相比,本发明的有益效果是:

本发明基于移动手机用户数据和城市POI数据,利用随机森林算法构建了城市入室盗窃犯罪风险预测评估的新方法,解决了当前犯罪风险评估模型中主要依赖按行政区划获取的社会经济统计数来提取建模特征的不足。通过更加动态更加精细的移动手机用户网格数据、POI 密度特征、夜间灯光遥感数据以及道路可达性等来提取多尺度特征,以及利用随机森林算法来优化筛选优化特征集及其空间尺度,实现不同城市区域犯罪影响因素的更加完整的表达与入室盗窃风险的精细评估预测,提高了城市犯罪风险预测模型精度与泛化能力。

附图说明

图1是某市入室盗窃案件分布及其核密度分析结果。

图2是某市人口分布情况及样本集区域划分方法示意图。

图3显示了本发明实施例中得到的不同尺度社会特征NIMSE值。

图4显示了本发明实施例中得到的不同尺度POI密度特征NIMSE值。

图5显示了本发明实施例基于节点纯度计算的各特征变量重要性比例。

图6显示了本发明实施例测试集中网格风险真实值和随机森林预测值散点图。

具体实施方式

下面以某市入室盗窃风险评估为例说明本发明的实施过程。

1.数据获取与处理

(1)入室盗窃案件

入室盗窃案件数据来源为从中国裁判文书网(http://wenshu.court.gov.cn/)获取的案件数据,时间跨度为2014年1月1日~2018年12月31日,每条记录包括案发的位置和时间信息。其中案发空间位置精确到小区建筑,时间单位精确至天,通过地理编码操作对每个案件赋予精确的地理位置,最终获得满足条件的849起案件。将案件中的小区名称利用高德API通过逆地理编码获取GCJ-02坐标系中的坐标,之后通过坐标转换将小区位置从GCJ-02坐标系转至WGS-84坐标系,其空间分布见图1。

(2)手机用户数据

获取了来自中国联通公司进行匿名化和数据清洗后的手机用户数据产品,出于隐私保护的原因,获取的数据均为250m网格中的统计数据,包括居住人口数、本地居住人口数、外地居住人口数、未知身份居住人口数、各年龄段居住人口数、居住人口的富裕指数等字段。其中,居住人口的判定规则如下:首先将用户在某市中心城区每日21:00至次日08:00在各驻留点被观测到的秒数进行月度累加,筛选停留时长最长的地点,若同时满足当月该用户在该地点累计出现10天及以上,判定该用户为该位置的居住人口。本地外地人口的判定是根据实名认证的手机用户的身份证号前4位判断其出生户籍地,出生户籍为某市的为本地人口,否则为外地人口。年龄段信息来源于实名认证的手机用户的身份证中出生日期,分为0-15岁居住人口数、16-24岁居住人口、25-34岁居住人口数、35-44岁居住人口数、45-54岁居住人口数、55-64岁居住人口数、65岁以上居住人口数以及未知,其中未知与户籍所在地未知相同,都为身份信息不明确的用户,因此仅保留户籍未知居住人口数。富裕指数根据用户上网流量、月话费、设备价格、呼入呼出数量、本地驻留数量、本地驻留次数、在外地城市出现的数量、飞机出行次数、用户常住地块房价共9类数据进行综合测算,形成反映客户消费能力的富裕指数,值越大说明富裕度越高。将富裕指数划分为8级,1、2级属于低收入,3级属于中等收入,4级属于小康,5级属于中产,6级属于富翁,7、8级属于富豪,信息缺失为未知。

(3)城市POI和路网数据

研究使用的城市数据包括POI数据和城市道路路网数据。其中,POI数据使用的2018年高德公司公开的POI数据,高德公司为中国主要的导航地图提供商,其数据较为准确。POI 数据,参考以往研究([1]Alves L,Ribeiro H V,Rodrigues F A.Crimeprediction through urban metrics and statistical learning[J].Physica A:StatalMechanics and its Applications,2017, 505:435-443.[2]Liu L,Feng J,F Ren,etal.Examining the relationship between neighborhood environment andresidential locations of juvenile and adult migrant burglars in China[J].Cities, 2018,82(DEC.):10-18.),选择了与入室盗窃相关的12类POI,包括ATM、餐饮、超市、警务设施、商店、市场、网吧、写字楼、医院、住宅区、娱乐场所、专卖店。POI数据包括各种场所、基础设施的空间位置和名称,同样将POI位置从GCJ-02坐标系转至WGS-84坐标系。

城市道路路网数据使用的是OSM(Open Street Map)提供的道路路网,数据包括道路位置、道路等级、道路名称。研究中使用的道路类别为motorway、trunk、primary、secondary、tertiary的道路及其连接(link),将3条及以上的上述等级道路相交的节点作为城市重要节点。

(4)夜间灯光遥感数据

使用的夜间灯光数据为珞珈一号(LJ-1)遥感卫星于2019年2月25日获取的影像数据,珞珈1号卫星于2018年6月12日发送,是全球首颗专业夜光遥感卫星。卫星整星为20kg,携带大视场高灵敏夜光遥感相机,具备130m分辨率、260km幅宽的夜光成像能力。夜间灯光影像能够反映城市边缘和城市经济活动,为犯罪风险分析提供一定的参考。

2.特征提取与尺度筛选结果

(1)社会经济特征提取

从手机用户数据共得到如表1所示的20种特征各自4个空间尺度(1×1个网格、3×3个网格、5×5个网格、7×7个网格)下的80个特征变量(表1)。

表1.基于手机信令数据提取的社会特征变量名称

(2)多尺度POI密度特征提取

考虑到不同类别的POI影响范围不同,研究提取了距离网格250m、500m、750m、1000m、1500m的各类别POI密度。首先对POI点生成相应距离的缓冲区,若缓冲区与网格相交则认为该POI点在网格相应距离内。计算得到表2所示的12种POI各自5种空间尺度下的共60种POI密度特征(表2)。

表2.选择的POI密度变量名称

(3)路网可达性特征提取

基于城市路网计算每个节点到其他城市节点的最短行程时间(表3),计算每个节点到其他节点的平均时间,并将平均时间的倒数作为该节点的路网可达性。最后利用克里金插值生成研究区网格大小为250m的路网可达性栅格影像。

表3.实验选择的道路类别及对应速度

(4)夜间灯光特征提取

将130m的夜间灯光重采样至10m分辨率,之后计算250m网格内所有10m分辨率的夜间灯光影像均值,将其作为网格内平均夜间灯光值。

3.样本集的划分实例

参照某市人口分布和入室盗窃犯罪点分布将研究区域划分为四块区域(图2),其中两块区域中的网格作为训练集训练模型(图2中区域2、3),一块区域中的网格作为验证集用于模型调参(图2中区域4),剩余一块区域中的网格用作为测试集测试模型精度(图2中区域 1)。去掉居住人口小于3的所有网格,最终,训练集共有5540个网格,验证集共有2398个网格,测试集共有2750个网格。测试集的网格数和居住人口数均占总体1/4左右,训练集和测试集中有犯罪发生的网格比例基本相同,约为5.5%。

4.特征筛选与最优尺度确定

利用本发明方法对研究区的特征进行提取,最终得到80个社会特征、60个POI密度特征、夜间灯光特征、路网可达性特征及类别平均犯罪数共143个特征的原始特征集(表4)。

表4.原始特征集介绍

(1)最优空间尺度

基于本发明提出的最优空间尺度选取的方法计算143个特征的NIMSE,选择每个特征 NIMSE值最大的空间尺度作为该特征的最优尺度,社会特征各尺度的NIMSE如图3所示,POI密度特征的各尺度的NIMSE如图4所示。

最终确定的各特征的最优空间尺度如表5所示,其中55-65岁居住人口比例、富裕度2 级、4级和8级的各尺度NIMSE均较低或为负,对模型精度并无提高,因此在最优空间尺度特征集中去掉。社会特征最优空间尺度多为5×5和7×7个网格的窗口大小,与一般居民区空间范围相当。POI密度特征最优尺度多为1500m,少数为1000m。

表5.各特征对应的最优空间尺度

(2)二分法特征初筛

在迭代过程中,每一次的迭代模型均可获得验证集R2和RMSE两个指标,并以此作为相应特征集的模型评价指标。然后按照特征重要性降序排列,选取前50%的特征作为下一次模型训练的新特征,直到模型精度达到最高同时特征集最精简,获得初筛最优特征集。二分法迭代过程结果如下:

表6.二分法特征初筛过程

第二次迭代过程中模型的R2达到最高,RMSE达到最低,此时特征仅有8个。然后将此次重要性在前50%的特征作为第三次迭代的随机森林模型的特征集,结果精度大幅下降,因此初筛最优特征集保留了原始特征中的8个,分别为5×5网格的35-44岁居住人口比例、7 ×7网格的本地居住人口比例、7×7网格的居住人口数、7×7网格的1级富裕度比例、路网可达性、1500米内的网吧密度、1000米内的娱乐场所密度、1000米内的住宅区密度,将这8 个特征记为特征集F1。

(3)最优特征集确定

上一步中利用二分法和递归消除法对模型的特征进行了初筛,初步剔除了对模型贡献度不大的冗余变量,但也会将一些对模型精度有一定程度贡献的特征给丢弃掉,因此需要向特征集F1中按照重要性高低逐步加入第二次迭代中丢弃的变量,并与二分法得到的最优精度进行比较,获得拥有最少特征数量最优精度的模型方案,如表7所示。

表7.最优特征集确定过程

从表7可看出特征集为F5时,验证集精度最高。此时特征数量有12个,分别为5×5网格的35-44岁居住人口比例、7×7网格的本地居住人口比例、7×7网格的居住人口数、7×7网格的1级富裕度比例、路网可达性、1500米内的网吧密度、1000米内的娱乐场所密度、1000米内的住宅区密度、1500m范围内的ATM密度、1500m范围内的医院密度、5×5网格内的非本地人口比例、7×7网格内的25-34岁人口比例。

5.入室盗窃风险评估随机森林模型结果

通过比较验证集的精度对随机森林模型进行网格搜参,最终确定三个模型参数值为:决策树个数40、最大特征数4、最大深度10。

(1)随机森林变量重要性分析

利用本发明介绍的变量重要性计算方法,计算最终12个特征的变量重要性,图5为每个特征基于节点纯度计算的变量重要性的比例。基于节点纯度计算的变量重要性中社会变量重要性占31.3%。结果表明社会特征在入室盗窃风险分析中具有重要作用。

(2)测试集精度

将训练好的模型用于测试集2750个网格得到测试集的入室盗窃风险预测值,模型在测试集的决定系数达到0.821,均方根误差RMSE为1.178,模型的拟合效果较为理想。图6展示了真实观测值与估计值之间的散点图情况,其中每个点代表空间上一个250m×250m的网格,横轴为对历史犯罪数据进行核密度分析得到的真实风险,纵轴为随机森林预测的风险值。整体上看,预测值和真实值之间相关性较高,低值和中值较为均匀的分布在1:1线附近,对于较高值存在一定程度的低估。

进一步对模型预测前5%、前10%、前20%的高风险区域进行查准率检验,从表8可看出,模型能较为有效地识别出犯罪热点区域。当将风险值从大到小排列的前10%的区域作为高风险区时,高风险区的查准率达到80.7%,能够为警务防控提供一定的实践参考意义。

表8.模型查准率计算

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:一种适应可再生能源配额指标完成的出清方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!