一种基于手机信令数据的交通出行分布阻抗函数的确定方法
技术领域
本发明属于智慧交通领域,具体是一种基于手机信令数据的交通出行分布阻抗函数的确定方法。
背景技术
交通出行分布是交通出行需求预测中的重要一步,现有交通分布预测模型主要有增长系数法、重力模型法及概率分布模型等,相对于其他分布预测模型,重力模型法综合考虑了影响小区间出行分不良的区域社会经济增长影响因素和和交通小区之间的出行如时间和距离阻抗等,是国内外交通规划中使用最广泛的交通分布预测方法。在进行重力模型交通分布预测之前,需对模型进行标定,其中重要的就是阻抗函数的选择以及标定,传统的分布阻抗基本上是参照同类城市或者小样本调查以出行时间或出行距离作为阻抗值,但是考虑模型的适用性,分布阻抗不应限于这样一个简单的值,应考虑阻抗因素的更一般规律的阻抗函数形式。
发明内容
鉴于现有技术中缺少对阻抗函数的确定方法,本发明提出一种基于手机信令数据的交通出行分布阻抗函数的确定方法,本发明的目的是针对大样本的手机信令数据获取特定时段出行OD数据,结合高德地图API获取的出行距离获取出行概率,利用SPSS中的非线性回归工具,分别选取不同形式的阻抗函数,分区域对出行距离和出行概率进行回归,然后从R方、一区域不同函数、同一函数不同区域分别进行对比分析,根据比较结果最终选择对阻抗函数进行分段拟合,以市域为例回归分析适合市域的分段阻抗函数,为提高出行分布模型预测的提供定性与定量的基础。同时,利用手机大数据的样本量大、覆盖面广以及获得方式成熟稳定且成本较低等特性,增加结果准确性的同时降低过程的成本,提高研究效率。
技术方案:
一种基于手机信令数据的交通出行分布阻抗函数的确定方法,步骤如下:
S1利用手机信令数据得到全市域早高峰时段的出行OD数据,;并在ArcGIS中获取出行起点在各个分区域的出行OD;
S2调用高德地图API,获取出行距离和出行人次数据,计算出行概率;
S3利用spss的非线性回归工具,选取阻抗函数分区域对出行距离和出行概率进行回归得到参数及拟合优度R方,比较R方,选择R方较高的函数,并计算误差平方和;
S4计算误差平方和,对同一区域不同函数进行对比分析,再对同一函数不同区域对比分析;
S5根据拟合结果按照区域出行距离分段对进行函数的分段拟合,获取最终拟合函数。
步骤S1的具体步骤如下:
S11、对获得的手机信令数据进行预处理后,基于基站停留时间和服务半径识别用户停驻点,当用户以某一基站为中心在服务半径阈值D范围内停留时长超过时间阈值T,则将该基站作为用户的停驻点,根据出行停驻点得到出行OD,提取出发时间获取早高峰的出行OD;
S12、根据S11得到的出行OD中出行起点的经纬度坐标,在ArcGIS中显示出位置,导入分区域的地图文件,并通过位置选择工具,依次选出细化区域范围内的O点,得到分区域的出行OD。
步骤S2的具体步骤如下:
S21、根据出行起点O和讫点D的坐标爬取高德导航规划路径API获取每个OD出行的出行距离数据,单位:km,并与手机信令数据中对应的OD出行人次匹配,得到市域及各个分区每个OD对应的出行距离和出行人次数据;
S22、以距离间隔1km统计每个区间内的出行人次,并计算出各个区域对应的出行概率,其中出行概率=出行人次/总出行人次。
步骤S3的具体步骤如下:
S31、选取幂函数、指数函数、复合函数、瑞利函数和一般交通阻抗函数五种函数形式对步骤S2中获取的出行距离和出行概率进行回归分析,各函数形式如下所述:
幂函数:
指数函数:
复合函数:
瑞利函数:
一般交通阻抗函数:
以上各式中:
tij:手机基站i、j之间的出行距离;α,β和γ是交通阻抗函数的参数;
S32、打开SPSS软件,导入步骤S1中得到的全市域出行距离和出行概率的数据,选择分析——>回归——>非线性回归,输入各个阻抗函数依次对数据进行拟合,得到市域及各个分区的参数回归结果;
S33、采用实际出行距离的分布曲线与回归模拟的曲线进行对比,比较拟合优度R方,选择R方较高的函数,并计算误差平方和。
步骤S4的具体步骤如下:
S41、计算S3中R方较高的三种函数的误差平方和,其中误差平方和的公式为:
式中:tij:手机基站i、j之间的出行距离;f(tij)为由相对应阻抗函数计算出来的值;为观测值的平均值,也即出行概率的平均值;
S42、在同一坐标系中绘制同一区域的实际出行距离、出行概率的分布曲线和回归拟合的曲线,分别分析每一个区域的不同函数的拟合效果;
S43、将不同区域的实际出行距离和概率的曲线在同一坐标系中表示,分析市域及各区之间出行距离的特点,然后把各区按照R方较高的三种函数的模拟结果在同一坐标系中表示,分析三种函数在不同距离范围内的模拟结果。
步骤S5的具体步骤如下:
S51、以市域范围为例按照S4的分析结果,选取距离分段,分别对每一段的出行距离和出行概率进行拟合,最终得到修正后的阻抗函数;
S52、对阻抗函数的实际值与模型之进行校核,计算均方误差。
本发明的有益效果
本发明的主要数据源是手机信令数据,其拥有样本量高、成本低、覆盖范围广的特性,且获取方式稳定成熟,它能够较为完整地记录用户活动轨迹的时空信息,是城市交通分析的优质数据源。该方法利利用手机信令数据获取早高峰出行OD数据,结合高德地图API获取的出行距离获取出行概率,利用SPSS中的非线性回归工具,分别选取不同形式的阻抗函数,分区域对出行距离和出行概率进行回归,然后从R方、一区域不同函数、同一函数不同区域分别进行对比分析,根据比较结果选择对阻抗函数进行分段拟合,得到分段阻抗函数,为提高出行分布模型预测的提供定性与定量的基础。该方法对不同城市具有普遍适用性,且准确性较高,对城市交通出行预测的精度具有重要作用。
附图说明
图1为本发明的方法流程图
图2为实施例中分析区域划分示意图
图3为实施例中出行距离与出行概率表图
图4为实施例中实际概率曲线图
图5为实施例中市域范围实际值与模型值阻抗分布曲线图
图6为实施例中中心城区范围实际值与模型值阻抗分布曲线图
图7为实施例中东部副中心范围实际值与模型值阻抗分布曲线图
图8为实施例中西部副中心范围实际值与模型值阻抗分布曲线图
图9为实施例中花桥商务城范围实际值与模型值阻抗分布曲线图
图10为实施例中实际出行距离分布图
图11为实施例中复合函数模拟出行距离分布图
图12为实施例中瑞利函数模拟出行距离分布图
图13为实施例中一般阻抗函数模拟出行距离分布图
图14为实施例中未分段阻抗函数拟合结果图
图15为实施例中分段阻抗函数拟合结果图
具体实施方式
下面结合实施例对本发明作进一步说明,但本发明的保护范围不限于此:
如图2所示,实例以昆山2019年5月某天的手机数据为样本,研究单元根据昆山市的空间结构进行分区,具体分为:城市核心区、东部副中心、西部副中心和花桥商务城。
结合图1给出的本发明的方法流程图,具体步骤为:
步骤S1利用手机信令数据得到全市域早高峰时段的出行OD数据,并在ArcGIS中获取出行起点在各个分区域的出行OD,优选的,具体为:
S11、对获得的手机信令数据进行预处理后,基于基站停留时间和服务半径识别用户停驻点,当用户以某一基站为中心在服务半径阈值D范围内停留时长超过时间阈值T,则将该基站作为用户的停驻点,根据出行停驻点得到出行OD,提取出发时间获取早高峰的出行OD。本案例中时间阈值T=40min。
S12、根据S11得到的出行起点的经纬度坐标,在ArcGIS中显示出位置,导入分区域的地图文件,并通过位置选择工具,依次选出细化区域范围内的O点,得到分区域的出行OD
步骤S2调用高德地图API,获取的出行距离获取出行概率,计算出行概率,优选的,具体为:
S21、根据出行起点O和讫点D的坐标爬取高德导航规划路径API获取每个OD出行的出行距离数据(单位:m),并与手机信令数据中对应的OD出行人次匹配,得到市域及各个分区每个OD对应的出行距离和出行人次数据。
S22、以距离间隔1km统计每个区间内的出行人次,并计算出各个区域对应的出行概率,其中出行概率=出行人次/总出行人次。图3为出行距离对应概率表。
步骤S3、利用spss的非线性回归工具,选取阻抗函数分区域对出行距离和出行概率进行回归得到参数及拟合优度R方,比较R方,选择R方较高的函数,并计算误差平方和。
优选的,具体为:
S31、选取幂函数、指数函数、复合函数、瑞利函数和一般交通阻抗函数五种函数形式对步骤S1中获取的出行距离和出行概率进行回归分析,各回归分析参数;
S32、打开SPSS软件,导入步骤S1中得到的全市域出行距离和出行概率的数据,选择分析——>回归——>非线性回归,输入各个阻抗函数依次对数据进行拟合,得到市域及各个分区的参数回归结果。参数结果如下表所示:
表1交通阻抗函数参数回归汇总(一)
表2交通阻抗函数参数回归汇总(二)
S33采用实际出行距离的分布曲线与回归模拟的曲线进行对比,比较拟合优度R方,
通过对昆山市各区采用最常用的两种交通阻抗函数回归结果可以看到,幂函数与指数函数对于昆山出行距离的拟合度很低,两者的R方都低于0.5,对比昆山市域及各区的实际出行情况统计数据可知,实际概率曲线如图4所示,出行概率随出行距离变化的函数不是简单的单调函数,而是一种先增后减的复杂函数,而幂函数与指数函数都是单调的,所以拟合度较低且不符合实际情况。因此,平时将单一的幂函数或者指数函数当做交通阻抗函数是不合理的,与实际情况不相符。而用复合函数、瑞利函数和一般阻抗函数得到的R方都比较高,函数模型的拟合度都较高,基本都满足昆山市域及各区的出行实际情况。为了进一步分析比较这三种函数的精确度,接下来结合实际情况,对三种函数的模拟数据进行对比分析,对拟合度及误差情况进行深一步的讨论。
步骤S4计算误差平方和,对同一区域不同函数进行对比分析,再对同一函数不同区域对比分析,优先的,具体为:
步骤S41、计算三种函数的误差平方和;
S42、在同一坐标系中绘制同一区域的实际出行距离、出行概率的分布曲线和回归拟合的曲线,分别分析每一个区域的不同函数的拟合效果;
采用实际出行距离的分布曲线与回归模拟的曲线进行对比,计算误差平方和,以此来校验出行分布模型的可靠性。
市域范围出行距离分布校核
市域范围实际值与模型值阻抗分布曲线见图5,市域范围各模拟函数拟合度和误差值见表3。
表3市域范围各模拟函数拟合度和误差值
复合函数
瑞利函数
一般阻抗函数
R方
0.934
0.849
0.949
误差平方和
0.023%
0.052%
0.018%
三种类型函数在SPSS回归结果中的R方分别为0.934、0.849和0.949,一般阻抗函数的拟合度最高。从标定参数计算的各种目的的平均综合阻抗值与调查平均综合阻抗误差平方和都很小,其中一般阻抗函数的误差平方和最小,由此说明,一般阻抗函数标定的参数更加精确。
各区出行距离分布校核
中心城区范围实际值与模型值阻抗分布曲线图见图6,中心城区各模拟函数拟合度和误差值见表4。
表4中心城区各模拟函数拟合度和误差值
复合函数
瑞利函数
一般阻抗函数
R方
0.923
0.837
0.939
误差平方和
0.027%
0.057%
0.021%
三种类型函数在SPSS回归结果中的R方分别为0.923、0.837和0.939,一般阻抗函数的拟合度最高。中心城区范围内的出行距离分布模拟曲线与实际曲线相比,复合函数和一般阻抗函数的误差平方和较小且相差不大,一般阻抗函数误差平方和最小,模拟结果最精确。
东部副中心出行距离分布校核
东部副中心范围实际值与模型值阻抗分布曲线见图7,东部副中心各模拟函数拟合度和误差值见表5。
表5东部副中心各模拟函数拟合度和误差值
复合函数
瑞利函数
一般阻抗函数
R方
0.934
0.846
0.950
误差平方和
0.025%
0.057%
0.019%
三种类型函数在SPSS回归结果中的R方分别为0.934、0.846和0.950,一般阻抗函数的拟合度最高。东部副中心范围内出行分布误差平方和最小的是一般阻抗函数,模拟结果最准确。
西部副中心出行距离分布校核
西部副中心范围实际值与模型值阻抗分布曲线见图8,西部副中心各模拟函数拟合度和误差值见表6。
表6西部副中心各模拟函数拟合度和误差值
复合函数
瑞利函数
一般阻抗函数
R方
0.827
0.795
0.913
误差平方和
0.035%
0.041%
0.017%
三种类型函数在SPSS回归结果中的R方分别为0.827、0.795和0.913,一般阻抗函数的拟合度最高。西部副中心范围内出行分布误差平方和最小的是一般阻抗函数,模拟结果最准确。
花桥商务城出行距离分布校核
花桥商务城范围实际值与模型值阻抗分布曲线见图9,花桥商务城各模拟函数拟合度和误差值见表7。
表7花桥商务城各模拟函数拟合度和误差值
复合函数
瑞利函数
一般阻抗函数
R方
0.932
0.864
0.950
误差平方和
0.021%
0.041%
0.015%
三种类型函数在SPSS回归结果中的R方分别为0.932、0.864和0.950,一般阻抗函数的拟合度最高。花桥商务城范围内出行分布误差平方和最小的是一般阻抗函数,模拟结果最准确。
S43、将不同区域的实际出行距离和概率的曲线在同一坐标系中表示,分析市域范围与各区之间出行距离的特点,然后把各区按照复合函数、瑞利函数和一般阻抗函数的模拟结果在同一坐标系中表示,分析三种函数在不同距离范围内的模拟结果。
实际出行距离分布对比
结合图10,市域范围与各区的出行距离大都集中在2-3km的出行范围内,但是各区出行距离在2-3km范围内的集中程度,出行距离的集中程度分别为东部副中心>市域范围>中心城区>花桥商务城>西部副中心;在大于6km以后,西部副中心的出行概率变得最大,随着出行距离的进一步增加,花桥商务城的出行概率变得最小;因为从空间形状来看,西部副中心呈长条状,基站紧凑度不高,而花桥商务城的空间形状相对较圆,紧凑度较高;在15km以后,各区出行概率都降至很低,且相差不大。
交通阻抗函数模拟结果对比
结合图11,在小于5km的出行距离范围内,复合函数可以较好的模拟出行距离分布情况,但是在出行距离大于5km以后,市域范围内和各区的出行分布曲线几乎重叠,因此不能很好地模拟出大于5km出行距离的差异与变化情况。
结合图12,从瑞利函数模拟的市域范围与各区的函数形态来看,各区的出行距离集中范围以及变化情况与实际出行距离分布情况比较接近,但是整体上模拟出来的出行概率值都低于实际出行概率的值,误差值范围在-0.02以内,因此瑞利函数的模拟结果不能很好的反映出行概率情况。
结合图13,一般阻抗函数模拟出的市域范围与各区的出行距离集中范围与变化情况与实际情况都比较接近,其模拟的出行概率值和随出行距离增加各区概率值的变化情况非常接近实际,因此一般阻抗函数可以很好地模拟市域范围与各区的出行距离分布情况。
首先,从同一种阻抗函数在不同范围内模拟结果的比较来看,一般阻抗函数比复合函数和瑞利函数的模拟结果要好,不仅可以较为精确地模拟出出行概率的值,而且对各区出行概率随出行距离变化的情况也有较好的模拟;其次,对比同一区域不同阻抗函数的模拟与实际情况来看,一般阻抗函数的R方最高,误差平方和也最小,模拟结果最为精确,其次为复合函数,最后是瑞利函数;最后,虽然三种交通阻抗函数都满足标定允许误差范围,但综合上述对比分析结果,一般阻抗函数最符合实际情况,模型参数也更加可靠。
但是所有阻抗函数普遍存在一个问题,在出行距离较大时,函数模拟值全部低于实际阻抗,因此造成远距离出行量与实际不符的问题,基于上述函数的标定,采用分段拟合的方法对一般阻抗函数进行修正。
步骤S5根据分析拟合结果以市域为例选择适合的函数并按照区域出行距离分段对进行函数的分段拟合,获取最终拟合函数,优选的,具体为:
S51、以市域范围为例按照S4的分析结果,选取距离分段,分别对每一段的出行距离和出行概率进行拟合,最终得到修正后的阻抗函数。
在阻抗函数的回归时对全市域和各个副中心分别进行了拟合,本研究目的是市域交通模型研究,所以最终统一采用市域范围内回归的阻抗函数进行计算。分区拟合结果可作为区域交通模型研究的参考。
市域范围内的一般伽马函数,在出行距离大于7km以后模拟值远低于实际值(如图14),因此考虑采用分段拟合的方法来修正出行距离大于7km以后的阻抗函数(如图15),即出行距离在0-7km时保持一般伽马函数不变,在大于7km以后,采用幂函数进行后半段函数的拟合,最终得到修正后的阻抗函数,如下:
其中dij为出行阻抗,即出行距离值。
S52、对阻抗函数的实际值与模型之进行校核,计算均方误差。
对上述阻抗函数的实际值与模拟值进行校核,发现函数拟合度很高,整体的误差平方和的平均值在0.3%。
本文中所描述的具体实施例仅仅是对本发明精神做举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。