一种基于地理相关性的连续数据优化方法及系统
技术领域
本发明涉及一种基于地理相关性的连续数据优化方法及系统,属于人工智能
技术领域
。背景技术
在信息时代,随着社交平台的发展,数据提供者越来越多,他们提供的数据也多种多样。然而,由于数据提供者的信息权威性难以辨认,故只从单个数据源获得真相并不可靠。故为获得更加准确的结果,通常需要聚合多个数据提供者的数据,获得真相。
然而,现有多渠道信息聚合的方法对于一些领域的应用存在缺陷。若采用传统的真相聚合方式,不考虑目标对象的地理相关性,则当对于一个目标对象,只能采集到少量数据时,则不能达到多渠道聚合的目的,则最终聚合的结果也会不准确。
此外,若只考虑数据的连续性,当数据的变化速率非常大时,只考虑沿用目标对象的前一时刻的聚合值作为当前时刻的真相,显而易见不能获得准确的结果。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种基于地理相关性的连续数据优化方法及系统。
为解决上述技术问题,本发明提供一种基于地理相关性的连续数据优化方法,包括:
利用数据提供者提供的包含某个目标对象的历史数据和该目标对象的已知真相数据确定数据提供者的初始化权重;
获取的当前时刻提供者提供的数据,根据当前时刻提供者提供的数据中的该目标对象和其他目标对象之间实时的地理距离,计算当前时刻该目标对象与其他目标对象之间的相关度;
根据预先获得的该目标对象上一时刻的聚合值(因为这是一个用来处理连续数据的系统,数据不断到来,这个系统是一直运行的,所以这一轮的聚合真相会成为下一轮的“上一时刻聚合值”,初始时刻的聚合值可以直接采集获得)以及当前时刻与该目标对象有相关性的其他目标对象的聚合结果,计算获得当前时刻的该目标对象的聚合真相;
根据当前时刻提供者提供的数据、到当前时刻累积提供的数据次数以及当前时刻的该目标对象的聚合真相,计算可信度,根据可信度更新数据提供者的权重。
进一步的,所述利用数据提供者提供的某个目标对象的历史数据和该目标对象的已知真相数据确定数据提供者的初始化权重的过程包括:
获取每个数据提供者s提供的某个目标对象的历史数据集Ns;
根据历史数据集Ns计算每个数据提供者s提供的数据与该目标对象的已知真相数据Vi之间的差值i∈Ns;根据差值计算数据提供者s出现错误的累计平方和
其中,|Ns|为数据提供者s提供数据的次数;
计算数据提供者s出现错误的置信区间上限
其中,为自由度为|Ns|的χ2分布的上α/2分位点;
计算数据提供者s的初始权重ws:
进一步的,所述相关度的计算公式为:
其中,ρ是控制相似度随着距离的增加而减少的速度的定参数,oi是需要获得真相的目标对象,oi′是当前时刻提供者提供的数据中的其他某个目标对象,dt(i,i′)是两个目标对象oi和oi′间地理位置距离。
进一步的,所述根据预先该目标对象上一时刻的聚合值以及当前时刻与该目标对象有相关性的其他目标对象的聚合结果,计算获得当前时刻的该目标对象的聚合真相的过程包括:
获取数据提供者s提供的实时数据集oi∈Ot,并且更新截止t时刻,数据提供者s提供数据的次数|Ns,t|,表示每个数据提供者s对于需要获得真相的目标对象oi提供的实时数据;
根据数据提供者s的初始权重ws,每个数据提供者s对于需要获得真相的目标对象oi提供的实时数据上一时刻目标对象oi的聚合真相当前时刻需要获得真相的目标对象oi和其他目标对象oi′间的相关度St(oi,oi′),以及目标对象目标对象oi′的聚合真相计算需要获得真相的目标对象oi的聚合真相
其中,α为控制目标对象的数据连续性质对结果的影响程度的定参数,β为控制目标对象间相关性对结果的影响程度的定参数。
进一步的,所述根据当前时刻提供者提供的数据、到当前时刻累积提供的数据次数以及当前时刻的该目标对象的聚合真相,计算可信度,根据可信度更新数据提供者的权重的过程包括:
计算数据提供者s累计的误差平方和
其中,T表示系统向数据提供者收集数据的时间间隔,n表示系统采集数据的次数,nT表示当前时刻,N*表示正整数;
计算实时置信区间上限
其中,为自由度为|Ns,t|的χ2分布的上α/2分位点;
计算最终的可信度ws,t,并根据最终的可信度ws,t替换初始权重ws,
一种基于地理相关性的连续数据优化系统,包括:
确定模块,用于利用数据提供者提供的包含某个目标对象的历史数据和该目标对象的已知真相数据确定数据提供者的初始化权重;
第一计算模块,用于获取的当前时刻提供者提供的数据,根据当前时刻提供者提供的数据中的该目标对象和其他目标对象之间实时的地理距离,计算当前时刻该目标对象与其他目标对象之间的相关度;
第二计算模块,用于根据预先获得的该目标对象上一时刻的聚合值以及当前时刻与该目标对象有相关性的其他目标对象的聚合结果,计算获得当前时刻的该目标对象的聚合真相;
第三计算模块,用于根据当前时刻提供者提供的数据、到当前时刻累积提供的数据次数以及当前时刻的该目标对象的聚合真相,计算可信度,根据可信度更新数据提供者的权重。
进一步的,所述确定模块包括:
第一获取模块,用于获取每个数据提供者s提供的某个目标对象的历史数据集Ns;
第四计算模块,用于
根据历史数据集Ns计算每个数据提供者s提供的数据与该目标对象的已知真相数据Vi之间的差值i∈Ns;根据差值计算数据提供者s出现错误的累计平方和
其中,|Ns|为数据提供者s提供数据的次数;
计算数据提供者s出现错误的置信区间上限
其中,为自由度为|Ns|的χ2分布的上α/2分位点;
计算数据提供者s的初始权重ws:
进一步的,所述第一计算模块包括相关度计算模块,用于利用下式计算相关度,
其中,ρ是控制相似度随着距离的增加而减少的速度的定参数,oi是需要获得真相的目标对象,oi′是当前时刻提供者提供的数据中的其他某个目标对象,dt(i,i′)是两个目标对象oi和oi′间地理位置距离。
进一步的,所述第二计算模块包括:
第二获取模块,
用于获取数据提供者s提供的实时数据集oi∈Ot,并且更新截止t时刻,数据提供者s提供数据的次数|Ns,t|,表示每个数据提供者s对于需要获得真相的目标对象oi提供的实时数据;
聚合真相计算模块,
用于根据数据提供者s的初始权重ws,每个数据提供者s对于需要获得真相的目标对象oi提供的实时数据上一时刻目标对象oi的聚合真相当前时刻需要获得真相的目标对象oi和其他目标对象oi′间的相关度St(oi,oi′),以及目标对象目标对象oi′的聚合真相计算需要获得真相的目标对象oi的聚合真相
其中,α为控制目标对象的数据连续性质对结果的影响程度的定参数,β为控制目标对象间相关性对结果的影响程度的定参数。
进一步的,所述第三计算模块,用于
计算数据提供者s累计的误差平方和
其中,T表示系统向数据提供者收集数据的时间间隔,n表示系统采集数据的次数,nT表示当前时刻,N*表示正整数;
计算实时置信区间上限
其中,为自由度为|Ns,t|的χ2分布的上α/2分位点;
计算最终的可信度ws,t,并根据最终的可信度ws,t替换初始权重ws,
本发明所达到的有益效果:
本发明采用基于地理相关性的连续数据优化方法,有效地解决了当目标对象未采集到足够的数据时不能获得准确聚合真相的问题。一方面,利用数据连续的特点,将目标对象上一时刻的聚合结果作为一个虚拟源;另一方面,利用目标对象的地理位置的相关性,将与目标对象具有相关性的对象的当前时刻聚合值作为虚拟源集合。这样营造虚拟源集合,很大程度上丰富了采集数据,当从数据提供者处未能获得足够的数据以获得准确真相时,也能够获得较为准确的结果。
本发明对于数据提供者提供的数据不足的情况,能够大大提高结果的准确,符合真相聚合的要求。
附图说明
图1是本发明的优化方法的流程示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,本发明提供一种基于地理相关性的连续数据优化方法,包括:
步骤1:训练阶段,包括累积方差和计算、误差置信区间上限计算以及获得数据提供者的初始权重三个子步骤。
步骤1-1:设每个数据提供者s提供的数据集Ns。系统计算每个数据提供者s提供的数据与真相Vi之间的差值,即数据提供者的误差并获得数据提供者s出现错误的累计平方和
其中,|Ns|为数据提供者s提供数据的次数。
步骤1-2:根据数据提供者s提供数据的次数|Ns|,以及数据提供者累积的误差平方和,获得该数据提供者s出现错误的置信区间上限:
其中,为自由度为|Ns|的χ2分布的上α/2分位点。
步骤1-3:根据数据提供者s提供数据的次数|Ns|,以及数据提供者s出现错误的置信区间上限获得该数据提供者的初始权重:
步骤2:目标对象间相关性测量。系统中需要获得真相的目标对象集Ot(oi、oi′∈Ot,i≠i′),根据目标对象oi和oi′间地理位置距离dt(i,i′),获得在当前时刻t对象oi和oi′间的相关度St(oi,oi′):
其中,ρ是控制相似度随着距离的增加而减少的速度的定参数。
步骤3:真相聚合阶段,包含数据采集、目标对象集的聚合真相集两个子步骤。
步骤3-1:数据采集。每隔一定的时间间隔T,系统向数据提供者征集数据。而在t时刻,系统就需要获得真相的目标对象集Ot中的目标对象oi(oi∈Ot),分别向数据提供者集S中的数据提供者采集数据。故在t时刻,系统得到数据提供者s提供的实时数据集(oi∈Ot),并且更新截止t时刻,数据提供者s提供数据的次数|Ns,t|
步骤3-2:聚合获得真相,结合数据提供者集S中所有数据提供者s当前的可信度ws,每个数据提供者s对于目标对象oi(oi∈Ot)提供的实时数据上一时刻目标对象的聚合真相当前时刻目标对象oi和oi′间的相关度St(oi,oi′),以及目标对象oi′的聚合真相获得目标对象oi的聚合真相
其中,α为控制目标对象的数据连续性质对结果的影响程度的定参数,β为控制目标对象间相关性对结果的影响程度的定参数。
步骤4:更新权重,包含计算累积误差平方和、获得误差的置信度区间上限、计算并更新权重三个子步骤。
步骤4-1:计算在t时刻,对于目标对象oi,数据提供者s所提供的实时数据与聚合结果之间的实时误差并且更新截止到t时刻,数据提供者s累计的误差平方和
其中,T表示系统向数据提供者收集数据的时间间隔,n表示系统采集数据的次数,nT表示当前时刻。
步骤4-2:依据数据提供者s累计提供数据的次数|Ns,t|,和数据提供者的累计的误差平方和获得置信度为(1-α)的数据提供者s提供数据的实时误差的方差的实时置信区间上限
其中,T表示系统向数据提供者收集数据的时间间隔,n表示系统采集数据的次数,nT表示当前时刻。
步骤4-3:获得可信度ws,t,并更新每个数据提供者的可信度ws。
相应的本发明还提供一种基于地理相关性的连续数据优化系统,包括:
确定模块,用于利用数据提供者提供的包含某个目标对象的历史数据和该目标对象的已知真相数据确定数据提供者的初始化权重;
第一计算模块,用于获取的当前时刻提供者提供的数据,根据当前时刻提供者提供的数据中的该目标对象和其他目标对象之间实时的地理距离,计算当前时刻该目标对象与其他目标对象之间的相关度;
第二计算模块,用于根据预先获得的该目标对象上一时刻的聚合值以及当前时刻与该目标对象有相关性的其他目标对象的聚合结果,计算获得当前时刻的该目标对象的聚合真相;
第三计算模块,用于根据当前时刻提供者提供的数据、到当前时刻累积提供的数据次数以及当前时刻的该目标对象的聚合真相,计算可信度,根据可信度更新数据提供者的权重。
进一步的,所述确定模块包括:
第一获取模块,用于获取每个数据提供者s提供的某个目标对象的历史数据集Ns;
第四计算模块,用于
根据历史数据集Ns计算每个数据提供者s提供的数据与该目标对象的已知真相数据Vi之间的差值i∈Ns;根据差值计算数据提供者s出现错误的累计平方和
其中,|Ns|为数据提供者s提供数据的次数;
计算数据提供者s出现错误的置信区间上限
其中,为自由度为|Ns|的χ2分布的上α/2分位点;
计算数据提供者s的初始权重ws:
进一步的,所述第一计算模块包括相关度计算模块,用于利用下式计算相关度,
其中,ρ是控制相似度随着距离的增加而减少的速度的定参数,oi是需要获得真相的目标对象,oi′是当前时刻提供者提供的数据中的其他某个目标对象,dt(i,i′)是两个目标对象oi和oi′间地理位置距离。
进一步的,所述第二计算模块包括:
第二获取模块,
用于获取数据提供者s提供的实时数据集oi∈Ot,并且更新截止t时刻,数据提供者s提供数据的次数|Ns,t|,表示每个数据提供者s对于需要获得真相的目标对象oi提供的实时数据;
聚合真相计算模块,
用于根据数据提供者s的初始权重ws,每个数据提供者s对于需要获得真相的目标对象oi提供的实时数据上一时刻目标对象oi的聚合真相当前时刻需要获得真相的目标对象oi和其他目标对象oi′间的相关度St(oi,oi′),以及目标对象目标对象oi′的聚合真相计算需要获得真相的目标对象oi的聚合真相
其中,α为控制目标对象的数据连续性质对结果的影响程度的定参数,β为控制目标对象间相关性对结果的影响程度的定参数。
进一步的,所述第三计算模块,用于
计算数据提供者s累计的误差平方和
其中,T表示系统向数据提供者收集数据的时间间隔,n表示系统采集数据的次数,nT表示当前时刻,N*表示正整数;
计算实时置信区间上限
其中,为自由度为|Ns,t|的χ2分布的上α/2分位点;
计算最终的可信度ws,t,并根据最终的可信度ws,t替换初始权重ws,
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。