因果关系生成方法、装置及电子设备
技术领域
本公开涉及因果推论
技术领域
,尤其涉及因果关系生成方法、装置及电子设备。背景技术
因果推断(Causal Inference)作为一种分析研究事物之间因果关系的方法越来越被广泛的应用在各领域当中,例如,在公共健康领域,可以通过因果推论研究吸烟对肺癌的因果关系,在互联网社交领域,则可以通过因果推论研究对页面进行点赞与进行页面分享的因果关系。
为了分析研究第一事件和第二事件之间的因果关系,通常可以通过设置实验组和对照组的方式,通过比对实验组和对照组在第一事件和第二事件之间的差异,判断第一事件和第二事件的因果关系。
为了快速的确定出因果关系,实验组中各实验对象通常为已发生第一事件的对象,而对照组中各对照对象为未发生第一事件的对象,通过比对实验对象和对照对象在第二事件方面的差异,可以快速的确定出第一事件和第二事件之间的因果关系,例如,为了分析对页面进行点赞(第一事件)与进行页面分享(第二事件)的因果关系,实验对象为对页面进行点赞的对象,而对照对象为未对页面进行点赞的研究对象,通过对比对页面进行点赞的对象和未对页面进行点赞的对象之间进行页面分享的差异,可以确定出对页面进行点赞是否对进行页面分享产生影响。
而为了进一步的保证因果推论结果的准确性,避免研究对象个体间差异对分析结果的影响,通常只对具有相同特征的实验对象和对照对象进行比对,然而,实际分析过程中,很难保证实验对象和对照对象具有完全相同的特征,因此,实际在进行分析的过程中往往需要对实验对象和对照对象进行匹配,使得匹配后的实验对象和对照对象为具有相同或相似特征的研究对象,最后,对匹配后的实验对象和对照对象进行分析。
相关技术中,通常采用KNN(k-NearestNeighbor,邻近算法)对实验对象和对照对象进行匹配,其首先通过对照对象的特征数据建立特征空间,当需要进行匹配时,计算实验对象与各对照对象之间的特征距离,将特征距离最小或特征距离小于一定距离的对照对象与实验对象进行匹配。
然而,使用KNN算法的过程中,实验组中每个实验对象都需要分别与对照组中每个对照对象进行一次特征计算,当实验对象和对照对象的数量较多时,因此,进行因果推断所需的时间和计算资源成本较高。
发明内容
本公开提供一种因果关系生成方法、装置及电子设备,以至少解决相关技术中进行因果推断所需的时间和计算资源成本较高的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种因果关系生成方法,包括:
获得各待分组对象的倾向概率,其中,所述各待分组对象包括第一实验对象和第一对照对象,所述第一实验对象为已发生第一事件的对象,所述第一对照对象为未发生所述第一事件的对象,每一待分组对象的倾向概率为:根据该待分组对象的特征数据预估的该待分组对象发生第二事件的概率;
按照所述各待分组对象的倾向概率,对所述各待分组对象进行划分,得到多个分组;
针对第一实验对象与第一对照对象数量不同的每一分组,调整分组中第一对照对象的数量,使得分组中第一对照对象与第一实验对象的数量相同;
根据每一分组中第二实验对象的数量和第二对照对象的数量,获得表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息,其中,所述第二实验对象为已发生所述第二事件的第一实验对象,所述第二对照对象为已发生所述第二事件的第一对照对象;
当所述差异信息表示所述第二实验对象的总数量大于所述第二对照对象的总数量时,生成表示所述第一事件对所述第二事件存在影响的因果关系。
进一步的,所述方法还包括:
当所述差异信息表示所述第二实验对象的总数量不大于所述第二对照对象的总数量时,生成表示所述第一事件对所述第二事件不存在影响的因果关系。
进一步的,所述获得各待分组对象的倾向概率的步骤,包括:
获取各待分组对象的特征数据;
基于预先建立的特征数据与表示第二事件发生概率的概率数值之间的对应关系,获取与每个待分组对象的特征数据对应的概率数值;
根据所获取的概率数值,获得每个所述待分组对象的倾向概率。
进一步的,每一待分组对象具有多种类型的特征数据;
所述根据所获取的概率数值,获得每个所述待分组对象的倾向概率的步骤,包括:
对每个所述待分组对象所具有的各类型的特征数据对应的概率数值相加,得到概率数值和,作为每个所述待分组对象的倾向概率。
进一步的,所述按照所述各待分组对象的倾向概率,对所述各待分组对象进行划分,得到多个分组的步骤,包括:
按照依据所述各待分组对象的倾向概率确定的分组顺序,将所述各待分组对象划分为待分组对象数量相同的多个分组;或者,
按照所述各待分组对象的倾向概率,将所述各待分组对象划分到对应不同概率区间的分组。
进一步的,所述针对第一实验对象与第一对照对象数量不同的每一分组,调整分组中第一对照对象的数量,使得分组中第一对照对象与第一实验对象的数量相同的步骤,包括:
按照以下方式调整第一实验对象与第一对照对象数量不同的每一分组中第一对照对象的数量:
确定分组中包含的第一实验对象的数量,作为第一数量,以及确定分组中包含的第一对照对象的数量,作为第二数量;
当所述第一数量小于所述第二数量时,计算所述第二数量与所述第一数量的第一数量差值;从分组自身包含的第一对照对象中,删除所述第一数量差值个第一对照对象;
当所述第一数量大于所述第二数量时,计算所述第一数量与所述第二数量的第二数量差值;从分组自身包含的第一对照对象中,复制所述第二数量差值个第一对照对象;将复制的第一对照对象加入到分组中。
进一步的,所述根据每一分组中第二实验对象的数量和第二对照对象的数量,获得表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息的步骤,包括:
根据每一分组中第二实验对象的数量和第二对照对象的数量,计算所有分组中第二实验对象的第一总数量和第二对照对象的第二总数量;计算所述第一总数量与所述第二总数量间的第三数量差值,作为表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息;或者,
计算所有分组中第二实验对象与所述各待分组对象的第一数量比值,以及计算所有分组中第二对照对象与所述各待分组对象的第二数量比值;计算所述第一数量比值与所述第二数量比值的比值差,作为表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息。
根据本公开实施例的第二方面,提供一种因果关系生成装置,包括:
倾向概率获得模块,被配置为执行获得各待分组对象的倾向概率,其中,所述各待分组对象包括第一实验对象和第一对照对象,所述第一实验对象为已发生第一事件的对象,所述第一对照对象为未发生所述第一事件的对象,每一待分组对象的倾向概率为:根据该待分组对象的特征数据预估的该待分组对象发生第二事件的概率;
分组模块,被配置为执行按照所述各待分组对象的倾向概率,对所述各待分组对象进行划分,得到多个分组;
数量调整模块,被配置为执行针对第一实验对象与第一对照对象数量不同的每一分组,调整分组中第一对照对象的数量,使得分组中第一对照对象与第一实验对象的数量相同;
差异信息获取模块,被配置为执行根据每一分组中第二实验对象的数量和第二对照对象的数量,获得表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息,其中,所述第二实验对象为已发生所述第二事件的第一实验对象,所述第二对照对象为已发生所述第二事件的第一对照对象;
因果关系生成模块,被配置为执行当所述差异信息表示所述第二实验对象的总数量大于所述第二对照对象的总数量时,生成表示所述第一事件对所述第二事件存在影响的因果关系。
进一步的,所述因果关系生成模块,还被配置为执行当所述差异信息表示所述第二实验对象的总数量不大于所述第二对照对象的总数量时,生成表示所述第一事件对所述第二事件不存在影响的因果关系。
进一步的,所述倾向概率获得模块,具体被配置为执行获取各待分组对象的特征数据,并且基于预先建立的特征数据与表示第二事件发生概率的概率数值之间的对应关系,获取与每个待分组对象的特征数据对应的概率数值,以及根据所获取的概率数值,获得每个所述待分组对象的倾向概率。
进一步的,每一待分组对象具有多种类型的特征数据;
所述倾向概率获得模块,具体被配置为执行对每个所述待分组对象所具有的各类型的特征数据对应的概率数值相加,得到概率数值和,作为每个所述待分组对象的倾向概率。
进一步的,所述分组模块,具体被配置为执行按照依据所述各待分组对象的倾向概率确定的分组顺序,将所述各待分组对象划分为待分组对象数量相同的多个分组;或者,按照所述各待分组对象的倾向概率,将所述各待分组对象划分到对应不同概率区间的分组。
进一步的,所述数量调整模块,具体被配置为按照以下方式执行调整第一实验对象与第一对照对象数量不同的每一分组中第一对照对象的数量:
确定分组中包含的第一实验对象的数量,作为第一数量,以及确定分组中包含的第一对照对象的数量,作为第二数量;
当所述第一数量小于所述第二数量时,计算所述第二数量与所述第一数量的第一数量差值;从分组自身包含的第一对照对象中,删除所述第一数量差值个第一对照对象;
当所述第一数量大于所述第二数量时,计算所述第一数量与所述第二数量的第二数量差值;从分组自身包含的第一对照对象中,复制所述第二数量差值个第一对照对象;将复制的第一对照对象加入到分组中。
进一步的,所述差异信息获取模块,具体被配置为执行根据每一分组中第二实验对象的数量和第二对照对象的数量,计算所有分组中第二实验对象的第一总数量和第二对照对象的第二总数量;计算所述第一总数量与所述第二总数量间的第三数量差值,作为表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息;或者,计算所有分组中第二实验对象与所述各待分组对象的第一数量比值,以及计算所有分组中第二对照对象与所述各待分组对象的第二数量比值;计算所述第一数量比值与所述第二数量比值的比值差,作为表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息。
根据本公开实施例的第三方面,提供一种因果关系生成电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现上述任一项所述的因果关系生成方法。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的因果关系生成方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,当所述计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述任一项所述的因果关系生成方法。
本公开的实施例提供的技术方案至少带来以下有益效果:获得各待分组对象的倾向概率,其中,各待分组对象包括第一实验对象和第一对照对象,第一实验对象为已发生第一事件的对象,第一对照对象为未发生第一事件的对象,每一待分组对象的倾向概率为:根据该待分组对象的特征数据预估的该待分组对象发生第二事件的概率,并且按照各待分组对象的倾向概率,对各待分组对象进行划分,得到多个分组,以及针对第一实验对象与第一对照对象数量不同的每一分组,调整分组中第一对照对象的数量,使得分组中第一对照对象与第一实验对象的数量相同,以及根据每一分组中第二实验对象的数量和第二对照对象的数量,获得表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息,其中,第二实验对象为已发生第二事件的第一实验对象,第二对照对象为已发生第二事件的第一对照对象,以及当差异信息表示第二实验对象的总数量大于第二对照对象的总数量时,生成表示第一事件对第二事件存在影响的因果关系,由于每一个待分组对象的倾向概率为根据该待分组对象的特征数据预估的该待分组对象发生第二事件的概率,并根据倾向概率将各待分组对象划分成多个分组,从而可以保证每个分组中包含的实验对象和对照对象对第二事件而言均是发生概率相同或相似的对象,从而避免了现有技术中需要将实验对象和对照对象一一比对才能确定是否是相同或相似研究对象,减少了计算过程,从而降低了进行因果推断的时间和计算资源成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种因果关系生成方法的流程图。
图2是根据一示例性实施例示出的另一种因果关系生成方法的流程图。
图3是根据一示例性实施例示出的一种倾向概率获得方法的流程图。
图4是根据一示例性实施例示出的一种因果关系生成装置的框图。
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种因果关系生成方法的流程图,如图1所示,包括以下步骤。
S101:获得各待分组对象的倾向概率。
本步骤中,各待分组对象包括第一实验对象和第一对照对象,第一实验对象为已发生第一事件的对象,第一对照对象为未发生第一事件的对象,每一待分组对象的倾向概率为:根据该待分组对象的特征数据预估的该待分组对象发生第二事件的概率。
其中,待分组对象可以为因果推论中的研究对象,可以包括第一实验对象和第一对照对象,其中,第一实验对象为满足第一预设条件的对象,第一对照对象为不满足第一预设条件的对象。
本领域技术人员所知的,因果推论通常用于分析研究两个事件之间的因果关系,例如,第一事件对第二事件的影响,如,研究吸烟对患肺癌之间的因果关系,或者用户对页面进行点赞与进行页面分享之间的因果关系。
因此,上述第一预设条件可以为发生因果推论所研究的“因”,例如,在研究第一事件是否对第二事件产生影响时,第一预设条件可以为待分组对象已发生第一事件,举例而言,当因果推论的研究的是吸烟(第一事件)对患肺癌(第二事件)的影响时,第一预设条件可以为是否吸烟,此时,第一实验对象为进行吸烟的对象,第一对照对象为不吸烟的对象,当因果推论的研究的是用户对页面进行点赞对进行页面分享的影响时,第一预设条件可以为是否进行点赞,此时,第一实验对象为进行点赞的对象,第一对照对象为未进行点赞的对象。
在一个示例实施例中,待分组对象可以为任意类型的事物,例如人、动物或建筑物等,需要说明的是,上述关于待分组对象的说明只是为了便于更清晰的解释本公开,本领域的技术人员可知的,对于应用上述方法的机器而言,待分组对象均是抽象后的数据、符号等。
上述特征数据可以为表示待分组对象特征的数据,例如,当待分组对象为人时,特征数据可以为年龄、性别、学历、收入、每周的运动时长、每日睡眠时间等数据。在不同的因果推断中,相同研究对象的特征数据可以为不同的。例如,当研究吸烟对肺癌的影响时,待分组对象为人,特征数据可以为年龄、性别、或每周的运动时长等数据等,当研究的用户的对页面进行点赞对进行页面分享的影响时,特征数据可以为年龄、性别、或用户浏览偏好与当前浏览界面内容的匹配度等数据。
S102:按照各待分组对象的倾向概率,对各待分组对象进行划分,得到多个分组。
本步骤中,可以通过如下两种方式对各待分组对象进行划分,得到多个分组。
第一种方式:按照依据各待分组对象的倾向概率确定的分组顺序,将各待分组对象划分为待分组对象数量相同的多个分组。
示例性的,待分组对象的数量为2000,则可以按照倾向概率的小到大的顺序,每100个待分组对象换分为一个分组。
第二种方式:按照各待分组对象的倾向概率,将各待分组对象划分到对应不同概率区间的分组。
由于待分组对象的倾向概率为预估的该待分组对象发生第二事件的概率,因此,其取值范围为[0,1]。
示例性的,可以划分10个取值区间,分别为[0,0.1)、[0.1,0.2)、[0.2,0.3)、[0.3,0.4)、[0.4,0.5)、[0.5,0.6)、[0.6,0.7)、[0.7,0.8)、[0.8,0.9)、[0.9,1]。在确定出各待分组对象的倾向概率后,可以将倾向概率在0-0.1之间的待分组对象确定为同一组的分组,同理可以将其按照倾向概率的不同划分进不同的组别。
通过本步骤,可以将倾向概率相同或相似的待分组对象划分进同一分组,使得同一分组中的各待分组对象的倾向概率相同或相似,其意味着,同一分组中包含的实验对象和对照对象的特征对研究结果的影响的大小相同或相似。
S103:针对第一实验对象与第一对照对象数量不同的每一分组,调整分组中第一对照对象的数量,使得分组中第一对照对象与第一实验对象的数量相同。
本步骤中,为了避免第一实验对象和第一对照对象进行之间匹配覆盖率较低的问题,保证因果推断结果的公平性,因此需要使得相同或相似特征的第一实验对象和第一对照对象的数量相同,而一个分组中第一实验对象与第一对照对象数量相同和不同两种情况,对于相同的情况,可以不做处理,对于不同的情况,需要使得分组中第一对照对象与第一实验对象的数量相同。
在一个实施例中,可以按照以下方式调整第一实验对象与第一对照对象数量不同的每一分组中第一对照对象的数量:
首先,确定分组中包含的第一实验对象的数量,作为第一数量,以及确定分组中包含的第一对照对象的数量,作为第二数量,当第一数量小于第二数量时,计算第二数量与第一数量的第一数量差值;从分组自身包含的第一对照对象中,删除第一数量差值个第一对照对象,当第一数量大于第二数量时,计算第一数量与第二数量的第二数量差值;从分组自身包含的第一对照对象中,复制第二数量差值个第一对照对象;将复制的第一对照对象加入到分组中。
示例性的,分组中包含的第一对照对象的数量为15,第一实验对象的数量为20,为了使得第一实验对象和第一对照对象的数量相同,可以在分组包含的15个第一对照对象中随机选择5个第一对照对象,复制其对应的数据后,加入该分组,使得分组中第一对照对象的数量为20个,与第一实验对象的数量一致。
S104:根据每一分组中第二实验对象的数量和第二对照对象的数量,获得表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息。
本步骤中,第二实验对象为已发生第二事件的第一实验对象,第二对照对象为已发生第二事件的第一对照对象。
在一个实施例中,可以根据每一分组中第二实验对象的数量和第二对照对象的数量,计算所有分组中第二实验对象的第一总数量和第二对照对象的第二总数量,并且计算第一总数量与第二总数量间的第三数量差值,作为表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息。
示例性的,分组A中第二实验对象的数量为10、第二对照对象的数量为5,分组B中第二实验对象的数量为20、第二对照对象的数量为10,分组C中第二实验对象的数量为30、第二对照对象的数量为5,则所有分组中第二实验对象的第一总数量为60,第二对照对象的第二总数量为20,第一总数量与第二总数量间的第三数量差值为40,因此表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息第二实验对象的总数量比第二对照对象的总数量多40。
在一个实施例中,还可以计算所有分组中第二实验对象与各待分组对象的第一数量比值,以及计算所有分组中第二对照对象与各待分组对象的第二数量比值;计算第一数量比值与第二数量比值的比值差,作为表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息。
示例性的,各待分组对象的数量为200,所有分组中第二实验对象的数量为100,所有分组中第二对照对象的数量为20,则所有分组中第二实验对象与各待分组对象的第一数量比值=100/200=0.5,所有分组中第二对照对象与各待分组对象的第二数量比值=50/200=0.25。第一数量比值与第二数量比值的比值差=0.5-0.25=0.25。则表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息为第二实验对象的总数量的占比比第二实验对象的总数量的占比多25%。
S105:当差异信息表示第二实验对象的总数量大于第二对照对象的总数量时,生成表示第一事件对第二事件存在影响的因果关系。
本步骤中,当差异信息表示第二实验对象的总数量大于第二对照对象的总数量时,可以生成表示第一事件对第二事件存在影响的因果关系,可选的,当第一总数量大于第二总数量,或第一数量比大于第二数量比时。
进一步的,为了确保生成的因果关系的准确性,可以设置阈值,仅当第一总数量与第二总数量的差值大于该阈值,或第一数量比与第二数量比的差值大于该阈值时,生成表示第一事件对第二事件存在影响的因果关系。
本公开的实施例提供的上述因果关系生成方法,可以获得各待分组对象的倾向概率,其中,各待分组对象包括第一实验对象和第一对照对象,第一实验对象为已发生第一事件的对象,第一对照对象为未发生第一事件的对象,每一待分组对象的倾向概率为:根据该待分组对象的特征数据预估的该待分组对象发生第二事件的概率,并且按照各待分组对象的倾向概率,对各待分组对象进行划分,得到多个分组,以及针对第一实验对象与第一对照对象数量不同的每一分组,调整分组中第一对照对象的数量,使得分组中第一对照对象与第一实验对象的数量相同,以及根据每一分组中第二实验对象的数量和第二对照对象的数量,获得表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息,其中,第二实验对象为已发生第二事件的第一实验对象,第二对照对象为已发生第二事件的第一对照对象,以及当差异信息表示第二实验对象的总数量大于第二对照对象的总数量时,生成表示第一事件对第二事件存在影响的因果关系,由于每一个待分组对象的倾向概率为根据该待分组对象的特征数据预估的该待分组对象发生第二事件的概率,并根据倾向概率将各待分组对象划分成多个分组,从而可以保证每个分组中包含的实验对象和对照对象对第二事件而言均是发生概率相同或相似的对象,从而避免了现有技术中需要将实验对象和对照对象一一比对才能确定是否是相同或相似研究对象,减少了计算过程,从而降低了进行因果推断的时间和计算资源成本。
如图2所示,在本发明另一个实施例中,在如图1示出的一种因果关系生成方法的基础上,在步骤S104之后,还可以包括以下步骤:
S106:当差异信息表示第二实验对象的总数量不大于第二对照对象的总数量时,生成表示第一事件对第二事件不存在影响的因果关系。
本步骤中,当差异信息表示第二实验对象的总数量不大于第二对照对象的总数量时,说明在特征相同或相似不同对象中是否发生第二事件与是否发生第一时间无关,即第一事件对第二事件不存在影响。
在一个实施例中,步骤S101具体可以通过如图3所示的倾向概率获得方法实现,包括步骤:
S301:获取各待分组对象的特征数据。
本步骤中,各待分组对象的特征数可以为预先收集的,可选的,可以从预先建立的特征数据库中读取各待分组对象的特征数据。
S302:基于预先建立的特征数据与表示第二事件发生概率的概率数值之间的对应关系,获取与每个待分组对象的特征数据对应的概率数值。
本步骤中,由前述内容可知,待分组对象在各方面的特征可能对影响第二事件的发生,例如,当研究吸烟对肺癌的影响时,待分组对象的年龄、每周的运动时长、或每日睡眠时长均可能对待分组对象是否患有肺癌存在影响,通常来说,年龄越大、每周的运动时长越短、或每日睡眠时长越短的待分组对象越容易患有肺癌。
因此,可以预先设置待分组对象的特征数据与表示第二事件发生概率的概率数值之间的对应关系,举例而言,当研究吸烟对肺癌的影响时,第二事件为患有有肺癌,特征数据为对象的年龄大小,预先建立有对应关系:年龄20岁对应患有肺癌概率为0.01%、年龄40岁对应患有肺癌概率为0.02%、年龄60岁对应患有肺癌概率为0.03%、年龄80岁对应患有肺癌概率为0.05%,从而,当待分组对象的特征数据为年龄40岁,则其对应的概率数值为0.02%。
在一个示例实施例中,预先设置待分组对象的特征数据与表示第二事件发生概率的概率数值之间的对应关系可以是根据大数据统计得到的,也可以是根据现有的研究成果获经验确定的。
S303:根据所获取的概率数值,获得每个待分组对象的倾向概率。
本步骤中,在确定概率数值之后,可以确定预估的待分组对象的发生第二事件的概率,进而可以根据所获取的概率数值,获得每个待分组对象的倾向概率。
在一个示例实施例中,每一待分组对象具有多种类型的特征数据,例如,年龄、性别等。上述确定该待分组对象的倾向概率可以对每个待分组对象所具有的各类型的特征数据对应的概率数值相加,得到概率数值和,作为每个待分组对象的倾向概率。
可选的,每种类型的特征数据还可以设置有权重,例如,相比于性别,年龄的影响更大,则年龄的权重高于性别的权重,例如存在待分组对象,其特征数据包括:年龄20岁、性别:男,其对应的概率数值分别为0.01%和0.05%,其对应的群组分别为0.2和0.1,则该进行加权求和,得到待分组对象的倾向概率=0.01%×0.2+0.05%×0.1=0.007%。
在一个示例实施例中,上述步骤S302和S303可以通过预先建立的XGBOOST(Extreme Gradient Boosting,极端梯度提升)模型来确定,此时可以将各待分组对象的特征数据输入至该XGBOOST模型,从而得到各待分组对象的倾向概率。其中,XGBOOST模型可以在保证模型训练效率的情况下,提升输出结果的准确度。
图4是根据一示例性实施例示出的一种因果关系生成装置框图。参照图3,该装置包括倾向概率获得模块401,分组模块402、数量调整模块403、差异信息获取模块404和因果关系生成模块405。
倾向概率获得模块401,被配置为执行获得各待分组对象的倾向概率,其中,各待分组对象包括第一实验对象和第一对照对象,第一实验对象为已发生第一事件的对象,第一对照对象为未发生第一事件的对象,每一待分组对象的倾向概率为:根据该待分组对象的特征数据预估的该待分组对象发生第二事件的概率;
分组模块402,被配置为执行按照各待分组对象的倾向概率,对各待分组对象进行划分,得到多个分组;
数量调整模块403,被配置为执行针对第一实验对象与第一对照对象数量不同的每一分组,调整分组中第一对照对象的数量,使得分组中第一对照对象与第一实验对象的数量相同;
差异信息获取模块404,被配置为执行根据每一分组中第二实验对象的数量和第二对照对象的数量,获得表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息,其中,第二实验对象为已发生第二事件的第一实验对象,第二对照对象为已发生第二事件的第一对照对象;
因果关系生成模块405,被配置为执行当差异信息表示第二实验对象的总数量大于第二对照对象的总数量时,生成表示第一事件对第二事件存在影响的因果关系。
进一步的,因果关系生成模块405,还被配置为执行当差异信息表示第二实验对象的总数量不大于第二对照对象的总数量时,生成表示第一事件对第二事件不存在影响的因果关系。
进一步的,倾向概率获得模块401,具体被配置为执行获取各待分组对象的特征数据,并且基于预先建立的特征数据与表示第二事件发生概率的概率数值之间的对应关系,获取与每个待分组对象的特征数据对应的概率数值,以及根据所获取的概率数值,获得每个待分组对象的倾向概率。
进一步的,每一待分组对象具有多种类型的特征数据;
倾向概率获得模块401,具体被配置为执行对每个待分组对象所具有的各类型的特征数据对应的概率数值相加,得到概率数值和,作为每个待分组对象的倾向概率。
进一步的,分组模块402,具体被配置为执行按照依据各待分组对象的倾向概率确定的分组顺序,将各待分组对象划分为待分组对象数量相同的多个分组;或者,按照各待分组对象的倾向概率,将各待分组对象划分到对应不同概率区间的分组。
进一步的,数量调整模块403,具体被配置为按照以下方式执行调整第一实验对象与第一对照对象数量不同的每一分组中第一对照对象的数量:
确定分组中包含的第一实验对象的数量,作为第一数量,以及确定分组中包含的第一对照对象的数量,作为第二数量;
当第一数量小于第二数量时,计算第二数量与第一数量的第一数量差值;从分组自身包含的第一对照对象中,删除第一数量差值个第一对照对象;
当第一数量大于第二数量时,计算第一数量与第二数量的第二数量差值;从分组自身包含的第一对照对象中,复制第二数量差值个第一对照对象;将复制的第一对照对象加入到分组中。
进一步的,差异信息获取模块404,具体被配置为执行根据每一分组中第二实验对象的数量和第二对照对象的数量,计算所有分组中第二实验对象的第一总数量和第二对照对象的第二总数量;计算第一总数量与第二总数量间的第三数量差值,作为表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息;或者,计算所有分组中第二实验对象与各待分组对象的第一数量比值,以及计算所有分组中第二对照对象与各待分组对象的第二数量比值;计算第一数量比值与第二数量比值的比值差,作为表示所有分组中第二实验对象的总数量与第二对照对象的总数量之间差异的差异信息。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种用于因果关系生成的电子设备500的框图。例如,电子设备500可以被提供为一服务器。参照图5,装置500包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理组件522的执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述因果关系生成方法。
装置500还可以包括一个电源组件526被配置为执行装置500的电源管理,一个有线或无线网络接口550被配置为将装置500连接到网络,和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似操作系统。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。