身份识别方法及装置
技术领域
本申请涉及信息处理
技术领域
,特别涉及一种身份识别方法及装置。背景技术
随着信息技术的发展,生物特征识别技术逐渐应用于刑侦、支付、考勤等诸多领域。生物特征识别技术是指利用目标的生理特征或行为特征进行身份识别的技术。
目前,在利用生物特征识别技术进行身份识别时,通常是先用特征提取模型提取目标的生物特征,之后,将该目标的生物特征分别与样本库中的多个样本生物特征进行相似度度量,得到多个相似度,其中,样本库中还存有每个样本生物特征对应的身份信息。进而,确定与目标的生物特征之间相似度最高的样本生物特征,将该样本生物特征对应的身份信息确定为该目标的身份信息。
然而,上述实现方式中仅单纯确定两个生物特征之间的相似度,确定方式比较单一,容易导致确定出的样本生物特征可能与目标生物特征并非是最相似的,如此,导致目标的身份识别结果不准确。
发明内容
本申请提供了一种身份识别方法及装置,可以解决相关技术的身份识别问题。所述技术方案如下:
一方面,提供了一种身份识别方法,所述方法包括:
获取样本库中的样本的样本分布信息,所述样本分布信息用于指示样本的样本生物特征在样本生物特征空间中的疏密分布状态,所述样本库包括样本的第一身份信息和所述样本生物特征空间;
基于待识别的目标的目标生物特征、所述样本的样本分布信息和样本生物特征,确定所述目标与所述样本库中的样本的第一相似度;
基于所述目标与所述样本库中的样本的第一相似度,确定所述目标的第二身份信息。
在本申请一种可能的实现方式中,所述样本库中包括多个样本,所述获取样本库中的样本的样本分布信息,包括:
对所述多个样本的样本生物特征进行聚类,得到多个聚类簇,每个聚类簇中的各个样本生物特征之间的第二相似度的差值小于相似度阈值;
基于每个聚类簇中的样本生物特征,确定每个聚类簇对应的样本生物特征均值和协方差矩阵;
基于每个聚类簇对应的样本生物特征均值和协方差矩阵、以及所述多个样本的样本生物特征,确定所述多个样本的样本分布信息。
在本申请一种可能的实现方式中,所述基于每个聚类簇对应的样本生物特征均值和协方差矩阵、以及所述多个样本的样本生物特征,确定所述多个样本的样本分布信息,包括:
对于所述多个样本中的第一样本,基于所述第一样本的样本生物特征、所述第一样本所属的聚类簇对应的样本生物特征均值和协方差矩阵,确定所述第一样本的第一概率密度值,所述第一样本为所述多个样本中的任一样本;
将所述第一样本的第一概率密度值确定为所述第一样本的样本分布信息。
在本申请一种可能的实现方式中,所述基于待识别的目标的目标生物特征、所述样本的样本分布信息和样本生物特征,确定所述目标与所述样本库中的样本的第一相似度,包括:
基于每个聚类簇对应的样本生物特征均值和协方差矩阵,确定每个聚类簇对应的第二概率密度值;
对于所述多个样本中的第一样本,将所述第一样本的样本分布信息与所述第一样本所属的聚类簇对应的第二概率密度值相除,得到所述第一样本的调校系数,所述第一样本为所述多个样本中的任一样本;
基于所述目标生物特征、以及所述第一样本的调校系数和样本生物特征,确定所述目标与所述第一样本的第一相似度。
在本申请一种可能的实现方式中,所述基于所述目标生物特征、以及所述第一样本的调校系数和样本生物特征,确定所述目标与所述第一样本的第一相似度,包括:
将所述目标生物特征与所述第一样本的样本生物特征进行相似度度量,得到所述第一样本对应的第二相似度;
基于所述第一样本的调校系数,对所述第一样本对应的第二相似度进行调整,得到所述目标与所述第一样本的第一相似度。
在本申请一种可能的实现方式中,所述基于所述第一样本的调校系数,对所述第一样本对应的第二相似度进行调整,包括如下方式中的任一种:
将所述第一样本的调校系数与所述第一样本对应的第二相似度做线性操作;或者,
将所述第一样本的调校系数与所述第一样本对应的第二相似度做非线性操作;或者,
将所述第一样本的调校系数与所述第一样本对应的第二相似度做线性操作和非线性操作。
在本申请一种可能的实现方式中,所述基于所述目标生物特征、以及所述第一样本的调校系数和样本生物特征,确定所述目标与所述第一样本的第一相似度,包括:
基于所述第一样本的调校系数,对所述第一样本的样本生物特征进行调整;
将所述目标生物特征与所述第一样本的调整后的样本生物特征进行相似度度量,得到所述目标与所述第一样本的第一相似度。
另一方面,提供了一种身份识别装置,所述装置包括:
获取模块,用于获取样本库中的样本的样本分布信息,所述样本分布信息用于指示样本的样本生物特征在样本生物特征空间中的疏密分布状态,所述样本库包括样本的第一身份信息和所述样本生物特征空间;
相似度确定模块,用于基于待识别的目标的目标生物特征、所述样本的样本分布信息和样本生物特征,确定所述目标与所述样本库中的样本的第一相似度;
身份确定模块,用于基于所述目标与所述样本库中的样本的第一相似度,确定所述目标的第二身份信息。
在本申请一种可能的实现方式中,所述样本库中包括多个样本,所述获取模块用于:
对所述多个样本的样本生物特征进行聚类,得到多个聚类簇,每个聚类簇中的各个样本生物特征之间的第二相似度的差值小于相似度阈值;
基于每个聚类簇中的样本生物特征,确定每个聚类簇对应的样本生物特征均值和协方差矩阵;
基于每个聚类簇对应的样本生物特征均值和协方差矩阵、以及所述多个样本的样本生物特征,确定所述多个样本的样本分布信息。
在本申请一种可能的实现方式中,所述获取模块用于:
对于所述多个样本中的第一样本,基于所述第一样本的样本生物特征、所述第一样本所属的聚类簇对应的样本生物特征均值和协方差矩阵,确定所述第一样本的第一概率密度值,所述第一样本为所述多个样本中的任一样本;
将所述第一样本的第一概率密度值确定为所述第一样本的样本分布信息。
在本申请一种可能的实现方式中,所述相似度确定模块用于:
基于每个聚类簇对应的样本生物特征均值和协方差矩阵,确定每个聚类簇对应的第二概率密度值;
对于所述多个样本中的第一样本,将所述第一样本的样本分布信息与所述第一样本所属的聚类簇对应的第二概率密度值相除,得到所述第一样本的调校系数,所述第一样本为所述多个样本中的任一样本;
基于所述目标生物特征、以及所述第一样本的调校系数和样本生物特征,确定所述目标与所述第一样本的第一相似度。
在本申请一种可能的实现方式中,所述相似度确定模块用于:
将所述目标生物特征与所述第一样本的样本生物特征进行相似度度量,得到所述第一样本对应的第二相似度;
基于所述第一样本的调校系数,对所述第一样本对应的第二相似度进行调整,得到所述目标与所述第一样本的第一相似度。
在本申请一种可能的实现方式中,所述相似度确定模块用于:
将所述第一样本的调校系数与所述第一样本对应的第二相似度做线性操作;或者,
将所述第一样本的调校系数与所述第一样本对应的第二相似度做非线性操作;或者,
将所述第一样本的调校系数与所述第一样本对应的第二相似度做线性操作和非线性操作。
在本申请一种可能的实现方式中,所述相似度确定模块用于:
基于所述第一样本的调校系数,对所述第一样本的样本生物特征进行调整;
将所述目标生物特征与所述第一样本的调整后的样本生物特征进行相似度度量,得到所述目标与所述第一样本的第一相似度。
另一方面,提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为实现上述一方面所述的身份识别方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述一方面所述的身份识别方法。
另一方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述一方面所述的身份识别方法。
本申请提供的技术方案至少可以带来以下有益效果:
获取样本库中的样本的样本分布信息,也就是确定样本的样本生物特征在样本生物特征空间中的疏密分布状态。其中,样本库包括样本的第一身份信息和样本生物特征空间。可以基于待识别的目标的目标生物特征、样本的样本分布信息和样本生物特征确定第一相似度,也就是不仅仅是根据目标生物特征和样本生物特征确定第一相似度,而是还考虑到了样本生物特征的疏密分布状态对第一相似度的影响,如此确定出的目标与样本的第一相似度,可以更加准确地表示目标与样本之间的相似程度,进而基于该第一相似度确定的目标的第二身份信息的准确度更高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种身份识别方法的流程图;
图2是本申请实施例提供的一种聚类簇的示意图;
图3是本申请实施例提供的另一种聚类簇的示意图;
图4是本申请实施例提供的一种身份识别方法的示意图;
图5是本申请实施例提供的一种身份识别装置的结构示意图;
图6是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在对本申请实施例提供的身份识别方法进行详细的解释说明之前,先对本申请实施例涉及的执行主体进行介绍。
本申请实施例提供的身份识别方法可以由电子设备来执行,该电子设备具备数据处理能力。作为一种示例,该电子设备可以为PC(Personal Computer,个人计算机)、手机、智能手机、PDA(Personal Digital Assistant,个人数字助手)、可穿戴设备、PPC(PocketPC,掌上电脑)、平板电脑、智能车机、智能电视、智能音箱等,本申请实施例对此不做限定。
在介绍完本申请实施例涉及的执行主体后,接下来将结合附图对本申请实施例提供的身份识别方法进行详细介绍。
图1是本申请实施例提供的一种身份识别方法的流程图,该方法可以应用于上述电子设备中。请参考图1,该方法包括如下步骤。
步骤101:获取样本库中的样本的样本分布信息,样本分布信息用于指示样本的样本生物特征在样本生物特征空间中的疏密分布状态,样本库包括样本的第一身份信息和样本生物特征空间。
其中,样本为具有生物特性的生物。通常,生物特性可以包括生理特性和行为特性。示例性地,生理特性包括指纹特性、虹膜特性、脸型特性、手形特性、手部血管分布特性、视网膜特性和掌纹特性等等,行为特征包括步态特性、声纹特性、击键特性和笔迹特性等等。在本实施例中,样本可以为人类。当然,在其他实施例中,样本还可以为其他动物、植物等生物。
其中,样本生物特征指的是与样本的生物特性相关的特征。通常,生物特征可以包括生理特征和行为特征。示例性地,生物特征可以包括指纹特征、虹膜特征、脸型特征、手形特征、手部血管分布特征、视网膜特征和掌纹特征等等,行为特征包括步态特征、声纹特征、击键特征和笔迹特征等等。
通常,样本生物特征具有唯一性,也就是不同的样本对应的样本生物特征往往是不同的,而且,样本生物特征具有稳定性,也就是一个样本对应的样本生物特征往往是保持不变的。如此,可以基于样本生物特征进行身份识别。
作为一种示例,可以通过特征识别模型确定样本的样本生物特征。也就是,可以将传感器采集的与样本相关的样本生物数据输入至特征识别模型中,特征识别模型对输入的样本生物数据进行处理,输出样本生物特征。特征识别模型可以为卷积神经网络模型、递归神经网络模型等,本实施例对此不做限定。
其中,特征识别模型可以通过训练得到。譬如,可以预先选择多个训练样本,每个训练样本对应着不同的训练样本生物特征,确定多个训练样本对应的实际的训练样本生物特征,将多个训练样本输入至待训练的网络模型中,该待训练的网络模型基于初始模型参数对多个训练样本进行分析处理,输出对于训练样本生物特征的识别结果,将该输出的训练样本生物特征与实际的训练样本生物特征进行对比,若输出的训练样本生物特征的识别结果错误时,调整初始模型参数,直至输入大量的训练样本,如1000个时,其中训练样本生物特征识别结果正确率较高时,譬如当正确率大于等于95%时,可以认为该待训练的网络模型已经训练结束,可以将此时得到的训练结束的网络模型确定为特征识别模型。
通常情况下,特征识别模型的特征提取能力对身份识别的准确度有一定的影响。示例性的,如果特征识别模型的特征提取能力较强,即该特征识别模型的抗干扰能力较强,则该特征识别模型根据输入的样本生物数据识别出的样本生物特征的准确性较高,如此,身份识别的准确度也相应较高。如果特征识别模型的特征提取能力较弱,即该特征识别模型的抗干扰能力较弱,则该特征识别模型根据输入的样本生物数据识别出的样本生物特征的准确性较低,如此,身份识别的准确度也相应较低。因此,在本实施例中,可以使用抗干扰能力较强的特征识别模型确定样本的样本生物特征,以提高身份识别结果的准确度。
其中,样本库中通常包括多个样本,该多个样本可以用于执行身份识别任务。通常,不同的身份识别任务对应有不同的样本库,示例性地,若身份识别任务为罪犯身份识别,那么样本库为犯罪记录样本库,该犯罪记录样本库中包括的多个样本都具有犯罪记录。若身份识别任务为会员识别,那么样本库为会员样本库,该会员样本库中包括的多个样本都属于会员。需要说明的是,样本库可以为本地样本库、云端样本库以及用户上传的样本库等等,本实施例对此不做限定。
其中,第一身份信息指的是可以用于指示样本的身份的信息。示例性地,第一身份信息可以为样本的身份证号、样本的驾驶证号和样本的护照号等等,本实施例对此不做限定。
其中,样本生物特征空间指的是样本库中多个样本的样本生物特征的集合。
作为一种示例,样本库除了包括样本的第一身份信息和样本生物特征空间之外,还可以包括样本的样本生物数据。样本生物数据指的是传感器采集的用于确定样本的第一身份信息的数据。示例性地,样本生物数据可以为指纹图像、虹膜图像、脸型图像、手型图像、步态视频以及语音等,本实施例对此不做限定。
其中,样本分布信息为可以指示样本的样本生物特征在样本生物特征空间中的分布状态为密集还是稀疏的信息。示例性地,该样本分布信息可以通过直方图统计、哈希统计、聚类、倒排索引索引号统计、高斯混合模型参数估计、基于属性的统计等方式确定。
通常情况下,身份识别任务对应的样本库中样本的分布情况会对身份识别的准确度产生影响。示例性地,当身份识别任务为女装店会员识别时,该身份识别任务对应的样本库为女装店会员样本库,一般来说,女装店会员样本库中女性样本的数量往往较多,因此,该女装店会员样本库中存在相似的女性样本的可能性越大,相应的身份识别的准确度越低。反之,由于女装店会员样本库中男性样本的数量往往较少,因此,该女装店会员样本库中存在相似的男性样本的可能性越小,相应的身份识别的准确度越高。
也即是,如果样本的样本生物特征在样本生物特征空间中的分布状态较为密集,也就是与该样本生物特征相似度较高的样本生物特征较多,如此对于该样本生物特征的识别难度会较高,相应的根据该样本生物特征确定的身份识别结果的准确度较低。反之,如果样本的样本生物特征在样本生物特征空间中的分布状态较为稀疏,也就是与该样本生物特征相似度较高的样本生物特征较少,如此对于该样本生物特征的识别难度会较低,相应的根据该样本生物特征确定的身份识别结果的准确度较高。因此,为了提高身份识别结果的准确度,在本实施例中可以获取样本库中的样本的分布信息。
作为一种示例,样本库中包括多个样本,获取样本库中的样本的样本分布信息的实现方式可以包括如下几个子步骤:
1、对多个样本的样本生物特征进行聚类,得到多个聚类簇,每个聚类簇中的各个样本生物特征之间的第二相似度的差值小于相似度阈值。
其中,聚类指的是将样本生物特征空间中的样本生物特征分为多类的过程。通过聚类可以得到多个聚类簇,每个聚类簇可以包括多个样本的样本生物特征。可以理解的是,一个聚类簇为一类相似的样本生物特征的集合,对于一个样本生物特征而言,该样本生物特征与该样本生物特征所属的聚类簇中的其他样本生物特征之间的相似度较高,该样本生物特征与其他聚类簇中的样本生物特征之间的相似度较低。
示例性地,可以通过K-MEANS聚类算法、均值偏移聚类算法、DBSCAN聚类算法、层次聚类算法等算法对样本生物特征空间中的样本生物特征进行聚类。
其中,第二相似度指的样本库中任意两个样本生物特征之间的相似度。该相似度可以通过余弦相似度、欧式距离、汉明距离等方法计算得到。
其中,相似度阈值可以根据实际情况进行设置。当多个样本生物特征之间的第二相似度的差值小于相似度阈值时,说明该多个样本生物特征彼此之间的相似度都较高,也就说明该多个样本生物特征属于同一聚类簇。当多个样本生物特征之间的第二相似度的差值大于等于相似度阈值时,说明该多个样本生物特征彼此之间的相似度都较低,也就说明该多个样本生物特征不属于同一聚类簇。
譬如,如图2所示,ABCD为样本库中的四个样本的样本生物特征,由于在样本生物特征空间中,ABD之间的第二相似度的差值小于相似度阈值,说明ABD属于同一聚类簇,C与ABD之间的第二相似度的差值大于等于相似度阈值,说明C属于一个聚类簇。
也就是,可以通过聚类的方法将样本生物特征空间中的样本生物特征分为多类,即得到多个聚类簇,每个聚类簇中的多个样本生物特征彼此之间的相似度都较高。
譬如,如图3所示,样本库中包括八个样本,分别为f1、f2、f3、f4、f5、f6、f7、f8,可以通过K-MEANS聚类算法对该八个样本进行聚类,得到两个聚类簇,分别为聚类簇C1和聚类簇C2。其中,聚类簇C1包括六个样本,分别为f1、f2、f3、f4、f5、f6,聚类簇C2包括两个样本,分别为f7、f8。
2、基于每个聚类簇中的样本生物特征,确定每个聚类簇对应的样本生物特征均值和协方差矩阵。
通常情况下,不同的聚类簇可以对应有不同的样本生物特征均值,以及可以对应有不同的协方差矩阵。
也就是,可以确定一个聚类簇中包括的多个样本生物特征,进而根据该多个样本生物特征,确定该聚类簇对应的样本生物特征均值和协方差矩阵。
示例性地,可以通过样本生物特征向量表示样本生物特征,进而可以确定一个聚类簇中包括的多个样本生物特征对应的多个样本生物特征向量,对该多个样本生物特征向量做均值处理,得到一个样本生物特征均值向量,如此,可以用该样本生物均值向量表示样本生物特征均值。
3、基于每个聚类簇对应的样本生物特征均值和协方差矩阵、以及多个样本的样本生物特征,确定多个样本的样本分布信息。
也就是,对于样本库中的任一个样本,可以确定该样本的样本生物特征、该样本所属的聚类簇对应的样本生物特征均值和协方差矩阵,进而,可以基于确定的样本生物特征、样本生物特征均值和协方差矩阵确定该样本的样本分布信息,即确定该样本的样本生物特征在样本生物特征空间中的疏密分布状态。
作为一种示例,基于每个聚类簇对应的样本生物特征均值和协方差矩阵、以及多个样本的样本生物特征,确定多个样本的样本分布信息的实现方式可以为:对于多个样本中的第一样本,基于第一样本的样本生物特征、第一样本所属的聚类簇对应的样本生物特征均值和协方差矩阵,确定第一样本的第一概率密度值,第一样本为多个样本中的任一样本。将第一样本的第一概率密度值确定为第一样本的样本分布信息。
其中,第一概率密度值可以用于指示第一样本的样本生物特征在样本生物特征空间中的疏密分布状态。第一概率密度值越大,说明第一样本的样本生物特征在样本生物特征空间中的分布状态越密集,第一概率密度值越小,说明第一样本的样本生物特征在样本生物特征空间中的分布状态越稀疏。
也就是,对于样本库中的任一个样本,可以确定该样本的样本生物特征、该样本所属的聚类簇对应的样本生物特征均值和协方差矩阵,进而,可以基于确定的样本生物特征、样本生物特征均值和协方差矩阵确定该样本的样本分布信息,即确定该样本的样本生物特征在样本生物特征空间中的疏密分布状态。
示例性的,设聚类簇中样本生物特征的分布为高斯分布,则可以通过公式(1)确定聚类簇中第一样本的第一概率密度值:
其中,x指的是第一样本的样本生物特征,μ指的是聚类簇对应的样本生物特征均值,Σ指的是聚类簇对应的协方差矩阵,n指的是用于表示样本生物特征的样本生物特征向量的维数,T指的是转置运算。
通常情况下,第一样本的样本生物特征与样本生物特征均值之间的距离越小,第一样本的第一概率密度值越大,也就说明第一样本的样本生物特征在样本生物特征空间中的分布状态越密集。第一样本的样本生物特征与样本生物特征均值之间的距离越大,第一样本的第一概率密度值越小,也就说明第一样本的样本生物特征在样本生物特征空间中的分布状态越稀疏。
譬如,如图3所示,三角形标识用于指示聚类簇C1对应的样本生物特征均值,聚类簇C1中,样本1的样本生物特征与聚类簇C1对应的样本生物特征均值之间的距离最小,则样本1的第一概率密度值最大,样本1的样本生物特征在样本生物特征空间中的分布状态最密集。
需要说明的是,样本库中的样本的样本分布信息可以在需要执行身份识别任务时确定;或者,也可以是预先确定好后存储下来,在该种情况下,在需要执行身份识别任务时,可以直接获取所存储的样本的样本分布信息,并执行后续步骤。
步骤102:基于待识别的目标的目标生物特征、样本的样本分布信息和样本生物特征,确定目标与样本库中的样本的第一相似度。
其中,待识别的目标为具有生物特性的目标。在本实施例中,待识别的目标可以为人类。当然,在其他实施例中,待识别的目标还可以为其他动物、植物等生物。
其中,待识别的目标的目标生物特征可以通过特征识别模型确定,也就是可以将传感器采集的与待识别的目标相关的目标生物数据输入至特征识别模型中,特征识别模型对输入的目标生物数据进行处理,输出目标生物特征。特征识别模型可以为卷积神经网络模型、递归神经网络模型等,本实施例对此不做限定。
其中,第一相似度指的是目标与样本库中的样本之间的相似度。该第一相似度可以通过余弦相似度、欧式距离、汉明距离等方法计算得到。通常情况下,可以根据第一相似度的大小判断目标与样本之间的相似程度,譬如,当第一相似度为通过余弦相似度计算得到时,当目标与样本之间的第一相似度接近于1时,可以说明目标与该样本之间的相似程度越高,当目标与样本之间的第一相似度接近于-1时,可以说明目标与该样本之间的相似程度越低。
也就是,可以确定待识别的目标的目标生物特征,样本库中每个样本的样本分布信息和样本库中每个样本的样本生物特征,进而,可以基于确定的目标生物特征、样本分布信息和样本生物特征,确定待识别的目标与样本库中每个样本之间的第一相似度,如此,可以得到多个第一相似度。
当然,也可以在样本库中选择一个子样本库,子样本库中样本的数量小于样本库中样本的数量。进而,可以基于待识别的目标的目标生物特征、样本的样本分布信息和样本生物特征,确定目标与子样本库中样本的第一相似度。由于子样本库中样本的数量较小,如此,可以减少确定第一相似度的计算量。示例性的,在样本库中确定子样本库的方式可以为倒排索引、哈希表等,本实施例对此不做限定。
作为一种示例,基于待识别的目标的目标生物特征、样本的样本分布信息和样本生物特征,确定目标与样本库中的样本的第一相似度的实现方式可以包括如下几个子步骤:
1、基于每个聚类簇对应的样本生物特征均值和协方差矩阵,确定每个聚类簇对应的第二概率密度值。
其中,第二概率密度值指的是聚类簇的聚类中心的概率密度值,也就是聚类簇对应的样本生物特征均值的概率密度值。通常情况下,不同的聚类簇可以对应有不同的第二概率密度值。
也就是,可以确定一个聚类簇对应的样本生物特征均值和协方差矩阵,进而根据确定的样本生物特征均值和协方差矩阵,确定该聚类簇的聚类中心的概率密度值,即确定该聚类簇对应的第二概率密度值。需要说明的是,一个聚类簇对应的第二概率密度值是大于该聚类簇中第一样本的第一概率密度值的。
示例性的,设聚类簇中样本生物特征的分布为高斯分布,则可以通过公式(2)确定聚类簇对应的第二概率密度值:
其中,μ指的是聚类簇对应的样本生物特征均值,Σ指的是聚类簇对应的协方差矩阵,n指的是用于表示样本生物特征的样本生物特征向量的维数,T指的是转置运算。
2、对于多个样本中的第一样本,将第一样本的样本分布信息与第一样本所属的聚类簇对应的第二概率密度值相除,得到第一样本的调校系数,第一样本为多个样本中的任一样本。
其中,调校系数指的是可以用于对第一样本的相似度进行调整的系数。通常,不同的第一样本对应的调校系数可以是不同的。
示例性的,可以通过公式(3)确定第一样本的调校系数:
adj_val(x;μ,Σ)=p(x;μ,Σ)/p(μ;μ,Σ) (3)
其中,x指的是第一样本的样本生物特征,μ指的是聚类簇对应的样本生物特征均值,Σ指的是聚类簇对应的协方差矩阵,p(x;μ,Σ)指的是第一样本的样本分布信息,也就是第一概率密度值,p(μ;μ,Σ)指的是该第一样本所属的聚类簇对应的第二概率密度值,adj_val(x;μ,Σ)指的是调校系数。
由于一个聚类簇对应的第二概率密度值是大于该聚类簇中第一样本的第一概率密度值的,因此,通过公式(3)计算得到的调校系数为0到1之间的一个数值。当调校系数越大时,说明该第一样本的第一概率密度值越大,也就说明该第一样本的样本生物特征在样本生物特征空间中的分布状态越密集,当调校系数越小时,说明该第一样本的第一概率密度值越小,也就说明该第一样本的样本生物特征在样本生物特征空间中的分布状态越稀疏。
示例性地,可以根据公式(3),计算聚类簇C1中六个样本对应的调校系数分别为adj_val(f1;μc1,Σc1)、adj_val(f2;μc1,Σc1)、adj_val(f3;μc1,Σc1)、adj_val(f4;μc1,Σc1)、adj_val(f5;μc1,Σc1)、adj_val(f6;μc1,Σc1)。计算聚类簇C2中两个样本对应的调校系数分别为adj_val(f7;μc2,Σc2)、adj_val(f8;μc2,Σc2)。
其中,由于f1~f6属于聚类簇C1,所以计算调校系数的过程中使用的样本生物特征均值为聚类簇C1对应的样本生物特征均值,使用的协方差矩阵为聚类簇C1对应的协方差矩阵。由于f7和f8属于聚类簇C2,所以计算调校系数的过程中使用的样本生物特征均值为聚类簇C2对应的样本生物特征均值,使用的协方差矩阵为聚类簇C2对应的协方差矩阵。
3、基于目标生物特征、以及第一样本的调校系数和样本生物特征,确定目标与第一样本的第一相似度。
在一种可能的实现方式中,如图4所示,电子设备中包括相似度调校模块,该相似度调校模块可以在确定第一样本的调校系数的情况下,根据目标生物特征、第一样本的调校系数和第一样本的样本生物特征,调整目标与第一样本之间的相似度,得到第一相似度。
作为一种示例,基于目标生物特征、以及第一样本的调校系数和样本生物特征,确定目标与第一样本的第一相似度可以包括如下两种可能的实现方式:
第一种实现方式:将目标生物特征与第一样本的样本生物特征进行相似度度量,得到第一样本对应的第二相似度。基于第一样本的调校系数,对第一样本对应的第二相似度进行调整,得到目标与第一样本的第一相似度。
在一种可能的实现方式中,如图4所示,电子设备中包括相似度度量模块,该相似度度量模块可以确定目标生物特征与第一样本的样本生物特征之间的第二相似度,也就是未经调校的相似度。进而,相似度调校模块可以根据第一样本的调教系数,也就是,可以根据第一样本的疏密分布状态对第二相似度进行调整,如此得到的第一相似度可以更加准确地表示目标与第一样本之间的相似程度。
其中,基于第一样本的调校系数,对第一样本对应的第二相似度进行调整的实现方式可以包括如下方式中的任一种:将第一样本的调校系数与第一样本对应的第二相似度做线性操作。或者,将第一样本的调校系数与第一样本对应的第二相似度做非线性操作。或者,将第一样本的调校系数与第一样本对应的第二相似度做线性操作和非线性操作。
其中,线性操作指的是基于线性变换进行的操作。示例性地,线性操作可以包括加性操作、乘性操作等。加性操作包括加法操作和减法操作。乘性操作包括乘法操作、除法操作。
其中,非线性操作指的是基于非线性变换进行的操作。非线性变换包括S形Sigmoid函数变换、双曲正切Tanh函数变换、取整、数值截断等等,本实施例对此不做限定。
也就是,可以对第一样本的调校系数以及第一样本的第二相似度做线性操作,从而得到调整后的第二相似度。也可以对第一样本的调校系数以及第一样本的第二相似度做非线性操作,从而得到调整后的第二相似度。还可以既对第一样本的调校系数以及第一样本的第二相似度做线性操作,又做非线性操作,从而得到调整后的第二相似度。
需要说明的是,由上述分析可知,调校系数越大,样本的样本生物特征在样本生物特征空间中的分布状态越密集,相应的根据该样本生物特征确定的身份识别的准确度较低,如此,可以将该样本生物特征与目标生物特征之间的第一相似度降低。调校系数越小,样本的样本生物特征在样本生物特征空间中的分布状态越稀疏,相应的根据该样本生物特征确定的身份识别的准确度较高,如此,可以将该样本生物特征与目标生物特征之间的第一相似度提高。
示例性的,可以通过公式(4)对第二相似度进行调整:
其中,x指的是第一样本的样本生物特征,μ指的是聚类簇对应的样本生物特征均值,Σ指的是聚类簇对应的协方差矩阵,adj_val(x;μ,Σ)指的是第一样本的调校系数,ori_sim(t,x)指的是第二相似度,adj_sim(t,x;μ,Σ)指的是第一相似度。
譬如,如图3所示,样本6的第二相似度为0.81,样本7的第二相似度为0.8,样本6的调校系数为0.8,样本7的调校系数为0.6,根据可以确定样本6的第一相似度为0.75,根据可以确定样本7的第一相似度为0.78。
第二种实现方式:基于第一样本的调校系数,对第一样本的样本生物特征进行调整。将目标生物特征与第一样本的调整后的样本生物特征进行相似度度量,得到目标与第一样本的第一相似度。
其中,对第一样本的样本生物特征进行调整实际上指的是对用于表示第一样本的样本生物特征的样本生物特征向量进行调整。
也就是,可以直接基于第一样本的调校系数,即可以根据第一样本的疏密分布状态对第一样本的样本生物特征进行调整,得到调整后的样本生物特征,如此,通过对目标生物特征和调整后的样本生物特征进行相似度度量得到的第一相似度,可以更加准确地表示目标与第一样本之间的相似程度。
作为一种示例,可以通过修改第一样本的样本生物特征向量中每一维度的数据,实现对第一样本的样本生物特征的调整。譬如,可以对样本生物特征向量中每一维度的数据与调校系数做线性操作,得到调整后的样本生物特征。也可以对样本生物特征向量中每一维度的数据与调校系数做非线性操作,得到调整后的样本生物特征。还可以对样本生物特征向量中每一维度的数据与调校系数做线性操作和非线性操作,得到调整后的样本生物特征。
通常情况下,当将第一样本的样本生物特征向量中每一维度的数据调整变大时,该第一样本与目标之间的第一相似度会相应变大,当将第一样本的样本生物特征向量中每一维度的数据调整变小时,该第一样本与目标之间的第一相似度会相应变小。
作为另一种示例,可以通过调整样本生物特征向量中的维度的数量,实现对第一样本的样本生物特征的调整。譬如,可以在第一样本的样本生物特征向量中增加一个维度,该增加的一个维度中的数据可以用于指示相似度调整值。
由于样本生物特征可以根据第一样本的疏密分布状态的不同而进行相应的调整,因此,调整后的第一样本的样本生物特征与目标生物特征之间的第一相似度可以更加准确地表示目标与第一样本之间的相似程度。
需要说明的是,本实施例仅以根据上述方法进行相似度调整为例进行说明,可以理解的是,在其他实施例中,还可以通过多次曲线调整、线性方程、非线性方程校正等方式进行相似度调整。
步骤103:基于目标与样本库中的样本的第一相似度,确定目标的第二身份信息。
当目标与样本库中的样本的第一相似度越高时,说明目标的第二身份信息为该样本的第一身份信息的可能性越大,当目标与样本库中的样本的第一相似度越低时,说明目标的第二身份信息为该样本的第一身份信息的可能性越小。
在一种可能的实现方式中,如图4所示,电子设备中包括身份识别模块,该身份识别模块可以基于目标与样本的第一相似度,确定目标的第二身份信息。
作为一种示例,可以对目标与样本库中样本的第一相似度进行排序,确定最大的第一相似度,将该最大的第一相似度对应的样本的第一身份信息确定为目标的第二身份信息。
譬如,对第一相似度进行排序的结果为0.9、0.8、0.75,则可以确定第一相似度为0.9的样本的第一身份信息为目标的第二身份信息。
作为另一种示例,可以设置指定相似度阈值,当第一相似度大于该指定相似度阈值时,确定该第一相似度对应的样本的第一身份信息,将该第一身份信息确定为目标的第二身份信息。
譬如,可以设置阈值为0.8,若第一相似度为0.9,则可以确定该第一相似度对应的样本的第一身份信息为目标的第二身份信息。
作为另一种示例,可以设置指定相似度阈值,并对目标与样本库中样本的第一相似度进行排序,确定最大的第一相似度,对该最大的第一相似度与指定相似度阈值进行比对,若该最大的第一相似度大于指定相似度阈值,则确定该最大的第一相似度对应的样本的第一身份信息,将该第一身份信息确定为目标的第二身份信息。
譬如,可以设置阈值为0.8,对第一相似度进行排序的结果为0.9、0.8、0.75,由于最大的第一相似度为0.9大于0.8,则可以确定第一相似度为0.9的样本的第一身份信息为目标的第二身份信息。
在本申请实施例中,获取样本库中的样本的样本分布信息,也就是确定样本的样本生物特征在样本生物特征空间中的疏密分布状态。其中,样本库包括样本的第一身份信息和样本生物特征空间。可以基于待识别的目标的目标生物特征、样本的样本分布信息和样本生物特征确定第一相似度,也就是不仅仅是根据目标生物特征和样本生物特征确定第一相似度,而是还考虑到了样本生物特征的疏密分布状态对第一相似度的影响,如此确定出的目标与样本的第一相似度,可以更加准确地表示目标与样本之间的相似程度,进而基于该第一相似度确定的目标的第二身份信息的准确度更高。
图5是根据一示例性实施例示出的一种身份识别装置的结构示意图,该身份识别装置可以由软件、硬件或者两者的结合实现。该身份识别装置可以包括:
获取模块510,用于获取样本库中的样本的样本分布信息,样本分布信息用于指示样本的样本生物特征在样本生物特征空间中的疏密分布状态,样本库包括样本的第一身份信息和样本生物特征空间;
相似度确定模块520,用于基于待识别的目标的目标生物特征、样本的样本分布信息和样本生物特征,确定目标与样本库中的样本的第一相似度;
身份确定模块530,用于基于目标与样本库中的样本的第一相似度,确定目标的第二身份信息。
在本申请一种可能的实现方式中,样本库中包括多个样本,获取模块510用于:
对多个样本的样本生物特征进行聚类,得到多个聚类簇,每个聚类簇中的各个样本生物特征之间的第二相似度的差值小于相似度阈值;
基于每个聚类簇中的样本生物特征,确定每个聚类簇对应的样本生物特征均值和协方差矩阵;
基于每个聚类簇对应的样本生物特征均值和协方差矩阵、以及多个样本的样本生物特征,确定多个样本的样本分布信息。
在本申请一种可能的实现方式中,获取模块510用于:
对于多个样本中的第一样本,基于第一样本的样本生物特征、第一样本所属的聚类簇对应的样本生物特征均值和协方差矩阵,确定第一样本的第一概率密度值,第一样本为多个样本中的任一样本;
将第一样本的第一概率密度值确定为第一样本的样本分布信息。
在本申请一种可能的实现方式中,相似度确定模块520用于:
基于每个聚类簇对应的样本生物特征均值和协方差矩阵,确定每个聚类簇对应的第二概率密度值;
对于多个样本中的第一样本,将第一样本的样本分布信息与第一样本所属的聚类簇对应的第二概率密度值相除,得到第一样本的调校系数,第一样本为多个样本中的任一样本;
基于目标生物特征、以及第一样本的调校系数和样本生物特征,确定目标与第一样本的第一相似度。
在本申请一种可能的实现方式中,相似度确定模块520用于:
将目标生物特征与第一样本的样本生物特征进行相似度度量,得到第一样本对应的第二相似度;
基于第一样本的调校系数,对第一样本对应的第二相似度进行调整,得到目标与第一样本的第一相似度。
在本申请一种可能的实现方式中,相似度确定模块520用于:
将第一样本的调校系数与第一样本对应的第二相似度做线性操作;或者,
将第一样本的调校系数与第一样本对应的第二相似度做非线性操作;或者,
将第一样本的调校系数与第一样本对应的第二相似度做线性操作和非线性操作。
在本申请一种可能的实现方式中,相似度确定模块520用于:
基于第一样本的调校系数,对第一样本的样本生物特征进行调整;
将目标生物特征与第一样本的调整后的样本生物特征进行相似度度量,得到目标与第一样本的第一相似度。
在本申请实施例中,获取样本库中的样本的样本分布信息,也就是确定样本的样本生物特征在样本生物特征空间中的疏密分布状态。其中,样本库包括样本的第一身份信息和样本生物特征空间。可以基于待识别的目标的目标生物特征、样本的样本分布信息和样本生物特征确定第一相似度,也就是不仅仅是根据目标生物特征和样本生物特征确定第一相似度,而是还考虑到了样本生物特征的疏密分布状态对第一相似度的影响,如此确定出的目标与样本的第一相似度,可以更加准确地表示目标与样本之间的相似程度,进而基于该第一相似度确定的目标的第二身份信息的准确度更高。
需要说明的是:上述实施例提供的身份识别装置在身份识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的身份识别装置与身份识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是本申请实施例提供的一种电子设备600的结构框图。该电子设备600可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts GroupAudio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,电子设备600包括有:处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的身份识别方法。
本领域技术人员可以理解,图6中示出的结构并不构成对电子设备600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在一些实施例中,还提供了一种计算机可读存储介质,该存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中身份识别方法的步骤。例如,所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
值得注意的是,本申请提到的计算机可读存储介质可以为非易失性存储介质,换句话说,可以是非瞬时性存储介质。
应当理解的是,实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。
也即是,在一些实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述所述的身份识别方法的步骤。
以上所述为本申请提供的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:一种档案合并方法、装置及电子设备