目标人群搜索意图的识别方法、装置、电子设备及介质
技术领域
本公开涉及搜索
技术领域
,尤其涉及一种目标人群搜索意图的识别方法、装置、电子设备和存储介质。背景技术
在搜索领域,准确的搜索意图可以辅助进行召回结果的过滤,可见,搜索意图识别具有重要作用。在一些搜索场景下,存在对目标人群进行搜索的搜索行为,比如,在社交平台搜索粉丝数量较多的用户,因此需要对目标人群搜索意图进行识别。
相关技术中,常见的识别用户搜索意图的方法有基于机器学习的搜索意图识别,主要是基于已有搜索词进行搜索意图的标注,利用标注样本训练机器学习模型,利用训练好的模型预测搜索词的搜索意图。
但是,基于机器学习的搜索意图识别,是通过学习文本的语义信息识别搜索意图,而通常目标人群的用户名蕴含的语义信息较少,识别准确性低。
发明内容
根据本公开实施例的第一方面,提供一种目标人群搜索意图的识别方法,包括:
在获取到搜索请求时,获取所述搜索请求中各搜索词在预设时间段之内的搜索特征和统计特征,其中,所述统计特征用于表征所述搜索词在所述预设时间段之内的分布情况;
根据每个所述搜索词的搜索特征,从所述各搜索词中确定出候选搜索词;
根据所述候选搜索词的统计特征,判定所述候选搜索词是否具有搜索目标人群意图。
在本公开第一方面实施例一种可能的实现方式中,在所述根据每个所述搜索词的搜索特征,从所述各搜索词中确定出候选搜索词之后,所述方法还包括:
在所述搜索词非候选搜索词时,基于所述搜索词的关联搜索词或目标用户列表,判定所述搜索词是否具有搜索目标人群意图,其中,所述目标用户列表中的用户属于所述目标人群。
在本公开第一方面实施例一种可能的实现方式中,所述基于所述搜索词的关联搜索词或目标用户列表,判定所述搜索词是否具有搜索目标人群意图,包括:
基于各搜索词与改写词之间的映射关系,确定所述搜索词对应的改写词,其中,所述改写词为用于替换所述搜索词的分词;
在所述改写词具有搜索目标人群意图时,确定所述搜索词具有搜索目标人群意图。
在本公开第一方面实施例一种可能的实现方式中,所述基于所述搜索词的关联搜索词或目标用户列表,判定所述搜索词是否具有搜索目标人群意图,包括:
获取所述目标用户列表;
计算所述搜索词与所述目标用户列表中每个用户标识之间的第一文本相似度;
根据所述第一文本相似度,判定所述搜索词是否具有搜索目标人群意图。
在本公开第一方面实施例一种可能的实现方式中,所述基于所述搜索词的关联搜索词或目标用户列表,判定所述搜索词是否具有搜索目标人群意图,包括:
从具有搜索目标人群意图的历史搜索词中,确定出与所述搜索词的相关度大于相关度阈值的目标搜索词;
计算所述搜索词与所述目标搜索词之间的第二文本相似度;
根据所述第二文本相似度,判定所述搜索词是否具有搜索目标人群意图。
在本公开第一方面实施例一种可能的实现方式中,所述计算所述搜索词与所述目标搜索词之间的第二文本相似度,包括:
确定所述搜索词与所述目标搜索词之间的编辑距离,其中,所述编辑距离为对所述搜索词进行编辑操作得到所述目标搜索词所需的最少操作次数;
根据所述编辑距离、所述搜索词的字符数量及所述目标搜索词的字符数量,计算所述第二文本相似度。
在本公开第一方面实施例一种可能的实现方式中,所述根据所述候选搜索词的统计特征,判定所述候选搜索词是否具有搜索目标人群意图,包括:
在所述候选搜索词的统计特征满足预设条件时,确定所述候选搜索词具有搜索目标人群意图。
在本公开第一方面实施例一种可能的实现方式中,所述搜索特征包括搜索次数和搜索结果的点击量,所述根据每个所述搜索词的搜索特征,从所述各搜索词中确定出候选搜索词,包括:
将所述搜索次数和所述点击量均大于对应的阈值的搜索词作为所述候选搜索词。
根据本公开实施例的第二方面,提供一种目标人群搜索意图的识别装置,包括:
获取模块,被配置为在获取到搜索请求时,获取所述搜索请求中各搜索词在预设时间段之内的搜索特征和统计特征,其中,所述统计特征用于表征所述搜索词在所述预设时间段之内的分布情况;
确定模块,被配置为根据每个所述搜索词的搜索特征,从所述各搜索词中确定出候选搜索词;
判定模块,被配置为根据所述候选搜索词的统计特征,判定所述候选搜索词是否具有搜索目标人群意图。
在本公开第二方面实施例一种可能的实现方式中,所述判定模块,还被配置为在所述搜索词非候选搜索词时,基于所述搜索词的关联搜索词或目标用户列表,判定所述搜索词是否具有搜索目标人群意图,其中,所述目标用户列表中的用户属于所述目标人群。
在本公开第二方面实施例一种可能的实现方式中,所述判定模块,被配置为:
基于各搜索词与改写词之间的映射关系,确定所述搜索词对应的改写词,其中,所述改写词为用于替换所述搜索词的分词;
在所述改写词具有搜索目标人群意图时,确定所述搜索词具有搜索目标人群意图。
在本公开第二方面实施例一种可能的实现方式中,所述判定模块,被配置为:
获取所述目标用户列表;
计算所述搜索词与所述目标用户列表中每个用户标识之间的第一文本相似度;
根据所述第一文本相似度,判定所述搜索词是否具有搜索目标人群意图。
在本公开第二方面实施例一种可能的实现方式中,所述判定模块,被配置为:
从具有搜索目标人群意图的历史搜索词中,确定出与所述搜索词的相关度大于相关度阈值的目标搜索词;
计算所述搜索词与所述目标搜索词之间的第二文本相似度;
根据所述第二文本相似度,判定所述搜索词是否具有搜索目标人群意图。
在本公开第二方面实施例一种可能的实现方式中,所述判定模块,被配置为:
确定所述搜索词与所述目标搜索词之间的编辑距离,其中,所述编辑距离为对所述搜索词进行编辑操作得到所述目标搜索词所需的最少操作次数;
根据所述编辑距离、所述搜索词的字符数量及所述目标搜索词的字符数量,计算所述第二文本相似度。
在本公开第二方面实施例一种可能的实现方式中,所述判定模块,被配置为:
在所述候选搜索词的统计特征满足预设条件时,确定所述候选搜索词具有搜索目标人群意图。
在本公开第二方面实施例一种可能的实现方式中,所述搜索特征包括搜索次数和搜索结果的点击量,所述确定模块,被配置为:
将所述搜索次数和所述点击量均大于对应的阈值的搜索词作为所述候选搜索词。
根据本公开实施例的第三方面,提供一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面实施例所述的目标人群搜索意图的识别方法。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如前所述的目标人群搜索意图的识别方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,该计算机程序由电子设备的处理器执行时,使得电子设备能够执行如前所述的目标人群搜索意图的识别方法。
本公开的实施例提供的技术方案至少带来以下有益效果:通过在获取到搜索请求时,获取搜索请求中各搜索词在预设时间段之内的搜索特征和统计特征,根据每个搜索词的搜索特征,从各搜索词中确定出候选搜索词,并根据候选搜索词的统计特征,判定候选搜索词是否具有搜索目标人群意图。由此,通过根据搜索词在预设时间段之内的搜索特征和统计特征,确定搜索词是否具有搜索目标人群意图,提高了搜索准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种目标人群搜索意图的识别方法的流程图。
图2根据一示例性实施例示出的一种大V搜索意图的识别过程示意图。
图3是根据一示例性实施例示出的另一种目标人群搜索意图的识别方法的流程示意图。
图4是根据一示例性实施例示出的另一种目标人群搜索意图的识别方法的流程示意图。
图5是根据一示例性实施例示出的另一种目标人群搜索意图的识别方法的流程示意图。
图6是根据一示例性实施例示出的另一种目标人群搜索意图的识别方法的流程示意图。
图7是根据一示例性实施例示出的一种目标人群搜索意图的识别装置框图。
图8是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种目标人群搜索意图的识别方法的流程示意图,如图1所示,该目标人群搜索意图的识别方法包括以下步骤。
在步骤101中,在获取到搜索请求时,获取搜索请求中各搜索词在预设时间段之内的搜索特征和统计特征。
本公开中,目标人群可以是指粉丝数量大于阈值数量的用户、或者关注人数超过阈值数量的用户、或者点赞数量或者转发超过一定数量的用户等等。
在识别对目标人群的搜索意图时,可根据获取的搜索请求,获取至少一个搜索词,比如对用户输入的查询语句进行切词处理,获取多个搜索词。
本公开中,可根据预设时间段之内的历史搜索记录,统计搜索请求中每个搜索词在该预设时段之内的搜索特征和统计特征。其中,搜索特征可以用于衡量预设时间段之内用户对搜索词、搜索词对应的搜索结果等的触发情况;统计特征用于表征搜索词在预设时间段之内的分布情况。
其中,每个搜索词对应的搜索特征,可以包括每个搜索词在预设时间段之内的搜索次数、搜索结果的点击量等等。这里搜索结果的点击量可以理解为搜索词下在预设时间段之内用户对搜索结果的点击总量。
其中,每个搜索词对应的统计特征可包括:每个搜索词下预设时间段之内点击率分布的基尼系数、每个搜索词下预设时间段之内关注率分布的基尼系数、每个搜索词下预设时间段之内最大的点击率、搜索词下预设时间段之内最大的关注率等。
需要说明的是,预设时间段可以根据需要确定,比如为最近3天、最近7天、最近10天等等,本公开对此不作限定。
在步骤102中,根据每个搜索词的搜索特征,从各搜索词中确定出候选搜索词。
由于搜索词的搜索特征比如搜索次数越多,用户的点击、关注行为对搜索词的意图的阐释准确性越高。基于此,本公开中,可根据搜索词的搜索特征,从各个搜索词中确定出候选搜索词。
可选地,搜索特征可包括搜索次数,可将每个搜索词的搜索次数与对应的阈值进行比较,若搜索词的搜索次数大于对应的阈值,则可以认为搜索词可以作为候选搜索词。
可选地,搜索特征可包括搜索结果的点击量,可将每个搜索词的搜索结果的点击量与对应的阈值进行比较,若搜索词的搜索结果的点击量大于对应的阈值,则可以认为搜索词可以作为候选搜索词。
可选地,搜索特征可包括搜索次数和搜索结果的点击量,可将每个搜索词的搜索次数与对应的阈值比较,将搜索结果的点击量与对应的阈值进行比较。若搜索次数和搜索结果的点击量均大于对应的阈值,可认为搜索词可以作为候选搜索词。
需要说明的是,搜索次数和搜索结果的点击量各对应一个阈值,两者的阈值可以相同,也可以不同。
比如,预设时间段为最近7天,搜索词的搜索特征包括:搜索词在最近7天内的搜索总量Pv_7d,和搜索词下在最近7之内的用户点击总量Click_7d,可在搜索词对应的Pv_7d大于或等于100、且Click_7d大于或等于10时,确定该搜索词为候选搜索词。
可以理解的是,搜索请求中各搜索词的搜索特征可能存在均未满足相应条件的情况,这时候选搜索词的数量为零。也就是说,候选搜索词的数量可能是零,也可能等于或大于1。
本实施例中,通过根据搜索词的搜索特征,可以从搜索请求中的各搜索词中筛选出具有丰富历史反馈的候选搜索词,从而可过滤掉一部分不具有丰富历史反馈的搜索词。
在步骤103中,根据候选搜索词的统计特征,判定候选搜索词是否具有搜索目标人群意图。
由于统计特征用于表征预设时段段内搜索词在预设时间段之内的分布情况,基于此,为了提高搜索意图的准确性,在获取候选搜索词后,可进一步根据候选搜索词对应的统计特征,判定候选搜索词是否具有搜索目标人群意图。
作为一种实现方式,若候选搜索词的统计特征满足预设条件,可以认为候选搜索词具有搜索目标人群意图。其中,若统计特征为多个,候选搜索词的统计特征满足预设条件,可以是任一个统计特征满足对应的预设条件,也可以是每个统计特征均满足对应的预设条件。
比如,统计特征包括点击率分布的基尼系数、关注率分布的基尼系数、最大点击率和最大关注率。若搜索词的点击率分布的基尼系数、关注率分布的基尼系数、最大点击率和最大关注率均大于对应的阈值时,可以认为搜索词具有搜索目标人群意图。
需要说明的是,搜索词的点击率分布的基尼系数、关注率分布的基尼系数、最大点击率和最大关注率各对应一个阈值,也就是共4个阈值,这些阈值可根据需要设定。
比如,预设时间段为最近7天,搜索词的统计特征包括:点击率分布的基尼系数Ctr_gini、关注率分布的基尼系数Ftr_gini、最大点击率Max_ctr、最大关注率Max_ftr。假设,统计特征分别对应的阈值为0.8、0.7、0.28、0.3,若候选搜索词A的Ctr_gini大于或等于0.8、Ftr_gini大于或等于0.7、Max_ctr大于或等于0.28和Max_ftr大于或等于0.3,可以认为候选搜索词A具有目标人群搜索意图。
可以理解的是,若从各搜索词中确定出多个候选搜索词,则可以根据每个候选搜索词的统计特征,判定每个候选搜索词是否具有搜索目标人群意图。
本公开中,若候选搜索词的统计特征未满足预设条件,可以判定候选搜索词不具有搜索目标人群意图。若统计特征为多个,这里不满足预设条件,可以理解为任意一个不满足对应的预设条件。
比如,Ctr_gini、Ftr_gini、Max_ctr和Max_ftr分别对应的第二阈值为0.8、0.7、0.28、0.3,若搜索词B的Ctr_gini小于0.8,可以认为搜索词B不具有搜索目标人群意图。
若搜索请求中有多个候选搜索词,可在至少一个候选搜索词具有搜索目标人群意图时,认为搜索请求具有搜索目标人群意图。
本公开实施例的目标人群搜索意图的识别方法,可应用于短视频应用、社交软件等多个应用中,可在用户在应用中发起搜索请求时,确定搜索请求的搜索意图是否为搜索目标人群意图。
以短视频应用为例,在短视频应用中,可将对发布短视频的作者的搜索行为称为用户搜索,用户搜索中的用户搜索意图中可以分为大V(粉丝数较多的作者,比如限定为拥有超过10万粉丝的作者)搜索意图、普通用户搜索意图、垂类用户搜索意图(例如某个游戏相关的作者)等。在短视频应用中,用户对视频的消费行为具有明显的头部效应,因此对头部作者(记作大V)的搜索行为也是用户搜索行为中最为集中的一部分,准确的大V意图识别对提高用户搜索准确性具有重要意义。当某用户在短视频应用中输入搜索词发起搜索请求时,可基于本公开的目标人群搜索意图的识别方法,确定搜索词的搜索意图是否为大V搜索意图,提高了用户在短视频应用中的搜索准确性。
本公开实施例的目标人群搜索意图的识别方法,通过在获取到搜索请求时,获取搜索请求中各搜索词在预设时间段之内的搜索特征和统计特征,根据搜索词的搜索特征,从各搜索词中确定出候选搜索词,并根据候选搜索词的统计特征,判定候选搜索词是否具有搜索目标人群意图。由此,通过根据搜索词在预设时间段之内的搜索特征和统计特征,可以确定搜索词是否具有搜索目标人群意图,提高了搜索准确性。
为了提高意图识别的准确性,对于上述判定候选搜索词是否具有搜索目标人群意图所用的阈值,在本公开的一个实施例中,也可根据候选搜索词对应的统计特征,对候选搜索词进行聚类,根据聚类结果生成阈值。
在一个实施例中,可根据候选搜索词对应的统计特征,对候选搜索词进行聚类,生成多个簇,可将统计特征中点击率分布的基尼系数、关注率分布的基尼系数、最大点击率、最大关注率等均为最大值的簇,作为搜索目标人群意图区域。在获取搜索目标人群意图区域后,可将搜索目标人群意图区域边界,作为每个统计特征对应的阈值,并利用获取的阈值,判定候选搜索词是否具有搜索目标人群意图。
可选地,可采用K-Means(K-means cluste,K均值聚类)算法对候选搜索词进行聚类。
比如,统计特征包括:Ctr_gini、Ftr_gini、Max_ctr和Max_ftr,可根据这四个特征,利用K-Means算法,对候选搜索词进行聚类,其中,可选取轮廓系数最大时的类别数作为实际划分的数量。
在另一个实施例中,可先根据历史记录获取大量的搜索词,根据大量的搜索词,确定统计特征中点击率分布的基尼系数、关注率分布的基尼系数、最大点击率、最大关注率等分别对应的阈值,在线上实时搜索系统中,可基于离线生成的阈值,判断搜索词是否具有搜索目标人群意图。下面以大V搜索意图识别为例,结合图2进行说明,图2根据一示例性实施例示出的一种大V搜索意图的识别过程示意图。
如图2中离线处理所示,步骤201,获取大量搜索词及每个搜索词的搜索特征和统计特征;步骤202,从大量的搜索词中筛选出搜索特征如搜索次数大于对应的阈值的搜索词;步骤203,基于统计特征Ctr_gini、Ftr_gini、Max_ctr和Max_ftr,对筛选出的搜索词进行聚类;步骤204,选取统计特征都是最大值的区域,将区域边界作为4个统计特征各自的阈值,将生成4个阈值用于实时处理。
如图2中线上实时处理,在发生一次搜索时,步骤205,获取搜索词的搜索特征和统计特征;步骤206,判断搜索词的搜索特征如搜索次数是否大于对应的阈值。如果不是,采用其他方案处理;如果是,则执行步骤207,判断搜索词的统计特征是否均大于对应的阈值,如果是,则此次搜索具有大V搜索意图,否则,此次搜索不具有大V搜索意图。
本公开实施例中,可通过根据候选搜索词对应的统计特征,对多个候选搜索词进行聚类,并生成搜索目标人群意图区域,根据搜索目标人群意图区域的区域边界生成统计特征如点击率分布的基尼系数、关注率分布的基尼系数、最大点击率和最大关注率分别对应的阈值。由此,通过基于统计特征,对筛选出的候选搜索词进行聚类,生成对应的阈值,提高了阈值的准确性,从而提高了搜索目标人群意图的识别准确性。
在实际应用中,某些场景下,根据搜索词的搜索特征,确定搜索词不是候选搜索词,即非候选搜索词时,但搜索词也有可能具有搜索目标人群意图。比如,在短视频应用中搜索大V的场景下,用户搜索词填写错误或用户不知道大V真实名字而进行的模糊搜索。为了进一步提高搜索的准确性,本公开中,在根据每个搜索词的搜索特征,从各搜索词中确定出候选搜索词之后,在搜索词非候选搜索词时,可基于搜索词的关联搜索词或目标用户列表,判定搜索词是否具有搜索目标人群意图,其中,目标用户列表中的用户属于目标人群。
在本公开的一个实施例中,在搜索词非候选搜索词时,可对搜索词的改写词进行判断,从而确定搜索词是否具有搜索目标人群意图。
下面结合图3进行说明,图3是根据一示例性实施例示出的另一种目标人群搜索意图的识别方法的流程示意图。如图3所示,该目标人群搜索意图的识别方法包括:
在步骤301中,在获取到搜索请求时,获取搜索请求中各搜索词在预设时间段之内的搜索特征和统计特征。
在步骤302中,根据每个搜索词的搜索特征,从各搜索词中确定出候选搜索词。
在步骤303中,根据候选搜索词的统计特征,判定候选搜索词是否具有搜索目标人群意图。
本公开中,步骤301-步骤303与上述步骤101-步骤103类似,故在此不再赘述。
在步骤304中,在搜索词非候选搜索词时,基于各搜索词与改写词之间的映射关系,确定搜索词对应的改写词。
本公开中,若基于某搜索词搜索后用户没有点击搜索结果,而在短时间内(比如30秒内)搜索了另一个搜索词,而后点击了搜索结果,并且两个搜索词的文本有重叠部分,那么可将另一个搜索词可以称为改写词。
在搜索词非候选搜索词,比如搜索词的搜索次数小于或等于对应的阈值时,可统计预设时段内的历史搜索记录中,搜索词的改写词,搜索词的改写词可以认为是搜索词的关联搜索词。或者,预先统计历史浏览记录中每个搜索词的改写词,建立搜索词与改写词之间的对应关系,在线实时搜索时,可根据该对应关系,确定当前搜索词的改写词。若对应关系中没有当前搜索词,可将与其相似度最高的搜索词对应的改写词,作为当前搜索词的改写词。
需要说明的是,每个搜索词的改写词可能为一个,也可能为多个。
为了减少计算量和提高意图识别的准确性,可获取搜索词的改写词中占比最大的搜索词,可称作top1改写词,占比是指预设时间段内改写次数与总改写次数的比值。比如,搜索词C的top1改写词指搜索词C的所有改写词中,占比最大的改写词。
本公开中,获取搜索词的top1改写词,基于搜索词的top1改写词,判定搜索词是否具有搜索目标人群意图,可以减少计算量、提高了识别的准确性和搜索的准确性。
在步骤305中,在改写词具有搜索目标人群意图时,确定搜索词具有搜索目标人群意图。
本公开中,可获取搜索词的每个改写词的搜索特征和统计特征,基于每个改写词的搜索特征和统计特征,判断每个改写词是否具有搜索目标人群意图,具体方法可参见上述实施例,在此不再赘述。在搜索词的任一一个改写词具有搜索目标人群意图时,可判定该搜索词也具有搜索目标人群意图,否则,可判定该搜索词不具有搜索目标人群意图,或者采用其他方案进行判断。
为了减少计算量,可选地,也可只判断搜索词的top1改写词是否具有搜索目标人群意图,在top1改写词具有搜索目标人群意图时,判定该搜索词具有搜索目标人群意图。如果top1改写词不具有搜索目标人群意图时,可判定该搜索词不具有目搜索标人群意图,或者采用其他方案进行判断。
本公开实施例的目标人群搜索意图的识别方法,在搜索词非候选搜索词时,可通过借助于搜索词的改写词,间接判定搜索词是否具有搜索目标人群意图,从而可以避免因输入的目标用户的名字错误或者不准确,导致目标人群搜索意图识别错误的情况,提高了目标人群搜索意图识别的准确性,进而提高了搜索准确性。
在本公开的一个实施例中,在搜索词非候选搜索词时,也可基于用户浏览记录,间接判定搜索词是否具有搜索目标人群意图。下面结合图4进行说明,图4是根据一示例性实施例示出的另一种目标人群搜索意图的识别方法的流程示意图。
如图4所示,该目标人群搜索意图的识别方法包括:
在步骤401中,在获取到搜索请求时,获取搜索请求中各搜索词在预设时间段之内的搜索特征和统计特征。
在步骤402中,根据每个搜索词的搜索特征,从各搜索词中确定出候选搜索词。
在步骤403中,根据候选搜索词的统计特征,判定候选搜索词是否具有搜索目标人群意图。
本公开中,步骤401-步骤403与上述步骤101-步骤103类似,故在此不再赘述。
在步骤404中,在搜索词非候选搜索词时,获取目标用户列表。
本公开中,可获取预设时间段内的历史浏览记录,并根据历史浏览记录,获取浏览的所有用户,并从中筛选出满足条件的用户,比如粉丝数量大于设定阈值的用户等,得到目标用户列表,以用于实时搜索中。其中,目标用户列表中的用户属于目标人群,该目标用户列表可包括目标用户标识,比如用户名等信息。
在实时搜索时,在搜索词非候选搜索词时,可获取目标用户列表。
以短视频应用为例,可获取用户最近7天浏览的视频历史记录,获取视频的作者列表,并筛选出其中是大V的部分,作为用户最近浏览的大V列表,存入线上缓存,以用于实时搜索中。
在步骤405中,计算搜索词与目标用户列表中每个用户标识之间的第一文本相似度。
本公开中,可计算搜索词与目标用户列表中每个用户标识之间的文本相似度,为了便于区分,这里称为第一文本相似度。
在计算第一文本相似度时,可根据搜索词对应的向量与用户标识对应的向量,计算第一文本相似度。
在计算第一文本相似度时,也可利用编辑距离比例进行计算。其中,编辑距离表示一段文本通过增加、删除、修改字符等编辑操作而得到另一段文本所需要的最少的操作次数。本公开中,搜索词与用户标识之间的编辑距离,可以表示对搜索词进行增加、删除、修改字符等编辑操作,而得到用户标识所需要的最少的操作次数。其中,第一文本相似度的计算公式如下所示:
其中,q表示搜索词,d表示用户标识,r(q,d)表示第一文本相似度,L(q,d)表示搜索词q与用户标识d之间的编辑距离,q.size表示搜索词q的大小即包含的字符数量,d.size表示用户标识d的大小即包含的字符数量,max(q.size,d.size)表示取q.size与d.size中的最大值。
在步骤406中,根据第一文本相似度,判定搜索词是否具有搜索目标人群意图。
本实施例中,当搜索词与至少一个用户标识之间的第一文本相似度大于对应的相似度阈值时,说明搜索词与用户标识之间的相似度比较高,可认为搜索词具有搜索目标人群意图。
比如,相似度阈值为0.5,当搜索词与某一个或多个用户标识之间的文本相似度度均大于0.5时,可认为搜索词具有搜索目标人群意图。
需要说明的是,相似度阈值可根据需要设定,本公开对此不作限定。
以短视频应用为例,在一次搜索请求中,若搜索词的搜索特征比如搜索次数对应的阈值,但其与用户最近浏览的大V列表中某一个或多个大V名字的文本相似度大于相似度阈值0.5,也可认为该搜索词具有大V搜索意图。
本公开实施例的目标人群搜索意图的识别方法,在搜索词非候选搜索词时,可通过借助于搜索词与属于目标人群的用户的用户标识之间的文本相似度,判定搜索词是否具有搜索目标人群意图,从而可以避免因输入的目标用户的名字错误或者不准确,导致目标人群搜索意图识别错误的情况,提高了目标人群搜索意图识别的准确性,进而提高了搜索准确性。
在本公开的一个实施例中,在搜索词非候选搜索词时,也可基于搜索词与具有搜索目标人群意图的搜索词之间的文本相似度,判定搜索词是否具有搜索目标人群意图。下面结合图5进行说明,图5是根据一示例性实施例示出的另一种目标人群搜索意图的识别方法的流程示意图。
如图5所示,该目标人群搜索意图的识别方法包括:
在步骤501中在获取到搜索请求时,获取搜索请求中各搜索词在预设时间段之内的搜索特征和统计特征。
在步骤502中,根据每个搜索词的搜索特征,从各搜索词中确定出候选搜索词。
在步骤503中,根据候选搜索词的统计特征,判定候选搜索词是否具有搜索目标人群意图。
本公开中,步骤501-步骤503与上述步骤101-步骤103类似,故在此不再赘述。
在步骤504中,在搜索词非候选搜索词时,从具有搜索目标人群意图的历史搜索词中,确定出与搜索词的相关度大于相关度阈值的目标搜索词。
本实施例中,可预先获取多个预设时长内具有搜索目标人群意图的搜索词。在搜索词非候选搜索词时,可计算搜索词与具有搜索目标人群意图的搜索词之间的相关度,并筛选出相关度大于相关度阈值的搜索词,为了便于区分,称为目标搜索词,这里目标搜索词可以理解为搜索词的关联搜索词。
其中,相关度阈值可以根据需要设定,本公开对此不作限定。
在步骤505中,计算搜索词与目标搜索词之间的第二文本相似度。
本公开中,在计算第二文本相似度时,可根据搜索词对应的向量与目标搜索词对应的向量,计算第二文本相似度。
或者,也可确定搜索词与目标搜索词之间的编辑距离,其中,编辑距离为对搜索词进行编辑操作得到目标搜索词所需的最少操作次数,并从搜索词的字符数量和目标搜索词的字符数量确定出最大的字符数量,根据最大的字符数量和编辑距离,计算第二文本相似度。也就是说,可利用上述第一文本相似度的计算公式进行计算。
本公开中,利用编辑距离,计算第二文本相似度,方便、简洁。
在步骤506中,根据第二文本相似度,判定搜索词是否具有搜索目标人群意图。
本实施例中,当搜索词与一个或多个目标搜索词的第二文本相似度大于对应的相似度阈值时,可以认为该搜索词具有目标人群搜索意图。
其中,第二文本相似度对应的相似度阈值与第一文本相似度对应的相似度阈值,可以相同,也可以不同,可以根据需要设定,本公开对此不作限定。
以短视频应用为例,可按天获取具有大V搜索意图的搜索词,可将这些搜索词视作用户名,建立倒排索引。在一次线上搜索请求中,若搜索词非候选搜索词,可使用该搜索词从上述倒排索引中检索出相关的搜索词,并计算文本相似度,该搜索词下有相关搜索词召回且文本相似度大于阈值0.5,可认为该搜索词具有大V搜索意图。
本公开实施例的目标人群搜索意图的识别方法,在搜索词非候选搜索词时,可通过利用与搜索词相关的具有搜索目标人群意图的搜索词,判定搜索词是否具有搜索目标人群意图,从而可以避免因输入的目标用户的名字错误或者不准确,导致目标人群搜索意图识别错误的情况,提高了目标人群搜索意图识别的准确性,进而提高了搜索准确性。
图6是根据一示例性实施例示出的另一种目标人群搜索意图的识别方法的流程示意图。下面结合图6对本公开实施例的目标人群搜索意图的识别方法进一步说明。
如图6所示,该目标人群搜索意图的识别方法包括:
在步骤601中,获取搜索请求中搜索词的搜索特征和统计特征。
在用户发起一次搜索时,可获取搜索请求中搜索词在预设时段内搜索特征和统计特征,如上述实施例所述在此不再赘述。
在步骤602中,判断搜索词的搜索特征是否满足对应的预设条件。若满足预设条件,则执行步骤603;否则,执行步骤604。
比如,搜索特征包括搜索次数,若搜索次数大于对应的阈值,可认为搜索特征满足对应的预设条件。又如,搜索特征包括搜索结果的点击量,若搜索结果的点击量大于对应的阈值,可认为搜索特征满足对应的预设条件。又如,搜索特征包括搜索次数和搜索结果的点击量,若搜索次数大于对应的阈值且搜索结果的点击量也大于对应的阈值,可认为搜索特征满足对应的预设条件。
在步骤603中,判断搜索词的统计特征是否满足对应的预设条件。
比如,统计特征包括:点击率分布的基尼系数、关注率分布的基尼系数、最大点击率和最大关注率。若点击率分布的基尼系数、关注率分布的基尼系数、最大点击率和最大关注率,均大于对应的阈值,可认为搜索词的统计特征满足对应的预设条件。
在步骤604中,基于搜索词的改写词,判断搜索词是否具有搜索目标人群意图。
在搜索词的搜索特征未满足对应的预设条件,即搜索词非候选搜索词时,可基于搜索词的改写词,判断搜索词是否具有搜索目标人群意图。其中,判断过程可参见图3所示的实施例。
若改写词具有搜索目标人群意图,可认为搜索词具有搜索目标人群意图。否则,执行步骤605。
在步骤605中,基于目标用户列表,判断搜索词是否具有搜索目标人群意图。
在基于搜索词的改写词,判定搜索词不具有搜索目标人群意图时,可基于目标用户列表,判断搜索词是否具有搜索目标人群意图。其中,判断过程可参见图4所示的实施例。
若搜索词与目标用户列表中的用户标识之间的第一文本相似度大于对应的相似度阈值,可认为搜索词具有搜索目标人群意图。否则,执行步骤606。
在步骤606中,基于具有搜索目标人群意图的搜索词,判断搜索词是否具有搜索目标人群意图。
在基于目标用户列表,判定搜索词不具有搜索目标人群意图,可基于具有搜索目标人群意图的搜索词进行判断。其中,判断过程可参见图5所示的实施例。
在搜索词与目标搜索之间的第二文本相似度大于对应的相似度阈值时,可认为搜索词具有搜索目标人群意图,否则,搜索词不具有搜索目标人群意图。
本公开实施例中,在搜索词的搜索特征满足对应的预设条件时,可利用改写词判断搜索词是否具有搜索目标人群意图。在基于改写词判定搜索词不具有搜索目标人群意图,可基于目标用户列表,判断搜索词是否具有搜索目标人群意图。在基于目标用户列表,判定搜索词不具有搜索目标人群意图时,可基于具有目标人群搜索意图的搜索词进行判断,从而大大提高了搜索的准确性。
需要说明的是,在搜索词非候选搜索词时,也可先基于目标用户列表,判断搜索词是否具有搜索目标人群意图,或者基于具有搜索目标人群意图的搜索词进行判断,本公开对此不作限定,也就是说,本公开中,步骤604、步骤605和步骤606的执行顺序不作限定。
或者,在实际应用中,在搜索词非候选搜索时,可采用步骤604、步骤605和步骤606中至少一种进行判断。
图7是根据一示例性实施例示出的一种目标人群搜索意图的识别装置框图。参照图7,该装置700包括:获取模块710、确定模块720、判定模块730。
该获取模块710,被配置为在获取到搜索请求时,获取所述搜索请求中各搜索词在预设时间段之内的搜索特征和统计特征,其中,所述统计特征用于表征所述搜索词在所述预设时间段之内的分布情况;
该确定模块720,被配置为根据每个所述搜索词的搜索特征,从所述各搜索词中确定出候选搜索词;
该判定模块730,被配置为根据所述候选搜索词的统计特征,判定所述候选搜索词是否具有搜索目标人群意图。
在本公开实施例一种可能的实现方式中,该判定模块730,还被配置为在所述搜索词非候选搜索词时,基于所述搜索词的关联搜索词或目标用户列表,判定所述搜索词是否具有搜索目标人群意图,其中,所述目标用户列表中的用户属于所述目标人群。
在本公开实施例一种可能的实现方式中,该判定模块730,被配置为:
基于各搜索词与改写词之间的映射关系,确定所述搜索词对应的改写词,其中,所述改写词为用于替换所述搜索词的分词;
在所述改写词具有搜索目标人群意图时,确定所述搜索词具有搜索目标人群意图。
在本公开实施例一种可能的实现方式中,该判定模块730,被配置为:
获取所述目标用户列表;
计算所述搜索词与所述目标用户列表中每个用户标识之间的第一文本相似度;
根据所述第一文本相似度,判定所述搜索词是否具有搜索目标人群意图。
在本公开实施例一种可能的实现方式中,该判定模块730,被配置为:
从具有搜索目标人群意图的历史搜索词中,确定出与所述搜索词的相关度大于相关度阈值的目标搜索词;
计算所述搜索词与所述目标搜索词之间的第二文本相似度;
根据所述第二文本相似度,判定所述搜索词是否具有搜索目标人群意图。
在本公开实施例一种可能的实现方式中,该判定模块730,被配置为:
确定所述搜索词与所述目标搜索词之间的编辑距离,其中,所述编辑距离为对所述搜索词进行编辑操作得到所述目标搜索词所需的最少操作次数;
根据所述编辑距离、所述搜索词的字符数量及所述目标搜索词的字符数量,计算所述第二文本相似度。
在本公开实施例一种可能的实现方式中,该判定模块730,被配置为:
在所述候选搜索词的统计特征满足预设条件时,确定所述候选搜索词具有搜索目标人群意图。
在本公开实施例一种可能的实现方式中,所述搜索特征包括搜索次数和搜索结果的点击量,该确定模块720,被配置为:
将所述搜索次数和所述点击量均大于对应的阈值的搜索词作为所述候选搜索词。
在实际使用时,本公开实施例提供的目标人群搜索意图的识别装置,可以被配置在任意电子设备中,以执行前述目标人群搜索意图的识别方法。
本公开的实施例提供的目标人群搜索意图的识别装置,通过在获取到搜索请求时,获取搜索请求中各搜索词在预设时间段之内的搜索特征和统计特征,根据每个搜索词的搜索特征,从各搜索词中确定出候选搜索词,并根据候选搜索词的统计特征,判定候选搜索词是否具有搜索目标人群意图。由此,通过根据搜索词在预设时间段之内的搜索特征和统计特征,确定搜索词是否具有搜索目标人群意图,提高了搜索准确性。
图8是根据一示例性实施例示出的一种用于信息查询的电子设备800的框图。
如图8所示,上述电子设备800包括:
存储器810及处理器820,连接不同组件(包括存储器810和处理器820)的总线830,存储器810存储有计算机程序,当处理器820执行所述程序时实现本公开实施例所述的目标人群搜索意图的识别方法。
总线830表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备800典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备800访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器810还可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)840和/或高速缓存存储器850。电子设备800可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统860可以用于读写不可移动的、非易失性磁介质(图8未显示,通常称为“硬盘驱动器”)。尽管图8中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线830相连。存储器810可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开各实施例的功能。
具有一组(至少一个)程序模块870的程序/实用工具880,可以存储在例如存储器810中,这样的程序模块870包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块870通常执行本公开所描述的实施例中的功能和/或方法。
电子设备800也可以与一个或多个外部设备890(例如键盘、指向设备、显示器891等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口892进行。并且,电子设备800还可以通过网络适配器893与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器893通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器820通过运行存储在存储器810中的程序,从而执行各种功能应用以及数据处理。
需要说明的是,本实施例的电子设备的实施过程和技术原理参见前述对本公开实施例的目标人群搜索意图的识别方法的解释说明,此处不再赘述。
本公开实施例提供的电子设备,可以执行如前所述的目标人群搜索意图的识别方法,通过在获取到搜索请求时,获取搜索请求中各搜索词在预设时间段之内的搜索特征和统计特征,根据每个搜索词的搜索特征,从各搜索词中确定出候选搜索词,并根据候选搜索词的统计特征,判定候选搜索词是否具有搜索目标人群意图。由此,通过根据搜索词在预设时间段之内的搜索特征和统计特征,确定搜索词是否具有搜索目标人群意图,提高了搜索准确性。
为了实现上述实施例,本公开还提出一种存储介质。
其中,该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如前所述的目标人群搜索意图的识别方法。
为了实现上述实施例,本公开还提供一种计算机程序产品,该计算机程序由电子设备的处理器执行时,使得电子设备能够执行如前所述的目标人群搜索意图的识别方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:基于语音固定条件下的查询方法