信息标题中概念的确定方法、装置和存储介质

文档序号:7741 发布日期:2021-09-17 浏览:23次 英文

信息标题中概念的确定方法、装置和存储介质

技术领域

本申请涉及自然语言理解技术。更具体地讲,涉及一种信息标题中概念的确定方法、装 置和存储介质。

背景技术

随着互联网的不断发展,用户可以通过电子设备获取需求的信息,例如,通过用户直接 查询的方式获取信息,或者接收客户端推送的信息。

目前,由于信息的标题与信息的内容相关,因此,在获取信息时,通常需要对信息的标 题进行检索,确定需要获取的信息。但是,信息的标题各种各样,可能存在冗长而复杂的信 息标题,使得信息标题中的信息点过多,导致这样的信息被检索到的概率较低。

发明内容

本申请实施例提供了一种信息标题中概念的确定方法、装置和存储介质,能够将信息标 题中的关键词组合形成信息的概念,使用概念辅助检索,可以提高子信息被检索到的概率。

第一方面,本申请实施例提供了一种信息标题中概念的确定方法,包括:

对信息标题进行依存句法分析,确定依存句法分析结果,所述依存句法分析结果包括至 少两个元组,所述元组包括依存关系、核心词以及依存词。

若预设关键词不为复合名词中的依存词,则根据所述预设关键词以及预设依存关系,确 定所述信息标题的至少一个关键词。

根据所述预设关键词和所述关键词,建立关键词列表。

根据所述信息标题中的词顺序,将所述关键词列表中的词组合形成概念。

在一些可能的实现方式中,所述根据所述预设关键词以及预设依存关系,确定所述信息 标题的至少一个关键词,包括:

根据所述预设关键词,在所述依存句法分析结果中确定目标元组,所述目标元组中的核 心词为所述预设关键词;若所述目标元组对应的依存关系满足第一预设依存关系,则获取所 述目标元组中的依存词。

将所述目标元组中的依存词确定为新的预设关键词,并将隶属于第一预设依存关系的第 二预设依存关系作为新的第一预设依存关系,根据上述步骤,递归的匹配完成至少一个完整 的预设依存关系序列,每个所述完整的预设依存关系序列由多个预设依存关系组成,序列中 相邻的两个所述预设依存关系之间具有隶属关系,其中,所述第一预设依存关系对应的依存 词为所述第二预设依存关系对应的核心词。

根据所述目标元组中的依存词,确定所述至少一个关键词。

在一些可能的实现方式中,所述根据所述预设关键词和所述关键词,建立关键词列表, 包括:

根据所述预设关键词和所述关键词,建立初始关键词列表。

对所述初始关键词列表中的词进行去重处理,确定关键词列表。

在一些可能的实现方式中,在所述确定所述信息标题的至少一个关键词之后,所述方法 还包括:

判断所述预设关键词(本申请中,所述预设关键词为初始的预设关键词,并非根据目标 元组中的依存词确定的新的预设关键词)所在的元组对应的依存关系是否为直接宾语。

若所述预设关键词所在的元组对应的依存关系为所述直接宾语,则根据所述预设关键词 所在的元组中的核心词,确定补充关键词。

在一些可能的实现方式中,所述根据所述预设关键词所在的元组中的核心词,确定至少 一个补充关键词,包括:

判断所述预设关键词所在的元组中的核心词是否为预设谓语动词。

若所述预设关键词所在的元组中的核心词是预设谓语动词,则根据所述预设关键词所在 的元组中的核心词,在所述依存句法分析结果中确定补充元组,所述补充元组中的核心词为 所述预设关键词所在的元组中的核心词。

若所述补充元组对应的依存关系满足补充预设依存关系,且所述补充元组中的依存词在 所述信息标题中处于所述补充元组中的核心词的前边,则将所述补充元组中的依存词确定为 补充关键词。

在一些可能的实现方式中,所述方法还包括:

若所述预设关键词所在的元组中的核心词不是预设谓语动词,且在所述信息标题中与所 述补充元组中的核心词相邻的下一个词语在所述关键词列表中,则对所述补充元组中的核心 词和所述相邻的下一个词进行切词处理,生成切词处理结果。

若所述切词处理结果所述补充元组中的核心词和所述相邻的下一个构成了一个词,则将 所述补充元组中的核心词确定为补充关键词。

在一些可能的实现方式中,所述方法还包括:

若所述预设关键词所在的元组中的核心词为名动词,则将所述预设关键词所在的元组中 的核心词确定为补充关键词。

第二方面,本申请实施例提供了一种信息标题中概念的确定装置,包括:

分析模块,用于对信息标题进行依存句法分析,确定依存句法分析结果,所述依存句法 分析结果包括至少两个元组,所述元组包括依存关系、核心词以及依存词。

处理模块,用于在预设关键词不为复合名词中的依存词时,根据所述预设关键词以及预 设依存关系,确定所述信息标题的至少一个关键词。

所述处理模块,还用于根据所述预设关键词和所述关键词,建立关键词列表。

确定模块,用于根据所述信息标题中的词顺序,将所述关键词列表中的词组合形成概念。

在一些可能的实现方式中,所述处理模块,具体用于根据所述预设关键词,在所述依存 句法分析结果中确定目标元组,所述目标元组中的核心词为所述预设关键词;若所述目标元 组对应的依存关系满足第一预设依存关系,则获取所述目标元组中的依存词。将所述目标元 组中的依存词确定为新的预设关键词,并将隶属于第一预设依存关系的第二预设依存关系作 为新的第一预设依存关系,根据上述步骤,递归的匹配完成至少一个完整的预设依存关系序 列,每个所述完整的预设依存关系序列由多个预设依存关系组成,序列中相邻的两个所述预 设依存关系之间具有隶属关系,其中,所述第一预设依存关系对应的依存词为所述第二预设 依存关系对应的核心词。并根据所述目标元组中的依存词,确定所述至少一个关键词。

在一些可能的实现方式中,所述处理模块,具体用于根据所述预设关键词和所述关键词, 建立初始关键词列表;并对所述初始关键词列表中的词进行去重处理,确定关键词列表。

在一些可能的实现方式中,所述装置还包括补充模块,所述补充模块,用于判断所述预 设关键词所在的元组对应的依存关系是否为直接宾语;在所述预设关键词所在的元组对应的 依存关系为所述直接宾语时,根据所述预设关键词所在的元组中的核心词,确定补充关键词。

在一些可能的实现方式中,所述补充模块,具体用于判断所述预设关键词所在的元组中 的核心词是否为预设谓语动词;在所述预设关键词所在的元组中的核心词是预设谓语动词时, 根据所述预设关键词所在的元组中的核心词,在所述依存句法分析结果中确定补充元组,所 述补充元组中的核心词为所述预设关键词所在的元组中的核心词。在所述补充元组对应的依 存关系满足补充预设依存关系,且所述补充元组中的依存词在所述信息标题中处于所述补充 元组中的核心词的前边时,将所述补充元组中的依存词确定为补充关键词。

在一些可能的实现方式中,所述补充模块,具体用于在所述预设关键词所在的元组中的 核心词不是预设谓语动词,且在所述信息标题中与所述补充元组中的核心词相邻的下一个词 语在所述关键词列表中时,对所述补充元组中的核心词和所述相邻的下一个词进行切词处理, 生成切词处理结果。在所述切词处理结果所述补充元组中的核心词和所述相邻的下一个构成 了一个词时,将所述补充元组中的核心词确定为补充关键词。

在一些可能的实现方式中,所述补充模块,具体用于在所述预设关键词所在的元组中的 核心词为名动词时,将所述预设关键词所在的元组中的核心词确定为补充关键词。

第三方面,本申请实施例还提供了一种信息标题中概念的确定装置,该信息标题中概念 的确定装置可以包括存储器和处理器;其中,

所述存储器,用于存储计算机程序。

所述处理器,用于读取所述存储器存储的计算机程序,并根据所述存储器中的计算机程 序实现如本申请第一方面所述的任一信息标题中概念的确定方法。

第四方面,本申请实施例还提供了一种计算机非易失性可读存储介质,计算机可读存储 介质中存储有计算机程序指令,计算机程序指令被执行时,实现如本申请第一方面所述的任 一信息标题中概念的确定方法。

第五方面,本申请实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程 序被处理器执行时实现如本申请第一方面所述的任一信息标题中概念的确定方法。

本申请提供了一种信息标题中概念的确定方法、装置和存储介质,通过对信息标题进行 依存句法分析,确定依存句法分析结果,依存句法分析结果包括至少两个元组,元组包括依 存关系、核心词以及依存词;若预设关键词不为复合名词中的依存词,则根据预设关键词以 及预设依存关系,确定信息标题的至少一个关键词;根据预设关键词和关键词,建立关键词 列表;根据信息标题中的词顺序,将关键词列表中的词组合形成概念。本申请提供的技术方 案通过对依存句法分析结果进行处理,将信息标题中的关键词形成概念,使得能够根据信息 的概念检索出标题冗长而复杂的信息,从而提高了信息被检索到的概率。

本申请的这些和其它方面在以下(多个)实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例或相关技术中的实施方式,下面将对实施例或相关技术 描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些 实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种信息标题中概念的确定方法的应用场景示意图;

图2为本申请实施例提供的一种信息标题中概念的确定方法的流程示意图;

图3a为本申请实施例提供的一种依存关系树形示意图;

图3b为本申请实施例提供的一种切词位置编号的树形示意图;

图3c为本申请实施例提供的一种信息标题中的词语的树形示意图;

图4a为本申请实施例提供的另一种依存关系树形示意图;

图4b为本申请实施例提供的再一种依存关系树形示意图;

图5为本申请实施例提供的一种候选单词列表中各个词的依存关系树形示意图;

图6为本申请实施例提供的一种确定补充关键词的方法的流程示意图;

图7为本申请实施例提供的一种视频标题中概念的确定方法的流程示意图;

图8为本申请实施例提供的一种确定视频概念的方法的流程图示意图;

图9为本申请实施例提供的一种信息标题中概念的确定装置的结构示意图;

图10为本申请实施例提供的另一种信息标题中概念的确定装置的结构示意图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附 图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本 申请一部分实施例,而不是全部的实施例。

基于本申请描述的示例性实施例,本领域普通技术人员在没有做出创造性劳动前提下所 获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开 内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以 单独构成一个完整实施方式。

需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方 式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的 含义理解。

此外,术语″包括″和″具有″以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清 楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语″模块″,是指任何已知或后来开发的硬件、软件、固件、人工智 能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。

本申请实施例提供的技术方案可以应用于自然语言的解析场景中。例如,在进行人机交 互时,图1为本申请实施例提供的一种信息标题中概念的确定方法的应用场景示意图,其 中,用户可以对着控制装置101说出希望显示设备102执行的指令,显示设备102可以通 过控制装置实时采集用户的语音数据,并通过显示设备102中的控制器对语音数据中包括 的用户的指令进行识别,并在识别出用户的指令后,直接执行该指令,在整个过程中,用户 没有实际对显示设备102进行实际操作,只是简单地说出了指令。其中,控制装置101可以是遥控器,遥控器和显示设备102的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式等,通过无线或其他有线方式来控制显示设备102。

例如,用户可以对着控制装置101说″播放足球比赛视频″,或者″宫保鸡丁的做法″等语音,显示设备102接收用户输入的语音,并通过控制器对语音进行语义解析,并通过 检索算法在视频库中检索出与用户输入的语言相对应的视频资源,从而通过显示设备102 显示检索到的视频资源。其中,对接收的语音进行处理可以为降噪处理,文本预处理,业务 定位,纠错,意图槽位解析等,本申请实施例对于处理方式不做具体限定。

示例性的,用户可以通过控制装置101直接在显示设备102上输入文本信息。例如,用户通过遥控器在显示设备102上输入″蔬菜沙拉的做法″或者″新闻联播″等文本信息。 显示设备102中的控制器根据用户输入的文本信息在视频库中检索对应的视频资源,并通 过显示设备102显示检索到的视频资源。

在本申请提供的另一种应用场景中,显示设备102可以根据用户在一段时间内的对视 频资源的搜索记录,为用户推送相应的视频资源。

在上述应用场景中,由于用户的说法和媒资标题句式千奇百怪,这给语义解析和媒资检 索带来挑战。

由于,媒资标题冗长,句式多样,因此,信息检索时,这些标题很难被检索到。亿万媒 资数据中,只有0.1%的信息能够有机会出现在用户面前,其他媒资几乎永远不能被检索到。 这不仅造成资源浪费,也增加了信息检索的耗时,并加剧了服务器计算的负担。

实际测试发现,即使是用户照着这些标题在电视前读,电视也不会返回这些标题的媒资。 因为经过语义引擎对用户请求进行语义解析(文本预处理,业务定位,纠错,意图槽位解析) 时,对媒资进行查询的文本已经被转化,最终经过业务处理的信息检索算法,检索出的媒资 已经不会是用户读的标题的媒资。最终导致只有少量的媒资会被频繁检索出,其它大量媒资 被检索出的概率微小。

为了解决由于信息标题冗长而复杂,导致信息被检索到的概率较低的问题,可以对信息 的标题进行依存句法分析,根据依存句法分析结果在信息的标题中确定多个关键词,并将关 键词组合形成概念。信息对应的概念与信息的标题相比较为简短,且能够准确的表达出信息 的含义,使得在根据信息的概念进行检索时,能够提高信息被检索到的概率。

示例性的,依存句法分析的作用是识别句子中词汇与词汇之间的相互依存关系。在依存 句法理论中,″依存″指词与词之间支配与被支配的关系,这种关系不是对等的,这种关系 具有方向。确切的说,处于支配地位的成分称之为支配者(governor,regent,head), 而处于被支配地位的成分称之为从属者(modifier,subordinate,dependency)。依存 语法存在一个共同的基本假设:句法结构本质上包含词和词之间的依存(修饰)关系。一个 依存关系连接两个词,分别是核心词(head)和依存词(dependent)。

其中,依存句法解析dependency_parse结果列表中包含的每一个元组都是一个依存 关系连接两个词。元组内包含三个元素,第一个元素是满足的依存关系,第二个元素是核心 词,第三个元素是依存词。

示例性的,概念是一个信息或实体的集合,例如,爱情片、古装剧、励志歌曲、抖音神 曲、附近的美食、捕蚊草的作用、A演的小品、某电视剧的主要演员等,本申请实施例对此不做任何限定。

下面,将通过具体的实施例对本申请提供的信息标题中概念的确定方法进行详细地说明。 可以理解的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能 在某些实施例不再赘述。

图2为本申请实施例提供的一种信息标题中概念的确定方法的流程示意图。该信息标 题中概念的确定方法可以由软件和/或硬件装置执行,例如,该硬件装置可以为信息标题中 概念的确定装置,该信息标题中概念的确定装置可以为终端或者终端中的处理芯片。示例性 的,请参见图2所示,该信息标题中概念的确定方法可以包括:

S201、对信息标题进行依存句法分析,确定依存句法分析结果。

其中,依存句法分析结果包括至少两个元组,元组包括依存关系、核心词以及依存词。

示例性的,依存关系可以包括:复合名词修饰nmod(noun compound modifier),如(浦东,上海);关联修饰assmod(associative modifier),如NP|QP(教训,特区); 名词组合形式nn:noun compound modifier;形容词修饰amod(adjetive modifier), 如(情况,新);名词主语nsubj:nominal subject;直接宾语dobj,如(颁布,文件); 否定修饰neg(negative modifier),如(遇到,不);状语advmod:adverbial modifier; 依赖关系dep:dependent等,本申请仅以上述依存关系为例进行说明,但并不代表本申 请实施例仅局限于此。

例如,对信息标题″05年的A主持的音乐颁奖晚会,还有BC″进行依存句法分析, 可以得到,切词结果为word_tokenize[′05年′,′的′,′A′,′主持′,′的′,′音乐′,′颁奖′,′晚会′,′, ′,′还有′,′B′,′C′]。其中,A、B、C分别表示不同的人物姓名。该信息标题的依存句法分析 结果可以为dependency_parse:[(′ROOT′,0,12),(′nmod′,3,1),(′case′,1,2),(′nsubj′,4, 3),(′acl′,8,4),(′mark′,4,5),(′compound:nn′,8,6),(′compound:nn′,8,7),(′dep′,12, 8),(′punct′,12,9),(′dep′,12,10),(′dep′,12,11)],

示例性的,该信息标题的依存句法分析结果还可以通过下述方式表示:

示例性的,在确定依存句法分析结果之后,可以判断依存句法分析结果中是否包含预设 关键词。若依存句法分析结果中不包含预设关键词,则不需要对该信息标题进行处理;若依 存句法分析结果中包含预设关键词,则判断预设关键词是否为复合名词中的依存词,若预设 关键词不为复合名词中的依存词,则执行下述S202:

S202、若预设关键词不为复合名词中的依存词,则根据预设关键词以及预设依存关系, 确定信息标题的至少一个关键词。

示例性的,预设关键词可以为电影、电视剧、小说、漫画、动漫、食谱、菜谱、应用程序、动画片、症状、攻略、特产、方法、危害、表现、功效、配方、副作用等。本申请仅以 上述预设关键词为例进行说明,但并不代表本申请实施例仅局限于此。

示例性的,构成复合名词(名词组合形式)中的两个名词,一个是修饰名词,即一个是 依存词,另一个是中心名词,即核心词。

在根据预设关键词以及预设依存关系,确定信息标题的至少一个关键词时,可以根据预 设关键词,在依存句法分析结果中确定目标元组,目标元组中的核心词为预设关键词;若目 标元组对应的依存关系满足第一预设依存关系,则获取目标元组中的依存词。将目标元组中 的依存词确定为新的预设关键词,并将隶属于第一预设依存关系的第二预设依存关系作为新 的第一预设依存关系,根据上述步骤,递归的匹配完成至少一个完整的预设依存关系序列, 每个完整的预设依存关系序列由多个预设依存关系组成,序列中相邻的两个预设依存关系之 间具有隶属关系,其中,第一预设依存关系对应的依存词为第二预设依存关系对应的核心词; 根据目标元组中的依存词,确定至少一个关键词。

示例性的,完整的预设依存关系序列可能为第一预设依存关系,也可能为第一预设依存 关系和第二预设依存关系的组合,也可能为第一预设依存关系、第二预设依存关系和第三预 设依存关系的组合的关系,本申请实施例对于完整的预设依存关系序列中预设依存关系的数 量不做任何限定。

例如,完整的预设依存关系序列为:第一预设依存关系′nmod:assmod′;第一预设依 存关系′compound:nn′;第一预设依存关系′dobj′;第一预设依存关系′amod′;第一预设依存关系′nmod′;第一预设依存关系′nmod:assmod′+第二依存关系′compound:nn′;第 一预设依存关系′nmod:assmod′+第二预设依存关系′amod′;第一预设依存关系 ′nmod:assmod′+第二预设依存关系′amod′;第一预设依存关系′amod′+第二预设依存关 系′nsubj′;第一预设依存关系′compound:nn′+第二预设依存关系′compound:nn′;预设 一阶依存关系′compound:nn′+二阶依存关系′nmod:assmod′;预设一阶依存关系′dobj′+ 二阶依存关系′nsubj′;预设一阶依存关系′compound:nn′+二阶依存关系′nmod′;第一预 设依存关系′compound:nn′+第二预设依存关系′amod′;第一预设依存关系 ′compound:nn′+第二预设依存关系′advmod′;第一预设依存关系′dobj′+第二预设依存关 系′nsubj′;第一预设依存关系′nmod′+第二预设依存关系′nmod:assmod′;第一预设依存 关系′amod′+第二预设依存关系′neg′。其中,在上述完整的预设依存关系序列中,相邻两 个预设依存关系之间具有隶属关系,即第二预设依存关系隶属于第一预设依存关系。

可以理解的是,在根据目标元组中的依存词,确定至少一个关键词时,由于完整的预设 依存关系序列中预设依存关系的数量不同,因此确定的关键词的数量也不相同。例如,完整 的预设依存关系序列中包含第一预设依存关系和第二预设关系,则根据上述的方法,可以确 定两个关键词。

在本申请实施例中,可以根据预设关键词以及预设依存关系,确定至少一个目标元组, 将每一个目标元组中的依存词确定为关键词,且每个目标元组均满足对应的预设依存关系, 使得确定的关键词更加准确,同时能够在信息标题中保留与信息关联性较高的关键词。

S203、根据预设关键词和关键词,建立关键词列表。

在根据预设关键词和关键词,建立关键词列表时,可以根据预设关键词和关键词,建立 初始关键词列表;对初始关键词列表中的词进行去重处理,确定关键词列表。

在本申请实施例中,通过对初始关键词列表中的词进行去重处理,能够保证关键词列表 中的词的唯一性,使得根据关键词列表中的词组合成的概念更加准确。

S204、根据信息标题中的词顺序,将关键词列表中的词组合形成概念。

示例性的,信息标题中的词顺序为信息标题中各个词的前后顺序。例如,切词结果为 word_tokenize[′05年′,′的′,′A′,′主持′,′的′,′音乐′,′颁奖′,′晚会′,′,′,′还有′,′B′,′C′],表 示上述各个词顺序从前往后为1-12。

由此可见,本申请实施例提供的信息标题中概念的确定方法,通过对信息标题进行依存 句法分析,确定依存句法分析结果,依存句法分析结果包括至少两个元组,元组包括依存关 系、核心词以及依存词;若预设关键词不为复合名词中的依存词,则根据预设关键词以及预 设依存关系,确定信息标题的至少一个关键词;根据预设关键词和关键词,建立关键词列表; 根据信息标题中的词顺序,将关键词列表中的词组合形成概念,使得在根据信息对应的概念 进行检索时,能够被检索到,从而提高了信息被检索到的概率。

为了便于本申请实施例提供的信息标题中概念的确定方法,下面,将通过一个具体的例 子对本申请的技术方案进行详细的描述。

示例性的,信息标题为″五花肉最好吃的新做法,色泽透亮,清香扑鼻,吃起来肥而不 腻″。对该信息标题执行下述步骤:

步骤1、判断信息标题中是否包含预设关键词,若不包含,则退出;若包含,则执行步 骤2。可知,该信息标题中包含预设关键词′做法′。

步骤2、通过依存句法分析判断预设关键词在句子中是否为复合名词中的修饰名词。若 是,则退出,表示在该信息标题中以该预设关键词结尾的短语不可作为一个概念;若否,则 执行下述步骤3。其中,判断预设关键词在句子中是否为复合名词中的修饰名词,即判断预 设关键词是否为依存关系′compound:nn′连接两个词中的依存词,实现方法为:判断 dependency_parse结果列表中的每个元组内的第三个元素是否为预设关键词的在句子中 的切词位置编号,若是则判断该元组第一个元素是否为依存关系′compound:nn′。

示例性的,对于上述信息标题,依存句法分析结果为:dependency_parse[(′ROOT′,0, 9),(′nsubj′,3,1),(′advmod′,3,2),(′amod′,6,3),(′mark′,3,4),(′amod′,6,5), (′nmod:topic′,9,6),(′punct′,9,7),(′nsubj′,9,8),(′punct′,9,10),(′nsubj′,12,11), (′conj′,9,12),(′punct′,9,13),(′dep′,19,14),(′advmod:rcomp′,14,15),(′dobj′,14,16), (′advmod′,19,17),(′neg′,19,18),(′conj′,9,19)]。且分词word_tokenize结果列表为: [′五花肉′,′最′,′好吃′,′的′,′新′,′做法′,′,′,′色泽′,′透亮′,′,′,′清香′,′扑鼻′,′,′,′吃′,′起来′, ′肥′,′而′,′不′,′腻′]。可知句子分词后,预设关键词″做法″是第6个切词片段,位置编号 为6。根据依存句法分析结果,可以确定以预设关键词″做法″为主的树形图。图3a为本 申请实施例提供的一种依存关系树形示意图。图3a可以简化为仅包含切词位置编号的图, 如可以简化为图3b,图3b为本申请实施例提供的一种切词位置编号的树形示意图。图3c 为本申请实施例提供的一种信息标题中的词语的树形示意图。根据步骤2所述,该信息标 题中的预设关键词为元组(′nmod:topic′,9,6)中的第三个元素,且该元组的依存关系不是复 合名词关系,则执行下述步骤3。

步骤3、判断预设关键词是否为某依存关系中的核心词,若否,则退出;若是,则执行 步骤4。示例性的可以通过遍历dependency_parse结果列表中的每个元组,判断元组内的第二个元素是否为预设关键词的在句子中的切词位置编号。在该信息标题中,6分别是dependency_parse结果列表中的元组(′amod′,6,3)和(′amod′,6,5)内的第二个元素。

步骤4、判断依存关系是否为预设一阶依存关系,若否,则退出,若是,则执行步骤5。 根据步骤3所述,依存关系′amod′为上述实施例中的预设一阶依存关系。

步骤5、遍历dependency_parse结果列表,判断是否存在并找出以该依存关系的依存词作为核心词的一个或多个依存关系,若不存在,则退出,若存在,则执行步骤6。根据 步骤3所述,依存关系′amod′的依存词是3和5。以3作为核心词的依存关系有三个,分 别是(′nsubj′,3,1)中的′nsubj′,(′advmod′,3,2)中的′advmod′,(′mark′,3,4)中的′mark′; 以5作为核心词的依存关系不存在。

步骤6、判断这些依存关系是否为该预设一阶依存关系的二阶依存关系,若是,则执行 步骤8;若否,则执行步骤7。根据上述步骤5所述,以3作为核心词的元组的依存关系′nsubj′, ′advmod′和′mark′中,存在′nsubj′是预设一阶依存关系′amod′的二阶依存关系,则以这一 分支路径执行步骤8。以5作为核心词的依存关系不存在,则这一分支路径执行步骤7。具 体的,可以通过图4a表示,图4a为本申请实施例提供的另一种依存关系树形示意图。其 中,图4a可以简化为图4b所示的树形示意图,图4b为本申请实施例提供的再一种依存 关系树形示意图。

步骤7、判断该一阶依存关系是否可独立作为概念,若是,则执行步骤8;若否,则退出。根据上述步骤6所述,依存关系′amod′是可独立作为概念的预设依存关系,则执行步 骤8。

步骤8、将步骤6和步骤7得到的符合预设依存关系路径上的全部单词放入一个候选单 词列表,包含以下单词(零个、一个或多个二阶依存关系的依存词,(一个或多个)一阶依 存关系的核心词和(一个或多个)依存词,该依存词用于连接二阶依存关系)。对于该信息 标题,二阶依存关系′nsubj′的依存词是1,一阶依存关系的核心词是6依存词是3和5。具体的,可参见图5所示,图5为本申请实施例提供的一种候选单词列表中各个词的依存关 系树形示意图。

步骤9、将候选单词列表中的单词去除重复,按照在句子中出现的顺序将单词列表中的 单词组合为概念。根据步骤8所述,按照在句子中出现的顺序1,3,5,6位置的单词[′五花肉′, ′好吃′,′新′,′做法′]组合为概念′五花肉好吃新做法′。

综上所述,通过本申请实施例提供的方法,符合最大匹配原则,并按照支配关系进行匹 配,可以将冗长而复杂的信息标题形成简短而准确的概念,从而提高了信息被检索到的概率。

下面结合具体步骤,对本申请上述实施例提供的信息标题中概念的确定方法进行详细说 明。下面各申请实施例中,具体的方法可参见上述实施例所述,本申请实施例在此不再赘述。

示例性的,信息的标题为″10分钟做出不一样的营养早餐,洋葱鸡蛋饼的简单好吃做 法″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,3),(′nsubj′,3,1), (′mark:clf′,1,2),(′neg′,5,4),(′amod′,8,5),(′mark′,5,6),(′compound:nn′,8,7), (′dobj′,3,8),(′punct′,3,9),(′compound:nn′,12,10),(′compound:nn′,12,11),(′nmod:assmod′,16,12),(′case′,12,13),(′amod′,16,14),(′amod′,16,15),(′dep′,3,16)],title_word_tokenize[′10′,′分钟′,′做出′,′不′,′一样′,′的′,′营养′,′早餐′,′,′,′洋葱′,′鸡 蛋′,′饼′,′的′,′简单′,′好吃′,′做法′]。预设关键词为″做法″,根据元组(′compound:nn′,12, 10),(′compound:nn′,12,11),(′nmod:assmod′,16,12)确定关键词列表中的词为:″洋 葱″,″鸡蛋″,″饼″,″做法″,则该信息的概念为″洋葱鸡蛋饼做法″。

示例性的,信息的标题为″10岁女儿在校车上打扰同学被赶下车这才是整治熊孩子的 正确做法″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,9), (′nummod′,5,1),(′mark:clf′,1,2),(′compound:nn′,4,3),(′compound:nn′,5,4), (′nmod:topic′,9,5),(′compound:nn′,7,6),(′nsubjpass′,9,7),(′auxpass′,9,8),(′dep′, 18,10),(′dobj′,10,11),(′advmod′,18,12),(′cop′,18,13),(′amod′,15,14), (′nmod:assmod′,18,15),(′case′,15,16),(′amod′,18,17),(′dobj′,9,18)]。 title_word_tokenize[′10′,′岁′,′女儿′,′在校′,′车上′,′打扰′,′同学′,′被′,′赶′,′下车′,′这′,′才′,′是′,′整治熊′,′孩子′,′的′,′正确′,′做法′],预设关键词为″做法″,根据元组(′amod′,15, 14),(′nmod:assmod′,18,15),确定关键词列表中的词为:″整治熊″,″孩子″,″做法″, 则该信息的概念为″整治熊孩子做法″。

示例性的,信息的标题为″阳台种植新方法,用它代替土,很有才的做法″,依存句法 分析处理结果为title_dependency_parse[(′ROOT′,0,2),(′nsubj′,2,1),(′amod′,4,3), (′dobj′,2,4),(′punct′,2,5),(′case′,7,6),(′nmod:prep′,8,7),(′conj′,2,8),(′dobj′,8,9), (′punct′,2,10),(′nmod:assmod′,13,11),(′case′,11,12),(′conj′,2,13)]。 title_word_tokenize[′阳台′,′种植′,′新′,′方法′,′,′,′用′,′它′,′代替′,′土′,′,′,′很有才′,′的 ′,′做法′],预设关键词为″方法″,根据元组(′nsubj′,2,1),(′dobj′,2,4),确定关键词列表 中的词为:″阳台″,″种植″,方法″,则该信息的概念为″阳台种植方法″。

示例性的,信息的标题为″保鲜膜也有正确使用方法?但是好多人一直做错,懂的人早 已受益″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,3),(′nsubj′,3, 1),(′advmod′,3,2),(′amod′,6,4),(′compound:nn′,6,5),(′dobj′,3,6),(′punct′,3,7), (′ROOT′,0,5),(′advmod′,5,1),(′dep′,3,2),(′nsubj′,5,3),(′advmod′,5,4),(′punct′,5, 6),(′dep′,11,7),(′dobj′,7,8),(′advmod′,11,9),(′advmod′,11,10),(′conj′,5,11)]。 title_word_tokenize[′保鲜膜′,′也′,′有′,′正确′,′使用′,′方法′,′?′,′但是′,′好多′,′人′,′一直 ′,′做错′,′,′,′懂的′,′人′,′早′,′已′,′受益′],关键词为″方法″,根据元组(′dobj′,3,6),(′amod′, 6,4),(′compound:nn′,6,5),(′advmod′,5,1),确定关键词列表中的词为:″保鲜膜″, ″正确″,″使用″,″方法″,则该信息的概念为″保鲜膜正确使用方法″。

示例性的,信息的标题为″慢性胃炎是什么症状″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,5),(′amod′,2,1),(′nsubj′,5,2),(′cop′,5,3),(′compound:nn′,5,4)]。title_word_tokenize[′慢性′,′胃炎′,′是′,′什么′,′症状′],预设关 键词为″症状″,根据元组(′amod′,2,1),(′nsubj′,5,2),确定关键词列表中的词为:″慢 性″,″胃炎″,″症状″,则该信息的概念为″慢性胃炎症状″。

根据上述实施例所述,本申请提供的信息标题中概念的确定方法,能够精确地确定出信 息标题中的主要词汇,并形成信息的概念,信息的概念能够准确的表示出信息的含义,使得 信息能够被检索到。

上述实施例中,在确定信息标题的至少一个关键词之后,还可以进一步确定信息标题中 是否合有补充关键词。图6为本申请实施例提供的一种确定补充关键词的方法的流程示意 图。根据图6所示,该确定补充关键词的方法包括:

S601、判断预设关键词所在的元组对应的依存关系是否为直接宾语。

其中,直接宾语通过′dobj′依存关系表示,其核心词为谓词或介词。

示例性的,判断预设关键词所在的元组对应的依存关系是否为直接宾语,即判断预设关 键词是否为直接宾语依存关系′dobj′中的依存词,即判断预设关键词是否是句子谓语动词的 依存词。实现方法为:通过遍历dependency_parse结果列表中的每个元组,判断是否存 在一个元组,该元组的第一个元素为′dobj′且第三个元素为预设关键词的在句子中的切词位 置编号。例如,(′dobj′,a,b),其中,b为预设关键词,a为谓语动词。

S602、若预设关键词所在的元组对应的依存关系为直接宾语,则根据预设关键词所在 的元组中的核心词,确定补充关键词。

在根据预设关键词所在的元组中的核心词,确定至少一个补充关键词时,可以判断预设 关键词所在的元组中的核心词是否为预设谓语动词;若预设关键词所在的元组中的核心词是 预设谓语动词,则根据预设关键词所在的元组中的核心词,在依存句法分析结果中确定补充 元组,补充元组中的核心词为预设关键词所在的元组中的核心词;若补充元组对应的依存关 系满足补充预设依存关系,且补充元组中的依存词在信息标题中处于补充元组中的核心词的 前边,则将补充元组中的依存词确定为补充关键词。其中,谓语动词通过直接宾语依存关系 ′dobj′找到,′dep′只是一种补充预设依存关系。

示例性的,判断预设关键词所在的元组中的核心词是否为预设谓语动词,即判断谓语动 词是否为′有′,且预设关键词是否为′表现′,′方法′,′做法′,′作用′等之一。本申请实施例仅以 预设位于动词为′有′为例进行说明,但并不代表本申请实施例仅局限于此。

在本申请实施例中,根据预设关键词所在的元组中的核心词是否为谓语动词,并根据补 充预设依存关系,确定补充元组,并将补充元组中的依存词确定为补充关键词,能够避免组 成概念的词分别在谓语动词的两边,而导致形成的概念不完整的问题,进一步提高了形成的 概念的准确性,从而提高了信息被搜索到的概率。

示例性的,若预设关键词所在的元组中的核心词不是预设谓语动词,且在信息标题中与 补充元组中的核心词相邻的下一个词语在关键词列表中,则对补充元组中的核心词和相邻的 下一个词进行切词处理,生成切词处理结果;若切词处理结果补充元组中的核心词和相邻的 下一个构成了一个词,则将补充元组中的核心词确定为补充关键词。例如,谓语动词为′晒′, 在信息标题中与其相邻的下一个词语′出′在关键词列表中,则对′晒′和′出′进行切词处理,可 以得到切词结果为′晒′和′出′构成了一个词′晒出′,则将′晒′确定为补充关键词。

在本申请实施例中,在预设关键词所在的元组中的核心词不是预设谓语动词时,对补充 元组中的核心词和相邻的下一个词进行切词处理,从而将补充元组中的核心词确定为补充关 键词,能够避免遗漏信息标题中较为重要的词,从而提高了确定的关键词的准确性。

在另一种可能的实现方式中,若预设关键词所在的元组中的核心词为名动词,则将预设 关键词所在的元组中的核心词确定为补充关键词,能够避免遗漏关键词,从而提高了确定的 概念的准确性。例如,预设关键词所在的元组中的核心词为名动词′减肥′,则直接将′减肥′ 确定为补充关键词。

由此可见,本申请实施例提供的补充关键词的确定方法,通过判断预设关键词所在的元 组对应的依存关系是否为直接宾语;若预设关键词所在的元组对应的依存关系为直接宾语, 则根据预设关键词所在的元组中的核心词,确定补充关键词,能够避免将信息标题中的部分 关键词遗漏,使得形成的概念更加准确。

下面结合具体步骤,对本申请上述实施例提供的确定补充关键词的方法进行详细说明。 下面各申请实施例中,根据依存句法分析处理结果确定补充关键词的方法均可参见上述实施 例所述,本申请实施例在此不再赘述。

示例性的,信息的标题为″肛裂有哪些预防方法″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,3),(′punct′,3,1),(′dep′,3,2),(′det′,6,4), (′compound:nn′,6,5),(′dobj′,3,6)]。切词结果为:title_word_tokenize[′,′,′肛裂′,′有′,′哪些′,′预防′,′方法′],预设关键词为″方法″,通过上述实施例所述的方法,可以确定 关键词列表中的词为:″肛裂″,″预防″,″方法″,则信息的概念为″肛裂预防方法″。

示例性的,信息的标题为″01大姨妈有这3个异常表现,暗示大病已上线,一再忽视晚年后悔莫及″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,3), (′punct′,3,1),(′dep′,3,2),(′det′,8,4),(′dep′,4,5),(′mark:clf′,5,6),(′amod′,8,7), (′dobj′,3,8),(′punct′,3,9),(′conj′,3,10),(′nsubj′,13,11),(′advmod′,13,12), (′ccomp′,10,13),(′punct′,13,14),(′dep′,20,15),(′advmod′,17,16),(′dep′,20,17), (′nsubj′,19,18),(′ccomp′,17,19),(′conj′,13,20)]。切词结果为: title_word_tokenize[′01′,′大姨妈′,′有′,′这′,′3′,′个′,′异常′,′表现′,′,′,′暗示′,′大病′,′已′, ′上线′,′,′,′一′,′再′,′忽视′,′晚年′,′后悔′,′莫及′],预设关键词为″表现″,通过上述实施 例所述的方法,可以确定关键词列表中的词为:″大姨妈″,″异常″,″表现″,则信息的 概念为″大姨妈异常表现″。

示例性的,信息的标题为″01奇创计划,D5大最揪心镜头合集,紧张之余是满满的感 动″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,3),(′punct′,3,1), (′dep′,3,2),(′det′,8,4),(′dep′,4,5),(′mark:clf′,5,6),(′amod′,8,7),(′dobj′,3,8), (′punct′,3,9),(′conj′,3,10),(′nsubj′,13,11),(′advmod′,13,12),(′ccomp′,10,13), (′punct′,13,14),(′dep′,20,15),(′advmod′,17,16),(′dep′,20,17),(′nsubj′,19,18), (′ccomp′,17,19),(′conj′,13,20)]。切词结果为:title_word_tokenize[′01′,′奇创′,′计划 ′,′,′,′D′,′5′,′大′,′最′,′揪心′,′镜头′,′合集′,′,′,′紧张′,′之余′,′是′,′满满′,′的′,′感动′],预 设关键词为″镜头″,通过上述实施例所述的方法,可以确定关键词列表中的词为:″揪心″, ″镜头″,″合集″,则信息的概念为″揪心镜头合集″。

示例性的,信息的标题为″01接地气舞蹈,农民心声舞曲《》,动感好看″,依存句 法分析处理结果为title_dependency_parse[(′ROOT′,0,13),(′punct′,13,1),(′dep′,13,2),(′compound:nn′,4,3),(′dobj′,2,4),(′punct′,13,5),(′compound:nn′,8,6), (′compound:nn′,8,7),(′dep′,13,8),(′punct′,13,9),(′punct′,13,10),(′punct′,13,11),(′nsubj′,13,12)]。切词结果为:title_word_tokenize[′01′,′接地′,′气′,′舞蹈′,′,′,′农民′,′ 心声′,′舞曲′,′《′,′》′,′,′,′动感′,′好看′],预设关键词为″舞蹈″,通过上述实施例所述的 方法,可以确定关键词列表中的词为:″接地″,″气″,″舞蹈″,则信息的概念为″接地 气舞蹈″。

示例性的,信息的标题为″01最新起泡胶做法!只需用非牛顿流体,就能成功起泡变 大!无硼砂″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,3),(′punct′, 3,1),(′advmod′,3,2),(′compound:nn′,5,4),(′dobj′,3,5),(′punct′,3,6),(′ROOT′,0,3), (′advmod′,3,1),(′xcomp′,3,2),(′advmod′,5,4),(′ccomp′,3,5),(′dobj′,5,6),(′punct′, 3,7),(′advmod′,10,8),(′aux:modal′,10,9),(′conj′,3,10),(′compound:vc′,12,11), (′conj′,10,12),(′punct′,3,13),(′ROOT′,0,1),(′dobj′,1,2)]。切词结果为: title_word_tokenize[′01′,′最新′,′起泡′,′胶′,′做法′,′!′,′只′,′需′,′用′,′非′,′牛顿′,′流体′,′, ′,′就′,′能′,′成功′,′起泡′,′变大′,′!′,′无′,′硼砂′],预设关键词为″做法″,通过上述实施例 所述的方法,可以确定关键词列表中的词为:″起泡″,″胶″,″做法″,则信息的概念为 ″起泡胶做法″。

示例性的,信息的标题为″01儿童益智:孩子们喜欢的动手能力益智视频!来跟着一 起学习吧!″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,3),(′punct′, 3,1),(′compound:nn′,3,2),(′parataxis:prnmod′,3,4),(′nsubj′,6,5),(′dep′,4,6), (′mark′,6,7),(′acl′,6,8),(′compound:nn′,11,9),(′compound:nn′,11,10),(′dobj′,8, 11),(′punct′,6,12),(′ROOT′,0,6),(′xcomp′,2,1),(′dep′,6,2),(′advmod′,4,3), (′ccomp′,2,4),(′discourse′,6,5)]。切词结果为:title_word_tokenize[′,′,′儿童′,′益智 ′,′:′,′孩子们′,′喜欢′,′的′,′动手′,′能力′,′益智′,′视频′,′!′,′来′,′跟着′,′一起′,′学习′,′吧′,′! ′],预设关键词为″视频″,通过上述实施例所述的方法,可以确定关键词列表中的词为: ″动手″,″能力″,″益智″,″视频″,则信息的概念为″动手能力益智视频″。

示例性的,信息的标题为″″X智造″亿航184飞行器公布载人测试视频″,依存句法分 析处理结果为title_dependency_parse[(′ROOT′,0,9),(′punct′,9,1),(′nmod:assmod′, 3,2),(′dep′,8,3),(′punct′,8,4),(′dep′,6,5),(′nmod:assmod′,8,6),(′dep′,8,7), (′nsubj′,9,8),(′ccomp′,9,10),(′compound:nn′,12,11),(′dobj′,10,12)]。切词结果为: title_word_tokenize[″″,′X′,智造′,″″,′亿′,′航′,′184′,′飞行器′,′公布′,′载人′,′测试′,′视频 ′],预设关键词为″明星″,通过上述实施例所述的方法,可以确定关键词列表中的词为: ″减肥″,″大″,″明星″,则信息的标题为″减肥大明星″。

示例性的,信息标题为″10年了才清楚,洗碗池上的小孔有这么大作用,是真的厉害, 快试试″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,18),(′dep′,5, 1),(′mark:clf′,1,2),(′aux:asp′,5,3),(′advmod′,5,4),(′dep′,18,5),(′punct′,5,6), (′nmod′,10,7),(′case′,7,8),(′case′,7,9),(′dep′,11,10),(′conj′,5,11),(′advmod′,13, 12),(′amod′,14,13),(′dobj′,11,14),(′punct′,18,15),(′cop′,18,16),(′advmod′,18, 17),(′punct′,18,19),(′advmod′,21,20),(′conj′,18,21)]。切词结果为: title_word_tokenize[′10′,′年′,′了′,′才′,′清楚′,′,′,′洗碗池′,′上′,′的′,小孔′,′有′,′这么′,′ 大′,′作用′,′,′,′是′,′真的′,′厉害′,′,′,′快′,′试试′],预设关键词为″作用″,通过上述实施 例所述的方法,可以确定关键词列表中的词为:″小孔″,″大″,″作用″,则信息的概念 为″小孔大作用″。

示例性的,信息标题为″10分钟燃脂暴汗女团舞,收腹瘦腿,3首连跳,超减肥瘦身″, 依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,3),(′dep′,3,1),(′mark:clf′,1,2),(′nmod:assmod′,6,4),(′compound:nn′,6,5),(′dobj′,3,6),(′punct′,3, 7),(′nsubj′,9,8),(′conj′,3,9),(′dobj′,9,10),(′punct′,3,11),(′nsubj′,15,12), (′mark:clf′,12,13),(′advmod′,15,14),(′conj′,3,15),(′punct′,15,16),(′xcomp′,18, 17),(′conj′,15,18),(′dobj′,18,19)]。切词结果为:title_word_tokenize[′10′,′分钟′,′ 燃′,′脂暴汗′,′女团′,′舞′,′,′,′收腹′,′瘦′,′腿′,′,′,′3′,′首′,′连′,′跳′,′,′,′超′,′减肥′,′瘦身 ′],预设关键词为″作用″,通过上述实施例所述的方法,可以确定关键词列表中的词为: ″燃″,″脂暴汗″,″女团″,″舞″,则信息的概念为″燃脂暴汗女团舞″。

示例性的,信息标题为″#赚钱,一个90后小伙不花一分钱开火锅店的故事,看懂的人都有商业头脑#思维″,依存句法分析处理结果为title_dependency-parse[(′ROOT′,0,2),(′punct′,2,1),(′punct′,2,3),(′nummod′,6,4),(′mark:clf′,4,5),(′advmod:loc′,10, 6),(′case′,6,7),(′nsubj′,10,8),(′neg′,10,9),(′conj′,2,10),(′nummod′,13,11),(′mark:clf′,11,12),(′dobj′,10,13),(′conj′,10,14),(′compound:nn′,16,15),(′nmod:assmod′,18,16),(′case′,16,17),(′dobj′,14,18),(′punct′,10,19),(′acl′,22, 20),(′mark′,20,21),(′nsubj′,24,22),(′advmod′,24,23),(′conj′,10,24), (′compound:nn′,26,25),(′dobj′,24,26),(′punct′,10,27),(′punct′,10,28),(′conj′,10, 29)]。切词结果为:title_word_tokenize[′#′,′赚钱′,′,′,′一′,′个′,′90′,′后′,小伙′,′不′,′ 花′,′一′,′分′,′钱′,′开火′,′锅′,′店′,′的′,′故事′,′,′,′看懂′,′的′,′人′,′都′,′有′,′商业′,′头脑′, ′,′,′#′,′思维′],预设关键词为″作用″,通过上述实施例所述的方法,可以确定关键词列 表中的词为:″开火″,″锅″,″店″,″故事″,则信息的概念为″开火锅店故事″。

根据上述实施例所述,本申请实施例提供的补充候选词列表的方法能够避免遗漏信息标 题中的部分关键词,使得确定的信息的概念更加准确。

为了便于理解本申请实施例提供的技术方案,下面,将根据,以用户通过本申请实施例 图1中所示的装置,对视频进行检索的场景为例进行描述,具体的,可参见图7所述,图7 为本申请实施例提供的一种视频标题中概念的确定方法的流程示意图。如图7所示,该视频标题中概念的确定方法可以包括以下步骤:

S701、接收视频查询请求。

其中,视频查询请求中可以包括文本信息。

示例性的,用户可以通过图1所示的装置,用户可以通过控制装置输入信息标题中概 念的确定请求,例如,用户可以对着遥控器说″我想看足球比赛视频″,或者″宫保鸡丁的做法″等语音,输入视频查询请求。可以理解的是,显示设备在接收用户输入的语音的视频查询请求之后,将包括视频查询请求的语音传输至控制器,控制器通过对接收的语音进行处 理,生成对应的文本信息。其中,对接收的语音进行处理可以为降噪处理,纠错处理等,本 申请实施例对于处理方式不做具体限定。

在另一种可能的实现方式中,控制器在接收视频查询请求时,可以是用户直接在显示设 备上输入文本信息。例如,用户通过遥控器在显示设备上输入″蔬菜沙拉的做法″或者″新 闻联播″等文本信息。

在接收到视频查询请求后,可以执行下述S702:

S702、获取视频库中多个视频各自对应的概念。

在本申请实施例中,获取的视频库中多个视频各自对应的概念,可以通过对多个视频中 每一个视频的原始标题进行依存句法分析,根据原始标题中的预设关键词在原始标题中确定 至少一个关键词,并根据多个关键词在原始标题中词顺序,将所有关键词重新组合,从而确 定多个视频中每一个视频各自对应的概念,具体的可参见上述实施例所述的方法,本申请实 施例在此不再赘述。

S703、根据视频查询请求对视频库中多个视频各自对应的概念进行检索。

示例性的,在根据视频查询请求对视频库中多个视频各自对应的概念进行检索时,可以 根据视频查询请求中的文本信息对应的文本对多个视频各自对应的概念的文本进行检索,通 过将多个视频对应的概念的文本与文本信息对应的文本进行匹配,检索出匹配成功的视频, 其中匹配成功可以根据匹配度的大小确定,即,可以将匹配度大于匹配度阈值的视频确定为 匹配成功,从而检索出匹配成功的视频。例如,若视频对应的概念的文本与文本信息对应的 文本的匹配度大于70%,则确定该视频匹配成功。在本申请实施例中,对于匹配度的大小 不做具体限定,此外,本申请实施例仅以根据文本匹配为例进行说明,具体的可根据实际情 况选择其他的匹配方法,本申请实施例对此不做任何限定。

S704、输出检索到的视频。

示例性的,可以通过显示设备输出与文本信息匹配成功的视频。可以理解的是,显示设 备在显示匹配成功的视频时,可以相应的显示各个视频的原始标题。

本申请实施例提供的信息标题中概念的确定方法,在用于查询视频时,接收视频查询请 求;获取视频库中多个视频各自对应的概念;信息标题中概念的确定请求中包括文本信息; 获取视频库中多个视频各自对应的概念;根据视频查询请求对视频库中多个视频各自对应的 概念进行检索;输出检索到的视频。本申请提供获取的视频对应的概念为原始标题中的部分 词语的组合,能够冗长复杂的原始标题进行简化为概念,使得在根据视频查询请求对视频库 中的视频概念进行检索时,使得视频能够被检索到,增加视频被检索到的概率,从而有效的 提高了视频的曝光率。

在上述实施例的基础上,在获取视频库中多个视频各自对应的概念时,还需要根据视频 库中各视频的原始标题,确定视频的概念。可参见图8所示,图8为本申请实施例提供的 一种确定视频概念的方法的流程图示意图。如图8所示,确定视频概念的方法包括:

S801、获取视频库中各视频的原始标题。

示例性的,视频库中各视频的原始标题为各视频的发布者为视频附加的标题。例如,关 于动漫″柯南″的片段节选视频,该视频的原始标题为关于足球比赛的视频,该视频的原始 标题″足球赛中最刺激的终场绝杀,这样的绝杀真是买年难得一见呀!″。

S802、针对每个视频的原始标题,对原始标题进行依存句法分析,确定依存句法分析 结果。

根据上述实施例所述,依存句法分析结果包括至少两个元组,每个元组中均包括依存关 系、核心词和依存词。

示例性的,预设关键词可以为业务关键词,用于表示每个视频含义的关键词。预设关键 词可以为电影、电视剧、小说、漫画、动漫、食谱、菜谱、应用程序、动画片、症状、攻略、特产、方法、危害、表现、功效、配方、副作用等。本申请仅以上述预设关键词为例进行说 明,但并不代表本申请实施例仅局限于此。具体的预设关键词,可以根据实际情况进行设定。

在得到依存句法分析的处理结果后,可以执行下述S803:

S803、根据至少依存句法分析结果,确定至少一个关键词,并建立关键词列表。

根据至少依存句法分析结果,确定至少一个关键词的方法与上述实施例相同,本申请实 施例再次不再赘述。

示例性的,在建立关键词列表时,可以根据预设关键词以及确定的至少一个关键词,建 立初始关键词列表,并通过去重处理确定关键词列表。在建立初始关键词列表之后,还可以 利用上述实施例所述的确定补充关键词的方法,确定出视频原始标题中的补充关键词。

S804、根据每个视频原始标题中的词顺序,将关键词列表中的词组合形成概念。

例如,视频的原始标题为″01学习音乐的基本音标教学视频认识颜色学习英语儿歌童 谣!″,依存句法分析处理结果为title_dependency_parse[(′ROOT′,0,9),(′dep′,3,1), (′compound:nn′,3,2),(′nmod:assmod′,8,3),(′case′,3,4),(′amod′,6,5), (′compound:nn′,8,6),(′compound:nn′,8,7),(′nsubj′,9,8),(′dobj′,9,10),(′conj′,9,11),(′compound:nn′,13,12),(′compound:nn′,14,13),(′dobj′,11,14),(′punct′,9,15)]。 title_word_tokenize[′01′,′学习′,′音乐′,′的′,′基本′,′音标′,′教学′,′视频′,′认识′,′颜色′,′ 学习′,′英语′,′儿歌′,′童谣′,′!′],预设关键词为″音乐″,根据元组(′compound:nn′,3,2), (′nmod:assmod′,8,3)确定加入关键词列表中的词为:″学习″,″音乐″,″视频″,即 视频的概念为″学习音乐视频″。

综上所述,本申请实施例提供的信息标题中概念的确定方法在用于对视频的原始标题进 行处理时,能够提取出冗长而复杂的视频的原始标题中的部分关键词,并组合成为视频的概 念,使得在根据视频的概念进行检索时,能够提高视频被检索到的概率。

示例性的,在本申请的另一实施例中,本申请提供的技术方案,在应用于对视频的标题 中的概念进行确定时,在确定各个视频的概念之后,可以根据视频的概念为用户推送视频, 这样能够将标题冗长而复杂的视频推送给用户,提高了视频被推送的概率。

下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中 未披露的细节,请参照本申请方法实施例。

图9为本申请实施例提供的一种信息标题中概念的确定装置90的结构示意图。该信息 标题中概念的确定装置应用于显示设备。如图9所示,本申请实施例提供的信息标题中概 念的确定装置90包括:

分析模块901,用于对信息标题进行依存句法分析,确定依存句法分析结果,依存句法 分析结果包括至少两个元组,元组包括依存关系、核心词以及依存词;

处理模块902,用于在预设关键词不为复合名词中的依存词时,根据预设关键词以及预 设依存关系,确定信息标题的至少一个关键词;

处理模块902,还用于根据预设关键词和关键词,建立关键词列表;

确定模块903,用于根据信息标题中的词顺序,将关键词列表中的词组合形成概念。

在一些可能的实现方式中,处理模块902,具体用于根据预设关键词,在依存句法分析 结果中确定目标元组,目标元组中的核心词为预设关键词;若目标元组对应的依存关系满足 第一预设依存关系,则获取目标元组中的依存词。将目标元组中的依存词确定为新的预设关 键词,并将隶属于第一预设依存关系的第二预设依存关系作为新的第一预设依存关系,根据 上述步骤,递归的匹配完成至少一个完整的预设依存关系序列,每个完整的预设依存关系序 列由多个预设依存关系组成,序列中相邻的两个预设依存关系之间具有隶属关系,其中,第 一预设依存关系对应的依存词为第二预设依存关系对应的核心词。并根据目标元组中的依存 词,确定至少一个关键词。

在一些可能的实现方式中,处理模块902,具体用于根据预设关键词和关键词,建立初 始关键词列表;并对初始关键词列表中的词进行去重处理,确定关键词列表。

在一些可能的实现方式中,装置还包括补充模块904,补充模块904,用于判断预设关 键词所在的元组对应的依存关系是否为直接宾语;在预设关键词所在的元组对应的依存关系 为直接宾语时,根据预设关键词所在的元组中的核心词,确定补充关键词。

在一些可能的实现方式中,补充模块904,具体用于判断预设关键词所在的元组中的核 心词是否为预设谓语动词;在预设关键词所在的元组中的核心词是预设谓语动词时,根据预 设关键词所在的元组中的核心词,在依存句法分析结果中确定补充元组,补充元组中的核心 词为预设关键词所在的元组中的核心词。在补充元组对应的依存关系满足补充预设依存关系, 且补充元组中的依存词在信息标题中处于补充元组中的核心词的前边时,将补充元组中的依 存词确定为补充关键词。

在一些可能的实现方式中,补充模块904,具体用于在预设关键词所在的元组中的核心 词不是预设谓语动词,且在信息标题中与补充元组中的核心词相邻的下一个词语在关键词列 表中时,对补充元组中的核心词和相邻的下一个词进行切词处理,生成切词处理结果。在切 词处理结果补充元组中的核心词和相邻的下一个构成了一个词时,将补充元组中的核心词确 定为补充关键词。

在一些可能的实现方式中,补充模块904,具体用于在预设关键词所在的元组中的核心 词为名动词时,将预设关键词所在的元组中的核心词确定为补充关键词。

需要说明的是,本实施例提供的装置可用于执行上述的信息标题中概念的确定方法,其 实现方式和技术效果类似,本实施例此处不再赘述。

需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实 现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软 件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理 元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,处理模块可以为单独设立 的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式 存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上处理模块的功能。 其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这 里的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步 骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个 或多个ASIC(Application Specific Integrated Circuit,特定集成电路),或,一个或多 个DSP(Digital Signal Processor,数字信号处理器),或,一个或者多个FPGA(FieldProgrammable Gate Array,现场可编程门阵列)等。再如,当以上某个模块通过处理元 件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如CPU或其它可以调用 程序代码的处理器。再如,这些模块可以集成在一起,以SOC(System-on-a-Chip,片上 系统)的形式实现。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当 使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一 个或多个计算机程序。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本 申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他 可编程装置。计算机程序可以存储在计算机可读存储介质中,或者从一个计算机可读存储介 质向另一个计算机可读存储介质传输,例如,计算机程序可以从一个网站站点、计算机、服 务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、 无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读 存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服 务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、 光介质(例如,DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

图10为本申请实施例提供的另一种信息标题中概念的确定装置100的结构示意图,示 例性的,请参见图10所示,该信息标题中概念的确定装置100可以包括处理器1001和存 储器1002;其中,

所述存储器1002,用于存储计算机程序。

所述处理器1001,用于读取所述存储器1002存储的计算机程序,并根据所述存储器 1002中的计算机程序执行上述任一实施例中的信息标题中概念的确定方法的技术方案。

可选地,存储器1002既可以是独立的,也可以跟处理器1001集成在一起。当存储器1002是独立于处理器1001之外的器件时,信息标题中概念的确定装置100还可以包括: 总线,用于连接存储器1002和处理器1001。

可选地,本实施例还包括:通信接口,该通信接口可以通过总线与处理器1001连接。 处理器1001可以控制通信接口来实现上述信息标题中概念的确定装置100的接收和发送 的功能。

本申请实施例所示的信息标题中概念的确定装置100,可以执行上述任一实施例中的信 息标题中概念的确定方法的技术方案,其实现原理以及有益效果与信息标题中概念的确定方 法的实现原理及有益效果类似,可参见信息标题中概念的确定方法的实现原理及有益效果, 此处不再进行赘述。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机 程序,当计算机程序被处理器执行时实现如上任一方法实施例所述的信息标题中概念的确定 方法。

本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算 机程序存储在计算机可读存储介质中,至少一个处理器可以从该计算机可读存储介质中读取 计算机程序,该至少一个处理器执行计算机程序时可实现如上任一方法实施例所述的信息标 题中概念的确定方法。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参 照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以 对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替 换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不 是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修 改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本 领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:多媒体合集的管理方法、装置及电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!