视频分类方法、装置、电子设备和计算机可读存储介质

文档序号:7767 发布日期:2021-09-17 浏览:25次 英文

视频分类方法、装置、电子设备和计算机可读存储介质

技术领域

本公开涉及短视频

技术领域

,尤其涉及一种视频分类方法、装置、电子设备和计算机可读存储介质。

背景技术

短视频凭借其短平快的内容消费模式迅速风靡全球。截至2020年底,全球近一半的网民曾经下载或使用过短视频平台。在众多短视频内容中,影视(合集)类短视频符合大众的娱乐需求,深受用户喜爱,而影视(合集)类短视频本身也包含许多不同的内容,若要实现精准的用户推荐,则需要对这些短视频做合理的分类。

相关技术中存在许多应用于短视频的分类方法,但通常为基于深度学习的图像分析方法,需要对短视频进行抽帧,然后对所抽取的单帧或多帧图片进行分析,最终得到分类结果。但抽帧而来的图片数据并不能完整表达视频的内容,这种图片域和视频域信息的不一致会降低分类准确度。同时,基于深度学习的图像分析对计算资源的消耗较大,不便于推广应用。

发明内容

本公开提供一种视频分类方法、装置、电子设备和计算机可读存储介质,以至少解决相关技术中的分类准确度低、不便于推广应用的问题,也可不解决任何上述问题。

根据本公开的第一方面,提供了一种视频分类方法,所述视频分类方法包括:获取目标视频的文字信息;根据所述文字信息确定所述目标视频的类型,其中,所述文字信息包括第一文字信息和第二文字信息,其中,所述第一文字信息是基于所述目标视频的封面帧获得的,所述第二文字信息是通过对所述目标视频的音频数据进行转化而获得的。

可选地,所述根据所述文字信息确定所述目标视频的类型,包括:根据所述第一文字信息确定所述目标视频的类型;当根据所述第一文字信息无法确定所述目标视频的类型时,根据所述第一文字信息和所述第二文字信息确定所述目标视频的类型或根据所述第二文字信息确定所述目标视频的类型。

可选地,所述根据所述文字信息确定所述目标视频的类型,包括:根据所述第二文字信息确定所述目标视频的类型;当根据所述第二文字信息无法确定所述目标视频的类型时,根据所述第一文字信息和所述第二文字信息确定所述目标视频的类型或根据所述第一文字信息确定所述目标视频的类型。

可选地,所述根据所述第一文字信息确定所述目标视频的类型,包括:若所述第一文字信息中包含目标关键词,且所述第一文字信息中包含的目标关键词的数量大于或等于设定量,确定所述目标视频的类型为内容拓展类,其中,所述目标关键词用于指示所述内容拓展类的视频。

可选地,所述根据所述第二文字信息确定所述目标视频的类型,包括:提取所述第二文字信息的特征数据,所述特征数据包括人称代词特征和语速特征;根据所述特征数据,确定所述目标视频的类型是否为内容展示类。

可选地,所述根据所述特征数据,确定所述目标视频的类型是否为内容展示类,包括:若所述人称代词特征和所述语速特征同时满足对话条件,确定所述目标视频的类型为所述内容展示类;若所述人称代词特征和所述语速特征均不满足所述对话条件,确定所述目标视频的类型为所述内容拓展类或第三方解说类。

可选地,在所述目标视频包括至少两个视频时,所述若所述人称代词特征和所述语速特征同时满足对话条件,确定所述目标视频的类型为所述内容展示类,包括:若所述至少两个视频的所述人称代词特征和所述语速特征同时满足所述对话条件,确定所述目标视频的类型为所述内容展示类。

可选地,所述根据所述特征数据,确定所述目标视频的类型是否为内容展示类,包括:根据所述特征数据、所述特征数据的阈值和所述特征数据的权重确定所述目标视频的对话值;根据所述对话值与对话阈值的关系,确定所述目标视频的类型是否为内容展示类。

可选地,所述目标视频包括至少一个视频,其中,在所述目标视频包括多个视频时,所述目标视频的对话值为所述多个视频的对话值的统计值。

可选地,所述提取所述第二文字信息的特征数据,所述特征数据包括人称代词特征和语速特征,包括:统计所述第二文字信息中指定时段内出现的第一和第二人称代词的数量,作为所述人称代词特征;统计所述第二文字信息中指定时段内文本持续出现的时长,和/或统计指定时段内文本字数与文本持续出现的时长的比值,作为所述语速特征。

根据本公开的第二方面,提供了一种视频分类装置,所述视频分类装置包括:获取单元,被配置为:获取目标视频的文字信息;判断单元,被配置为:根据所述文字信息确定所述目标视频的类型,其中,所述文字信息包括第一文字信息和第二文字信息,其中,所述第一文字信息是基于所述目标视频的封面帧获得的,所述第二文字信息是通过所述目标视频的音频数据进行转化而获得的。

可选地,所述判断单元还被配置为:根据所述第一文字信息确定所述目标视频的类型;当根据所述第一文字信息无法确定所述目标视频的类型时,根据所述第一文字信息和所述第二文字信息确定所述目标视频的类型或根据所述第二文字信息确定所述目标视频的类型。

可选地,所述判断单元还被配置为:根据所述第二文字信息确定所述目标视频的类型;当根据所述第二文字信息无法确定所述目标视频的类型时,根据所述第一文字信息和所述第二文字信息确定所述目标视频的类型或根据所述第一文字信息确定所述目标视频的类型。

可选地,所述判断单元还被配置为:若所述第一文字信息中包含目标关键词,且所述第一文字信息中包含的目标关键词的数量大于或等于设定量,确定所述目标视频的类型为内容拓展类,其中,所述目标关键词用于指示所述内容拓展类的视频。

可选地,所述判断单元还被配置为:提取所述第二文字信息的特征数据,所述特征数据包括人称代词特征和语速特征;根据所述特征数据,确定所述目标视频的类型是否为内容展示类。

可选地,所述判断单元还被配置为:若所述人称代词特征和所述语速特征同时满足对话条件,确定所述目标视频的类型为内容展示类;若所述人称代词特征和所述语速特征均不满足所述对话条件,确定所述目标视频的类型为所述内容拓展类或第三方解说类。

可选地,在所述目标视频包括至少两个视频时,所述判断单元还被配置为:若所述至少两个视频的所述人称代词特征和所述语速特征同时满足所述对话条件,确定所述目标视频的类型为内容展示类。

可选地,所述判断单元还被配置为:根据所述特征数据、所述特征数据的阈值和所述特征数据的权重确定所述目标视频的对话值;根据所述对话值与对话阈值的关系,确定所述目标视频的类型是否为所述内容展示类。

可选地,所述目标视频包括至少一个视频,其中,在所述目标视频包括多个视频时,所述目标视频的对话值为所述多个视频的对话值的统计值。

可选地,所述判断单元还被配置为:统计所述第二文字信息中指定时段内出现的第一和第二人称代词的数量,作为所述人称代词特征;统计所述第二文字信息中指定时段内文本持续出现的时长,和/或统计指定时段内文本字数与文本持续出现的时长的比值,作为所述语速特征。

根据本公开的第三方面,提供了一种电子设备,所述电子设备包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如上所述的视频分类方法。

根据本公开的第四方面,提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行如上所述的视频分类方法。

根据本公开的第五方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令被至少一个处理器执行时实现如上所述的视频分类方法。

本公开的实施例提供的技术方案至少带来以下有益效果:

根据本公开的视频分类方法和视频分类装置,不直接使用图片数据而是使用文本数据作为视频分类的输入参数,可以高效反映视频域的信息内容,解决了图片域和视频域信息不一致的问题,有助于提高分类结果的准确度。并且文字信息的数据量小,便于分析,可充分降低数据处理量,同时可减少内存占用,提升处理速度,有助于推广本公开的视频分类方法和视频分类装置的应用场景。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的视频分类方法的流程图。

图2是示出根据本公开的一个具体实施例的视频分类方法的流程示意图。

图3是示出根据本公开的示例性实施例的视频分类装置的框图。

图4是根据本公开的示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。

影视(合集)类短视频符合大众的娱乐需求,深受用户喜爱。合集这一概念主要用于短视频平台中,指同一内容由于视频长度限制切分成多集的集合。

相关技术中存在许多应用于短视频的分类方法,得益于深度学习尤其是计算机视觉领域的发展,这些方法通常采用卷积神经网络作为分类器。在具体实现上,它们均需要对短视频进行抽帧,然后利用所抽取的单帧或多帧图片作为分类器的输入数据,最终得到分类结果。

这类方法主要存在如下缺点:

1、表示一致性差。现有方案分类器输入的视觉模态数据是图片,而短视频内容载体为视频。相较于完整的视频,抽帧而来的图片数据包含的信息有限不能对视频进行完整表达。这种图片域和视频域信息的不一致将严重影响分类器的性能。

2、模型复杂度高。更低的模型复杂度以及更快的推理速度可以让某种方法的应用场景更加普遍,尽管深度学习算法具有强大的拟合能力可以大大提高分类问题的准确率,但是其对计算资源的消耗也不能忽视。例如相关技术中采用的多层multi-head注意力网络,对算力的需求尤为严重,极大增加了模型部署的成本。

3、数据标注量大。深度学习是典型的基于数据驱动的方法,数据量决定了模型的上限。为了获得更好的性能,企业通常需要耗费大量的人力财力对数据进行清洗和标注。

本公开提供的视频分类方法主要应用于搜索场景下对影视类合集的资源类型划分。不同于现有短视频分类方法动辄几十上百的类别体系,本公开的使用场景只需要将影视类短视频划分成解说、剪辑和花絮三大类型。当用户输入某影视IP的关键词时,平台可以根据用户画像优先展示解说、剪辑或者花絮类,以便于满足搜索推荐场景中用户的细粒度需求。对于喜欢看解说类型的用户优先展示或推送解说类视频;看过同一IP的解说类型后再推送其他资源类型的合集。

下面对这三类进行定义:

解说类,是短视频生产者对影视剧情节的分析讲解,以便于用户快速理解电影剧情以及导演想传达的思想。

剪辑类,顾名思义是对影视精彩片段进行剪辑,直接呈现给用户。除了附加的背景音乐外,无生产者画面或声音出现。

花絮类,主要有电影拍摄过程中产生的花絮以及影视中蕴含的冷知识或是彩蛋。

一条短视频通常包含图像、文字、语音等多个模态的数据。如何从众多数据中挖掘有效的数据对影视(合集)类短视频按资源类型进行划分是本公开的重点。本公开提供的视频分类方法的核心在于,图片作为视觉数据并不能很好实现影视(合集)类资源类型的划分,因为解说类和剪辑类视觉差异几乎一样。彼此的根本区别在于解说类以及花絮类在视频中引入了作者自己的声音。而解说类与花絮类作为同样引入作者声音的视频,主要区别在于花絮类的封面一般包含“花絮”、“幕后冷知识”等关键性词语。故选择了引入视频封面的文字信息和语音数据作为输入数据。

接下来将以影视(合集)类短视频划分为解说类、剪辑类、花絮类这三类为例,参照图1至图4具体描述根据本公开的示例性实施例的视频分类方法和装置。可以理解的是,实际应用中,对于影视(合集)类短视频以外的其他具有类似特性的视频,也可按照本公开提供的视频分类方法进行分类,相应地,可将这些具有类似特性的视频划分为第三方解说类(表示作者对特定内容的解说,例如前述的解说类)、内容展示类(表示以某种形式对特定内容进行直接展示,例如前述的剪辑类就是以剪辑的形式来展示影视剧)、内容拓展类(表示对特定内容的相关内容的介绍,例如前述的花絮类)。

图1是示出根据本公开的示例性实施例的视频分类方法的流程图。

参照图1,在步骤101,获取目标视频的文字信息。具体来说,文字信息包括第一文字信息和第二文字信息。

其中,第一文字信息是基于目标视频的封面帧获得的,例如可采用光学字符识别技术(OCR,Optical Character Recognition)来提取第一文字信息,OCR的具体实现在本公开的实施例中不做展开讨论。封面帧通常包含目标视频的标题,因而能够较准确地反映目标视频的内容,可用于识别花絮类视频。通过获取封面帧的第一文字信息,只需对更具有参考价值的封面帧的图片进行处理,可大幅降低数据处理量,并且仅需提取其中的文字信息,对于其中参考价值较小的图像信息不做分析,可进一步降低数据处理量,提升数据处理效率。

第二文字信息则是通过对目标视频的音频数据进行转化而获得的。音频数据可反映是否引入了作者的声音,若引入了作者的声音,则可认为目标视频的类型是花絮类或解说类,若未引入作者的声音,则可认为是剪辑类,因而能够用于识别剪辑类。在影视(合集)类短视频中,语音信号主要由作者声音、剧内人物对话、剧内场景配音、作者添加的背景音乐等一系列声音组成,其中剧内音效以及背景音乐属于噪声信号,会严重损害分类器的性能。通过将音频数据转化为第二文字信息,可在抑制噪声的同时减少输入信号的冗余,并可对文意进行分析,不必分析说话者的音色,可降低分析难度和数据处理量。第二文字信息的获得例如可采用自动语音识别技术(ASR,Automatic Speech Recognition),ASR的具体实现在本公开的实施例中不做展开讨论。

进一步地,还可提取目标视频中的字幕信息,作为对第二文字信息的补充。具体来说,可先将音频数据转化为文字信息,并提取目标视频中的字幕信息,将转化的文字信息与字幕信息的重叠信息作为第二文字信息。可以理解的是,若未提取到字幕信息,则直接将音频数据转化的文字信息作为第二文字信息。

无论是第一文字信息还是第二文字信息,都可以高效反映视频域的信息内容,解决了相关技术中图片域和视频域信息的不一致严重影响分类器性能的问题,有助于提高分类结果的准确度。并且文字信息的数据量小,便于分析,可充分降低数据处理量,同时可减少内存占用,提升处理速度,从而有助于推广本公开的视频分类方法的应用场景。

在步骤102,根据文字信息确定目标视频的类型。具体地,可仅根据第一文字信息确定目标视频的类型是否为花絮类,此时在步骤101可相应只获取第一文字信息,以减少数据处理量;也可仅根据第二文字信息确定目标视频的类型是否为剪辑类,此时在步骤101可相应只获取第二文字信息,以减少数据处理量;当然,还可结合第一文字信息和第二文字信息明确目标视频的具体类型。可以理解的是,对于前两种情况,是指仅借助第一文字信息或第二文字信息进行一次判断,而第三种情况可以是先借助第一文字信息和第二文字信息中的一个进行第一次判断,再结合第一次判断的结果确定是否进行第二次判断以及如何进行第二次判断,其中利用第一文字信息或第二文字信息做出判断的具体方法可以通用,这都是本公开的实现方式,落入本公开的保护范围之内。

对于同时使用第一文字信息和第二文字信息的方案,在一些实施例中,可选地,步骤102首先包括:根据第一文字信息确定目标视频的类型。也就是先借助第一文字信息进行第一次判断。由于第一文字信息的数据量小,可优先处理第一文字信息。若根据第一文字信息可以确定出目标视频的类型,则无需继续处理第二文字信息,有助于降低计算负荷,提升数据处理效率。

进一步地,此时还可将步骤101进行拆解,先获取第一文字信息,在无需继续处理第二文字信息的情况下,可不再获取第二文字信息,也就无需再获取音频数据,可充分降低数据处理量。当然,也可以提前获取第一文字信息和音频数据,再按需确定是否需要将音频数据转化为第二文字信息。还可以提前获取第一文字信息和第二文字信息,这都是本公开的实现方式,落入本公开的保护范围之内。

具体地,可先选定若干用于指示内容拓展类视频的目标关键词,将第一文字信息与预设的若干目标关键词作对比,若第一文字信息中包含目标关键词,且第一文字信息中包含的目标关键词的数量大于或等于设定量,则确定目标视频的类型为内容拓展类,否则认为暂时无法确定目标视频的具体类型,需做进一步判断。对于内容拓展类为花絮类的情况,目标关键词例如可包括花絮、冷知识、幕后、开拍前、彩蛋。

其中,设定量可具体设置以调整分类的严格程度,例如可设为1,则只要第一文字信息中包含目标关键词,就认为是目标视频的类型是花絮类。具体地,目标视频可包括至少一个视频(例如短视频),相应地,第一文字信息基于至少一个视频的封面帧获得。换言之,目标视频可以是单个视频,也可以是多个视频组成的合集。目标视频为合集时,第一文字信息是基于合集中全部短视频的封面帧获得的文字信息的集合。例如,一个影视合集的某一集短视频的封面文字为“《九品芝麻官》幕后冷知识”(即为第一文字信息),其中“幕后”与“冷知识”与目标关键词匹配成功,则第一文字信息中包含的目标关键词的数量为2,大于设定量1,则预测该合集为花絮类。

可选地,设定量可为固定值,以简化方案,减少计算量,并减少对花絮类短视频的识别遗漏。仍以设定量等于1为例,则只要合集中有一个视频包含目标关键词,就判定合集的类型为花絮类。设定量也可根据目标视频包含的视频数量的多少来调整具体取值,例如分档设值,目标视频包含的视频数量越多,设定量越大,以减少误判。此时,通过合理设置设定量,则对于一个仅包含极少量花絮类视频的合集,就可判定该合集的类型不是花絮类。

可选地,当第一次判断的结果是无法确定目标视频的类型时,可能出现两种情况,一是能够确定目标视频的类型不为花絮类,二是暂时不能得出目标视频的类型不是花絮类的结论。对于第一种情况,步骤102还包括:根据第一文字信息和第二文字信息确定目标视频的类型。也就是可以先根据第一文字信息确定目标视频的类型不为花絮类,而是剪辑类或解析类,再根据第二文字信息确定目标视频的类型是剪辑类还是解析类。对于第二种情况,例如,当设定量大于或等于2时,若第一文字信息中包含了一个目标关键词,则无法得出目标视频的类型为花絮类的结论,但由于其中确实包含了目标关键词,因此也存在目标视频的类型是花絮类的可能,此时可以令判断结果与第一种情况保持一致,也可以进一步分析第二文字信息。若进一步分析,根据实际情况,可能直接根据第二文字信息就确定出目标视频的类型为剪辑类,即步骤102还包括:根据第二文字信息确定目标视频的类型;也可能仅确定出目标视频的类型不是剪辑类,而是解说类或者花絮类,此时需要再结合第一文字信息中包含了一个目标关键词这一信息,来明确目标视频的类型是花絮类,即步骤102还包括:根据第一文字信息和第二文字信息确定目标视频的类型。

在一些实施例中,可选地,根据第二文字信息确定目标视频的类型,包括:提取第二文字信息的特征数据,特征数据包括人称代词特征和语速特征;根据特征数据,确定目标视频的类型是否为内容展示类(例如为剪辑类)。相较于剪辑类视频,解说类视频创作者为了在几分钟内讲解完影视剧情,所以语速较快,花絮类视频也引入了作者的声音,语速可能较快,也可能正常;此外解说和花絮一般以第三人视角进行的,讲解时极少采用第一和第二人称代词的情况,而视频原声中文字多数以对话形式出现,第一和第二人称代词使用频率高。基于此,根据特征数据,确定目标视频的类型是否为内容展示类,可具体包括:若人称代词特征和语速特征同时满足对话条件,确定目标视频的类型为内容展示类;若人称代词特征和语速特征均不满足对话条件,确定目标视频的类型为内容拓展类或第三方解说类,其中,对话条件是指第二文字信息中存在一定量的第一和第二人称代词,以及第二文字信息对应的语速较慢,小于设定语速。对于人称代词特征和语速特征部分满足对话条件的情况,可视为不满足对话条件,也可视为满足对话条件,还可进一步结合第一文字信息做分析,本公开不做限制。具体到如何判断特征数据是否满足对话条件,可将人称代词特征和语速特征量化后,根据量化所得的对话值与对话阈值的大小关系确定是否满足对话条件,量化时,可以对人称代词特征和语速特征分别设置量化阈值,例如第一和第二人称代词的数量需达到设定阈值,语速需达到设定语速,各自分析,也可以将人称代词特征和语速特征量化后汇总,得到对话值,通过分析对话值来判断是否满足对话条件。以量化汇总的情况为例,例如对话值大于或等于对话阈值则认为人称代词特征和语速特征同时满足对话条件,确定目标视频为剪辑类视频,否则认为人称代词和语速特征均不满足对话条件,确定目标视频部不为剪辑类视频,而为解说类视频或花絮类视频;又如对话阈值包括第一对话阈值和第二对话阈值,第一对话阈值大于第二对话阈值,对话值大于或等于较大的第一对话阈值则认为人称代词特征和语速特征同时满足对话条件,确定目标视频为剪辑类视频,对话值小于第二对话阈值则认为人称代词和语速特征均不满足对话条件,确定目标视频部不为剪辑类视频,而为解说类视频或花絮类视频,对话值小于第一对话阈值且大于或等于第二对话阈值时,则认为人称代词和语速特征部分满足对话条件,可进一步结合第一文字信息做分析。这都是本示例性实施例的实现方式,在此不做限制。通过提取出第二文字信息中的人称代词特征和语速特征作为特征数据,能够较为可靠地将剪辑类视频与解说类视频和花絮类视频区分开来。

进一步地,在目标视频包括至少两个视频时,若人称代词特征和语速特征同时满足对话条件,确定目标视频的类型为内容展示类,包括:若至少两个视频的人称代词特征和语速特征同时满足对话条件,确定目标视频的类型为内容展示类。通过对目标视频包含的全部至少两个视频做综合分析,有助于提升分类的准确性。具体来说,对于目标视频包括至少两个视频的情况,可适当调整对话条件,例如可以是每个视频都各自满足针对单个视频的对话条件,也可以是保证一定比例的视频满足对话条件,还可以是将人称代词特征和语速特征量化后,确定出至少两个视频的量化结果的统计值,根据该统计值确定目标视频的类型,具体可参考前述针对单个视频的量化分析方法。

总结来说,当根据第一文字信息无法确定目标视频的类型时,共有以下四种情况:第一种,根据第一文字信息可以确定目标视频不是花絮类,则先根据第一文字信息确定目标视频的类型为剪辑类或解说类,再根据第二文字信息确定目标视频的类型具体是剪辑类还是解说类。第二种,根据第一文字信息无法得出任何结论,但根据第二文字信息确定目标视频为剪辑类。第三种,根据第一文字信息无法得出任何结论,但按目标视频不是花絮类处理,与第一种情况相同。第四种,根据第一文字信息无法得出任何结论,则先根据第二文字信息确定目标视频不是剪辑类,再结合根据第一文字信息无法得出结论、存在目标视频是花絮类视频的可能的情况,确定目标视频为花絮类。

对于同时使用第一文字信息和第二文字信息的方案,在另一些实施例中,可选地,步骤102包括:根据第二文字信息确定目标视频的类型;当根据第二文字信息无法确定目标视频的类型时,根据第一文字信息和第二文字信息确定目标视频的类型或根据第一文字信息确定目标视频的类型。具体来说,可先根据第二文字信息确定目标视频的类型是否为剪辑类,若是,则完成判断,若否,则需进一步分析,共有以下四种情况:第一种,根据第二文字信息可以确定目标视频不是剪辑类,则先根据第二文字信息确定目标视频的类型为解说类或花絮类,再根据第一文字信息确定目标视频的类型具体是解说类还是花絮类。第二种,根据第二文字信息无法得出任何结论,例如第二文字信息中存在大量第一和第二人称代词,但语速较快,或者仅存在极少量第一和第二人称代词,但语速正常,部分满足对话条件,所以存在目标视频为剪辑类视频的可能,但仍视为第一种情况,按第一种情况处理;第三种,根据第二文字信息无法得出任何结论,存在前述的目标视频为剪辑类视频的可能,但根据第一文字信息确定目标视频为花絮类。第四种,根据第一文字信息无法得出任何结论,存在前述的目标视频为剪辑类视频的可能,则先根据第一文字信息确定目标视频不是花絮类,再结合根据第二文字信息无法得出结论、存在目标视频为剪辑类视频的可能的情况,确定目标视频为剪辑类。

图2是示出根据本公开的一个具体实施例的视频分类方法的流程示意图。

参照图2,本公开的视频分类方法的实现流程主要包括数据获取与处理、类型判断以及结果输出三部分。先对封面帧OCR获取的第一文字信息做关键词匹配,从而确定目标视频的类型是否为花絮类。若匹配失败,即目标视频不为花絮类,则对音频数据ASR转化的第二文字信息做特征提取,得到包括人称代词特征和语速特征的特征数据,并将特征数据输入分类器,由分类器输出对目标视频的类型的判断结果。

具体地,做特征提取时,可统计第二文字信息中指定时段内出现的第一和第二人称代词的数量,作为人称代词特征。第一和第二人称代词数越多,目标视频为解说类的可能性就越小,为剪辑类的可能性就越大。表1给出了第一和第二人称代词的示例。

表1第一和第二人称代词示例

语速特征包括文本持续时长和文字密度中的至少之一。

做特征提取时,可统计第二文字信息中指定时段内文本持续出现的时长,作为上述文本持续时长。文本持续时长可反映目标视频中是否长时间存在说话,文本持续时长越大,则目标视频为解说类的可能性较大。例如对于一个总时长为30秒的短视频,前10秒出现说话(对话或独白),则只有这前10秒的音频在ASR时有文字结果,相应的文本持续时间[email protected]=10。其中,对于对话中出现停顿的情况,可按照停顿将对话划分到不同的时间片段内,再统计这些时间片段的总长度。例如,“我有一个朋友。”在“有”和“一”之间出现停顿,实际拿到的ASR结果如下:

则总的文本持续时长为(0.3-0)+(1.7-1.2)=0.8(秒),1秒内的文本持续时长为[email protected]=0.3,1.5秒内的文本持续时长为[email protected]=0.3+(1.5-1.2)=0.6。

做特征提取时,可统计指定时段内文本字数与文本持续出现的时长的比值,作为上述文字密度。文字密度有助于充分反映音频的语速,语速越快,则目标视频为解说类的可能性较大。

在一些实施例中,具体地,根据特征数据,确定目标视频的类型为第三方解析类还是内容展示类,包括:根据特征数据、特征数据的阈值和特征数据的权重计算目标视频的得分;根据得分确定目标视频的类型为第三方解析类还是内容展示类。通过直接利用特征数据进行打分,可以提出明确的视频类型判断标准。具体地,将得分与分类阈值作比较,可确定目标视频的类型。本公开提供的视频分类方法可基于流程图的逻辑判断方法对目标视频进行分类,抛弃了现有的基于深度学习分类方法,一方面大大降低了对算力的依赖,无需GPU即可实现快速预测,另一方面,除必要的评测数据标注外,无需任何数据标注需求,有助于大幅降低成本。

具体将特征数据输入二分类器,由二分类器完成打分和类型判断。例如,二分类器用如下公式表示:

其中xij,tij和wij分别表示特征数据、特征数据的阈值和特征数据的权重。符号函数为:

也就是在特征数据大于或等于其阈值时,符号函数的值为1,否则为0。再对符号函数的值加权求和,作为分数。可以理解的是,符号函数也可拓展为其他函数,例如为特征数据减去特征阈值所得的差值与特征阈值的比值,只要能体现特征数据与其阈值的关系即可。

此外可以理解的是,解说类视频的第二文字信息内容较多且语速较快,因此无论是文本持续时长还是文字密度,都是值越大,目标视频为解说类的可能性就越大,为剪辑类的可能性就越小,与第一和第二人称代词数正好相反,因此可令文本持续时长和文字密度的权重与第一和第二人称代词数的权重的正负情况相反,也就是在文本持续时长和文字密度的权重为正值时,令第一和第二人称代词数的权重为负值(此时的得分为前述对话值的相反数),在文本持续时长和文字密度的权重为负值时,令第一和第二人称代词数的权重为正值(此时的得分即为前述对话值),保证了目标视频的得分能够恰当地反映其类型。

进一步地,由于部分解说作者会在视频开头播放一段精彩片段(影响语速特征)或者自我介绍(影响人称代词特征),从而加大了区分视频类型的难度。对此,可将特征数据中的指定时段设置为目标视频中的不同时段,并在不同时段设置不同的阈值和权重,从而能够统计不同时段下的特征数据,并进行有针对性的分析,有助于提升判断结果的准确度。例如,对于一个总时长为30秒的短视频,可分别统计前5秒、10秒、20秒以及视频总时长下的特征数据,表2给出了不同指定时段下各个特征数据的阈值和权重的示例。

表2中第一和第二人称代词数的权重为负值,文字密度和文字密度的权重为正值,因此得分越高,表示目标视频属于解说类的概率越高。

表2特征阈值以及权重参数

在一些实施例中,对于同时使用第一文字信息和第二文字信息的方案,可选地,步骤102包括:根据第二文字信息确定目标视频的类型;当根据第二文字信息无法确定目标视频的类型时,根据第一文字信息确定目标视频的类型。该些实施例同样可以实现结合第一文字信息和第二文字信息来确定目标视频的类型,例如可根据第二文字信息确定目标视频的类型是否为内容展示类(例如剪辑类),若不是内容展示类,再根据第一文字信息确定目标视频的类型是内容拓展类(例如花絮类)还是第三方解析类(例如解说类)。具体的确定方法,可参考前述实施例,在此不再赘述。

在一些实施例中,可选地,目标视频包括至少一个视频,其中,在目标视频包括多个视频时,目标视频的得分为多个视频的得分的统计值。如前所述,目标视频可包括至少一个视频(例如短视频),换言之,目标视频可以是单个视频,也可以是多个视频组成的合集。目标视频为包括多个视频的合集时,通过求取其包括的多个视频的得分的统计值,可降低其包括的视频数量对得分的影响,有助于提升分类的准确度。具体地,统计值例如为平均值、中位数、众数、中程数,只要能够反映合集中多个视频的普遍得分情况即可。

图3是示出根据本公开的示例性实施例的视频分类装置的框图。

参照图3,根据本公开的示例性实施例的视频分类装置300可包括获取单元301和判断单元302。

获取单元301可获取目标视频的文字信息。具体来说,文字信息包括第一文字信息和第二文字信息。

其中,第一文字信息是基于目标视频的封面帧获得的,例如可采用光学字符识别技术(OCR,Optical Character Recognition)来提取第一文字信息,OCR的具体实现在本公开的实施例中不做展开讨论。封面帧通常包含目标视频的标题,因而能够较准确地反映目标视频的内容,可用于识别花絮类视频。通过获取封面帧的第一文字信息,只需对更具有参考价值的封面帧的图片进行处理,可大幅降低数据处理量,并且仅需提取其中的文字信息,对于其中参考价值较小的图像信息不做分析,可进一步降低数据处理量,提升数据处理效率。

第二文字信息则是通过对目标视频的音频数据进行转化而获得的。音频数据可反映是否引入了作者的声音,若引入了作者的声音,则可认为目标视频的类型是花絮类或解说类,若未引入作者的声音,则可认为是剪辑类,因而能够用于识别剪辑类。在影视(合集)类短视频中,语音信号主要由作者声音、剧内人物对话、剧内场景配音、作者添加的背景音乐等一系列声音组成,其中剧内音效以及背景音乐属于噪声信号,会严重损害分类器的性能。通过将音频数据转化为第二文字信息,可在抑制噪声的同时减少输入信号的冗余,并可对文意进行分析,不必分析说话者的音色,可降低分析难度和数据处理量。第二文字信息的获得例如可采用自动语音识别技术(ASR,Automatic Speech Recognition),ASR的具体实现在本公开的实施例中不做展开讨论。

进一步地,还可提取目标视频中的字幕信息,作为对第二文字信息的补充。具体来说,可先将音频数据转化为文字信息,并提取目标视频中的字幕信息,将转化的文字信息与字幕信息的重叠信息作为第二文字信息。可以理解的是,若未提取到字幕信息,则直接将音频数据转化的文字信息作为第二文字信息。

无论是第一文字信息还是第二文字信息,都可以高效反映视频域的信息内容,解决了相关技术中图片域和视频域信息的不一致严重影响分类器性能的问题,有助于提高分类结果的准确度。并且文字信息的数据量小,便于分析,可充分降低数据处理量,同时可减少内存占用,提升处理速度,从而有助于推广本公开的视频分类方法的应用场景。

判断单元302可根据文字信息确定目标视频的类型。具体地,可仅根据第一文字信息确定目标视频的类型是否为花絮类,此时获取单元301可相应只获取第一文字信息,以减少数据处理量;也可仅根据第二文字信息确定目标视频的类型是否为剪辑类,此时获取单元301可相应只获取第二文字信息,以减少数据处理量;当然,还可结合第一文字信息和第二文字信息明确目标视频的具体类型。可以理解的是,对于前两种情况,是指仅借助第一文字信息或第二文字信息进行一次判断,而第三种情况可以是先借助第一文字信息和第二文字信息中的一个进行第一次判断,再结合第一次判断的结果确定是否进行第二次判断以及如何进行第二次判断,其中利用第一文字信息或第二文字信息做出判断的具体方法可以通用,这都是本公开的实现方式,落入本公开的保护范围之内。

在一些实施例中,对于同时使用第一文字信息和第二文字信息的方案,可选地,判断单元302首先可根据第一文字信息确定目标视频的类型。也就是先借助第一文字信息进行第一次判断。由于第一文字信息的数据量小,可优先处理第一文字信息。若根据第一文字信息可以确定出目标视频的类型,则无需继续处理第二文字信息,有助于降低计算负荷,提升数据处理效率。

具体地,可先选定若干用于指示内容拓展类视频的目标关键词,将第一文字信息与预设的若干目标关键词作对比,若第一文字信息中包含目标关键词,且第一文字信息中包含的目标关键词的数量大于或等于设定量,则确定目标视频的类型为内容拓展类,否则认为暂时无法确定目标视频的具体类型,需做进一步判断。对于内容拓展类为花絮类的情况,目标关键词例如可包括花絮、冷知识、幕后、开拍前、彩蛋。

其中,设定量可具体设置以调整分类的严格程度,例如可设为1,则只要第一文字信息中包含目标关键词,就认为是目标视频的类型是花絮类。具体地,目标视频可包括至少一个视频(例如短视频),相应地,第一文字信息基于至少一个视频的封面帧获得。换言之,目标视频可以是单个视频,也可以是多个视频组成的合集。目标视频为合集时,第一文字信息是基于合集中全部短视频的封面帧获得的文字信息的集合。

可选地,设定量可为固定值,以简化方案,减少计算量,并减少对花絮类短视频的识别遗漏。仍以设定量等于1为例,则只要合集中有一个视频包含目标关键词,就判定合集的类型为花絮类。设定量也可根据目标视频包含的视频数量的多少来调整具体取值,例如分档设值,目标视频包含的视频数量越多,设定量越大,以减少误判。此时,通过合理设置设定量,则对于一个仅包含极少量花絮类视频的合集,就可判定该合集的类型不是花絮类。

可选地,当第一次判断的结果是无法确定目标视频的类型时,可能出现两种情况,一是能够确定目标视频的类型不为花絮类,二是暂时不能得出目标视频的类型不是花絮类的结论。对于第一种情况,判断单元302可根据第一文字信息和第二文字信息确定目标视频的类型。也就是可以先根据第一文字信息确定目标视频的类型不为花絮类,而是剪辑类或解析类,再根据第二文字信息确定目标视频的类型是剪辑类还是解析类。对于第二种情况,例如,当设定量大于或等于2时,若第一文字信息中包含了一个目标关键词,则无法得出目标视频的类型为花絮类的结论,但由于其中确实包含了目标关键词,因此也存在目标视频的类型是花絮类的可能,此时可以令判断结果与第一种情况保持一致,也可以进一步分析第二文字信息。若进一步分析,根据实际情况,可能直接根据第二文字信息就确定出目标视频的类型为剪辑类,即判断单元302可根据第二文字信息确定目标视频的类型;也可能仅确定出目标视频的类型不是剪辑类,而是解说类或者花絮类,此时需要再结合第一文字信息中包含了一个目标关键词这一信息,来明确目标视频的类型是花絮类,即判断单元302可根据第一文字信息和第二文字信息确定目标视频的类型。

在一些实施例中,可选地,判断单元302可提取第二文字信息的特征数据,特征数据包括人称代词特征和语速特征;根据特征数据,确定目标视频的类型是否为内容展示类(例如为剪辑类)。相较于剪辑类视频,解说类视频创作者为了在几分钟内讲解完影视剧情,所以语速较快,花絮类视频也引入了作者的声音,语速可能较快,也可能正常;此外解说和花絮一般以第三人视角进行的,讲解时极少采用第一和第二人称代词的情况,而视频原声中文字多数以对话形式出现,第一和第二人称代词使用频率高。基于此,判断单元302可被配置为:若人称代词特征和语速特征同时满足对话条件,确定目标视频的类型为内容展示类;若人称代词特征和语速特征均不满足对话条件,确定目标视频的类型为内容拓展类或第三方解说类,其中,对话条件是指第二文字信息中存在一定量的第一和第二人称代词,以及第二文字信息对应的语速较慢,小于设定语速。对于人称代词特征和语速特征部分满足对话条件的情况,可视为不满足对话条件,也可视为满足对话条件,还可进一步结合第一文字信息做分析,本公开不做限制。具体到如何判断特征数据是否满足对话条件,可将人称代词特征和语速特征量化后,根据量化所得的对话值与对话阈值的大小关系确定是否满足对话条件,量化时,可以对人称代词特征和语速特征分别设置量化阈值,例如第一和第二人称代词的数量需达到设定阈值,语速需达到设定语速,各自分析,也可以将人称代词特征和语速特征量化后汇总,得到对话值,通过分析对话值来判断是否满足对话条件。以量化汇总的情况为例,例如对话值大于或等于对话阈值则认为人称代词特征和语速特征同时满足对话条件,确定目标视频为剪辑类视频,否则认为人称代词和语速特征均不满足对话条件,确定目标视频部不为剪辑类视频,而为解说类视频或花絮类视频;又如对话阈值包括第一对话阈值和第二对话阈值,第一对话阈值大于第二对话阈值,对话值大于或等于较大的第一对话阈值则认为人称代词特征和语速特征同时满足对话条件,确定目标视频为剪辑类视频,对话值小于第二对话阈值则认为人称代词和语速特征均不满足对话条件,确定目标视频部不为剪辑类视频,而为解说类视频或花絮类视频,对话值小于第一对话阈值且大于或等于第二对话阈值时,则认为人称代词和语速特征部分满足对话条件,可进一步结合第一文字信息做分析。这都是本示例性实施例的实现方式,在此不做限制。通过提取出第二文字信息中的人称代词特征和语速特征作为特征数据,能够较为可靠地将剪辑类视频与解说类视频和花絮类视频区分开来。

进一步地,在目标视频包括至少两个视频时,判断单元302可被配置为:若至少两个视频的人称代词特征和语速特征同时满足对话条件,确定目标视频的类型为内容展示类。通过对目标视频包含的全部至少两个视频做综合分析,有助于提升分类的准确性。具体来说,对于目标视频包括至少两个视频的情况,可适当调整对话条件,例如可以是每个视频都各自满足针对单个视频的对话条件,也可以是保证一定比例的视频满足对话条件,还可以是将人称代词特征和语速特征量化后,确定出至少两个视频的量化结果的统计值,根据该统计值确定目标视频的类型,具体可参考前述针对单个视频的量化分析方法。

总结来说,当根据第一文字信息无法确定目标视频的类型时,共有以下四种情况:第一种,根据第一文字信息可以确定目标视频不是花絮类,则先根据第一文字信息确定目标视频的类型为剪辑类或解说类,再根据第二文字信息确定目标视频的类型具体是剪辑类还是解说类。第二种,根据第一文字信息无法得出任何结论,但根据第二文字信息确定目标视频为剪辑类。第三种,根据第一文字信息无法得出任何结论,但按目标视频不是花絮类处理,与第一种情况相同。第四种,根据第一文字信息无法得出任何结论,则先根据第二文字信息确定目标视频不是剪辑类,再结合根据第一文字信息无法得出结论、存在目标视频是花絮类视频的可能的情况,确定目标视频为花絮类。

对于同时使用第一文字信息和第二文字信息的方案,在另一些实施例中,可选地,判断单元302可根据第二文字信息确定目标视频的类型;当根据第二文字信息无法确定目标视频的类型时,根据第一文字信息和第二文字信息确定目标视频的类型或根据第一文字信息确定目标视频的类型。具体来说,可先根据第二文字信息确定目标视频的类型是否为剪辑类,若是,则完成判断,若否,则需进一步分析,共有以下四种情况:第一种,根据第二文字信息可以确定目标视频不是剪辑类,则先根据第二文字信息确定目标视频的类型为解说类或花絮类,再根据第一文字信息确定目标视频的类型具体是解说类还是花絮类。第二种,根据第二文字信息无法得出任何结论,例如第二文字信息中存在大量第一和第二人称代词,但语速较快,或者仅存在极少量第一和第二人称代词,但语速正常,部分满足对话条件,所以存在目标视频为剪辑类视频的可能,但仍视为第一种情况,按第一种情况处理;第三种,根据第二文字信息无法得出任何结论,存在前述的目标视频为剪辑类视频的可能,但根据第一文字信息确定目标视频为花絮类。第四种,根据第一文字信息无法得出任何结论,存在前述的目标视频为剪辑类视频的可能,则先根据第一文字信息确定目标视频不是花絮类,再结合根据第二文字信息无法得出结论、存在目标视频为剪辑类视频的可能的情况,确定目标视频为剪辑类。

具体地,判断单元302可统计第二文字信息中指定时段内出现的第一和第二人称代词的数量,作为人称代词特征。第一和第二人称代词数越多,目标视频为解说类的可能性就越小,为剪辑类或花絮类的可能性就越大。判断单元302还可统计第二文字信息中指定时段内文本持续出现的时长(可记为文本持续时长),和/或统计指定时段内文本字数与文本持续出现的时长的比值(可记为文字密度),作为语速特征。文本持续时长可反映目标视频中是否长时间存在说话,文本持续时长越大,则目标视频为解说类的可能性较大。文字密度则有助于充分反映音频的语速,语速越快,则目标视频为解说类的可能性较大。

图4是根据本公开的示例性实施例的电子设备的框图。

参照图4,电子设备400包括至少一个存储器401和至少一个处理器402,所述至少一个存储器401中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器402执行时,执行根据本公开的示例性实施例的视频分类方法。

作为示例,电子设备400可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备400并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备400还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。

在电子设备400中,处理器402可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器402可运行存储在存储器401中的指令或代码,其中,存储器401还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。

存储器401可与处理器402集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器401可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器401和处理器402可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器402能够读取存储在存储器中的文件。

此外,电子设备400还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备400的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例,还可提供一种计算机可读存储介质,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的视频分类方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例,还可提供一种计算机程序产品,该计算机程序产品包括计算机指令,计算机指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的视频分类方法。

根据本公开的视频分类方法、装置、电子设备和计算机可读存储介质可不直接使用图片数据而是使用文本数据作为视频分类的输入参数,可以高效反映视频域的信息内容,解决了图片域和视频域信息不一致的问题,有助于提高分类结果的准确度。并且文字信息的数据量小,便于分析,可充分降低数据处理量,同时可减少内存占用,提升处理速度,有助于推广本公开的视频分类方法和视频分类装置的应用场景。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:视觉动画显示方法及相关设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!