数据处理方法、装置、电子设备、存储介质及程序产品

文档序号:8472 发布日期:2021-09-17 浏览:76次 英文

数据处理方法、装置、电子设备、存储介质及程序产品

技术领域

本公开涉及数据处理

技术领域

,尤其涉及数据处理方法、装置、电子设备、存储介质及程序产品。

背景技术

随着移动互联网的蓬勃发展和电子设备的不断普及,用户可以通过在视频发布平台上发布视频内容、直播等方式实现分享、交流的目的。但与此同时,现有的视频中经常存在恶意嵌入违规内容的情况,这种视频展示的违规内容对观看者造成了负面影响。因此,检测视频内容是否为违规内容,对视频发布平台是一项非常重要的工作。

相关技术中,平台会利用大量资源对用户上传的视频内容进行审核监管,但仍会存在违规内容被误判为“正常”的情况,因此通常采用传统的抽样方法对误判为“正常”的视频内容(或者“漏放内容”)进行评估。然而,由于平台发布的视频内容量十分庞大,而违规内容和漏放内容占比极低,因此按照传统抽样方法进行漏放内容评估需要耗费大量审核人力,且评估效率较低。

发明内容

本公开提供一种数据处理方法、装置、电子设备、存储介质及程序产品,以至少解决相关技术中因平台发布的视频内容量十分庞大,而违规内容和漏放内容占比极低,导致按照传统抽样方法进行漏放内容评估需要耗费大量审核人力,且评估效率较低的问题。

本公开的技术方案如下:

根据本公开实施例的第一方面,提供一种数据处理方法,包括:获取第一预设时间内多个第一视频的风险信息,风险信息用于表征视频内容的违规风险大小;基于每个第一视频的风险信息,将多个第一视频划分至预设数量分组;基于预设抽样评估方式确定预设数量分组中的第一分组中第一视频的误判信息;基于第一分组中第一视频的误判信息,确定预设数量分组中的第二分组中第一视频的误判信息。

在第一方面的一些可实现方式中,误判信息包括视频的误判率,基于第一分组中第一视频的误判信息,确定预设数量分组中的第二分组中第一视频的误判信息,包括:基于第一分组中第一视频的误判率,以及第一分组与第二分组的误判率比值,计算第二分组中第一视频的误判率。

在第一方面的一些可实现方式中,在基于第一分组中第一视频的误判率,以及第一分组与第二分组的误判率比值,计算第二分组中第一视频的误判率之前,该方法还包括:获取第二预设时间内多个第二视频的风险信息;基于每个第二视频的风险信息,将多个第二视频划分为预设数量分组;基于预设抽样评估方式确定预设数量分组中每个分组中第二视频的误判率,预设数量分组包括第一分组和第二分组;基于第一分组和第二分组中第二视频的误判率,计算第一分组与第二分组的误判率比值。

在第一方面的一些可实现方式中,风险信息包括视频内容的违规概率值,预设抽样评估方式包括基于预设分组中对应违规标签的抽样视频的数量,计算预设分组中视频内容的误判率,预设分组为第一分组或第二分组;其中,预设分组对应的抽样视频的数量基于预设分组中视频内容的数量,以及每个视频内容对应的违规概率值计算得到。

在第一方面的一些可实现方式中,获取第一预设时间内多个第一视频的风险信息,包括:提取多个第一视频的内容特征和多个第一视频对应用户的用户特征;向风险评估模型输入内容特征和用户特征,输出第一视频的违规概率值;将第一视频的违规概率值作为第一视频的风险信息。

在第一方面的一些可实现方式中,在向风险评估模型输入内容特征和用户特征之前,该方法还包括:获取输入训练样本和输出训练样本,其中,输入训练样本包括样本视频的内容特征和样本视频对应用户的用户特征,输出训练样本包括样本视频的标签信息;基于输入训练样本和输出训练样本对预设神经网络模型进行训练,得到风险评估模型。

根据本公开实施例的第二方面,提供一种数据处理装置,包括:获取模块,被配置为执行获取第一预设时间内多个第一视频的风险信息,风险信息用于表征视频内容的违规风险大小;分组模块,被配置为执行基于每个第一视频的风险信息,将多个第一视频划分至预设数量分组;确定模块,被配置为执行基于预设抽样评估方式确定预设数量分组中的第一分组中第一视频的误判信息;确定模块,还被配置为执行基于第一分组中第一视频的误判信息,确定预设数量分组中的第二分组中第一视频的误判信息。

在第二方面的一些可实现方式中,误判信息包括视频的误判率,确定模块具体被配置为执行:基于第一分组中第一视频的误判率,以及第一分组与第二分组的误判率比值,计算第二分组中第一视频的误判率。

在第二方面的一些可实现方式中,该装置还包括:获取模块,还被配置为执行在基于第一分组中第一视频的误判率,以及第一分组与第二分组的误判率比值,计算第二分组中第一视频的误判率之前,获取第二预设时间内多个第二视频的风险信息;分组模块,还被配置为执行基于每个第二视频的风险信息,将多个第二视频划分为预设数量分组;确定模块,还被配置为执行基于预设抽样评估方式确定预设数量分组中每个分组中第二视频的误判率,预设数量分组包括第一分组和第二分组;计算模块,被配置为执行基于第一分组和第二分组中第二视频的误判率,计算第一分组与第二分组的误判率比值。

在第二方面的一些可实现方式中,风险信息包括视频内容的违规概率值,预设抽样评估方式包括基于预设分组中对应违规标签的抽样视频的数量,计算预设分组中视频内容的误判率,预设分组为第一分组或第二分组;其中,预设分组对应的抽样视频的数量基于预设分组中视频内容的数量,以及每个视频内容对应的违规概率值计算得到。

在第二方面的一些可实现方式中,获取模块包括:提取单元,被配置为执行提取多个第一视频的内容特征和多个第一视频对应用户的用户特征;输入输出单元,被配置为执行向风险评估模型输入内容特征和用户特征,输出第一视频的违规概率值;确定单元,被配置为执行将第一视频的违规概率值作为第一视频的风险信息。

在第二方面的一些可实现方式中,该装置还包括:获取模块,还被配置为执行在向风险评估模型输入内容特征和用户特征之前,获取输入训练样本和输出训练样本,其中,输入训练样本包括样本视频的内容特征和样本视频对应用户的用户特征,输出训练样本包括样本视频的标签信息;模型训练模块,被配置为执行基于输入训练样本和输出训练样本对预设神经网络模型进行训练,得到风险评估模型。

根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现如第一方面或第一方面的一些可实现方式中的数据处理方法。

根据本公开实施例的第四方面,提供一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面或第一方面的一些可实现方式中的数据处理方法。

根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现如第一方面或第一方面的一些可实现方式中的数据处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果:

在本公开实施例中,基于每个视频的违规风险大小对平台在第一预设时间段内发布的所有视频内容进行分组,能够使得不同组中视频内容的违规风险具有差异化,然后仅对某个或某些分组中的视频内容进行审核和评估得到误判信息,就可以基于该误判信息得到其他分组中的视频内容的误判信息,从而对第一预设时间段内发布的所有视频内容中被误判为“正常”的视频内容进行有效评估,避免了大量抽样,提升了评估效率,同时节省了审核人力和资源。因而,本公开实施例可以解决因平台发布的视频内容量十分庞大,而违规内容和漏放内容占比极低,导致按照传统抽样方法进行漏放内容评估需要耗费大量审核人力,且评估效率较低的问题。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种数据处理的架构图。

图2是根据一示例性实施例示出的一种数据处理方法的流程图。

图3是根据一示例性实施例示出的另一种数据处理方法的流程图。

图4是根据一示例性实施例示出的又一种数据处理方法的流程图。

图5是根据一示例性实施例示出的一种数据处理装置的框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

图7是根据一示例性实施例示出的用于数据处理方法的设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

首先,对本公开实施例所提供技术方案所涉及的技术术语进行介绍:

直播间,指在网络直播时,利用主播设备、观众设备以及直播平台设备中的软硬件资源,所构建的一种虚拟空间。主播用户可通过主播设备创建或登录直播间,并将直播内容发布至直播间中。观众用户,可通过已经登录直播间的观众设备,观看到主播用户发布的直播内容。

本公开实施例所提供的数据处理方法,可以应用于如图1的架构中,具体结合图1进行详细说明。

图1是根据一示例性实施例示出的一种数据处理的架构图。

如图1所示,服务器100通过网络300与客户端200通信连接,以进行数据通信或交互。服务器100可以是一台服务器,也可以是由至少两台服务器组成的视频发布平台的服务器集群。客户端200可以是,但不限于个人电脑(Personal Computer,PC)、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等。网络300可以是有线或无线网络。应注意的是,图1仅仅是一种示例,实际应用中客户端200的数量可按照实际需求设定。

在一个示例中,客户端200可以为用户设备,用户可以通过该用户设备在视频发布平台上传短视频内容或者在直播间进行直播,服务器100可以对上传或直播的视频内容进行审核,以确认该视频内容是否为违规视频内容,例如,判别视频中是否存在低俗内容、是否存在植入广告引导用户购买等对用户造成负面影响的内容,并在审核通过后对视频内容进行发布。

在一些示例中,上述客户端200可以配置有摄像装置,或者与摄像装置连接,以通过摄像装置进行视频直播。

相关技术中,平台在向用户明确行为规范的基础上,利用大量资源对用户上传的视频内容进行审核监管,以期望过滤掉违规视频内容。但是,仍会存在有些违规视频内容被误判为“正常”并被平台发布的情况,这种视频我们称之为“漏放内容”。对于视频发布平台来说,摸底漏放内容、清理漏放内容是一项非常重要的工作,因此相关技术中通常采用传统的抽样方法对平台漏放内容进行评估。但由于平台发布的视频内容量十分庞大,而违规内容和漏放内容占比极低,因此按照传统抽样方法进行漏放内容评估需要耗费大量审核人力,且评估效率较低。

为了解决上述相关技术中存在的因平台发布的视频内容量十分庞大,而违规内容和漏放内容占比极低,因此按照传统抽样方法进行漏放内容评估需要耗费大量审核人力,且评估效率较低的问题,本公开实施例提供了一种数据处理方法、装置、电子设备、存储介质及程序产品,能够解决按照传统抽样方法进行漏放内容评估需要耗费大量审核人力,且评估效率较低的问题。

下面将对本公开实施例提供的数据处理方法进行详细说明。

图2是根据一示例性实施例示出的一种数据处理方法的流程图。本公开实施例提供的数据处理方法可以应用于图1的服务器100中,可以理解的是,上述执行主体并不构成对本公开的限定。

如图2所示,该数据处理方法可以包括S210-S240。

S210,获取第一预设时间内多个第一视频的风险信息。

其中,第一视频可以为在第一预设时间内视频发布平台发布的所有视频,该第一预设时间可以为某一具体时间段,具体可以根据需求进行设置,本公开在此不做具体限定。上述风险信息用于表征视频内容的违规风险大小,即每个第一视频的风险信息可以表征对应第一视频的违规风险大小。

示例性地,第一预设时间为8:00-23:00,则第一视频可以为视频发布平台在8:00-23:00之间发布的所有视频。

S220,基于每个第一视频的风险信息,将多个第一视频划分至预设数量分组。

其中,预设数量分组可以根据具体需求进行设定,例如,可以将多个第一视频划分至3个、4个或者5个分组。

在本公开的一些实施例中,可以基于每个第一视频的违规风险大小,按照违规风险由大到小,或者由小到大的顺序对所有第一视频进行排序,然后基于排序进行分组。

示例性地,预设数量分组为3个分组,第一视频的数量为100个,则在按照违规风险由大到小的顺序将100个第一视频进行排序之后,得到A1、A2…A100共100个视频。然后,选取排序前5%的5个视频(A1-A5)作为分组1,排序5%-10%的5个视频(A6-A10)作为分组2,剩余的90个视频(A11-A100)作为分组3。

在本公开的另一些实施例中,可以基于每个第一视频的违规风险大小,以及每个分组对应的预设风险区间将多个第一视频划分至预设数量分组。其中,预设分组区间也可以根据具体需求进行设定。

示例性地,第一视频的数量为100个,预设数量分组为4个分组,分组1对应的预设风险区间为[0.8,1],分组2对应的预设风险区间为[0.6,0.8),分组3对应预设风险区间为[0.3,0.6),分组4对应预设风险区间为[0,0.3)。基于上述分组对应的预设风险区间,可以将0.8≤违规风险≤1的所有第一视频作为分组1,以此类推,对100个第一视频进行分组。

需要说明的是,不同分组对应的第一视频的数量可以相同,也可以不同。以上仅是根据视频的违规风险大小对视频进行分组的几种示例,本申请也可以基于视频的违规风险大小采用其他方式进行划分,为了简洁,在此不再赘述。

在本公开实施例中,由于视频的违规风险越大,则该视频为漏放的违规视频内容的可能性越大,即该视频在前期审核中被误判为“正常”的风险越大。因此基于第一视频的违规风险大小对所有第一视频进行分组,能够保证不同组中第一视频的违规风险大小具有差异化,同样也能保证不同组中第一视频的误判信息具有差异化,即违规风险较大的第一视频所在组中,被误判为“正常”的漏放视频内容也会相对较多;违规风险较小的第一视频所在组中,被误判为“正常”的漏放视频内容也会相对较少。这样,在确定某个组或者某些组中第一视频的误判信息之后,就能合理严谨地确定出其他分组中第一视频的误判信息,且准确性较高。

S230,基于预设抽样评估方式确定预设数量分组中的第一分组中第一视频的误判信息。

其中,第一分组可以为预设数量分组中的任意分组,需要说明的是,第一分组的数量可以为至少一个,具体可以根据需求进行设定。

在本公开的一些实施例中,在S230之前,该方法还可以包括:确定违规风险最大的第一视频所在组和/或违规风险最小的第一视频所在组为第一分组。

在本公开的一些实施例中,由于视频发布平台发布的第一视频中可能存在漏放视频内容,即前期审核被误判为“正常”因而顺利发布的违规视频内容,因此这里可以采取预设的抽样评估方式,对第一分组中的第一视频进行抽样评估,得到该第一分组中的第一视频的误判信息。

在本公开的一些实施例中,该误判信息可以包括视频的误判率,即对第一分组中的第一视频进行抽样,误判信息为抽样得到的违规视频内容数量与所有抽样视频数量的比值。

示例性地,第一分组为分组1,分组1包括1000个第一视频,从1000个第一视频中抽样评估了20个视频,其中4个为违规视频内容,也就是说,20个视频中有4个违规视频内容在前期审核时被误判为“正常”,因此分组1中1000个第一视频的误判率可以为0.2。

S240,基于第一分组中第一视频的误判信息,确定预设数量分组中的第二分组中第一视频的误判信息。

其中,第二分组可以为预设数量分组中除第一分组以外的分组,第二分组的数量可以为至少一个。

例如,预设数量分组包括分组1、分组2、分组3和分组4,其中分组1为第一分组,则第二分组包括分组2、分组3和分组4。

又例如,预设数量分组为分组1、分组2、分组3和分组4,其中分组1和分组2为第一分组,则第二分组包括分组3和分组4。

如前文所述,基于每个第一视频的风险信息对多个第一视频进行分组,能够保证不同组中第一视频的误判信息具有差异化,因此在确定第一分组中第一视频的误判信息之后,能够较为准确地确定出第二分组中第一视频的误判信息,避免因不同分组中第一视频的误判信息比较类似,导致难以基于第一分组中视频的误判信息确定其他分组中视频的误判信息。

通过本公开实施例所提供的数据处理方法,获取第一预设时间内多个第一视频的风险信息,风险信息用于表征视频内容的违规风险大小;基于每个第一视频的风险信息,将多个第一视频划分至预设数量分组。在此基础上,采用预设抽样评估方式确定预设数量分组中的第一分组中第一视频的误判信息,然后基于第一分组中第一视频的误判信息,确定预设数量分组中的第二分组中第一视频的误判信息。这样,基于每个视频的违规风险大小对平台在第一预设时间段内发布的所有视频内容进行分组,能够使得不同组中视频内容的违规风险具有差异化,然后仅对某个或某些分组中的视频内容进行审核和评估得到误判信息,就可以基于该误判信息得到其他分组中的视频内容的误判信息,从而对第一预设时间段内发布的所有视频内容中被误判为“正常”的视频内容进行有效评估,避免了大量抽样,提升了评估效率,同时节省了审核人力和资源。

下面结合具体的实施例,详细介绍上述S210-S240。

首先涉及S210,获取第一预设时间内多个第一视频的风险信息。

在本公开的一些实施例中,S210可以具体包括下述步骤:提取多个第一视频的内容特征和多个第一视频对应用户的用户特征;向风险评估模型输入内容特征和用户特征,输出第一视频的违规概率值;将第一视频的违规概率值作为第一视频的风险信息。

其中,第一视频的违规概率值可以用于表征第一视频的视频内容的违规风险大小,即第一视频的违规概率值越大,则该第一视频的违规风险也越大;第一视频的违规概率值越小,则该第一视频的违规风险也越小。

如此,基于视频自身的内容特征和视频对应用户的用户特征,能够较为全面地对视频进行违规风险评估,并且使得到的违规概率值可以较为准确地表征该视频的违规风险大小,基于该违规风险大小进行视频分组,能够使得不同组中视频内容的违规风险具有差异化。因此在利用某个或某些分组中的视频内容的误判信息对其他分组中的视频内容进行误判评估时,能够保证误判评估的准确性。

在本公开的一些实施例中,第一视频的内容特征可以包括但不限于:第一视频中的场景识别特征、人脸识别特征、视频内容的色情风险概率、音频词汇特征。第一视频对应用户的用户特征可以包括发布第一视频的用户账号的历史违规信息、历史发布视频类型等。

在本公开的一些实施例中,在S210之前,该方法还可以包括下述步骤:获取输入训练样本和输出训练样本,其中,输入训练样本包括样本视频的内容特征和样本视频对应用户的用户特征,输出训练样本包括样本视频的标签信息;基于输入训练样本和输出训练样本对预设神经网络模型进行训练,得到风险评估模型。

示例性地,该标签信息可以包括正常(或者不违规)、言语违规、行为违规等。

在本公开实施例中,基于样本视频的内容特征和样本视频对应用户的用户特征,以及样本视频的标签信息对预设神经网络模型进行训练,能够得到可以对视频内容进行风险评估的风险评估模型,从而实现对第一视频的违规风险大小的准确评估。

然后涉及S220,基于每个第一视频的风险信息,将多个第一视频划分至预设数量分组。

在本公开的一些实施例中,S220可以包括:基于每个第一视频的违规概率值,按照违规概率值由大到小,或者由小到大的顺序对所有第一视频进行排序,然后基于排序进行分组。

在本公开的另一些实施例中,可以基于每个第一视频的违规概率值,以及每个分组对应的预设概率值区间将多个第一视频划分至预设数量分组。

然后涉及S230,基于预设抽样评估方式确定预设数量分组中的第一分组中第一视频的误判信息。

其中,该误判信息可以包括视频的误判率。

在本公开的一些实施例中,风险信息可以包括视频内容的违规概率值,预设抽样评估方式可以包括基于预设分组中对应违规标签的抽样视频的数量,计算预设分组中视频内容的误判率,预设分组可以为第一分组或第二分组;其中,预设分组对应的抽样视频的数量可以基于预设分组中视频内容的数量,以及每个视频内容对应的违规概率值计算得到。

其中,预设分组可以为预设数量分组中的任意分组。

如此,在对预设数量分组中某一分组中的视频内容进行抽样评估时,可以基于该分组中视频内容的数量和违规概率值,计算该分组的抽样视频的数量。也就是说,在对某个分组进行抽样时,从分组中抽取的抽样视频的数量,需要考虑到该分组中的视频内容的违规风险大小,这样能够使得到的抽样视频的数量更加适配于该分组中的视频违规情况。

在本公开的一些实施例中,预设分组可以为第一分组,图3是根据一示例性实施例示出的另一种数据处理方法的流程图,如图3所示,S230可以具体包括S310-S340。

S310,获取第一分组中第一视频的数量。

S320,根据第一分组中第一视频的数量和违规概率值,计算第一分组对应的抽样视频的数量。

在本公开的一些实施例中,S320可以具体包括下述步骤:基于第一分组中每个第一视频的违规概率值,计算第一分组对应的目标违规概率值;基于第一分组中第一视频的数量和目标违规概率值,计算第一分组的抽样视频的数量。

在本公开的一个示例中,第一分组为分组1,分组1中包括5个第一视频,每个第一视频对应一个违规概率值,则可以将5个视频的违规概率值的平均值作为第一分组对应的目标违规概率值。

在本公开的另一个示例中,第一分组为分组1,分组1中包括5个第一视频A1-A5,其中A1-A5按照违规概率值由大到小进行排序,则可以将5个视频的违规概率值的中值,即将视频A3的违规概率值作为第一分组对应的目标违规概率值。

需要说明的是,以上仅是根据分组中每个视频的违规概率值计算目标违规概率值的几种示例,本申请也可以基于分组中每个视频的违规概率值采用其他方式进行计算,为了简洁,在此不再赘述。

在本公开的一些实施例中,基于第一分组中第一视频的数量和目标违规概率值,计算第一分组的抽样视频的数量,可以包括:基于第一分组中第一视频的数量N、目标违规概率值P以及公式(1)计算第一分组的抽样视频的数量n。

其中,d为置信度,t为置信度d对应的标准分,n0为初步计算出的抽样视频的数量,若小于0.05,则n=n0;若不小于0.05,则

在上述实施例中,可以基于标准正态分布表查询置信度d对应的标准分。

示例性地,若d取0.90,则t为1.64;若d取0.95,则t为1.96;若d取0.99,则t为2.58。

需要说明的是,绝对误差d可以根据具体需求进行设置。

在本公开实施例中,基于公式(1)可以看出,第一分组对应的目标违规概率值越大,则n0越大。这样,当第一分组中第一视频的违规风险比较大时,说明该第一分组可能会存在较多漏放的违规视频内容,这种情况下,可以选取相对较多的抽样视频进行评估,以提升对第一分组中第一视频进行误判评估的准确性,从而提升对平台所有视频内容进行漏放内容摸底的有效性。

S330,获取抽样视频对应的标签信息,标签信息可以包括正常标签和违规标签。

在本公开的一些实施例中,审核人员可以对抽样视频进行查看,依据所给判断规则对抽样视频标记正常标签或违规标签。

S340,基于对应违规标签的抽样视频的数量,计算第一分组中第一视频的误判率。

示例性地,第一分组为分组1,分组1包括1000个第一视频,从1000个第一视频中抽样评估了20个视频,其中4个视频对应违规标签,也就是说,20个视频中有4个违规视频内容在前期审核时被误判为“正常”,因此分组1中1000个第一视频的误判率可以为0.2。

如此,根据第一分组中第一视频的数量和风险信息,可以计算出与第一分组中所有第一视频的违规风险大小适配性更高的抽样视频的数量。基于此,通过所有抽样视频中对应违规标签的抽样视频的数量,就可以相对准确地计算出第一分组中第一视频的误判率。

最后涉及S240,基于第一分组中第一视频的误判信息,确定预设数量分组中的第二分组中第一视频的误判信息。

其中,误判信息可以包括视频的误判率。

在本公开的一些实施例中,在S240之前,该方法还可以包括确定第一分组与第二分组的误判率比值。图4是根据一示例性实施例示出的又一种数据处理方法的流程图,如图4所示,该方法可以具体包括S410-S440。

S410,获取第二预设时间内多个第二视频的风险信息。

其中,第二预设时间与第一预设时间不同。

在本公开的一些实施例中,第一预设时间可以包括至少部分第二预设时间,多个第一视频中可以包括至少部分第二视频。

例如,第二预设时间为8:00-12:00,则第一预设时间可以为8:00-23:00,此时第一视频中包括所有第二视频。

又例如,第二预设时间为8:00-12:00,则第一预设时间可以为11:00-23:00,此时第一视频中可以包括在11:00-12:00发布的第二视频。

在本公开的一些实施例中,第二预设时间可以为第一预设时间的上一周期。

例如,第二预设时间为周一8:00-24:00,则第一预设时间可以为周二8:00-24:00。

在本公开的一些实施例中,S410可以具体包括下述步骤:提取多个第二视频的内容特征和多个第二视频对应用户的用户特征;向预设风险评估模型输入内容特征和用户特征,输出第二视频的违规概率值;将第二视频的违规概率值作为第二视频的风险信息。

S420,基于每个第二视频的风险信息,将多个第二视频划分为预设数量分组。

需要说明的是,S420将多个第二视频划分为预设数量分组的方式,与S220将多个第一视频划分至预设数量分组的方式相同,为了简洁,在此不再赘述。

S430,基于预设抽样评估方式确定预设数量分组中每个分组中第二视频的误判率,预设数量分组包括第一分组和第二分组。

在本公开的一些实施例中,基于预设抽样评估方式确定预设数量分组中第一分组中第二视频的误判率,可以包括:基于第一分组中第二视频的数量、第二视频的误判率以及公式(1)计算第一分组的抽样视频的数量;获取抽样视频对应的标签信息,标签信息可以包括正常标签和违规标签;基于对应违规标签的抽样视频的数量,计算第一分组中第二视频的误判率。

在本公开的一些实施例中,基于预设抽样评估方式确定预设数量分组中第二分组中第二视频的误判率,可以包括:基于第二分组中第二视频的数量、第二视频的误判率以及公式(1)计算第二分组的抽样视频的数量;获取抽样视频对应的标签信息,标签信息可以包括正常标签和违规标签;基于对应违规标签的抽样视频的数量,计算第二分组中第二视频的误判率。

需要说明的是,本公开计算每个分组中第二视频的误判率的方式,与计算第一分组中第一视频的误判率的方式相同,在此不再详细赘述。

S440,基于第一分组和第二分组中第二视频的误判率,计算第一分组与第二分组的误判率比值。

在本公开的一些实施例中,误判率比值可以为第一分组的误判率与第二分组的误判率的比值。

示例性地,第一分组为分组1,第二分组包括分组2和分组3,其中,分组1对应误判率为0.2,分组2对应误判率为0.2,分组3对应误判率为0.1。则分组1与分组2的误判率比值为1:1,分组1与分组3的误判率比值为2:1。

如此,基于每个视频的违规风险大小对第二预设时间内平台发布的所有视频内容进行分组,能够使得不同组中视频内容的违规风险具有差异化。在此基础上,可以计算每个分组中第二视频的误判率,并基于该误判率,得到分组之间的视频误判率比值。这样,虽然视频发布平台的视频内容是时刻更新的,但该分组之间的视频误判率比值是相对稳定的,因此基于同样的方式对第一预设时间内平台发布的所有第一视频进行分组后,上述视频误判率比值也同样适用。也就是说,通过对视频发布平台发布视频内容的一次全面抽样评估,摸清漏放内容的分布特性,得到视频误判率比值之后,就可以基于该视频误判率比值和某个分组的视频误判率推算出其他分组的视频误判率,无需再次全面抽样评估,就可以实现违规视频内容的大盘漏放评估。

在本公开的一些实施例中,S240可以具体包括:基于第一分组中第一视频的误判率,以及第一分组与第二分组的误判率比值,计算第二分组中第一视频的误判率。

示例性地,第一分组为分组1,第二分组包括分组2和分组3,3个分组的误判率比值为2:2:1,计算得到分组1对应误判率为0.24。因此,可以基于上述两个参数,计算得到分组2对应误判率为0.24,分组3对应误判率为0.12。

在本公开的一些实施例中,在第一分组的数量为至少两个的情况下,基于S240可以计算得到至少两个第二分组中第一视频的误判率,此时可以计算至少两个第二分组中第一视频的误判率的均值,将该均值作为最终的误判率。

示例性,第一分组包括分组1和分组4,第二分组包括分组2和分组3,4个分组的误判率比值为2:2:1:3,计算得到分组1对应误判率为0.24,分组4对应误判率为0.39。根据2:2:1:3与0.24,计算得到分组2对应误判率为0.24,分组3对应误判率为0.12;根据2:2:1:3与0.39,计算得到分组2对应误判率为0.26,分组3对应误判率为0.13。这种情况下,可以将误判率的均值作为最终的误判率,即分组2对应误判率为0.25,分组3对应误判率为0.125。

如此,基于计算得到的第一分组与第二分组的误判率比值,只需要计算某个或某些分组中第一视频的误判率,就可以确定出其他分组中第一视频的误判率,从而能够对第一预设时间内平台发布的所有视频内容中进行有效评估,大大减少了所需评估的抽样量,节省了审核人力。在此基础上,可以对第一视频中的违规视频内容进行有效删除清理,提升平台发布视频内容的整体内容质量,有效提升用户观看体验。

基于上述数据处理方法,本公开实施例还提供了数据处理装置。具体结合图5进行说明。

图5是根据一示例性实施例示出的一种数据处理装置的框图。参照图5,该数据处理装置500可以包括获取模块510、分组模块520、确定模块530。

其中,获取模块510,被配置为执行获取第一预设时间内多个第一视频的风险信息,风险信息用于表征视频内容的违规风险大小;分组模块520,被配置为执行基于每个第一视频的风险信息,将多个第一视频划分至预设数量分组;确定模块530,被配置为执行基于预设抽样评估方式确定预设数量分组中的第一分组中第一视频的误判信息;确定模块530,还被配置为执行基于第一分组中第一视频的误判信息,确定预设数量分组中的第二分组中第一视频的误判信息。

通过本公开实施例所提供的数据处理装置,基于每个视频的违规风险大小对平台在第一预设时间段内发布的所有视频内容进行分组,能够使得不同组中视频内容的违规风险具有差异化,然后仅对某个或某些分组中的视频内容进行审核和评估得到误判信息,就可以基于该误判信息得到其他分组中的视频内容的误判信息,从而对第一预设时间段内发布的所有视频内容中被误判为“正常”的视频内容进行有效评估,避免了大量抽样,提升了评估效率,同时节省了审核人力和资源。因而,本公开实施例可以解决因平台发布的视频内容量十分庞大,而违规内容和漏放内容占比极低,导致按照传统抽样方法进行漏放内容评估需要耗费大量审核人力,且评估效率较低的问题。

在本公开的一些实施例中,误判信息包括视频的误判率,确定模块530具体被配置为执行:基于第一分组中第一视频的误判率,以及第一分组与第二分组的误判率比值,计算第二分组中第一视频的误判率。

如此,基于计算得到的第一分组与第二分组的误判率比值,只需要计算某个或某些分组中第一视频的误判率,就可以确定出其他分组中第一视频的误判率,从而能够对第一预设时间内平台发布的所有视频内容中进行有效评估,大大减少了所需评估的抽样量,节省了审核人力。在此基础上,可以对第一视频中的违规视频内容进行有效删除清理,提升平台发布视频内容的整体内容质量,有效提升用户观看体验。

在本公开的一些实施例中,该装置还包括:获取模块510,还被配置为执行在基于第一分组中第一视频的误判率,以及第一分组与第二分组的误判率比值,计算第二分组中第一视频的误判率之前,获取第二预设时间内多个第二视频的风险信息;分组模块520,还被配置为执行基于每个第二视频的风险信息,将多个第二视频划分为预设数量分组;确定模块530,还被配置为执行基于预设抽样评估方式确定预设数量分组中每个分组中第二视频的误判率,预设数量分组包括第一分组和第二分组;计算模块,还被配置为执行基于第一分组和第二分组中第二视频的误判率,计算第一分组与第二分组的误判率比值。

如此,基于每个视频的违规风险大小对第二预设时间内平台发布的所有视频内容进行分组,能够使得不同组中视频内容的违规风险具有差异化。在此基础上,可以计算每个分组中第二视频的误判率,并基于该误判率,得到分组之间的视频误判率比值。这样,虽然视频发布平台的视频内容是时刻更新的,但该分组之间的视频误判率比值是相对稳定的,因此基于同样的方式对第一预设时间内平台发布的所有第一视频进行分组后,上述视频误判率比值也同样适用。也就是说,通过对视频发布平台发布视频内容的一次全面抽样评估,摸清漏放内容的分布特性,得到视频误判率比值之后,就可以基于该视频误判率比值和某个分组的视频误判率推算出其他分组的视频误判率,无需再次全面抽样评估,就可以实现违规视频内容的大盘漏放评估。

在本公开的一些实施例中,风险信息包括视频内容的违规概率值,预设抽样评估方式包括基于预设分组中对应违规标签的抽样视频的数量,计算预设分组中视频内容的误判率,预设分组为第一分组或第二分组;其中,预设分组对应的抽样视频的数量基于预设分组中视频内容的数量,以及每个视频内容对应的违规概率值计算得到。

如此,在对预设数量分组中某一分组中的视频内容进行抽样评估时,可以基于该分组中视频内容的数量和违规概率值,计算该分组的抽样视频的数量。也就是说,在对某个分组进行抽样时,从分组中抽取的抽样视频的数量,需要考虑到该分组中的视频内容的违规风险大小,这样能够使得到的抽样视频的数量更加适配于该分组中的视频违规情况。

在本公开的一些实施例中,获取模块510包括:提取单元,被配置为执行提取多个第一视频的内容特征和多个第一视频对应用户的用户特征;输入输出单元,被配置为执行向预设风险评估模型输入内容特征和用户特征,输出第一视频的违规概率值;确定单元,被配置为执行将第一视频的违规概率值作为第一视频的风险信息。

如此,基于视频自身的内容特征和视频对应用户的用户特征,能够较为全面地对视频进行违规风险评估,并且使得到的违规概率值可以较为准确地表征该视频的违规风险大小,基于该违规风险大小进行视频分组,能够使得不同组中视频内容的违规风险具有差异化。因此在利用某个或某些分组中的视频内容的误判信息对其他分组中的视频内容进行误判评估时,能够保证误判评估的准确性。

在本公开的一些实施例中,获取模块510,还被配置为执行在向风险评估模型输入内容特征和用户特征之前,获取输入训练样本和输出训练样本,其中,输入训练样本包括样本视频的内容特征和样本视频对应用户的用户特征,输出训练样本包括样本视频的标签信息;模型训练模块,被配置为执行基于输入训练样本和输出训练样本对预设神经网络模型进行训练,得到风险评估模型。

在本公开实施例中,基于样本视频的内容特征和样本视频对应用户的用户特征,以及样本视频的标签信息对预设神经网络模型进行训练,能够得到可以对视频内容进行风险评估的风险评估模型,从而实现对第一视频的违规风险大小的准确评估。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种电子设备的框图。参照图6,本公开实施例还提供了一种电子设备,包括处理器610、通信接口620、存储器630和通信总线640,其中,处理器610、通信接口620和存储器630通过通信总线640完成相互间的通信。

该存储器630,用于存放处理器610可执行的指令。

该处理器610,用于执行存储器630上所存放的指令时,实现如下步骤:

获取第一预设时间内多个第一视频的风险信息,风险信息用于表征视频内容的违规风险大小;

基于每个第一视频的风险信息,将多个第一视频划分至预设数量分组;

基于预设抽样评估方式确定预设数量分组中的第一分组中第一视频的误判信息;

基于第一分组中第一视频的误判信息,确定预设数量分组中的第二分组中第一视频的误判信息。

可见,应用本公开实施例,基于每个视频的违规风险大小对平台在第一预设时间段内发布的所有视频内容进行分组,能够使得不同组中视频内容的违规风险具有差异化,然后仅对某个或某些分组中的视频内容进行审核和评估得到误判信息,就可以基于该误判信息得到其他分组中的视频内容的误判信息,从而对第一预设时间段内发布的所有视频内容中被误判为“正常”的视频内容进行有效评估,避免了大量抽样,提升了评估效率,同时节省了审核人力和资源。因而,本公开实施例可以解决因平台发布的视频内容量十分庞大,而违规内容和漏放内容占比极低,导致按照传统抽样方法进行漏放内容评估需要耗费大量审核人力,且评估效率较低的问题。

图7是根据一示例性实施例示出的用于数据处理方法的设备的框图。例如,该设备700可以被提供为一服务器。参照图7,服务器700包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理组件722的执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行上述任一实施例所述的数据处理方法。

该设备700还可以包括一个电源组件727被配置为执行设备700的电源管理,一个有线或无线网络接口750被配置为执行将设备700连接到网络,和一个输入输出(I/O)接口758。设备700可以操作基于存储在存储器732的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。

在本公开一些实施例中,还提供了一种计算机可读存储介质,当该计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一实施例所述的数据处理方法。

可选地,计算机可读存储介质可以是计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本公开一些实施例中,还提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现上述任一实施例所述的数据处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:一种基于多任务深度学习的无绿幕人像实时抠图算法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!