基于时效的数据处理方法、装置、电子设备及存储介质
技术领域
本申请涉及云技术及人工智能
技术领域
,具体而言,本申请涉及一种基于时效的数据处理方法、装置、电子设备及存储介质。背景技术
目前绝大部分的应用程序具有信息推荐的功能,每一个信息具有其对应的时效,因此,准确地确定信息的时效,可以很大程度上防止应用程序推荐过时的信息。
现有技术中,可以根据文章中包含的时间关键词确定文章的时效,具体地,若文章包含时间关键词,则该文章为短时效文章,若文章不包含时间关键词,该文章为长时效文章,时间关键词可以为最近、前几天、这段时间等。另外,还可以根据文章的类型确定文章的时效,例如,体育类文章的时效为3天,电影类文章的时效为7天等。可见,现有的确定文章时效的方式比较粗糙,容易导致文章的时效不准确,进而导致应用程序推荐给用户过时的信息,影响用户体验。
发明内容
本申请提供了一种能够准确确定文章时效的基于时效的数据处理方法、装置、电子设备及存储介质。
第一方面,提供了一种基于时效的数据处理方法,该方法包括:
获取待处理内容,待处理内容包括文本内容;
确定文本内容的文本特征;
根据文本内容的文本特征,确定待处理内容的第一时效类别;
若第一时效类别为第一类别,则基于第一类别对应的时效确定待处理内容的时效;
若第一时效类别为第二类别,则基于文本内容中的时间关键词确定待处理内容的时效,第二类别对应的时效大于第一类别对应的时效;
根据待处理内容的时效进行处理。
第二方面,提供了一种基于时效的数据处理装置,该装置包括:
内容获取模块,用于获取待处理内容,待处理内容包括文本内容;
时效类别确定模块,用于确定文本内容的文本特征、根据文本内容的文本特征,确定待处理内容的第一时效类别;
时效确定模块,用于当第一时效类别为第一类别,则基于第一类别对应的时效确定待处理内容的时效、以及当第一时效类别为第二类别,则基于文本内容中的时间关键词确定待处理内容的时效,第二类别对应的时效大于第一类别对应的时效;
内容处理模块,用于根据待处理内容的时效进行处理。
在一种可能的实现方式中,装置还包括关键词提取模块;
关键词提取模块,用于提取文本内容中的时间关键词、以及时间关键词的上下文信息;
时效确定模块在基于文本内容中的时间关键词确定待处理内容的时效时,具体用于:
根据时间关键词和时间关键词的上下文信息,确定待处理内容的第二时效类别,第二时效类别为第一类别或第二类别;
基于第二时效类别对应的时效,确定待处理内容的时效。
在一种可能的实现方式中,时效确定模块在根据时间关键词和时间关键词的上下文信息,确定待处理内容的第二时效类别时,具体用于:
提取时间关键词的特征、以及时间关键词的上下文信息的文本特征;
根据时间关键词的特征和时间关键词的上下文信息的文本特征,确定待处理内容的第二时效类别。
在一种可能的实现方式中,当时间关键词为至少两个,时效确定模块在根据时间关键词和时间关键词的上下文信息,确定待处理内容的第二时效类别时,具体用于:
对于每个时间关键词,根据该时间关键词和该时间关键词的上下文信息,确定该时间关键词对应的时效类别;
当各时间关键词对应的时效类别均为第二类别,则确定待处理内容的第二时效类别为第二类别;
当各时间关键词对应的时效类别中存在至少一个时效类别为第一类别,则确定待处理内容的第二时效类别为第一类别。
在一种可能的实现方式中,时间关键词的上下文信息包括以下至少一项:
时间关键词所在的目标句子,位于目标句子之前、且与目标句子相邻的至少一个句子,位于目标句子之后、且与目标句子相邻的至少一个句子。
在一种可能的实现方式中,时效确定模块在提取文本内容中的时间关键词时,具体用于:
根据文本内容和预构建的关键词库,确定并提取文本内容中的时间关键词;
其中,关键词库是通过以下方式构建的:
获取至少一个种子时间关键词;
获取各候选词;
基于各候选词与种子时间关键词之间的相似度,确定各候选词中的目标时间关键词;
基于各种子时间关键词和目标时间关键词,构建关键词库。
在一种可能的实现方式中,内容获取模块还用于:
获取待处理内容的内容类别;
时效确定模块在基于第一类别对应的时效确定待处理内容的时效时,具体用于:
基于第一类别对应的时效和内容类别所对应的时效,确定待处理内容的时效;
时效确定模块在基于文本内容中的时间关键词确定待处理内容的时效时,具体用于:
基于文本内容中的时间关键词和内容类别所对应的时效,确定待处理内容的时效。
在一种可能的实现方式中,文本内容包括标题和正文,时效类别确定模块在确定文本内容的文本特征时,具体用于:
提取标题的文本特征、以及正文的文本特征;
将标题的文本特征和正文的文本特征融合,得到文本内容的文本特征。
在一种可能的实现方式中,时效类别确定模块在将标题的文本特征和正文的文本特征融合,得到文本内容的文本特征时,具体用于:
将标题的文本特征与正文的文本特征拼接,得到文本内容的文本特征。
在一种可能的实现方式中,待处理内容为推荐内容;
内容处理模块具体用于:
确定推荐内容的已推荐时间;
当已推荐时间与推荐内容的时效的差值不小于设定值,则删除推荐内容。
第三方面,提供了一种电子设备,该电子设备包括存储器和处理器,其中,存储器中存储有计算机程序;处理器在运行计算机程序时,执行第一方面所示的基于时效的数据处理方法。
第四方面,提供了一种计算机可读存储介质,存储介质中存储有计算机程序,其特征在于,计算机程序被处理器执行时实现第一方面所示的基于时效的数据处理方法。
本申请提供的技术方案带来的有益效果是:
本申请提供了一种基于时效的数据处理方法、装置、电子设备及存储介质,与现有技术相比,本申请根据待处理内容中的文本内容的文本特征,确定待处理内容的时效类别,若待处理内容的时效类别为第一类别,则基于第一类别对应的时效确定待处理内容的时效,若待处理内容的时效类别为第二类别,则基于文本内容中的时间关键词确定待处理内容的时效,即根据待处理内容中整个文本内容的文本特征确定待处理内容的时效,大大提升了待处理内容的时效的准确度,进一步地,根据待处理内容的时效进行相应的处理,可以使应用程序推荐给用户的信息是没有过时的有效信息,提高用户体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种基于时效的数据处理方法的流程示意图;
图2为本申请实施例提供的一种确定目标时间关键词的示意图;
图3为本申请实施例提供的一种资讯推荐系统的结构示意图;
图4为本申请实施例提供的一种确定资讯文章时效的示意图;
图5为本申请实施例提供的另一种确定资讯文章时效的示意图;
图6为本申请实施例提供的一种基于时效的数据处理装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请各实施例中,在任何场景下,长时效类型对应的时效均大于短时效类型对应的时效。
需要说明的是,在不同的场景下,长时效类型对应的时效可能是不同的,例如,资讯推荐类应用程序中,长时效类型对应的时效可能为30天,而在股票类应用程序中,长时效类型对应的时效可能仅为几小时。相对应地,在不同的场景下,短时效类型对应的时效也可能是不同的,例如,资讯推荐类应用程序中,短时效类型对应的时效可能为3天,而在股票类应用程序中,短时效类型对应的时效可能仅为几分钟。
在实际应用中,可以结合一个场景的特点,设定该场景中长时效类型对应的时效、以及短时效类型对应的时效,在此不做限定。
现有技术中,无论是依据时间关键词确定文章的时效,还是依据文章的内容类型确定文章的时效,都是比较粗糙的。一个场景下的文章,行文丰富多样,文章语境纷繁复杂,用单调的策略确定文章的时效,会使得原本是长时效的文章,其时效结果为短时效类,使其不能在推荐侧继续推荐,或者使原本是短时效的文章,其时效结果被打长,减少了推荐侧的有效文章数量,导致用户刷到新的文章,影响用户体验。
例如,“前段时间”这个词,对应的句子有两种。第一种:前段时间,小编发现了中央街道上的一个标志性建筑,第二种:前段时间,A公司主管在发布会上发布了一则消息。第一种句子的时效类别为长时效类别,因此,第一种句子中“前段时间”这个词不应该作为生效词,即“前段时间”不应该作为判定时效结果的一个依据;第二种句子的时效类别为短时效类别,因此,第二种句子中“前段时间”应作为一个生效的时间关键词,即“前段时间”应该作为判定时效结果的一个依据。而现有技术中根据时间关键词确定文章的时效时,会将这两种句子均标记为短时效类句子。
由此可见,采用现有技术确定文章的时效是粗糙的,容易导致确定出的文章的时效结果不准确,基于上述问题,本申请实施例提出了一种基于时效的数据处理方法,可以有效解决现有技术中的问题。
其中,可选的,本申请所提供的各可选实施例,可以基于云技术实现,在方案实施时所涉及到的数据处理/计算可以采用云计算实现,获取到的待处理内容以及各中间产物如文本特征等,可以采用云存储方式进行存储,也可以存储在基于云技术的数据库中。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术(Cloudtechnology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
目前,存储系统的存储方法为:创建逻辑卷,在创建逻辑卷时,就为每个逻辑卷分配物理存储空间,该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据,也就是将数据存储在文件系统上,文件系统将数据分成许多部分,每一部分是一个对象,对象不仅包含数据而且还包含数据标识(ID,ID entity)等额外的信息,文件系统将每个对象分别写入该逻辑卷的物理存储空间,且文件系统会记录每个对象的存储位置信息,从而当客户端请求访问数据时,文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。
存储系统为逻辑卷分配物理存储空间的过程,具体为:按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID,Redundant Array of Independent Disk)的组别,预先将物理存储空间划分成分条,一个逻辑卷可以理解为一个分条,从而为逻辑卷分配了物理存储空间。
数据库(Database),简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
数据库管理系统(英语:Database Management System,简称DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、XML(Extensible MarkupLanguage,即可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如SQL(结构化查询语言(Structured QueryLanguage)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。
其中,本申请中的各实施例可以基于人工智能技术实现,如利用人工智能技术确定文本内容的文本特征,以及确定待处理内容的第一时效类别和第二时效类别等。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供了一种基于时效的数据处理方法,可以由电子设备执行,其中,电子设备可以为手机、台式电脑、笔记本电脑、平板电脑等终端设备,也可以为服务器或者服务器集群等,这里的服务器可以是物理服务器,也可以是前述提及的云服务器等。
具体地,图1为本申请实施例提供的一种基于时效的数据处理方法的流程示意图。可选的,该方法可以由服务器执行,如可以由应用程序的服务器执行,如图1中所示,该方法包括步骤S101-步骤S105。
步骤S101,获取待处理内容,待处理内容包括文本内容。
其中,待处理内容可以包括文本、图片、视频、音频等至少一项,图片中、视频中等都可以包括文本内容。例如,待处理内容可以为一篇文章,也可以为一个资讯等。
本申请实施例中,可以从待处理内容中提取文本内容,提取的文本内容包括纯文本、视频中的文本、图片中的文本等至少一项。
步骤S102,确定文本内容的文本特征。
其中,文本特征是用于表示文本内容的特征向量。其中,确定文本特征的具体方式本申请实施例不做限定,如可以是采用预训练好的神经网络模型实现。
作为一可选方式,文本内容包括标题和正文,步骤S102,确定文本内容的文本特征,具体可以包括:提取标题的文本特征、以及正文的文本特征;将标题的文本特征和正文的文本特征融合,得到文本内容的文本特征。
本申请实施例中,可以预先构建一个词库,利用词库得到标题的文本特征和正文的文本特征。
具体地,可以预先获取大量的文本内容,对每一篇文本内容进行分词,得到大量的词,利用训练好的词向量模型,得到每一个词的词向量,利用各词的词向量构建词库,其中,词向量的维度不做限定。
例如,预先获取100万篇文章,将100万篇文章进行分词,共得到200万个词,利用训练好的Word2vec(word to vector,词转向量)模型,得到这200万个词的词向量,其中,每一个词的词向量有100个维度,利用这200万个词的词向量构建词库。
当标题中包括一个词时,可以利用词库确定标题的词向量,将标题的词向量作为标题的文本特征,当标题包括至少两个词时,可以对标题进行分词,得到各个词,利用词库确定各个词的词向量,并将各个词的词向量进行融合,得到标题的文本特征。其中,融合时可以将各个词的词向量进行累加并归一化。
通常情况下,正文包括至少两个词,可以对正文进行分词,得到各个词,利用词库确定各个词的词向量,并将各个词的词向量进行融合,得到正文的文本特征。其中,融合时可以将各个词的词向量进行累加并归一化。
其中,各个词的词向量进行累加并归一化后得到的文本特征的维度,与任一个词的词向量的维度相同。例如,两个100维的词向量进行累加并归一化,可以得到一个100维的特征向量。
进一步地,可以将标题的文本特征和正文的文本特征融合,得到文本内容的文本特征,其中,融合方式在本申请实施例中不做限定。
作为一个可选的实现方式,将标题的文本特征和正文的文本特征融合,得到文本内容的文本特征,具体可以包括:将标题的文本特征与正文的文本特征拼接,得到文本内容的文本特征。
本申请实施例中,可以将标题的文本特征拼接在正文的文本特征之前或者之后,得到文本内容的文本特征。
步骤S103,根据文本内容的文本特征,确定待处理内容的第一时效类别。
本申请实施例中,时效类别的具体类别划分方式不做限定,可以将时效类别划分为两种时效类别、三种时效类别、甚至是更多的时效类别,例如,可以将时效类别划分为三种时效类别,分别记为时效类别1、时效类别2和时效类别3。
可以根据文本内容的文本特征,确定待处理内容的第一时效类别,其确定方式不做限定,其中,第一时效类别可以为至少两种时效类别中的一种,例如,将时效类别划分为时效类别1、时效类别2和时效类别3时,第一时效类别可以为时效类别1或者时效类别2或者时效类别3。
为了便于描述,本申请实施例及下文涉及的各实施例将以两种时效类别进行说明,即第一时效类别可以为第一类别,也可以为第二类别,其中,第二类别对应的时效大于第一类别对应的时效。为了便于明确第二类别和第一类别之间的时效关系,本申请实施例及下文涉及的各实施例中,以长时效类别指代第二类别,以短时效类别指代第一类别。
作为一个可选的实现方式,可以将文本内容的文本特征作为输入信息输入至训练好的时效分类模型(这里的是时效分类模型可以称为第一时效分类模型)中,由时效分类模型输出时效类别,并将时效分类模型输出的时效类别作为待处理内容的第一时效类别。
其中,时效分类模型的具体模型架构本申请实施例不做限定,可以通过训练现有的任一分类模型实现。其中,对于不同的应用场景,可以训练不同的分类模型。可以根据应用场景的实际需求,选择二分类的分类模型、或者多分类的分类模型,在本申请实施例中不做限定。
本申请实施例中,将以两种时效类别进行说明,此时,该时效分类模型可以为二分类模型,二分类模型输出的时效类别可以为长时效类别,也可以为短时效类别。其中,二分类模型可以为极端梯度提升(eXtreme Gradient Boosting,XGBoost)模型。
可以预先构建时效分类模型的训练样本集,利用构建的训练样本集训练初始模型得到时效分类模型。在构建训练样本集时,可以预先收集大量的文本内容,人工标注收集的文本内容的时效类别,利用标注后的文本内容构建训练样本集。
例如,预先收集100万篇文本内容,对于每一篇文本内容,标注该文本内容的时效类别为长时效类别或者短时效类别,利用标注后的这100万篇文章构成训练样本集,训练初始模型得到二分类模型。
当然,根据文本内容的文本特征,利用时效分类模型确定待处理内容的第一时效类别,仅为一种可能的实现方式,在实际实现时,可以不利用时效分类模型确定待处理内容的时效类别,而是采用其他方式实现,在此不做限定。
步骤S104,根据第一时效类别,确定待处理内容的时效。
其中,可以将第一时效类别对应的时效确定为待处理内容的时效。例如,长时效类别对应的时效为30天,短时效类别对应的时效为3天,则第一时效类别为长时效类别时,待处理内容的时效为30天;第一时效类别为短时效类别时,待处理内容的时效为3天。
当然,在实际应用时,也可以根据第一时效类别和待处理内容的相关信息确定待处理内容的时效。
作为一可选的实现方式,待处理内容的相关信息可以包括待处理内容的内容类别等,可以将第一时效类别对应的时效以及内容类别对应的时效中的最小值,确定为待处理内容的时效。
例如,第一时效类别为长时效类别,长时效类别对应的时效为30天,待处理内容的内容类别为电影类,电影类对应的时效为7天,则确定待处理内容的时效为7天。
具体地,步骤S104,根据第一时效类别,确定待处理内容的时效,具体可以包括步骤S1041和步骤S1042。
步骤S1041,若第一时效类别为第一类别,则基于第一类别对应的时效确定待处理内容的时效。
本申请实施例中,第一类别可以为短时效类别,可以预先设定短时效类别对应的时效,当待处理内容的第一时效类别为短时效类别时,将待处理内容的时效确定为预先设定的短时效类别对应的时效。
例如,预先设定短时效类别对应的时效为3天,当一篇资讯的第一时效类别为短时效类别时,则该资讯的时效为3天。
本申请实施例中,若第一时效类别为短时效类别,说明待处理内容的时效类别是短时效类别,由于待处理内容的时效已较短,因此,无需利用时间关键词进一步确定待处理内容的时效类别,可以减少处理步骤,降低确定时效所需要的时间。
步骤S1042,若第一时效类别为第二类别,则基于文本内容中的时间关键词确定待处理内容的时效,第二类别对应的时效大于第一类别对应的时效。
本申请实施例中,第二类别可以为长时效类别,当待处理内容的第一时效类别为长时效类别时,可以基于文本内容中的时间关键词确定待处理内容的时效。
其中,可以预先设定长时效类别对应的时效,通常情况下,长时效类别对应的时效大于短时效类别对应的时效,例如,长时效类别对应的时效为30天。
时间关键词是与时间相关的词语,例如,时间关键词可以为最近、今日、前不久、前段时间、前两天、正在热映、截止目前等。
步骤S105,根据待处理内容的时效进行处理。
在不同的应用场景下,根据待处理内容的时效进行相应的处理时,处理方式可能相同,也可能不同。
作为一个可选的实现方式,应用场景可以为应用程序已将待处理内容推荐给用户的场景。在该场景中,待处理内容为推荐内容,则步骤S105,根据待处理内容的时效进行处理,具体可以包括:
确定推荐内容的已推荐时间;若已推荐时间与推荐内容的时效的差值不小于设定值(此处的设定值可以为第一设定值),则删除推荐内容。
本申请实施例中,应用程序的显示界面中已展示有推荐内容,在应用程序已将推荐内容推荐给用户的情况下,可以确定推荐内容的已推荐时间,如果已推荐时间与推荐内容的时效的差值不小于设定值,则删除该推荐内容。
其中,设定值可以为0或者任一个正数。
当设定值为0,且已推荐时间与推荐内容的时效的差值不小于0时,说明推荐内容已过时,删除该推荐内容,可以使应用程序的显示界面中不再展示该推荐内容,即应用程序的显示界面不再展示过时的内容,保证应用程序展示的内容均是没有过时的内容,即应用程序推荐的是没有过时的内容,提升用户体验。
当设定值为正数,且已推荐时间与推荐内容的时效的差值不小于该正数时,说明推荐内容即将过时,删除该推荐内容,可以防止因网络、时延等因素造成的应用程序删除不及时的现象,保证应用程序可以及时地删除过时的内容,从而保证应用程序展示的内容均是没有过时的内容,提升用户体验。
例如,一条资讯的时效为16个小时,当设定值为0时,可以在该资讯的已推荐时间刚达到16个小时时,删除该资讯,当设定为10分钟时,可以在该资讯的已推荐时间刚达到15个小时50分钟时,删除该资讯。
作为另一个可选的实现方式,应用场景可以为应用程序没有将待处理内容推荐给用户的场景。通常情况下,这个场景是个性化展示的场景,即应用程序的显示界面中展示的内容,是根据用户的喜好而个性化展示的,在该场景中,待处理内容可以为待推荐内容,则步骤S105,根据待处理内容的时效进行相应的处理,具体可以包括:
确定待推荐内容对应的发布时间,并计算当前时间与待推荐内容对应的发布时间之间的时间差值,若时间差值与待推荐内容的时效不小于设定值(此处的设定值可以为第二设定值),删除待推荐内容。
本申请实施例中,应用程序的显示界面中没有展示有待推荐内容,应用程序可以对应一个资源池,该资源池中包括大量的待推荐内容,用户可以请求更新应用程序当前的推荐内容。在更新应用程序当前的推荐内容的过程中,可以从资源池中确定用户想要的待推荐内容,并将确定出的待推荐内容推荐给用户,即在应用程序的显示界面上展示确定出的待推荐内容。
对于资源池中的每一个待推荐内容,该待推荐内容对应一个发布时间和一个时效。其中,可以确定当前时间与待推荐内容对应的发布时间之间的时间差值,当该时间差值与待推荐内容的时效不小于设定值时,删除资源池中的待推荐内容。
其中,该设定值可以为0或任一正数。
当设定值为0且该时间差值与待推荐内容的时效不小于0时,表明该待推荐内容已过时,此时,删除资源池中的待推荐内容,可以保证资源池中不存在过时的待推荐内容,即资源池中的每一条待推荐内容均是没有过时的内容,从而保证在更新应用程序当前的推荐内容的过程中,从资源池中确定出的待推荐内容均是没有过时的内容,进而保证应用程序的显示界面上展示的确定出的待推荐内容均是没有过时的内容,防止推荐给用户过时的内容。
当设定值为正数且该时间差值与待推荐内容的时效不小于该正数时,表明该待推荐内容即将过时,此时,删除资源池中的待推荐内容,可以防止因网络、时延等因素造成的应用程序删除不及时的现象,防止推荐给用户过时的内容。
例如,一条资讯的发布时间为10月1日2点,时效为16个小时,当设定值为0且当前时间为10月1日18点时,可以删除该资讯,当设定值为10分钟且当前时间为10月1日17点50分时,可以删除该资讯。
本申请实施例提供了一种基于时效的数据处理方法,与现有技术相比,本申请实施例根据待处理内容中的文本内容的文本特征,确定待处理内容的时效类别,若待处理内容的时效类别为第一类别,则基于第一类别对应的时效确定待处理内容的时效,若待处理内容的时效类别为第二类别,则基于文本内容中的时间关键词确定待处理内容的时效,即根据待处理内容中整个文本内容的文本特征确定待处理内容的时效,大大提升了待处理内容的时效的准确度,进一步地,根据待处理内容的时效进行相应的处理,可以使应用程序推荐给用户的信息是没有过时的有效信息,提高用户体验。
需要说明的是,文本内容的语境丰富多彩,同样的词语在不同的语境下所表征的语义不同,对于与时间相关的词同样适用。
例如,对于“最近”这个与时间相关的词,存在两种语境。第一种:最近,我市开展大规模的扫黄打黑除恶项目,取得突破性进展。第二种:时光荏苒,20年前,我还是一名初中生,最近,我翻开了久违的老相册。
这两种语境中,第一种语境是短时效类型的语境,因此,“最近”在第一种语境中是生效的,而第二种语境是长时效类型的语境,因此,“最近”在第二种语境中是不生效的。现有技术中采用时间关键词确定文章的时效时,只要出现“最近”一词,就要将文章确定为短时效类文章,在一定程度上会误杀掉很多本应该是长时效类型的文章,从而使一些优质长时效类型的文章无法在推荐侧被有效的推荐,影响推荐侧的内容量。
本申请实施例可以提取文本内容中的时间关键词和时间关键词的上下文信息,综合时间关键词及其上下文信息,准确地识别时间关键词的上下文信息的时效类别。可以采用二分类模型,通过对时间关键词的特征和时间关键词的上下文信息的文本特征进行分析,识别出时间关键词的上下文信息的时效类别是短时效类别还是长时效类别,从而可以进一步准确地确定待处理内容的时效,可以使长时效类型的文章在推荐侧被有效的推荐,且使短时效类型的文章可以及时下架,使用户看到的信息均是没有过时的信息,极大的提高了用户体验,具体可以见下述实施例的相关说明。
本申请实施例的另一种可能实现方式,步骤S1042,即基于文本内容中的时间关键词确定待处理内容的时效,之前还可以包括步骤S106,提取文本内容中的时间关键词、以及时间关键词的上下文信息。
本申请实施例中,第二类别可以为长时效类别,当待处理内容的第一时效类别为长时效类别时,可以提取文本内容中的时间关键词、以及时间关键词的上下文信息。
作为一种可选的实现方式,步骤S106中,提取文本内容中的时间关键词,具体可以包括:根据文本内容和预构建的关键词库,确定并提取文本内容中的时间关键词。
本申请实施例中,关键词库中包括至少两个时间关键词,可以根据关键词库,匹配出文本内容中包含的时间关键词,并提取匹配出的时间关键词。
其中,关键词库是通过以下方式构建的:
获取至少一个种子时间关键词;获取各候选词;基于各候选词与种子时间关键词之间的相似度,确定各候选词中的目标时间关键词;基于各种子时间关键词和目标时间关键词,构建关键词库。
本申请实施例中,可以人工整理得到一些种子时间关键词,例如人工整理得到近日、前不久、前段时间、前两天、正在热映、截至目前等种子时间关键词。
可以获取大量的文本信息,对文本信息进行分词,得到大量的词,对大量的词进行整理,得到至少一个候选词。通常情况下,候选词的量级很大,例如,候选词可以为50万个。
可以利用前述构建的词库,确定每一个种子时间关键词的词向量和每一个候选词的词向量。
进一步地,可以利用种子时间关键词的词向量和每一个候选词的词向量,无监督地计算该种子时间关键词和该候选词之间的相似度值,根据相似度值确定各候选词中的目标时间关键词。其中,相似度值可以为余弦相似度值,根据相似度值确定各候选词中的目标时间关键词的方式不做限定。
需要说明的是,对于每一个种子时间关键词,可以计算其与各个候选词之间的相似度值,也可以不计算其与各个候选词之间的相似度值,当计算了某一个或者某几个种子时间关键词与各候选词之间的相似度值后,从各候选词中选择出的目标时间关键词的数量较多时,可以不计算剩余的时间关键词与各候选词之间的相似度值,有效节约时间资源。
作为一个可选的实现方式,在得到各种子时间关键词和各候选词之间的相似度值时,可以选择大于相似度阈值的相似度值所对应的候选词,作为目标时间关键词。相似度阈值可以为预先设定的,其值不做限定。
作为另一个可选的实现方式,对于每一个种子时间关键词,基于该种子时间关键词和各候选词之间的相似度,按照相似度从高到低排序,取前预设数量个候选词为目标时间关键词,预设数量不做限定,例如可以为200个。
其中,当相似度值为余弦相似度值时,可以按照相似度值从小到大的顺序排序,即按照相似度从高到低排序。
如图2所示,图2为本申请实施例提供的一种确定目标时间关键词的示意图。在计算出种子时间关键词1分别与候选词1-n之间的余弦相似度度值时,按照余弦相似度值从小到大的顺序排序,取前N个候选词作为目标时间关键词,其中,n和N均为正整数,且n大于N。
进一步地,可以基于各种子时间关键词和目标时间关键词,构建关键词库。当然,在实际执行时,取出前预设数量个候选词为目标时间关键词数后,可以人工对目标时间关键词进行筛选,以确保时间关键词的准确性。
通过种子时间关键词从各候选词中筛选出目标时间关键词,可以召回很多潜在的时间关键词,扩充词库,且筛选出目标时间关键词后,可以人工对筛选出的目标时间关键词进行二次筛选,实现用少量的人工校正,获取到足够量的时间关键词,且可以确保时间关键词的准确性。
本申请实施例中,时间关键词的上下文信息包括信息A1-信息A3中的至少一项。
信息A1,时间关键词所在的目标句子。
信息A2,位于目标句子之前、且与目标句子相邻的至少一个句子。
信息A3,位于目标句子之后、且与目标句子相邻的至少一个句子。
其中,信息A2和信息A3中的至少一个句子均为连续的句子。
例如,时间关键词“前段时间”的上下文信息包括“前段时间”所在的句子“前段时间,小编发现了中央街道上的一个标志性建筑。”,或者,包括“前段时间”所在的句子和位于“前段时间”所在的句子之后、且与“前段时间”所在的句子相邻的一个句子,如“前段时间,小编发现了中央街道上的一个标志性建筑。这个标志性建筑位于教堂右侧,是一个罗马风格的建筑。”。
通常情况下,文本内容中包括至少一个句子。任一个句子可以包括时间关键词,也可以不包括时间关键词,时间关键词可以位于句子的首部或者中部或者尾部等任意位置处,在此不做限定。
其中,步骤S1042,基于文本内容中的时间关键词确定待处理内容的时效,具体可以包括步骤S10421和步骤S10422。
步骤S10421,根据时间关键词和时间关键词的上下文信息,确定待处理内容的第二时效类别,第二时效类别为第一类别或第二类别。
本申请实施例中,第一类别可以为短时效类别,第二类别可以为长时效类别。可以根据时间关键词和时间关键词的上下文信息,确定待处理内容的第二时效类别是长时效类别还是短时效类别。
需要说明的是,待处理内容中的文本内容包括至少一个时间关键词,当时间关键词为1个时,可以利用该时间关键词和该时间关键词的上下文信息,确定待处理内容的第二时效类别;当时间关键词为至少两个时,需要利用每一个时间关键词以及每一个时间关键词的上下文信息,确定待处理内容的第二时效类别。具体地:
当时间关键词为至少两个,步骤S10421,根据时间关键词和时间关键词的上下文信息,确定待处理内容的第二时效类别,具体可以包括:
对于每个时间关键词,根据该时间关键词和该时间关键词的上下文信息,确定该时间关键词对应的时效类别;当各时间关键词对应的时效类别均为第二类别,则确定待处理内容的第二时效类别为第二类别;当各时间关键词对应的时效类别中存在至少一个时效类别为第一类别,则确定待处理内容的第二时效类别为第一类别。
本申请实施例中,对于每一个时间关键词,可以根据时间关键词和时间关键词的上下文信息确定时间关键词的时效类别,该时间关键词的时效类别可以为第一类别也可以为第二类别。
当各时间关键词对应的时效类别均为第二类别时,表明对于任一个时间关键词,结合该时间关键词的上下文信息,可以得出该时间关键词对应的时效类别为长时效类别,由于各时间关键词对应的时效类别均为长时效类别,且根据文本内容的文本特征确定出处理内容的第一时效类别为长时效类别,则可最终确定待处理内容的第二时效类别为第二类别,即长时效类别。
对于一个时间关键词,若该时间关键词对应的时效类别为第一类别,说明结合该时间关键词的上下文信息,可以得出该时间关键词对应的时效类别为短时效类别。本申请实施例中,当各时间关键词对应的时效类别中存在至少一个时效类别为短时效类别时,确定待处理内容的第二时效类别为第一类别,即短时效类别。
作为一个可选的实现方式,步骤S10421中,根据时间关键词和时间关键词的上下文信息,确定待处理内容的第二时效类别,具体可以包括:
提取时间关键词的特征、以及时间关键词的上下文信息的文本特征;根据时间关键词的特征和时间关键词的上下文信息的文本特征,确定待处理内容的第二时效类别。
本申请实施例中,当时间关键词为一个词时,可以基于词库确定时间关键词的词向量,该词向量即为时间关键词的特征;当时间关键词包括至少两个词时,可以对时间关键词进行分词,得到每一个词,基于词库确定每一个词的词向量,利用至少两个词各自的词向量,得到时间关键词的词向量,该词向量即为时间关键词的特征。作为一种可选的实现方式,可以将至少两个词各自的词向量进行累加并归一化,得到时间关键词的词向量。
通常情况下,时间关键词的上下文信息包括至少一个句子,而任一个句子由至少两个词组成,因此,可以对时间关键词的上下文信息进行分词,得到每一个词,基于词库确定每一个词的词向量,利用每一个词的词向量,得到时间关键词的上下文信息的文本特征,作为一种可选的实现方式,可以将每一个词的词向量进行累加并归一化,得到时间关键词的上下文信息的文本特征。
可以将时间关键词的特征与时间关键词的上下文信息的文本特征进行融合。作为一可选的实现方式,在融合时,可以将时间关键词的特征拼接在时间关键词的上下文信息的文本特征之前或者之后。
本申请实施例中,根据时间关键词的特征和时间关键词的上下文信息的文本特征,确定待处理内容的第二时效类别,其确定方式不做限定。
作为一个可选的实现方式,可以将时间关键词的特征拼接在时间关键词的上下文信息的文本特征之前,将拼接后的特征作为输入信息,输入至训练好的时效分类模型(这里的是时效分类模型为第二时效分类模型,与第一时效分类模型是两个不同的模型)中,由时效分类模型输出时效类别,并将时效分类模型输出的时效类别作为待处理内容的第二时效类别。
该时效分类模型可以为二分类模型,二分类模型输出的时效类别可以为长时效类别,也可以为短时效类别。其中,二分类模型可以为分类器(英文:Classifier)。
可以预先构建时效分类模型的训练样本集,详细可以见前述实施例的相关说明,在此不再赘述。
步骤S10422,基于第二时效类别对应的时效,确定待处理内容的时效。
前述已说明,预先设定有短时效类别对应的时效和长时效类别对应的时效,第二时效类别为第一类别或第二类别,第一类别为短时效类别,第二类别为长时效类别。则当待处理内容的第二时效类别为长时效类别时,可以将待处理内容的时效确定为长时效类别对应的时效;当待处理内容的第二时效类别为短时效类别时,可以将待处理内容的时效确定为短时效类别对应的时效。
本申请实施例中,若第一时效类别为长时效类别,说明待处理内容的时效类别是长时效类别,待处理内容的时效偏长,为避免本身是短时效的待处理内容被确定为长时效,可以利用时间关键词进一步确定待处理内容的时效。如果根据时间关键词确定的待处理内容的时效为长时效,则说明待处理内容的时效类别确实为长时效类别,此时不校正待处理内容的时效;如果根据时间关键词确定的待处理内容的时效为短时效,则说明待处理内容的时效类别应该为短时效类别,此时需要校正待处理内容的时效。通过进一步校正待处理内容的时效,实现准确确定待处理内容的时效。
本申请实施例的另一种可能实现方式,该方法还可以包括:获取待处理内容的内容类别。
其中,内容类别的划分方式和数据不做限定。例如,内容类别可以包括体育、电影、科技、财经、娱乐、社会等。其中,待处理内容的内容类别可以为至少一种,如待处理内容的内容类别可以为电影和社会。
步骤S104,根据第一时效类别,确定待处理内容的时效,具体可以包括:根据第一时效类别所对应的时效和内容类别所对应的时效,确定待处理内容的时效。
具体地,步骤S1041,基于第一类别对应的时效确定待处理内容的时效,具体可以包括:基于第一类别对应的时效和内容类别所对应的时效,确定待处理内容的时效。
步骤S1042,基于文本内容中的时间关键词确定待处理内容的时效,具体可以包括:基于文本内容中的时间关键词和内容类别所对应的时效,确定待处理内容的时效。
本申请实施例中,可以预设定内容类别与时效之间的对应关系。例如,可以设定内容类别与时效的对应关系如下:
内容类别
时效(天)
体育
3
电影
7
科技
3
财经
2
娱乐
3
社会
2
……
……
当第一时效类别为短时效类别时,可以确定待处理内容的时效为短时效类别对应的时效,或者内容类别对应的时效,当然,也可以将待处理内容的时效确定为短时效类别对应的时效与内容类别对应的的时效中的最小时效。
例如,第一时效类别为短时效类别,短时效类别对应的时效为3天,内容类别为电影和社会,电影对应的时效为7天,社会对应的时效为2天,则待处理内容的时效为2天。
当第一时效类别为长时效类别且第二时效类别也为长时效类别时,可以确定待处理内容的时效为长时效类别对应的时效,或者内容类别对应的时效,当然,也可以将待处理内容的时效确定为长时效类别对应的时效与内容类别对应的的时效中的最小时效。
当第一时效类别为长时效类别且第二时效类别为短时效类别时,可以确定待处理内容的时效为短时效类别对应的时效,或者内容类别对应的时效,当然,也可以将待处理内容的时效确定为短时效类别对应的时效与内容类别对应的的时效中的最小时效。
上述实施例从方法步骤的角度,详细介绍了基于时效的数据处理方法,为了更好的理解及说明本申请实施例所提供的方案,下面结合具体的应用场景对本申请的可选实施方案进行说明。该应用场景中,本申请实施例所提供的方案可以应用于资讯推荐类应用程序中,该场景中的(待处理内容为已推荐给用户的资讯文章,基于本申请的基于时效的数据处理方案,可以使应用程序推荐给用户的资讯文章是没有过时的文章,且长时效的资讯文章可以被有效的推荐。其中,本申请实施例中的第一类别为长时效类别,第二类别为短时效类别。
图3示出了基于本申请所适用的基于时效的数据处理方法对应的一种资讯推荐系统的结构示意图,如图3所示,包括应用程序的服务器320,以及与服务器320通信的各用户终端设备(图3示出了用户终端设备310和用户终端设备311)。其中,用户终端设备310和用户终端设备311中安装有应用程序,应用程序的服务器320能够在应用程序中推荐资讯文章。图4为本申请实施例提供的一种确定资讯文章时效的示意图,图5为本申请实施例提供的另一种确定资讯文章时效的示意图,下面将结合图3、图4和图5进行说明。
本申请实施例中,服务器320可以获取应用程序线上推荐的资讯文章,从资讯文章中提取文本内容,提取的文本内容包括标题和正文。
如图4所示,服务器320可以对标题进行分词,确定分词后每一个词的词向量,然后将各个词的词向量进行累加以及归一化后,得到标题的文本特征;同样地,服务器320可以对正文进行分词,确定分词后每一个词的词向量,然后将各个词的词向量进行累加以及归一化后,得到正文的文本特征。其中,任一个词的词向量可以利用训练好的Word2vec模型确定。
进一步地,服务器320可以将标题的文本特征拼接在正文的文本特征之后,得到文本内容的文本特征,然后将文本内容的文本特征输入至训练好的XGBoost模型,由XGBoost模型输出资讯文章的第一时效类别。
当资讯文章的第一时效类别为短时效类别时,将资讯文章的时效确定为短时效类别对应的时效,即3天。
当资讯文章的第一时效类别为长时效类别时,可以进一步判断资讯文章的时效类别。如图5所示,服务器320可以确定文本内容中是否包括时间关键词,若文本内容中包括时间关键词,则获取时间关键词、以及时间关键词的上下文信息,利用时间关键词、时间关键词的上下文信息以及时效分类模型,输出资讯文章的时效类别。
其中,时效分类模型可以确定时间关键词的文本特征、以及确定时间关键词的上下文信息的文本特征,并将时间关键词的上下文信息的文本特征拼接在时间关键词的文本特征之后,将拼接后的文本特征输入至时效分类器中,由时效分类器输出资讯文章的第二时效类别。
当第二时效类别为长时效类别时,服务器320确定资讯文章的时效为长时效类别对应的时效,即30天;当第二时效类别为短时效类别时,服务器320确定资讯文章的时效为短时效类别对应的时效,即3天。
更进一步地,服务器320可以确定该资讯文章在应用程序线上的已推荐时间,当已推荐时间刚达到资讯文章对应的时效时,删除该资讯文章,即及时从应用程序线上下架该资讯文章,优化用户体验。
上述从方法步骤的角度具体阐述了基于时效的数据处理方法,下面从虚拟模块的角度介绍基于时效的数据处理装置,具体如下所示:
本申请实施例提供了一种基于时效的数据处理装置,如图6所示,该基于时效的数据处理装置60可以包括:内容获取模块601、时效类别确定模块602、时效确定模块603以及内容处理模块604,其中,
内容获取模块601,用于获取待处理内容,待处理内容包括文本内容。
时效类别确定模块602,用于确定文本内容的文本特征、根据文本内容的文本特征,确定待处理内容的第一时效类别.
时效确定模块603,用于当第一时效类别为第一类别,则基于第一类别对应的时效确定待处理内容的时效、以及当第一时效类别为第二类别,则基于文本内容中的时间关键词确定待处理内容的时效,第二类别对应的时效大于第一类别对应的时效。
内容处理模块604,用于根据待处理内容的时效进行处理。
本申请实施例的另一种可能实现方式,基于时效的数据处理装置60还包括关键词提取模块,其中,
关键词提取模块,用于提取文本内容中的时间关键词、以及时间关键词的上下文信息。
时效确定模块603在基于文本内容中的时间关键词确定待处理内容的时效时,具体用于:
根据时间关键词和时间关键词的上下文信息,确定待处理内容的第二时效类别,第二时效类别为第一类别或第二类别;
基于第二时效类别对应的时效,确定待处理内容的时效。
本申请实施例的另一种可能实现方式,时效确定模块603在根据时间关键词和时间关键词的上下文信息,确定待处理内容的第二时效类别时,具体用于:
提取时间关键词的特征、以及时间关键词的上下文信息的文本特征;
根据时间关键词的特征和时间关键词的上下文信息的文本特征,确定待处理内容的第二时效类别。
本申请实施例的另一种可能实现方式,当时间关键词为至少两个,时效确定模块603在根据时间关键词和时间关键词的上下文信息,确定待处理内容的第二时效类别时,具体用于:
对于每个时间关键词,根据该时间关键词和该时间关键词的上下文信息,确定该时间关键词对应的时效类别;
当各时间关键词对应的时效类别均为第二类别,则确定待处理内容的第二时效类别为第二类别;
当各时间关键词对应的时效类别中存在至少一个时效类别为第一类别,则确定待处理内容的第二时效类别为第一类别。
本申请实施例的另一种可能实现方式,时间关键词的上下文信息包括以下至少一项:
时间关键词所在的目标句子,位于目标句子之前、且与目标句子相邻的至少一个句子,位于目标句子之后、且与目标句子相邻的至少一个句子。
本申请实施例的另一种可能实现方式,时效确定模块603在提取文本内容中的时间关键词时,具体用于:
根据文本内容和预构建的关键词库,确定并提取文本内容中的时间关键词;
其中,关键词库是通过以下方式构建的:
获取至少一个种子时间关键词;
获取各候选词;
基于各候选词与种子时间关键词之间的相似度,确定各候选词中的目标时间关键词;
基于各种子时间关键词和目标时间关键词,构建关键词库。
本申请实施例的另一种可能实现方式,内容获取模块601还用于:
获取待处理内容的内容类别;
时效确定模块603在基于第一类别对应的时效确定待处理内容的时效时,具体用于:
基于第一类别对应的时效和内容类别所对应的时效,确定待处理内容的时效。
时效确定模块603在基于文本内容中的时间关键词确定待处理内容的时效时,具体用于:
基于文本内容中的时间关键词和内容类别所对应的时效,确定待处理内容的时效。
本申请实施例的另一种可能实现方式,文本内容包括标题和正文,时效类别确定模块602在确定文本内容的文本特征时,具体用于:
提取标题的文本特征、以及正文的文本特征;
将标题的文本特征和正文的文本特征融合,得到文本内容的文本特征。
本申请实施例的另一种可能实现方式,时效类别确定模块602在将标题的文本特征和正文的文本特征融合,得到文本内容的文本特征时,具体用于:
将标题的文本特征与正文的文本特征拼接,得到文本内容的文本特征。
本申请实施例的另一种可能实现方式,待处理内容为推荐内容;
内容处理模块604具体用于:
确定推荐内容的已推荐时间;
当已推荐时间与推荐内容的时效的差值不小于设定值,则删除推荐内容。
本实施例的基于时效的数据处理装置60可执行本申请方法实施例提供的一种基于时效的数据处理方法,其实现原理相类似,此处不再赘述。
本申请实施例提供了一种基于时效的数据处理装置,与现有技术相比,本申请实施例根据待处理内容中的文本内容的文本特征,确定待处理内容的时效类别,若待处理内容的时效类别为第一类别,则基于第一类别对应的时效确定待处理内容的时效,若待处理内容的时效类别为第二类别,则基于文本内容中的时间关键词确定待处理内容的时效,即根据待处理内容中整个文本内容的文本特征确定待处理内容的时效,大大提升了待处理内容的时效的准确度,进一步地,根据待处理内容的时效进行相应的处理,可以使应用程序推荐给用户的信息是没有过时的有效信息,提高用户体验。
上述从虚拟模块的角度介绍本申请的基于时效的数据处理装置,下面从实体装置的角度介绍本申请的电子设备。
本申请实施例提供了一种电子设备,如图7所示,图7所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:存储器和处理器,其中,存储器中存储有计算机程序;处理器在运行计算机程序时,执行方法实施例所示的基于时效的数据处理方法。
上述从实体装置的角度介绍本申请的电子设备,下面从存储介质的角度介绍本申请的计算机可读存储介质。
本申请实施例提供了一种计算机可读存储介质,存储介质中存储有计算机程序,计算机程序被处理器执行时实现方法实施例所示的基于时效的数据处理方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例涉及的各种可选实现方式中提供的方法。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:文本分类方法、装置、计算机设备和存储介质