文本处理方法、装置、设备以及存储介质

文档序号:8268 发布日期:2021-09-17 浏览:56次 英文

文本处理方法、装置、设备以及存储介质

技术领域

本申请涉及人工智能领域,尤其涉及一种文本处理方法、装置、设备以及存储介质。

背景技术

随着信息技术的迅猛发展,各领域都需要对大量的文本信息进行评估以对文本信息进行针对性的处理。例如对于企业而言,企业信息包含着许多用户个人隐私信息和大量业务信息等,如何保障企业的用户个人隐私信息、业务信息的安全,成为企业信息安全工作的重中之重,而企业首先要做的是需要对用户个人隐私信息以及业务信息进行评估,才能针对性的进行信息管理。

现有的文本评估方式大多是依赖经验知识,通过经验指定关键字进行匹配,从而筛选出需要评估的文本信息,进而基于需要评估的文本信息所包括的关键字的不同,确定相对应的评估结果。因此,现有的文本评估方式灵活性差,评估准确性低。

发明内容

本申请实施例提供一种文本处理方法、装置、设备以及存储介质,可提升文本处理效率,提高文本评估准确性,适用性高。

本申请实施例提供一种文本处理方法,该方法包括:

获取待评估文本集合,以及用于进行文本评估的多个文本评估特征,上述待评估文本集合包括多个待评估文本;

对上述多个待评估文本进行分类,得到多个文本集合;

基于每个上述文本集合所包含的待评估文本的数量,确定上述多个文本集合中的目标文本集合;

对于上述目标文本集合中的每个待评估文本,基于该待评估文本与上述多个文本评估特征的匹配度,确定该待评估文本的评估结果。

本申请实施例提供了一种文本处理装置,该装置包括:

获取模块,用于获取待评估文本集合,以及用于进行文本评估的多个文本评估特征,上述待评估文本集合包括多个待评估文本;

分类模块,用于对上述多个待评估文本进行分类,得到多个文本集合;

确定模块,用于基于每个上述文本集合所包含的待评估文本的数量,确定上述多个文本集合中的目标文本集合;

评估模块,用于对于上述目标文本集合中的每个待评估文本,基于该待评估文本与上述多个文本评估特征的匹配度,确定该待评估文本的评估结果。

本申请实施例提供了一种电子设备,包括处理器和存储器,该处理器和存储器相互连接;

上述存储器用于存储计算机程序;

上述处理器被配置用于在调用上述计算机程序时,执行本申请实施例提供的文本处理方法。

本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现本申请实施例提供的文本处理方法。

本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例提供的文本处理方法。

在本申请实施例中,通过对待评估文本进行分类得到多个文本集合,并根据每个文本集合中所包含的待评估文本的数量,确定目标文本集合,从而可实现对待评估文本的过滤,减少待评估文本的处理量,进而提升文本处理效率。另一方面,通过多个文本评估特征可对目标文本集合中的各待评估文本进行准确评估,适用性高。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本处理方法的场景示意图;

图2是本申请实施例提供的文本处理方法的流程示意图;

图3a是本申请实施例提供的确定文本类型的一场景示意图;

图3b是本申请实施例提供的确定文本类型的另一场景示意图;

图4是本申请实施例提供的确定词向量分布的场景示意图;

图5是本申请实施例提供的确定聚类类别的场景示意图;

图6是本申请实施例提供的对待评估文本进行评估的流程示意图;

图7是本申请实施例提供的评估结果的展示场景的示意图;

图8是本申请实施例提供的文本处理装置的结构示意图;

图9是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供的文本处理方法涉及大数据领域、人工智能(ArtificialIntelligence,AI)中机器学习(Machine Learning,ML)领域以及自然语言处理(NatureLanguage processing,NLP)等领域。其中,机器学习是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答等。本申请实施例提供的文本处理方法主要涉及自然语言处理中的文本处理技术。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。如本申请实施例可以神经网络为基础,通过机器学习使得机器具备对文本进行处理的性能。

本申请实施例提供的图处理方法还涉及云技术(Cloud technology)中的云计算(cloud computing)、人工智能云服务等领域。在本申请实施例中,通过云计算将文本处理方法中涉及到的计算任务分布在大量计算机构成的资源池上以提高文本处理的效率。并且还可将文本处理方法作为一种人工智能服务,通过人工智能平台提供对应的文本处理的人工智能云服务。

本申请实施例提供的基于文本处理方法可以由任一终端设备或者服务器执行。本申请实施例提供的文本处理方法由服务器执行时,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。本申请实施例提供的文本处理方法由终端设备执行时,该终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。

参见图1,图1是本申请实施例提供的文本处理方法的场景示意图。如图1所示,待评估文本集合100中包括多个待评估文本,且待评估文本集合100中的所有待评估文本均属于同一文本类型。例如,待评估文本集合100对应的文本类型为日志类型,则待评估文本集合100中所有的待评估文本均为日志文本。再例如,待评估文本集合100对应的文本类型为贸易类型,则待评估文本集合100中所有的待评估文本均为与贸易相关的文本。其中,待评估文本集合对应的文本类型的具体分类可基于实际应用场景需求确定,在此不做限制。如对于企业或一个组织来说,待评估文本集合对应的文本类型可按照客户资料、技术资料、重大决策信息、主要会议纪要、财务预算信息和各种财务报表等划分不同的文本类型。

进一步地,虽然待评估文本集合100中所有的待评估文本属于同一文本类型,但是各待评估文本之间的文本内容仍然可能会存在较大差异,如与贸易相关的待评估文本可能包括与贸易资金相关的文本,也可能包括与产品信息相关的文本。因此可对待评估文本集合100中所有的待评估文本进行分类,将较为相似的待评估文本分为一类,每一类待评估文本作为一个文本集合。如图1中所示,对待评估文本集合100中所有的待评估文本进行分类后可得到文本集合201、文本集合202以及文本集合203,进而可根据各文本集合所包括的待评估文本的数量,从文本集合201、文本集合202以及文本集合203中确定出目标文本集合204,以达到对待评估文本进行筛选的目的。其中,目标文本集合204所包括的待评估文本为最终需要进行评估的文本,如评估目标文本集合204中所有待评估文本的重要程度、威胁性以及风险性等,具体的评估维度可基于实际的文本类型以及实际应用场景需求确定,在此不做限制。

具体的,在对目标文本集合204中所有的待评估文本进行评估时,可获取用于进行文本评估的多个文本评估特征300,并且确定目标文本集合204中每个待评估文本与多个文本评估特征之间的匹配度,进而基于各个待评估文本对应的匹配度确定所有待评估文本的评估结果400。也就是说,在对目标文本集合204中所有的待评估文本进行评估时,可分别基于多个文本评估特征得到每个待评估文本的评估结果。如图1中,目标文本集合204中包括待评估文本1、待评估文本2以及待评估文本3,在确定每个待评估文本与多个文本评估特征300的匹配度后,可基于待评估文本1对应的匹配度确定待评估文本1的评估结果,基于待评估文本2对应的匹配度确定待评估文本2的评估结果,以及基于待评估文本3对应的匹配度确定待评估文本3的评估结果。

参见图2,图2是本申请实施例提供的文本处理方法的流程示意图。如图2所示,本申请实施例提供的文本处理方法包括以下步骤:

步骤S21、获取待评估文本集合,以及用于进行文本评估的多个文本评估特征。

在一些可行的实施方式中,获取到的待评估文本集合中的多个待评估文本属于同一文本类型,其中,该文本类型可以按照文本内容所涉及的领域进行划分,如将电子设备的日志文本归为一个文本类型,将企业信息归为一个文本类型。可选的,该文本类型还可按照不同的应用场景进行划分,如将企业信息归为一个文本类型,将学术文献归为一个文本类型。可选的,该文本类型还可按照某一领域、某一应用场景下的不同信息属性进行划分,如对于企业或一个组织来说,可分别将客户资料、技术资料、重大决策信息、主要会议纪要、财务预算信息和各种财务报表划分为不同的文本类型。需要特别说明的是,上述待评估文本集合所对应的文本类型的具体划分方式与粒度可基于实际应用场景需求确定,在此不做限制。

具体的,在获取待评估文本集合时,可先获取待处理文本集合,待处理文本集合中包括多个待处理文本,并且待处理文本集合中的所有待处理文本为获取到的属于各文本类型的待处理文本。如对于企业或一个组织来说,待处理文本集合各待处理文本所涉及到的文本类型可能包括客户资料、技术资料、重大决策信息、主要会议纪要、财务预算信息和各种财务报表等文本类型。

进一步的,在获取待处理文本集合之后,可确定待处理文本集合中的所有待处理文本的文本类型,将同一文本类型的待处理文本确定为一个待评估文本集合,此时一个待评估文本集合中的待处理文本即为待评估文本。进而可依次获取每一文本类型对应的待评估文本集合,基于本申请实施例所提供的文本处理方法分别对属于同一文本类型的待评估文本集合中的待评估文本进行处理,进而提高文本处理效率。

可选的,若在实际需求中需要对属于指定文本类型的待处理文本进行评估,此时还可获取指定文本类型对应的待评估文本集合,基于本申请实施例所提供的文本处理方法对该待评估文本集合中的待评估文本进行处理。

可选的,可确定各文本类型对应的重要程度或者类型优先级,基于重要程度的先后顺序或者类型优先级的先后顺序,依次获取各文本类型对应的待评估文本集合。需要特别说明的是,上述获取待评估文本集合的具体实现方式仅为示例,具体可基于实际应用场景需求确定,在此不做限制。

在一些可行的实施方式中,在确定待处理文本集合中的所有待处理文本的文本类型时,可获取多个文本类型预测模型以用于确定各待处理文本的文本类型。其中,每个文本类型预测模型对应于一种文本类型,即每个文本类型预测模型可确定待处理文本的文本类型为一种文本类型的概率。其中,文本类型预测模型的数量以及用于预测哪几种文本类型的文本类型预测模型可基于实际应用场景需求确定,在此不做限制。

进一步的,对于每一待处理文本,可基于各文本类型预测模型确定待处理文本的文本类型为各文本类型预测模型对应的文本类型的预测概率。即将每一待处理文本分别输入每一文本类型预测模型,每一文本类型预测模型输出一个预测概率,该预测概率表示待处理文本的文本类型为该文本类型预测模型对应的文本类型的概率。在确定该待处理文本的文本类型为各文本类型预测模型对应的文本类型的预测概率之后,可将预测概率最高的文本类型预测模型对应的文本类型确定为该待处理文本的文本类型。基于上述实现方式,可确定出待处理文本中所有待处理文本的文本类型。

例如,参见图3a,图3a是本申请实施例提供的确定文本类型的一场景示意图。图3a中所示了三个文本类型预测模型,每个文本类型预测模型对应一种文本类型,即第一文本类型预测模型对应第一文本类型,第二文本类型预测模型对应第二文本类型,第三文本类型预测模型对应第三文本类型。对于一个待处理文本而言,将该待处理文本分别输入第一文本类型预测模型、第二文本类型预测模型以及第三文本类型预测模型。基于第一文本类型预测模型得到第一预测概率,且第一预测概率为0.3,基于第二文本类型预测模型得到第二预测概率,且第二预测概率为0.8,基于第三文本类型预测模型得到第三预测概率,且第三预测概率为0.4。其中,基于第二文本类型预测模型得到的第二预测概率的预测概率最高,因此可将第二文本类型预测模型对应的第二文本类型确定为该待处理文本的文本类型。

其中,上述每个文本类型预测模型可以为基于神经网络训练得到的,具备确定待处理文本的文本类型为一种文本类型的预测概率的能力的模型,也可以为基于分类算法训练得到的,具备确定待处理文本的文本类型为一种文本类型的预测概率的能力的模型,具体可基于实际应用场景需求确定,在此不做限制。

可选的,在确定待处理文本集合中的所有待处理文本的文本类型时,还可获取一个文本类型预测模型,该文本类型预测模型可用于预测每个待处理文本的文本类型为各文本类型的预测概率。其中,该文本类型预测模型可预测的文本类型以及可预测的文本类型的类型数量可基于实际应用场景需求确定,在此不做限制。

进一步的,对于每一待处理文本,可基于该文本类型预测模型确定待处理文本的文本类型为各文本类型的预测概率。即将每一待处理文本输入文本类型预测模型,该文本类型预测模型可输出多个预测概率,每一预测概率表示该待处理文本的文本类型为一种文本类型的概率。在确定该待处理文本的文本类型为文本类型的预测概率之后,可将最高预测概率所对应的文本类型确定为该待处理文本的文本类型。基于上述实现方式,可确定出待处理文本集合中所有待处理文本的文本类型。

例如,参见图3b,图3b是本申请实施例提供的确定文本类型的另一场景示意图。图3b中所示的文本类型预测模型可确定一个待处理文本的文本类型分别为三种文本类型的预测概率,即可确定该待处理文本的文本类型为第一文本类型的预测概率,该待处理文本的文本类型为第二文本类型的预测概率以及该待处理文本的文本类型为第三文本类型的预测概率。对于一个待处理文本而言,将该待处理文本输入该文本类型预测模型,得到的第一预测概率为0.3,第二预测概率为0.8,第三预测概率为0.4。其中,由于第二预测概率高于第一预测概率和第三预测概率,因此可将第二预测概率对应的第二文本类型确定为该待处理文本的文本类型。

其中,上述文本类型预测模型可以为基于神经网络训练得到的,具备确定待处理文本的文本类型为多种文本类型的预测概率的能力的模型,也可以为基于分类算法训练得到的,具备确定待处理文本的文本类型为多种文本类型的预测概率的能力的模型,具体可基于实际应用场景需求确定,在此不做限制。

在一些可行的实施方式中,在获取待评估文本集合的同时,还需要获取用于进行文本评估的多个文本评估特征,其中,所获取的多个文本评估特征用于对待评估文本集合中的各待评估文本进行评估。

其中,上述文本评估特征包括以下至少一项:

至少一个信息类别;

文本格式;

关键词库。

其中,上述信息类别的划分依据和具体划分粒度可基于实际应用场景需求确定,在此不做限制。如对于文本类型为技术资料类型的待评估文本而言,该待评估文本的文本内容可能会涉及金融类、身份类、密码类、金融类等多种信息类别的信息。

其中,上述文本格式用于表示待评估文本的返回类型或者文本表现形式,包括但不限于text类型,Json类型、图片(jpg、png)类型等,具体可基于实际应用场景需求确定,在此不做限制。

其中,上述关键词库中包括多个评估关键词,每个评估关键词可对应于一个信息类别。其中,上述关键词库可通过多种方式构建,如基于大数据等方式获取属于各个信息类别的评估关键词以构建关键词库,基于关键词提取算法从样本文本中提取得到多个评估关键词以构建关键词库,以及基于上述评估关键词获取方式扩充现有的评估关键词集合以构建关键词库等,具体可基于实际应用场景需求确定,在此不做限制。

在一些可行的实施方式中,上述关键词库中的至少部分评估关键词可通过以下方式确定:

获取样本文本集,该样本文本集包括多个样本文本;

基于多个样本文本中所包含的各候选词在多个样本文本中的出现情况,从各候选词中确定出评估关键词。

其中,对于每一样本文本,该样本文本所包含的候选词为在该样本文本中重要程度较高的词,或者为该样本文本中可表征不同信息类别的词,每一样本文本中候选词的确定方式以及各样本文本的获取方式在此不做限制。

其中,多个样本文本中所包含的各候选词在多个样本文本中的出现情况,可以为可反映每个候选词在某一维度的出现频率相关信息,包括但不限于每个候选词在相对应的样本文本中的出现次数,每个候选词在相对应的样本文本中的出现次数与该样本文本中总词数的比值,以及每个候选词在对应的样本文本中出现次数与该样本文本中出现次数最多的词的出现次数的比值等,在此不做限制。为方便描述,以下将每一候选词对应的出现情况称为该候选词的词频。

另一方面,由于各候选词之间的重要程度也可能不同,例如,如果候选词“销售”和候选词“绝密”在一个样本文本中的出现次数一样多,则显而易见可确定候选词“绝密”的重要性大于候选词“销售”的重要性。因此,如果一个候选词在平时较为少见,但是在样本文本中多次出现,那么该候选词很可能就反映了相对应的样本文本的所涉及的一个信息类别,进而可将该候选词“绝密”确定为一个评估关键词。

因此,对于每一候选词而言,可确定所有样本文本中包含该候选词的样本文本的第一文本数,以及确定所述多个样本文本的总文本数。进而基于第一文本数和总文本数确定该候选词对应的逆文本频率:

其中,该候选词对应的逆文本频率与该候选词的常见度反比。

进一步的,同样对于每一候选词而言,基于该候选词对应的逆文本频率和词频可确定该候选词的词权重(如将逆文本频率与词频相乘),进而对于所有候选词而言,可将词权重高于词权重阈值的候选词确定为评估关键词。其中,上述词权重阈值可基于实际应用场景需求确定,在此不做限制。

步骤S22、对多个待评估文本进行分类,得到多个文本集合。

在一些可行的实施方式中,对于属于同一文本类型的待评估文本集合中的所有待评估文本而言,各待评估文本的文本内容之间仍然可能会存在较大差异,因此可对待评估文本集合中所有的待评估文本进行分类,将较为相似的待评估文本分为一类,每一类待评估文本作为一个文本集合。

具体的,可将属于同一文本类型的各待评估文本进行进一步分类,以从待评估文本集合中筛选出最终需要进行评估的待评估文本。具体的,可先确定待评估文本集合中各待评估文本的文本特征,基于各待评估文本的文本特征,采用聚类算法或者聚类模型等对各文本特征进行聚类,基于聚类结果得到多个文本集合。其中,聚类结束时属于同一聚类类别的文本特征对应的待评估文本作为一个文本集合,每一文本集合中的待评估文本的文本内容之间的相似度较高。

例如,若需要对待评估文本的风险性进行评估,通常情况下只有少部分待评估文本中包含风险信息,而包含风险信息的待评估文本之间的相似度较为接近。因此,通过对各待评估文本进行聚类,可将包含风险信息的待评估文本划分至同一类,进而达到筛选疑似包含风险信息的待评估文本。

其中,上述聚类算法包括但不限于K-Means聚类算法、均值漂移聚类算法以及DBSCAN聚类算法等,具体可基于实际应用场景需求确定,在此不做限制。其中,上述聚类模型可以为基于聚类算法训练得到的聚类模型,也可以为基于神经网络模型训练得到的聚类模型,具体也可基于实际应用场景需求确定,在此不做限制。

其中,将各待评估文本的文本特征作为聚类对象,可降低信息处理量,提升聚类效率,并且由于各文本特征携带有相对应的待评估文本的语义信息,可使得基于聚类结果得到的各文本集合中待评估文本之间的相似度更好,有助于提高待评估信息的筛选准确性。

可选的,也可基于关键词匹配、计算各文本之间的文本相似度等形式,将待评估文本集合划分为多个文本集合,对多个待应该文本进行分类的具体实现方式可基于实际应用场景需求确定,在此不做限制。

在一些可行的实施方式中,在确定各待评估文本的文本特征时,对于每一待评估文本,可直接对该待评估文本进行编码得到该待评估文本的文本特征。可选的,可对每一待评估文本中的各词进行编码,得到各词的编码特征,并进一步基于向量提取模型得到每一待评估文本中各词对应的词向量,进而基于各词对应的词向量确定相对应的待评估文本的文本特征。如可基于全连接层对每一待评估文本中各词对应的词向量进行处理,得到该待评估文本的文本特征。

可选的,还可先对各待评估文本进行文本预处理,对各待评估文本进行分词、去除停用词、标点符号、脏数据等文本处理,得到经过预处理后的待评估文本的各词,进而对预处理后的待评估文本中的各词进行编码,基于向量提取模型获取各词的词向量以确定相对应的待评估文本的文本特征。

其中,上述向量提取模型可基于神经网络模型训练得到,如基于word2vec模型中的CBOW模型训练得到,具体神经网络模型的选择可基于实际应用场景需求确定,在此不做限制。

在一些可行的实施方式中,在训练向量提取模型时,可获取训练数据集,该训练数据集中包括多个训练文本。对于每一训练文本中的每一词,可对各词进行编码得到该词的编码特征。进而将各所述训练文本中的各词的编码特征输入神经网络模型中,对于每一次,通过神经网络模型,将与该词相邻的词的编码特征分别乘以共享的输入权重矩阵得到各相邻的词的词向量。并将各相邻词的词向量相加求平均作为隐层向量。

进一步的,将隐层向量乘以输出权重矩阵并经过激活函数处理得到各词对应的词向量分布,即将某一词作为预测词,通过与该词相邻的词的编码特征最终得到预测词对应的词向量分布。其中,该词向量分布的向量维度与各相邻词的词向量的维度相同,且每个预测词的词向量分布可表示该预测词为各词的概率,从而可将最大概率所指示的词作为预测词。

可选的,在对训练文本中各词进行编码时,也可同样对各训练文本进行分词、去除停用词、标点符号、脏数据等文本处理,得到经过预处理后的训练文本的各词,进而对预处理后的训练文本中的各词进行编码。

进一步的,在训练过程中可基于各训练文本中各词和相对应的预测词确定训练损失值,该训练损失值表征了各训练文本中的词和相对应的预测词之间的差异。基于训练损失值和训练数据集对神经网络模型进行迭代训练,直至训练损失值满足预设的训练结束条件时,将训练结束后的模型确定为向量提取模型。

其中,上述训练结束条件可以为训练损失值小于训练损失阈值,或者为训练损失值趋于稳定,即连续一定训练次数对应的训练损失值之间的差值小于预设差值阈值。当训练损失值满足预设的训练结束条件时,说明对于每一词而言,该词与相对应的预测词之间的差异较小,进一步可说明基于向量提取模型得到的各词的词向量趋于稳定。进而通过训练得到的向量提取模型最终的共享的输入权重矩阵,根据任一词的编码特征确定该词对应的词向量。

结合图4,图4是本申请实施例提供的确定词向量分布的场景示意图。图4所示了一待评估文本“今天去北京”。对于该待评估文本,可先对该待评估文本的各词进行热独编码,得到待评估文本中各词的编码特征,并将各词的编码特征输入向量提取模型中。对于该待评估文本中的词“去”来说,可将与其相邻的各词“今”、“天”、“北”、“京”对应的编码特征输入向量提取模型,得到各词“今”、“天”、“北”、“京”对应的词向量。进一步将各词向量相加求平均作为隐层向量,以将隐层向量乘以输出权重矩阵并经过激活函数处理得到词“去”(预测词)对应的词向量分布。

在一些可行的实施方式中,在对待评估文本的文本特征进行聚类时,可采用K-Means聚类算法进行聚类。具体的,在开始聚类时,可先确定k聚类类别,即此次聚类需要将各文本特征划分为k个簇。其中,k值的确定可基于先验经验确定,或者k值可以为预设值,或者可通过对各待评估文本进行交叉验证确定出k值。

其中,在进行交叉验证时,可将各待评估文本对应的文本特征划分为训练子集和测试子集,训练子集用于基于不同的k值进行聚类,以确定可能用于最终聚类的k值。测试子集用于对各k值进行测试,基于测试结果确定出本次聚类的最终的k值。

可选的,可将各待评估文本对应的文本特征划分为m个训练子集,基于m个训练子集可确定出m个k值。其中,在每个k值的确定过程中,可选取一个训练子集作为测试子集,根据一个测试子集和m-1个训练子集基于上述实现方式确定出一个k值。并且在每确定出一个k值之后,选取另一个训练子集作为测试子集基于上述实现方式确定出另一个k值,重复上述过程可得到m个k值。进一步的,可确定m个k值的均值并向上或者向下取整,得到最终用于对所有文本特征进行聚类的k值。

需要特别说明的是,上述用于聚类的k值的具体确定方式仅为示例,具体可基于实际应用场景需求确定,在此不做限制。

进一步的,在确定出用于聚类的k值之后,可从所有文本特征D={x1,x2,…,xm}中选取k个文本特征作为k个聚类中心的特征{μ12,…,μk},即开始聚类时的初始聚类中心的特征分别为选取的k个文本特征,每个聚类中心可称为相对应的聚类类别对应的簇的均值向量或者质心,为方便描述,本申请实施例中统一以聚类中心进行描述。

在每一次聚类过程中,对于一个文本特征xi,可确定该文本特征xi与各聚类中心的特征μj(j=1,2,…,k)的相似度dij=||xij||2,将相似度最高(dij越小,相似度越高)的聚类中心的特征所对应的聚类类别λi确定为该文本特征xi在当前聚类过程中所属的聚类类别λi,将文本特征xi划入聚类类别λi对应的簇Cλi=Cλi∪{xi}。基于上述实现方式,可确定所有文本特征D={x1,x2,…,xm}所对应的聚类类别。

参见图5,图5是本申请实施例提供的确定聚类类别的场景示意图。图5中簇的个数为3,即存在聚类类别1、聚类类别2以及聚类类别3。在一次聚类过程中,对于图5中的文本特征而言,可分别确定该文本特征与各聚类中心的特征之间的距离d1、d2以及d3。其中,d3远远小于d1和d2,说明该文本特征与聚类类别3对应的聚类中心的特征之间的相似度最高,因此可将该文本特的聚类类别确定为聚类类别3,并将该文本特征划入相对应的簇中。

进一步的,在每完成一次聚类过程之后,对于每一聚类类别对应的簇Cj,需要更新该聚类类别对应的聚类中心的特征,具体可通过x实现,其中,|Cj|为簇Cj中文本特征的数量。即将该聚类类别对应的簇中所有文本特征的均值向量作为新的聚类中心,以在下一聚类过程中基于新的聚类中心进行聚类。

在聚类过程中,可基于每一文本特征距离相对应的聚类中心的特征的距离(相似度)确定损失值,并根据聚类损失值对各文本特征进行迭代聚类,直至聚类损失值符合聚类结束条件,聚类结束并将聚类结束后每一聚类类别对应簇中的待评估文本确定为一个文本集合。

其中,上述聚类结束条件可以为上述聚类损失值不小于损失阈值,或者为连续多次聚类损失值之间的差值小于差值阈值,即聚类损失值趋于稳定,在此不做限制。

其中,上述聚类损失值可表示为:即上述聚类损失值为每一文本特征与相对应的聚类中心的特征的距离之和,该聚类损失值表征了各聚类类别对应的簇中的文本特征围绕聚类中心的特征的紧密程度,聚类损失值越小,则簇内文本特征之间的相似度越高。基于上述聚类方式,可使得各聚类类别对应的簇内的文本特征间的距离越来越小(相似度越来越高),簇件的距离越来越大(不同簇的文本特征之间的相似度越来越小),从而实现对待评估文本的分类。

可选的,在聚类过程中,上述聚类结束条件还可以为迭代聚类次数达到预设次数,此时也可停止聚类,聚类结束条件的具体选择可基于实际应用场景需求确定,在此不做限制。

在日常的计算机设备运行过程中,告警日志的数量往往会非常大,其中不乏存在误报或者对计算机运行无影响的日志文本。本申请实施例通过确定各日志文本的文本特征,通过聚类可在较短时间内将绝大部分误报或者影响较低的日志文本进行过滤,可减少日志文本的处理量。

步骤S23、基于每个文本集合所包含的待评估文本的数量,确定多个文本集合中的目标文本集合。

在一些可行的实施方式中,由于每一文本集合中待评估文本的文本内容之间的相似度较高,因此重要性相近、威胁性相近的待评估文本属于同一文本集合。例如,若需要对待评估文本的风险性进行评估,通常情况下只有少部分待评估文本中包含风险信息,而包含风险信息的待评估文本之间的相似度较为接近。因此,通过对各待评估文本进行聚类,可将包含风险信息的待评估文本划分至同一类,从而可确定各文本集合所包括的待评估文本的数量,基于各文本集合所包括的待评估文本的数量从多个文本集合中确定出目标文本集合。如若需要评估待评估文本的威胁性,包含威胁性信息、重要性信息的待评估文本往往只占所有待评估文本的极少数量,因此可将包含的待评估文本的数量较少的一个或者几个文本集合作为目标文本集合,从而对文本集合进行筛选得到具有高威胁性、高重要性以及高风险性的文本集合。

可选的,在从多个文本集合中确定目标文本集合时,也可将包含的待评估文本的数量不超过数量阈值的文本集合作为目标文本集合,也可将包含的待评估文本的数量超过数量阈值的文本集合作为目标文本集合,具体可基于实际评估需求确定,在此不做限制。

步骤S24、对于目标文本集合中的每个待评估文本,基于该待评估文本与多个文本评估特征的匹配度,确定该待评估文本的评估结果。

在一些可行的实施方式中,在对目标文本集合中的待评估文本进行评估时,可分别确定每个待评估文本与获取到的多个文本评估特征之间的匹配度,以根据各待评估文本对应的匹配度,确定该待评估文本的评估结果。

具体的,上述文本评估特征包括关键词库,该关键词库中包括多个评估关键词,该待评估文本与文本评估特征的匹配度基于该待评估文本所命中的评估关键词、该待评估文本所命中的评估关键词数量以及该待评估文本所命中的评估关键词的数量在上述关键词库中评估关键词的总数量的占比所确定。

如该待评估文本命中的某一信息类别对应的评估关键词,可将待评估文本命中该评估关键词对应的匹配度进行赋值,如将该待评估文本所命中的评估关键词数量对应的匹配度进行赋值等,通过数学方式体现该待评估文本与多个文本评估特征的匹配度。

具体的,上述文本评估特征包括至少一个信息类别,其中,关键词库中的一个评估关键词可对应一个信息类别。该待评估文本与文本评估特征的匹配度可基于该待评估文本所命中的信息类别、该待评估文本所命中的信息类别的类别种数、该待评估文本所命中的信息类别对应的评估关键词的文本总长度在关键词库中所有评估关键词的文本总长度的占比所确定。

同理,该待评估文本所命中的信息类别、该待评估文本所命中的信息类别的类别种数、该待评估文本所命中的信息类别对应的评估关键词的文本总长度在关键词库中所有评估关键词的文本总长度的占比分别对应的匹配度也可通过赋值进行体现。

其中,确定该待评估文本所命中的信息类别时,可先确定该待评估文本在关键词库中所命中的评估关键词,将所命中的评估关键词对应的信息类别作为待评估文本所命中的信息类别。

具体的,上述文本评估特征包括文本格式,该待评估文本与文本评估特征的匹配度可基于该待评估文本的具体文本格式确定,如该待评估文本的文本格式为text,则可确定相对应的匹配度为1。

进一步的,可获取待评估文本与多个文本评估特征的匹配度对应的评估权重,即进而基于待评估文本与多个文本评估特征的匹配度,以及对应的评估权重确定该待评估文本的评估结果。

其中,一个评估权重用于表示相对应的匹配度对评估结果的应用程度,如待待评估文本命中评估关键词的数量对评估结果的影响程度远远大于该待评估文本的文本格式对应评估结果的影响程度,不同匹配度对应的评估权重可基于实际应用场景需求确定,在此不做限制。

例如,该待评估文本命中评估关键词1和评估关键词2(命中评估关键词1对应的匹配度为1,命中评估关键词2对应的匹配度为1),该待评估文本所命中的评估关键词1和评估关键词2的总数量为2(对应的匹配度为2),若关键词库中存在12个评估关键词,则该待评估文本所命中的评估关键词的数量在关键词库中评估关键词的总数量的占比为0.25(将该占比作为相对应的匹配度)。在此情况下,可基于该评估文本对应的各匹配度以及相对应的评估权重进行加权求和,得到最终的评估结果。

可选的,由于待评估文本与多个文本评估特征的不同匹配度之间的数值差异较大,如命中的评估关键词的数量对应的匹配度往往大于命中的评估关键词对应的占比,因而会可能降低最终得到的评估结果的客观性。基于此,可先将待评估文本与各文本评估特征的各匹配度进行归一化处理,以使各匹配度在同一数量维度,进而基于归一化后的匹配度与相对应的评估权重确定待评估文本的评估结果。

其中,上述评估结果可用于确定待评估文本的风险性、重要性以及威胁性等等,具体可基于实际的评估需求和应用场景需求确定,在此不做限制。如基于每个文本集合所包含的待评估文本的数量,从多个文本集合中确定出高威胁性的目标文本集合。对于目标文本集合中的任一待评估文本而言,可基于将匹配度与相对应的评估权重得到的最终值对该待评估文本的威胁程度进行评级,即基于最终值与威胁等级之间的对应关系,确定该待评估文本对应的威胁等级,并将威胁等级作为该待评估文本的评估结果。

例如,在需要评估待评估文本的威胁等级时,该待评估文本对应的匹配度与评估权重的对应关系可如表1所示:

表1:评估权重表

匹配度 评估权重
命中信息类别的类别种数 2
命中敏感信息占比 3
响应返回类型 Text:2;Json:3;jpg/png:2;其它:1
命中评估关键词数量 2
命中评估关键词占比 3
是否命中金融类评估关键词 3
是否命中身份类评估关键词 3
是否命中位置类评估关键词 3
是否命中密码类评估关键词 3
是否命中文件类评估关键词 3
是否命中用户资料类评估关键词 2
是否命中日志类评估关键词 2
是否命中设备类评估关键词 2
是否命中业务类评估关键词 1
是否命中通讯类评估关键词 1

其中,上述关键词库中的评估关键词可以为金融类评估关键词、身份类评估关键词、位置类评估关键词、密码类评估关键词、文件类评估关键词、用户资料类评估关键词、日志类评估关键词、设备类评估关键词、业务类评估关键词以及通讯类评估关键词。相对应的,对于一个待评估文本而言,其可命中的信息类别可包括金融类、身份类、位置类、密码类、文件类、用户资料类、日志类、设备类、业务类以及通讯类。

其中,表1中命中敏感信息占比即为命中的评估关键词的总文本长度在关键词库中所有评估关键词的总文本长度的占比;响应返回类型即为待评估文本的文本格式。若该待评估文本命中的评估关键词为金融类评估关键词、身份类评估关键词以及密码类评估关键词,且命中金融类评估关键词的词数为2,命中身份类评估关键词的词数为4,命中密码类评估关键词的词数为6。由此可知该待评估文本命中信息类别的类别种数为3,相对应的评估权重为2,命中评估关键词的数量为12,相对应的评估权重为2。

进一步,假设关键词库中待评估关键词的总数量为24,总文本长度为80,该待评估文本信息命中的评估关键词的总文本长度为20,则待评估文本信息命中敏感信息占比为0.25,相对应的评估权重为3,命中评估关键词占比为0.5,,相对应的评估权重为3。若该待评估文本命中的文本格式(响应返回类型)为Text,则相对应的评估权重为2。则可将该待评估文本与各文本特征对应的匹配度(如命中一个信息类别的关键词则匹配度赋值为1)进行归一化处理,基于归一化处理后的匹配度以及相对应的评估权重,确定该待评估文本的威胁分数,基于威胁分数确定该待评估文本的威胁等级(如高危、低危)。

需要特别说明的是,对各待评估文本进行评级时,具体等级的划分可基于实际应用场景需求确定,在此不做限制。例如,对于企业或一个组织来说,其对应的各项待评估文本中可能包括客户资料、技术资料、重大决策信息、主要会议纪要、财务预算信息和各种财务报表等高价值信息。因此可按照信息的价值、内容敏感程度、影响和分发范围不同划分不同的重要等级,如一般企业数据分为五个级别:绝密,该等级对应的待评估文本如果受到破坏或泄漏,可能会使组织面临严重财务或法律风险,例如财务信息、系统或个人认证信息等。机密,该等级对应的待评估文本如果受到破坏或泄漏,可能会使组织面临财务或法律风险,例如信用卡信息,个人健康信息或商业秘密等。秘密,该等级对应的待评估文本受到破坏或泄漏的数据可能会对运营产生负面影响,例如与合作伙伴和供应商的合同文本,员工审查信息文本等。内部公开,该等级对应的待评估文本为非公共披露的信息,例如销售手册,组织结构图,员工信息等。外部公开,该等级对应的待评估文本可以自由公开披露,例如市场营销材料,联系信息,价目表等。

下面结合图6对本申请实施例提供的文本处理方法做进一步说明。如图6所示,图6是本申请实施例提供的对待评估文本进行评估的流程示意图。对于待评估文本集合中的每一待评估文本而言,可对该待评估文本进行分词、去除停用词、标点符号、脏数据等文本预处理,得到经过预处理后的待评估文本的各词。进一步对预处理后的待评估文本中的各词进行编码得到各词的编码特征,通过向量提取模型,基于各词的编码特征得到各词的词向量,进而基于各词的词向量确定该待评估文本的文本特征,以得到待评估文本集合中各待评估文本的文本特征。

进一步的,基于聚类算法对各文本特征进行分类,得到多个文本集合,并基于每个文本集合所包含的待评估文本的数量确定出目标文本集合。从而对于目标文本集合中的每一待评估文本而言,根据该待评估文本与多个文本评估特征的匹配度,确定该待评估文本的评估结果,以确定目标文本集合中所有待评估文本的评估结果。

在一些可行的实施方式中,在确定出目标文本集合中各待评估文本的评估结果后,可通过评估结果显示界面向用户展示目标文本集合中的每个待评估文本的评估结果,如基于各待评估文本与各文本评估特征的匹配度以及相对应的评估权重,确定各待评估文本的风险等级,因此可将各待评估文本的风险等级作为评估结果向用户展示。

可选的,还可根据实际应用场景需求向用户展示部分待评估文本的评估结果,如基于各待评估文本与各文本评估特征的匹配度以及相对应的评估权重,确定各待评估文本的重要等级(如科学文献的重要等级),并将高重要等级的待评估文本作为评估结果向用户展示。

可选的,还可统计评估结果相同的待评估文本的数量,将各评估结果以及对应的待评估文本的数量一同向用户展示,或者在向用户展示评估结果的同时,向用户展示各待评估文本的存储位置,具体展示方式在此不做限制。

参见图7,图7是本申请实施例提供的评估结果的展示场景的示意图。图7所示了一评估结果显示界面,在图7中的评估结果显示界面中,可向用户展示不同风险等级的待评估文本的数量,如高风险等级的待评估文本的数量为20,中风险等级的待评估文本的数量10,低风险等级的待评估文本的数量为40。与此同时,在展示上述评估结果的同时可为用户提供详细查看指示信息,以响应于用户的查看操作向用户展示各风险等级对应的待评估文本的详细文本信息。

可选的,在基于评估结果显示界面向用户展示评估结果之后,可获取通过评估结果显示界面接收到的用户操作信息,基于用户操作信息对应的处理方式对相应的待评估文本进行相应处理。

其中,用户操作信息所对应的处理方式具体可基于实际应用场景确定,在此不做限制。例如,基于评估结果显示界面向用户显示高重要性的待评估文本,基于用户操作信息可对高重要性的待评估文本进行加密操作。再例如,待评估文本为日志文本,基于评估结果显示界面向用户展示高风险日志文本的数量之后,基于用户操作可对高风险日志文本进行清除处理。

在本申请实施例中,通过对待评估文本进行分类得到多个文本集合,并根据每个文本集合中所包含的待评估文本的数量,确定目标文本集合,从而可实现对待评估文本的过滤,减少待评估文本的处理量,进而提升文本处理效率。另一方面,通过多个文本评估特征可对目标文本集合中的各待评估文本进行准确评估,进而对不同评估结果对应的待评估文本采取相对应的处理措施,有利于文本管理以及提高信息的安全性,适用性高。

参见图8,图8是本申请实施例提供的文本处理装置的结构示意图。本申请实施例提供的文本处理装置1包括:

获取模块11,用于获取待评估文本集合,以及用于进行文本评估的多个文本评估特征,上述待评估文本集合包括多个待评估文本;

分类模块12,用于对上述多个待评估文本进行分类,得到多个文本集合;

确定模块13,用于基于每个上述文本集合所包含的待评估文本的数量,确定上述多个文本集合中的目标文本集合;

评估模块14,用于对于上述目标文本集合中的每个待评估文本,基于该待评估文本与上述多个文本评估特征的匹配度,确定该待评估文本的评估结果。

在一些可行的实施方式中,对于上述目标文本集合中的每个待评估文本,上述评估模块14,用于:

获取该待评估文本与各文本评估特征的匹配度对应的评估权重;

基于该待评估文本与上述多个文本评估特征的匹配度和对应的评估权重,确定该待评估文本的评估结果。

在一些可行的实施方式中,上述文本评估特征包括以下至少一项:

至少一个信息类别;

文本格式;

关键词库,上述关键词库中包括多个评估关键词。

在一些可行的实施方式中,上述文本评估特征包括多个信息类别,对于上述目标文本集合中的每个待评估文本,上述评估模块14,还用于:

确定该待评估文本在上述多个信息类别中所命中的信息类别;

基于该待评估文本所命中的信息类别,确定该待评估文本与上述多个信息类别的匹配度。

在一些可行的实施方式中,上述文本评估特征包括关键词库,上述关键词库中包括多个评估关键词,对于上述目标文本集合中的每个待评估文本,上述评估模块14,还用于:

确定该待评估文本在上述关键词库中所命中的评估关键词;

基于该待评估文本所命中的评估关键词,确定该待评估文本与上述多个评估关键词的匹配度。

在一些可行的实施方式中,上述确定模块13,用于:

获取样本文本集,上述样本文本集包括多个样本文本;

基于上述多个样本文本中所包含的各候选词在上述多个样本文本中的出现情况,从上述各候选词中确定出评估关键词。

在一些可行的实施方式中,上述分类模块12,用于:

确定各上述待评估文本的文本特征;

基于各上述待评估文本的文本特征,对上述多个待评估文本的文本特征进行聚类,基于聚类结果得到多个文本集合。

在一些可行的实施方式中,上述分类模块12,用于:

对于每一待评估文本,对该待评估文本中的各词进行编码得到该待评估文本中各词的编码特征;

基于该待评估文本中各词的编码特征确定该待评估文本中各上述词的词向量;

基于该待评估文本中各上述词的词向量,确定该待评估文本的文本特征。

在一些可行的实施方式中,对于每一待评估文本,上述基于该待评估文本中各词的编码特征确定该待评估文本中各词的词向量是通过向量提取模型实现的;

其中,上述向量提取模型是通过以下方式训练得到的:

获取训练数据集,上述训练数据集包括多个训练文本;

对各上述训练文本中的各词进行编码得到各上述训练文本中各词的编码特征;

将各上述训练文本中的各词的编码特征输入神经网络模型,对于每一词,通过上述神经网络模型,基于与该词相邻的词的编码特征,确定上述相邻的词的词向量;

基于上述相邻的词的词向量确定该词对应的词向量分布,基于上述词向量分布确定该词对应的预测词;

基于各上述训练文本中各词和相对应的预测词,确定训练损失值,根据上述训练损失值和上述训练数据集对上述神经网络模型进行迭代训练,直至上述训练损失值满足预设的训练结束条件,将训练结束后的模型确定为上述向量提取模型。

在一些可行的实施方式中,上述评估模块14,还用于:

通过评估结果显示界面向用户展示上述目标文本集合中的每个待评估文本的评估结果;

获取通过上述评估结果显示界面接收到的用户操作信息,基于上述用户操作信息对上述目标文本集合中的至少一个待评估文本进行相应处理。

在一些可行的实施方式中,上述获取模块11,用于:

获取待处理文本集合,上述待处理文本集合包括多个待处理文本;

获取多个文本类型预测模型,每个文本类型预测模型对应于一种文本类型;

对于每一待处理文本,基于各上述文本类型预测模型确定该待处理文本的文本类型为各上述文本类型预测模型对应的文本类型的预测概率,将预测概率最高的文本类型预测模型对应的文本类型确定为该待处理文本的文本类型;

将同一文本类型的待处理文本确定为一个待评估文本集合,并获取任一待评估文本集合。

具体实现中,上述装置1可通过其内置的各个功能模块执行如上述图2中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。

在一些可行的实施方式中,上述文本处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如文本处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。

在一些可行的实施方式中,本申请实施例提供的文本处理装置可以采用软硬件结合的方式实现,作为示例,本申请实施例提供的文本处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的文本处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。

在一些可行的实施方式中,本申请实施例提供的文本处理装置可以采用软件方式实现,图8所示的文本处理装置可以是程序和插件等形式的软件,并包括一系列的模块,包括获取模块11、分类模块12、确定模块13以及评估模块14,以用于实现本申请实施例提供的文本处理方法。

参见图9,图9是本申请实施例提供的电子设备的结构示意图。如图9所示,本实施例中的电子设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述电子设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图9所示的电子设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现本申请实施例所提供的文本处理方法。

应当理解,在一些可行的实施方式中,上述处理器1001可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。

具体实现中,上述电子设备1000可通过其内置的各个功能模块执行如上述图2中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,被处理器执行以实现图2中各个步骤所提供的方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的文本处理装置或者电子设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart mediacard,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(randomaccess memory,RAM)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图2中各个步骤所提供的方法。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或电子设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或电子设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

以上所揭露的仅为本申请较佳实施例而已,不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:一种基于预训练模型的词对齐性能提升方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!