基于文本摘要的文本分类方法、装置、电子设备及介质

文档序号:7724 发布日期:2021-09-17 浏览:29次 英文

基于文本摘要的文本分类方法、装置、电子设备及介质

技术领域

本发明涉及智能决策

技术领域

,尤其涉及一种基于文本摘要的文本分类方法、装置、电子设备及计算机可读存储介质。

背景技术

随着互联网技术的快速发展,网络上的多媒体信息快速的增长,如何有效的组织、分类管理、挖掘这些快速增长的信息成为了亟需解决的问题。

现有的文本分类技术一般直接将待分类段落文本输入文本分类模型,由于待分类段落文本有大量冗余无关信息的存在,从而造成文本分类得到的关键信息得不到凸显,使得分类结果远远达不到预期,即分类准确度不高。

发明内容

本发明提供一种基于文本摘要的文本分类方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高文本分类的准确度。

为实现上述目的,本发明提供的一种基于文本摘要的文本分类方法,包括:

获取待分类段落文本,将所述待分类段落文本划分为单句,得到待分类单句集;

利用基于关键词的抽取式摘要提取方法从所述待分类单句集中提取第一文本摘要;

利用基于深度学习的抽取式摘要提取方法从所述待分类单句集中提取第二文本摘要;

分别计算所述第一文本摘要及所述第二文本摘要与所述待分类段落文本的匹配程度,根据所述匹配程度确定所述第一文本摘要或所述第二文本摘要为目标文本摘要;

利用预设的文本分类模型对所述目标文本摘要进行文本分类,得到所述待分类段落文本的文本类别。

可选地,所述利用基于关键词的抽取式摘要提取方法从所述待分类单句集中提取第一文本摘要,包括:

将所述待分类单句集中的各个待分类单句进行向量化,得到文本单句向量集;

计算所述文本单句向量集中的各个文本单句向量之间的相似度,并将所述相似度存储至预设空白矩阵中,构建转移概率矩阵;

基于所述转移概率矩阵计算所述待分类单句的文本排序值;

通过所述文本排序值筛选所述待分类单句集中的待分类单句为所述第一文本摘要。

可选地,所述将所述待分类单句集中的各个待分类单句进行向量化,得到文本单句向量集,包括:

将所述待分类单句集中多个待分类单句进行拆分,得到多个待分类文本单词;

利用预设的词向量模型将多个所述待分类文本单词向量化,得到多个向量文本单词,并组合多个所述向量文本单词得到文本单句向量集。

可选地,所述基于所述转移概率矩阵计算所述待分类单句的文本排序值,包括:

获取所述转移概率矩阵中各个文本单句向量之间的相似度;

以所述各个文本单句为节点,以各个文本单句向量之间的相似度为节点的边,构建相似度图结构;

利用所述相似度图结构计算所述待分类单句的文本排序值。

可选地,所述通过所述文本排序值筛选所述待分类单句集中的待分类单句为所述第一文本摘要,包括:

遍历所述待分类段落文本中各个待分类单句的文本排序值,从大到小选取预设数量的文本排序值;

将所述预设数量的文本排序值对应的目标待分类单句组合为所述第一文本摘要。

可选地,所述利用基于深度学习的抽取式摘要提取方法从所述待分类单句集中提取第二文本摘要,包括:

获取训练文本集和所述训练文本集的文本摘要,并利用所述训练文本集和所述训练文本集的文本摘要训练预设的二分类模型,得到标注模型;

利用所述标注模型对所述待分类单句集中的各个待分类单句进行标注,得到标注单句;

根据所述待分类段落文本中的单句顺序和所述标注单句的标注得到第二文本摘要。

可选地,所述利用预设的文本分类模型对所述目标文本摘要进行文本分类,得到所述待分类段落文本的文本类别,包括:

通过预设的文本分类模型中预设的类别词典建立信息处理器;

将所述摘要分词输入所述信息处理器,得到所述摘要分词的文本类别;

确定所述摘要分词的文本类别为所述待分类段落文本的文本类别。

为了解决上述问题,本发明还提供一种基于文本摘要的文本分类装置,所述装置包括:

段落文本划分模块,用于获取待分类段落文本,将所述待分类段落文本划分为单句,得到待分类单句集;

第一摘要获取模块,用于利用基于关键词的抽取式摘要提取方法从所述待分类单句集中提取第一文本摘要;

第二摘要获取模块,用于利用基于深度学习的抽取式摘要提取方法从所述待分类单句集中提取第二文本摘要;

目标摘要确认模块,用于分别计算所述第一文本摘要及所述第二文本摘要与所述待分类段落文本的匹配程度,根据所述匹配程度确定所述第一文本摘要或所述第二文本摘要为目标文本摘要;

文本摘要分类模块,用于利用预设的文本分类模型对所述目标文本摘要进行文本分类,得到所述待分类段落文本的文本类别。

为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的基于文本摘要的文本分类方法。

为了解决上述问题,本发明还提供一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储创建的数据,存储程序区存储有计算机程序;其中,所述计算机程序被处理器执行时实现如上所述的基于文本摘要的文本分类方法。

本发明实施例中,一方面使用了基于关键词的抽取式摘要提取方法从待分类段落文本中提取出第一文本摘要,另一方面使用了基于深度学习的抽取式摘要提取方法从待分类段落文本中提取第二文本摘要,并计算第一文本摘要和第二文本摘要和待分类段落文本的匹配程度,筛选出匹配程度高的文本摘要作为待分类段落文本的文本摘要,再将文本摘要通过文本分类模型进行分类,获取待分类段落文本的文本类别,通过先获取摘要再进行文本分类的方式进行文本分类,减少信息冗余,使得分类结果更准确,同时采用多种方式进行摘要提取,避免了采用单一手段提取文本摘要造成文本摘要不够精准的问题,提高了获取到的摘要的准确度,进而提高文本分类的准确性。因此,本发明实施例可以实现提高文本分类的准确度的目的。

附图说明

图1为本发明一实施例提供的一种基于文本摘要的文本分类方法的流程示意图;

图2为本发明第一实施例中图1提供的基于文本摘要的文本分类方法其中一个步骤的详细流程示意图;

图3为本发明一实施例提供的基于文本摘要的文本分类装置的模块示意图;

图4为本发明一实施例提供的实现基于文本摘要的文本分类方法的电子设备的内部结构示意图;

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本申请实施例提供一种基于文本摘要的文本分类方法。所述基于文本摘要的文本分类方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于文本摘要的文本分类方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。

参照图1所示,为本发明一实施例提供的一种基于文本摘要的文本分类方法的流程示意图。在本实施例中,所述基于文本摘要的文本分类方法包括:

S1、获取待分类段落文本,将所述待分类段落文本划分为单句,得到待分类单句集。

本发明实施例中,所述待分类段落文本为需要进行文本分类的文本,所述待分类段落文本既可以为任意格式,例如,待分类段落文本为中文文本,或者,待分类段落文本为英文文本。

本发明实施例中,所述待分类段落文本可以为用户输入的文本,也可为从预设的待分类段落文本数据库中提取的文本。

本发明实施例中,所述待分类单句集为所述待分类段落文本中的各个单句组成的集合,具体的,将所述待分类段落文本划分为单句可以通过识别待分类段落文本中的标点符号实现。

例如,识别待分类段落文本中的标点符号,当存在预设标点符号(如句号,或者分号)将该预设标点符号之间的句子划分为一个单句。

例如,当识别从待分类段落文本开始至待分类段落文本中的第一句号时,将该句号之前的内容确定为单句,再次识别到句号时,将从前一个句号到再次识别到的句号之间的内容确定为单句。

S2、利用基于关键词的抽取式摘要提取方法从所述待分类单句集中提取第一文本摘要。

本发明实施例中,所述基于关键词的抽取式摘要提取方法可以为Lead3算法,Lead3算法是一种用于文本的抽取式摘要提取方法,可以从文本中选出3个句子作为该文本的摘要。

请参见图2,图2为第一实施例中图1提供的基于文本摘要的文本分类方法其中一个步骤的详细流程示意图。

进一步地,所述利用基于关键词的抽取式摘要提取方法从所述待分类单句集中提取第一文本摘要,包括:

S201、将所述待分类单句集中的各个待分类单句进行向量化,得到文本单句向量集。

本发明实施例中,通过将所述待分类单句进行向量化能够在数字化的角度获取待分类单句中的向量信息,可以将由人工识别的文本信息转化为可由机器识别的向量信息。

具体的,本发明实施例中,所述将所述待分类单句集中的各个待分类单句进行向量化,得到文本单句向量集,包括:

将所述待分类单句集中多个待分类单句进行拆分,得到多个待分类文本单词;

利用预设的词向量模型将多个所述待分类文本单词向量化,得到多个向量文本单词,并组合多个所述向量文本单词得到文本单句向量集。

本发明实施例中,将待分类单句集中多个待分类单句进行拆分是将待分类单句集中各个待分类单句分别进行分词处理,得到组成每个单句的单词,即待分类文本单词。

S202、计算所述文本单句向量集中的各个文本单句向量之间的相似度,并将所述相似度存储至预设空白矩阵中,构建转移概率矩阵。

本发明实施例中,所述转移概率矩阵中各元素都用概率表示,且都是非负的,并且各行元素之和等于1的矩阵。

详细地,所述计算所述文本单句向量集中的各个文本单句向量之间的相似度,并将所述相似度存储至预设空白矩阵中,构建转移概率矩阵,包括:

利用相似度计算公式计算所述文本单句向量集中各个文本单句向量的相似度,得到向量相似度集;

将所述向量相似度集中的各个向量相似度存储入预构建的矩阵,得到转移概率矩阵。

本实施例中,所述向量相似度集为利用预设的相似度计算公式计算所述单句向量集中的各个文本单句向量的相似度得到的,其中,所述预设的相似度计算公式可以为余弦相似度计算公式、欧式距离计算公式等计算公式。

S203、基于所述转移概率矩阵计算所述待分类单句的文本排序值。

本发明实施例中,所述文本排序值(textrank值)为表示待分类单句和所述待分类段落文本的语义联系的值,其中待分类单句和待分类段落的语义关联性越强,所述文本排序值越高,因此,所述文本排序值越高的待分类单句作为所述待分类段落文本的文本摘要的可能性越大。

详细地,所述基于所述转移概率矩阵计算所述待分类单句的文本排序值,包括:

获取所述转移概率矩阵中各个文本单句向量之间的相似度;

以所述各个文本单句为节点,以各个文本单句向量之间的相似度为节点的边,构建相似度图结构;

利用所述相似度图结构计算所述待分类单句的文本排序值。

本发明实施例中,利用所述相似度图结构,计算所述待分类单句的文本排序值S(Vi)为通过下述公式实现:

其中,j为和目标文本单句i存在相似度关系的单句,Vi为文本单句i的节点,Vj为文本单句j的节点,E为节点的边,d为阻尼系数,k为目标文本单句i的共现词,E(Vi)为与节点Vi连接的所有节点集合,E(vj)为与节点Vj连接的所有节点集合,Wij表示Vi和Vj之间边的权重,Wjk表示Vk和Vj之间边的权重,S(Vj)为Vj的文本排序值。

进一步地,所述共现词为同一文本段落中以一定频率描述同一现象或物体的词。

S204、通过所述文本排序值筛选所述待分类单句集中的待分类单句为所述第一文本摘要。

详细地,所述通过所述文本排序值筛选所述待分类单句集中的待分类单句为所述第一文本摘要,包括:

遍历所述待分类段落文本中各个待分类单句的文本排序值,从大到小选取预设数量的文本排序值;

将所述预设数量的文本排序值对应的目标待分类单句组合为所述第一文本摘要。

或者,选出预设数量目标待分类单句之后,根据待分类段落文本获取待分类段落文本中各个待分类单句的顺序,根据该顺序对所有选出的目标待分类单句进行排序。

本实施例中,所述预设摘要单句数目为用户预先设置的第一文本摘要具有的单句数目,所述得到所述待分类段落文本的第一文本摘要中的待分类单句数目满足用户预先设置的摘要单句数目。

S3、利用基于深度学习的抽取式摘要提取方法从所述待分类单句集中提取第二文本摘要。

进一步的,所述利用基于深度学习的抽取式摘要提取方法从所述待分类单句集中提取第二文本摘要,包括:

获取训练文本集和所述训练文本集的文本摘要,并利用所述训练文本集和所述训练文本集的文本摘要训练预设的二分类模型,得到标注模型;

利用所述标注模型对所述待分类单句集中的各个待分类单句进行标注,得到标注单句;

根据所述待分类段落文本中的单句顺序和所述标注单句的标注得到第二文本摘要。

本实施例中,对待分类单句集中的每个待分类单句都进行标注,标注的类型为两种,一种为该句子属于后续摘要,一种为该句子不属于后续摘要。

本实施例中,单句的顺序为句子在待分类段落中为第几句,然后根据单句的顺序将标注单句中属于后续摘要的句子进行组合,得到第二文本摘要。

本发明实施例中,所述训练文本和所述训练文本集的文本摘要可以通过利用爬虫技术从网络上爬取网络中公开的文本得到。

进一步地,所述二分类模型为基于sigmoid二分类函数构建的模型,利用所述训练文本集的文本摘要和所述训练文本集进行训练,得到标注模型。

进一步地,所述用所述标注模型对所述待分类单句集中的各个待分类单句进行标注之前,所述方法还包括:为所述待分类单句添加标识符。

例如为所述待分类单句前添加前置标识符[CLS],为所述待分类单句末尾添加后置标识符[SEP]。

本实施例中,为所述标注单句添加标识符可以界定标识单句的范围,为模型的开始读取和结束读取提供信号,避免标注单句读取错误。

S4、分别计算所述第一文本摘要及所述第二文本摘要与所述待分类段落文本的匹配程度,根据所述匹配程度确定所述第一文本摘要或所述第二文本摘要为目标文本摘要。

本发明实施例中,有多种方法确定所述目标文本摘要,例如,根据快速排序法确定目标文本摘要。

详细地,计算所述第一文本摘要及所述第二文本摘要的匹配程度,若所述第一文本摘要和所述待分类段落文本匹配程度高于所述第二文本摘要和所述待分类段落文本的匹配程度,则将所述第一文本摘要作为所述待分类段落文本的目标文本摘要;若所述第二文本摘要和所述待分类段落文本匹配程度高于所述第一文本摘要和所述待分类段落文本的匹配程度,则将所述第二文本摘要作为所述待分类段落文本的目标文本摘要。

进一步地,所述计算所述第一文本摘要和所述待分类段落文本匹配程度可以通过计算所述第一文本摘要中单句数目实现。

例如,所述待分类段落文本包含二十句待分类单句时,若所述第一文本摘要包含六句待分类单句,则所述第一文本摘要与待分类段落文本的匹配程度为6,若所述第二文本摘要包含八句待分类单句,则所述第二文本摘要与待分类段落文本的匹配程度为8,因此,所述第二文本摘要与待分类段落文本的匹配程度高于所述第一文本摘要的匹配程度,将所述第二文本摘要作为所述待分类段落文本的目标文本摘要。

S5、利用预设的文本分类模型对所述目标文本摘要进行文本分类,得到所述待分类段落文本的文本类别。

本发明实施例中,所述预设的文本分类模型为Albert模型,Albert模型为基于Bert模型精简优化得到的模型。Albert模型相较于Bert模型所需参数更少,训练更快,可以解决Bert文本分类模型参数过大、训练缓慢的问题,因此本文通过Albert模型进行分类可以减少内存占用,提升文本分类的速度。

具体的,本实施例中,可通过对Bert文本分类模型的嵌入层(Embedding)进行因式分解和共享编码器的参数,将Bert文本分类模型的预训练任务替换为句子顺序预测任务(sentence-order prediction、SOP)得到Albert文本分类模型,通过对Bert文本分类模型的嵌入层(Embedding)进行因式分解和共享编码器的参数,提高降低所述Bert模型所需的参数量,通过将Bert文本分类模型的预训练任务替换为句子顺序预测任务提升模型的速度和分类准确率。

详细地,所述利用预设的文本分类模型对所述目标文本文摘要进行文本分类,得到所述待分类段落文本的文本类别包括:

对所述目标文本摘要进行分词操作,得到所述目标文本摘要的摘要分词;

通过预设的文本分类模型中预设的类别词典建立信息处理器;

将所述摘要分词输入所述信息处理器,得到所述摘要分词的文本类别;

确定所述摘要分词的文本类别为所述待分类段落文本的文本类别。

本实施例中,所述类别词典为Albert模型中预设的词典,通过所述类别词典构建的信息处理器能够实现对所述摘要分词进行分词类别的目的。

本发明实施例中,最终得到的待分类段落文本的文本类别可以为一个或至少两个,例如,通过上述操作得到的待分类段落文本的文本类别可以为教育、运动、测试等多个类别。

进一步地,在得到待分类段落文本的文本类别后可以应用于智能信息推荐。

具体的,得到所述待分类段落文本的文本类别之后,所述方法还包括:

根据目标用户的感兴趣文本类别从多个待分类段落文本中选取待分类段落文本推送至所述目标用户。

例如,待分类段落文本为裁判文书文本,该裁判文书文本包括20个文书单句,通过基于关键词的抽取式摘要提取方法和通过基于深度学习的抽取式摘要提取方法提取该裁判文书文本的摘要,若基于关键词的抽取式摘要提取方法提取到的第一文本摘要为6句文书单句,若基于深度学习的抽取式摘要提取方法提取到的第一文本摘要为8句文书单句,则确定该裁判文书的目标摘要文本为8句文书单句。在得到该裁判文书的目标文本摘要后,根据该裁判文书文本的目标文本摘要对该裁判文书文本进行文本分类,判断该裁判文书文本属于民事裁判文书、刑事裁判文书、行政裁判文书或者其他通用诉讼文书。

本发明实施例中,一方面使用了基于关键词的抽取式摘要提取方法从待分类段落文本中提取出第一文本摘要,另一方面使用了基于深度学习的抽取式摘要提取方法从待分类段落文本中提取第二文本摘要,并计算第一文本摘要和第二文本摘要和待分类段落文本的匹配程度,筛选出匹配程度高的文本摘要作为待分类段落文本的文本摘要,再将文本摘要通过文本分类模型进行分类,获取待分类段落文本的文本类别,通过先获取摘要再进行文本分类的方式进行文本分类,减少信息冗余,使得分类结果更准确,同时采用多种方式进行摘要提取,避免了采用单一手段提取文本摘要造成文本摘要不够精准的问题,提高了获取到的摘要的准确度,进而提高文本分类的准确性。因此,本发明实施例可以实现提高文本分类的准确度的目的。

如图3所示,是本发明基于文本摘要的文本分类装置的模块示意图。

本发明所述基于文本摘要的文本分类装置100可以安装于电子设备中。根据实现的功能,所述基于文本摘要的文本分类装置可以包括段落文本划分模块101、第一摘要获取模块102、第二摘要获取模块103、目标摘要确认模块104和文本摘要分类模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。

在本实施例中,关于各模块/单元的功能如下:

所述段落文本划分模块101,用于获取待分类段落文本,将所述待分类段落文本划分为单句,得到待分类单句集。

本发明实施例中,所述待分类段落文本为需要进行文本分类的文本,所述待分类段落文本既可以为任意格式,例如,待分类段落文本为中文文本,或者,待分类段落文本为英文文本。

本发明实施例中,所述待分类段落文本可以为用户输入的文本,也可为从预设的待分类段落文本数据库中提取的文本。

本发明实施例中,所述待分类单句集为所述待分类段落文本中的各个单句组成的集合,具体的,将所述待分类段落文本划分为单句可以通过识别待分类段落文本中的标点符号实现。

例如,识别待分类段落文本中的标点符号,当存在预设标点符号(如句号,或者分号)将该预设标点符号之间的句子划分为一个单句。

例如,当识别从待分类段落文本开始至待分类段落文本中的第一句号时,将该句号之前的内容确定为单句,再次识别到句号时,将从前一个句号到再次识别到的句号之间的内容确定为单句。

所述第一摘要获取模块102,用于利用基于关键词的抽取式摘要提取方法从所述待分类单句集中提取第一文本摘要。

本发明实施例中,所述基于关键词的抽取式摘要提取方法可以为Lead3算法,Lead3算法是一种用于文本的抽取式摘要提取方法,可以从文本中选出3个句子作为该文本的摘要。

进一步地,所述第一摘要获取模块102包括向量处理单元、矩阵构建单元、计算单元和第一文本摘要确定单元。

向量处理单元,用于将所述待分类单句集中的各个待分类单句进行向量化,得到文本单句向量集。

具体的,本发明实施例中,所述向量处理单元具体用于:

将所述待分类单句集中多个待分类单句进行拆分,得到多个待分类文本单词;

利用预设的词向量模型将多个所述待分类文本单词向量化,得到多个向量文本单词,并组合多个所述向量文本单词得到文本单句向量集。

本发明实施例中,通过将所述待分类单句进行向量化能够在数字化的角度,获取待分类单句中的向量信息,可以将由人工识别的文本信息转化为可由机器识别的向量信息。

矩阵构建单元,用于计算所述文本单句向量集中的各个文本单句向量之间的相似度,并将所述相似度存储至预设空白矩阵中,构建转移概率矩阵。

本发明实施例中,所述转移概率矩阵中各元素都用概率表示,且都是非负的,并且各行元素之和等于1的矩阵。

详细地,所述矩阵构建单元具体用于:

利用相似度计算公式计算所述文本单句向量集中各个文本单句向量的相似度,得到向量相似度集;

将所述向量相似度集中的各个向量相似度存储入预构建的矩阵,得到转移概率矩阵。

本实施例中,所述向量相似度集为利用预设的相似度计算公式计算所述单句向量集中的各个文本单句向量的相似度得到的,其中,所述预设的相似度计算公式可以为余弦相似度计算公式、欧式距离计算公式等计算公式。

计算单元,用于基于所述转移概率矩阵计算所述待分类单句的文本排序值。

本发明实施例中,所述文本排序值(textrank值)为表示出待分类单句和所述待分类段落文本的语义联系的值,其中待分类单句和待分类段落的语义关联性越强,所述文本排序值越高,因此,所述文本排序值越高的待分类单句作为所述待分类段落文本的文本摘要的可能性越大。

详细地,所述计算单元具体用于:

获取所述转移概率矩阵中各个文本单句向量之间的相似度;

以所述各个文本单句为节点,以各个文本单句向量之间的相似度为节点的边,构建相似度图结构;

利用所述相似度图结构计算所述待分类单句的文本排序值。

本发明实施例中,利用所述相似度图结构,计算所述待分类单句的文本排序值S(Vi)为通过下述公式实现:

其中,j为和目标文本单句i存在相似度关系的单句,Vi为文本单句i的节点,Vj为文本单句j的节点,E为节点的边,d为阻尼系数,k为目标文本单句i的共现词,E(Vi)为与节点Vi连接的所有节点集合,E(vj)为与节点Vj连接的所有节点集合,Wij表示Vi和Vj之间边的权重,Wjk表示Vk和Vj之间边的权重,S(Vj)为Vj的文本排序值。

进一步地,所述共现词为同一文本段落中以一定频率描述同一现象或物体的词。

第一文本摘要确定单元,用于通过所述文本排序值筛选所述待分类单句集中的待分类单句为所述第一文本摘要。

详细地,所述第一文本摘要确定单元具体用于:

遍历所述待分类段落文本中各个待分类单句的文本排序值,从大到小选取预设数量的文本排序值;

将所述预设数量的文本排序值对应的目标待分类单句组合为所述第一文本摘要。

或者,选出预设数量目标待分类单句之后,根据待分类段落文本获取待分类段落文本中各个待分类单句的顺序,根据该顺序对所有选出的目标待分类单句进行排序。

本实施例中,所述预设摘要单句数目为用户预先设置的第一文本摘要具有的单句数目,所述得到所述待分类段落文本的第一文本摘要中的待分类单句数目满足用户预先设置的摘要单句数目。

所述第二摘要获取模块103,用于利用基于深度学习的抽取式摘要提取方法从所述待分类单句集中提取第二文本摘要。

进一步的,所述第二摘要获取模块103具体用于:

获取训练文本集和所述训练文本集的文本摘要,并利用所述训练文本集和所述训练文本集的文本摘要训练预设的二分类模型,得到标注模型;

利用所述标注模型对所述待分类单句集中的各个待分类单句进行标注,得到标注单句;

根据所述待分类段落文本中的单句顺序和所述标注单句的标注得到第二文本摘要。

本实施例中,对待分类单句集中的每个待分类单句都进行标注,标注的类型为两种,一种为该句子属于后续摘要,一种为该句子不属于后续摘要。

本实施例中,单句的顺序为句子在待分类段落中为第几句,然后根据单句的顺序将标注单句中属于后续摘要的句子进行组合,得到第二文本摘要。

本发明实施例中,所述训练文本和所述训练文本集的文本摘要可以通过利用爬虫技术从网络上爬取网络中公开的文本得到。

进一步地,所述二分类模型为基于sigmoid二分类函数构建的模型,利用所述训练文本集的文本摘要和所述训练文本集进行训练,得到标注模型。

进一步地,所述用所述标注模型对所述待分类单句集中的各个待分类单句进行标注之前,所述方法还包括:为所述待分类单句添加标识符。

例如为所述待分类单句前添加前置标识符[CLS],为所述待分类单句末尾添加后置标识符[SEP]。

本实施例中,为所述标注单句添加标识符可以界定标识单句的范围,为模型的开始读取和结束读取提供信号,避免标注单句读取错误。

所述目标摘要确认模块104,用于分别计算所述第一文本摘要及所述第二文本摘要与所述待分类段落文本的匹配程度,根据所述匹配程度确定所述第一文本摘要或所述第二文本摘要为目标文本摘要。

本发明实施例中,有多种方法确定所述目标文本摘要,例如,根据快速排序法确定目标文本摘要。

详细地,计算所述第一文本摘要及所述第二文本摘要的匹配程度,若所述第一文本摘要和所述待分类段落文本匹配程度高于所述第二文本摘要和所述待分类段落文本的匹配程度,则将所述第一文本摘要作为所述待分类段落文本的目标文本摘要;若所述第二文本摘要和所述待分类段落文本匹配程度高于所述第一文本摘要和所述待分类段落文本的匹配程度,则将所述第二文本摘要作为所述待分类段落文本的目标文本摘要。

进一步地,所述计算所述第一文本摘要和所述待分类段落文本匹配程度通过计算所述第一文本摘要中单句数目实现。

例如,所述待分类段落文本包含二十句待分类单句时,若所述第一文本摘要包含六句待分类单句,则所述第一文本摘要与待分类段落文本的匹配程度为6,若所述第二文本摘要包含八句待分类单句,则所述第二文本摘要与待分类段落文本的匹配程度为8,因此,所述第二文本摘要与待分类段落文本的匹配程度高于所述第一文本摘要的匹配程度,将所述第二文本摘要作为所述待分类段落文本的目标文本摘要。

所述文本摘要分类模块105,用于利用预设的文本分类模型对所述目标文本摘要进行文本分类,得到所述待分类段落文本的文本类别。

本发明实施例中,所述预设的文本分类模型为Albert模型,Albert模型为基于Bert模型精简优化得到的模型。Albert模型相较于Bert模型所需参数更少,训练更快,可以解决Bert文本分类模型参数过大、训练缓慢的问题,因此本文通过Albert模型进行分类可以减少内存占用,提升文本分类的速度。

具体的,本实施例中,可通过对Bert文本分类模型的嵌入层(Embedding)进行因式分解和共享编码器的参数,将Bert文本分类模型的预训练任务替换为句子顺序预测任务(sentence-order prediction、SOP)得到Albert文本分类模型,通过对Bert文本分类模型的嵌入层(Embedding)进行因式分解和共享编码器的参数,提高降低所述Bert模型所需的参数量,通过将Bert文本分类模型的预训练任务替换为句子顺序预测任务提升模型的速度和分类准确率。

详细地,所述文本摘要分类模块105具体用于:

对所述目标文本摘要进行分词操作,得到所述目标文本摘要的摘要分词;

通过预设的文本分类模型中预设的类别词典建立信息处理器;

将所述摘要分词输入所述信息处理器,得到所述摘要分词的文本类别;

确定所述摘要分词的文本类别为所述待分类段落文本的文本类别。

本实施例中,所述类别词典为Albert模型中预设的词典,通过所述类别词典构建的信息处理器能够实现对所述摘要分词进行分词类别的目的。

本发明实施例中,最终得到的待分类段落文本的文本类别可以为一个或至少两个,例如,通过上述操作得到的待分类段落文本的文本类别可以为教育、运动、测试等多个类别。

进一步地,在得到待分类段落文本的文本类别后可以应用于智能信息推荐。

具体的,所述装置还包括推荐模块,所述推荐模块用于:

得到所述待分类段落文本的文本类别之后,根据目标用户的感兴趣文本类别从多个待分类段落文本中选取待分类段落文本推送至所述目标用户。

例如,待分类段落文本为裁判文书文本,该裁判文书文本包括20个文书单句,通过基于关键词的抽取式摘要提取方法和通过基于深度学习的抽取式摘要提取方法提取该裁判文书文本的摘要,若基于关键词的抽取式摘要提取方法提取到的第一文本摘要为6句文书单句,若基于深度学习的抽取式摘要提取方法提取到的第一文本摘要为8句文书单句,则确定该裁判文书的目标摘要文本为8句文书单句。在得到该裁判文书的目标文本摘要后,根据该裁判文书文本的目标文本摘要对该裁判文书文本进行文本分类,判断该裁判文书文本属于民事裁判文书、刑事裁判文书、行政裁判文书或者其他通用诉讼文书。

本发明实施例中,一方面使用了基于关键词的抽取式摘要提取方法从待分类段落文本中提取出第一文本摘要,另一方面使用了基于深度学习的抽取式摘要提取方法从待分类段落文本中提取第二文本摘要,并计算第一文本摘要和第二文本摘要和待分类段落文本的匹配程度,筛选出匹配程度高的文本摘要作为待分类段落文本的文本摘要,再将文本摘要通过文本分类模型进行分类,获取待分类段落文本的文本类别,通过先获取摘要再进行文本分类的方式进行文本分类,减少信息冗余,使得分类结果更准确,同时采用多种方式进行摘要提取,避免了采用单一手段提取文本摘要造成文本摘要不够精准的问题,提高了获取到的摘要的准确度,进而提高文本分类的准确性。因此,本发明实施例可以实现提高文本分类的准确度的目的。

如图4所示,是本发明实现基于文本摘要的文本分类方法的电子设备的结构示意图。

所述电子设备可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于文本摘要的文本分类程序。

其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于文本摘要的文本分类程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。

所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于文本摘要的文本分类程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。

所述通信总线12可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

所述电子设备中的所述存储器11存储的基于文本摘要的文本分类程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:

获取待分类段落文本,将所述待分类段落文本划分为单句,得到待分类单句集;

利用基于关键词的抽取式摘要提取方法从所述待分类单句集中提取第一文本摘要;

利用基于深度学习的抽取式摘要提取方法从所述待分类单句集中提取第二文本摘要;

分别计算所述第一文本摘要及所述第二文本摘要与所述待分类段落文本的匹配程度,根据所述匹配程度确定所述第一文本摘要或所述第二文本摘要为目标文本摘要;

利用预设的文本分类模型对所述目标文本摘要进行文本分类,得到所述待分类段落文本的文本类别。

具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。

进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。

本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:

获取待分类段落文本,将所述待分类段落文本划分为单句,得到待分类单句集;

利用基于关键词的抽取式摘要提取方法从所述待分类单句集中提取第一文本摘要;

利用基于深度学习的抽取式摘要提取方法从所述待分类单句集中提取第二文本摘要;

分别计算所述第一文本摘要及所述第二文本摘要与所述待分类段落文本的匹配程度,根据所述匹配程度确定所述第一文本摘要或所述第二文本摘要为目标文本摘要;

利用预设的文本分类模型对所述目标文本摘要进行文本分类,得到所述待分类段落文本的文本类别。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。

因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:多源异构电力负荷数据融合方法、装置、设备和存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!