金融主体的识别方法、电子装置和存储介质
技术领域
本申请涉及自然语言处理领域,特别是涉及金融主体的识别方法、电子装置和存储介质。
背景技术
随着互联网的飞速进步和全球金融的高速发展,以互联网为代表的各类金融业已融入到经济社会发展的各个领域,金融信息呈现爆炸式增长。P2P网络借贷平台,小额贷款公司,股权投资机构等各类金融业态不断涌现,其融资规模、交易规模不断扩大,涉及的交易主体也越来越复杂,通过互联网手段实施经济犯罪煽动性更强、波及面更广、危害更大。
金融监管相比传统行业监管面临更多的困难,如何从海量的金融信息中识别出金融欺诈信息的主体,目前还没有提出有效的解决方案。现有技术中存在基于深度学习进行命名实体识别,但是这种方法会有产生主体误判的风险,如果直接采用去识别金融欺诈信息的主体,显然无法准确地识别金融欺诈信息的主体。
发明内容
在本实施例中提供了一种金融主体的识别方法、电子装置和存储介质,以解决相关技术中金融欺诈信息的主体无法识别的问题。
第一个方面,在本实施例中提供了一种金融主体的识别方法,所述方法包括:
获取待分析的金融文档;
将所述待分析的金融文档输入到两个以上各不相同的第一主体识别模型,得到第一预测结果集合,所述第一预测结果集合由与各所述第一主体识别模型对应的各第一预测结果组成,各所述第一预测结果包含由对应的第一主体识别模型预测得到的若干金融主体;
根据各所述金融主体在所述第一预测结果集合中出现的次数,确定所述金融主体是否作为识别结果输出。
在其中的一些实施例中,所述方法还包括:
获取待训练的金融文档,根据所述待训练的金融文档,得到第一字符序列和第二字符序列;
将所述第一字符序列分为训练集和验证集,根据所述训练集和所述第二字符序列,对两个以上各不相同的第二主体识别模型进行一轮以上的训练,得到第三主体识别模型集合,所述第三主体识别模型集合由与各所述第二主体识别模型对应的多个第三主体识别模型组成,其中,所述第二主体识别模型每进行一轮训练得到一个第三主体识别模型;
使用所述验证集对各所述第三主体识别模型进行验证,得到各所述第三主体识别模型的召回率和第二预测结果集合,所述第二预测结果集合由与各所述第三主体识别模型对应的各第二预测结果组成,各所述第二预测结果包含由对应的第三主体识别模型预测得到的若干金融主体,将所述第三主体识别模型集合中符合召回率要求的第三主体识别模型确定为第四主体识别模型,其中,与所述第四主体识别模型对应的各第二预测结果组成第三预测结果集合;
根据各所述金融主体在所述第三预测结果集合中出现的次数,确定所述金融主体是否作为预测结果输出;
计算所述预测结果与验证集中标定的金融欺诈信息主体的匹配度,将计算得到的所述匹配度满足要求的所述第四主体识别模型确定为第一主体识别模型。
在其中的一些实施例中,所述第二主体识别模型通过以下至少之一构建:
BERT-BLSTM-CRF模型和BERT-IDCNN-CRF模型。
在其中的一些实施例中,获取待训练的金融文档,根据所述待训练的金融文档,得到第一字符序列和第二字符序列,具体包括:
获取待训练的金融文档,对所述待训练的金融文档进行预处理,得到第一文本信息;
对所述第一文本信息进行标注,得到第一字符序列和第二字符序列。
在其中的一些实施例中,对所述待训练的金融文档进行预处理,得到第一文本信息,具体包括:
通过正则匹配去除所述待训练的金融文档中的冗余信息,得到处理后的金融文档,其中,所述处理后的金融文档包括标题和正文;
获取所述标题与所述正文的编辑距离,若所述编辑距离大于第一阈值,则将所述标题与所述正文进行拼接,得到第一文本信息。
在其中的一些实施例中,对所述第一文本信息进行标注,得到第一字符序列和第二字符序列包括:
对所述第一文本信息中的金融主体进行标注,得到第三字符序列,其中,所述第三字符序列包括标题和正文;
在所述第三字符序列中标记所述金融主体在所述正文中是否出现、在所述正文中出现的次数和在标题中是否出现,得到带有标记信息的第二字符序列;
标注所述金融主体在所述第三字符序列中的位置信息,得到带有标注信息的第一字符序列。
在其中的一些实施例中,所述第一主体识别模型包括训练后的第一子模型和训练后的第二子模型;
将所述待分析的金融文档输入到两个以上各不相同的第一主体识别模型,得到第一预测结果集合包括:
将所述待分析的金融文档输入到所述训练后的第一子模型,得到所述待分析的金融文档对应的特征信息,其中,所述训练后的第一子模型通过待训练的金融文档训练得到;
将所述待分析的金融文档对应的特征信息输入到所述训练后的第二子模型,得到第一预测结果集合。
在其中的一些实施例中,所述第一子模型为BERT模型;
将所述待分析的金融文档输入到所述训练后的第一子模型,得到所述待分析的金融文档对应的特征信息,具体包括:
使用待训练的金融文档对BERT模型中的一层前序编码预测器进行训练,得到被训练的前序编码预测器对应的第一权重值,其中,BERT模型中有多层前序编码预测器;
获取BERT模型中多个未被训练的前序编码预测器对应的各第二权重值;
根据所述第一权重值和各所述第二权重值,得到BERT模型的权重值;
通过全连接层将所述BERT模型的权重值映射至512维,得到训练后的BERT模型;
将所述待分析的金融文档输入到所述训练后的BERT模型,得到所述待分析的金融文档对应的特征信息。
在其中的一些实施例中,所述被训练的前序编码预测器为所述BERT模型中的最底层前序编码预测器。
在其中的一些实施例中,根据各所述金融主体在所述第一预测结果集合中出现的次数,确定所述金融主体是否作为识别结果输出包括:
将所述第一预测结果的数量的常数倍确定为第二阈值,若所述金融主体在所述第一预测结果集合中出现的次数大于或等于所述第二阈值,将所述金融主体作为识别结果输出。
第二个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的金融主体的识别方法。
第三个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的金融主体的识别方法。
与相关技术相比,在本实施例中提供的金融主体的识别方法、电子装置和存储介质,通过获取待分析的金融文档,将所述待分析的金融文档输入到两个以上各不相同的第一主体识别模型,得到第一预测结果集合,所述第一预测结果集合由与各所述第一主体识别模型对应的各第一预测结果组成,各所述第一预测结果包含由对应的第一主体识别模型预测得到的若干金融主体,根据各所述金融主体在所述第一预测结果集合中出现的次数,确定所述金融主体是否作为识别结果输出,解决了容易误判金融欺诈信息的主体的问题,实现了更加准确地识别金融欺诈信息的主体。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的金融主体的识别方法的应用终端的硬件结构框图;
图2是根据本申请实施例的一种金融主体的识别方法的流程图;
图3是根据本申请实施例的第一主体识别模型获取方法的流程图;
图4是根据本申请实施例的待分析的金融文档对应的特征信息获取方法的流程图;
图5是根据本申请实施例的再一种金融主体的识别方法的流程图;
图6是根据本申请实施例的又一种金融主体的识别方法的流程图;
图7是根据本申请实施例的BERT模型动态权重融合的示意图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是根据本申请实施例的金融主体的识别方法的应用终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的金融主体的识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种金融主体的识别方法,图2是根据本申请实施例的一种金融主体的识别方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取待分析的金融文档。
步骤S202,将待分析的金融文档输入到两个以上各不相同的第一主体识别模型,得到第一预测结果集合,第一预测结果集合由与各第一主体识别模型对应的各第一预测结果组成,各第一预测结果包含由对应的第一主体识别模型预测得到的若干金融主体。
步骤S203,根据各金融主体在第一预测结果集合中出现的次数,确定金融主体是否作为识别结果输出。
在本实施例中,金融主体为金融欺诈信息的主体。
通过上述步骤,解决了容易误判金融欺诈信息的主体的问题,根据各金融主体在第一预测结果集合中出现的次数,从两个以上各不相同的第一主体识别模型预测的若干个金融主体中确定最终的金融主体,实现了更加准确地识别金融欺诈信息的主体。
在其中的一些实施例中,图3是根据本申请实施例的第一主体识别模型获取方法的流程图,如图3所示,获取第一主体识别模型的步骤包括:
步骤S301,获取待训练的金融文档,根据待训练的金融文档,得到第一字符序列和第二字符序列。
步骤S302,将第一字符序列分为训练集和验证集,根据训练集和第二字符序列,对两个以上各不相同的第二主体识别模型进行一轮以上的训练,得到第三主体识别模型集合,第三主体识别模型集合由与各第二主体识别模型对应的多个第三主体识别模型组成,其中,第二主体识别模型每进行一轮训练得到一个第三主体识别模型。
步骤S303,使用验证集对各第三主体识别模型进行验证,得到各第三主体识别模型的召回率和第二预测结果集合,第二预测结果集合由与各第三主体识别模型对应的各第二预测结果组成,各第二预测结果包含由对应的第三主体识别模型预测得到的若干金融主体,将第三主体识别模型集合中符合召回率要求的第三主体识别模型确定为第四主体识别模型,其中,与第四主体识别模型对应的各第二预测结果组成第三预测结果集合。
步骤S304,根据各金融主体在第三预测结果集合中出现的次数,确定金融主体是否作为预测结果输出。
步骤S305,计算预测结果与验证集中标定的金融欺诈信息主体的匹配度,将计算得到的匹配度满足要求的第四主体识别模型确定为第一主体识别模型。
通过上述步骤,根据训练集和第二字符序列,对两个以上各不相同的第二主体识别模型进行一轮以上的训练,各第二主体识别模型每进行一轮训练得到一个第三主体识别模型,各第二主体识别模型对应的第三主体识别模型组成第三主体识别模型集合,使用验证集对各第三主体识别模型进行验证,得到各第三主体识别模型的召回率和各第三主体识别模型对应的各第二预测结果,将符合召回率要求的第三主体识别模型作为第四主体识别模型,实现了对第三主体识别模型的第一次筛选;
同时,将与第四主体识别模型对应的第二预测结果组成第三预测结果集合,根据各第四主体识别模型预测的金融主体在第三预测结果集合中出现的次数,确定预测的金融主体,并计算预测的金融主体与验证集中标注的金融欺诈信息主体的匹配度,将满足匹配度要求的第四主体识别模型确定为第一主体识别模型,实现了对第三主体识别模型的第二次筛选,通过对第三主体识别模型的两次筛选,确定第一主体识别模型,因此,得到的第一主体识别模型相比于没有经过筛选的主体识别模型,能够更加准确地预测具有金融欺诈信息的主体。
在其中的一些实施例中,第二主体识别模型通过以下至少之一构建:
BERT-BLSTM-CRF模型和BERT-IDCNN-CRF模型。
需要说明的是,变压器的双向编码器表示(Bidirectional EncoderRepresentation from Transformers,简称为BERT),是2018年10月由Google AI研究院提出的一种预训练模型。
双向长期短期记忆(Bi-directional Long Short-Term Memory,简称为BiLSTM),是由前向LSTM与后向LSTM组合而成。
长短期记忆(Long Short-Term Memory,简称为LSTM),是RNN(Recurrent NeuralNetwork)的一种。
迭代膨胀的CNN(Iterated Dilated CNN,简称为IDCNN)是4个相同结构的DilatedCNN block拼在一起,每个block里面是dilation width为1、1、2的三层Dilated卷积层,所以称作Iterated Dilated CNN。
条件随机场算法(conditional random field algorithm,简称为CRF),是一种数学算法,是2001年提出的,基于遵循马尔可夫性的概率图模型。
在其中的一些实施例中,获取待训练的金融文档,根据待训练的金融文档,得到第一字符序列和第二字符序列,具体包括:
获取待训练的金融文档,对待训练的金融文档进行预处理,得到第一文本信息;
对第一文本信息进行标注,得到第一字符序列和第二字符序列。
通过上述方式,实现了第一文本信息的标注,得到相应的第一字符序列和第二字符序列,为后续根据第一字符序列和第二字符序列得到第一主体识别模型做准备。
在其中的一些实施例中,对待训练的金融文档进行预处理,得到第一文本信息,具体包括:
通过正则匹配去除待训练的金融文档中的冗余信息,得到处理后的金融文档,其中,处理后的金融文档包括标题和正文;
获取标题与正文的编辑距离,若编辑距离大于第一阈值,则将标题与正文进行拼接,得到第一文本信息。
需要说明的是,编辑距离(Minimum Edit Distance,简称为MED),在信息论、语言学和计算机科学领域,编辑距离是用来度量两个序列相似程度的指标。
在本实施例中,若标题与正文的编辑距离小于或等于第一阈值,则仅保留文本,并将文本作为第一文本信息。
通过上述方式,去除了待训练的金融文档中的冗余信息,并根据标题与正文的编辑距离,判断是否要对标题和正文进行拼接,在编辑距离大于第一阈值的情况下,才需要将标题和正文进行拼接,在编辑距离小于或等于第一阈值的情况下,说明标题与正文较相似,此时,不需要将标题与正文拼接,并将正文作为第一文本信息,避免了第一文本信息中存在冗余信息。
在其中的一些实施例中,对第一文本信息进行标注,得到第一字符序列和第二字符序列包括:
对第一文本信息中的金融主体进行标注,得到第三字符序列,其中,第三字符序列包括标题和正文;
在第三字符序列中标记金融主体在正文中是否出现、在正文中出现的次数和在标题中是否出现,得到带有标记信息的第二字符序列;
标注金融主体在第三字符序列中的位置信息,得到带有标注信息的第一字符序列。
通过上述方式,第一字符序列中包括标注的金融主体和金融主体的位置信息,第二字符序列包括标注的金融主体和金融主体在正文、标题中出现的次数,为后续根据第一字符序列和第二字符序列对第二主体识别模型进行训练,得到第一主体识别模型做准备。
在其中的一些实施例中,第一主体识别模型包括训练后的第一子模型和训练后的第二子模型;
将待分析的金融文档输入到两个以上各不相同的第一主体识别模型,得到第一预测结果集合包括:
将待分析的金融文档输入到训练后的第一子模型,得到待分析的金融文档对应的特征信息,其中,训练后的第一子模型通过待训练的金融文档训练得到;
将待分析的金融文档对应的特征信息输入到训练后的第二子模型,得到第一预测结果集合。
通过上述方式,使用待训练的金融文档对第一子模型进行训练,得到训练后的第一子模型,因此,训练后的第一子模型能够更加精确地获取待分析的金融文档对应的特征信息,并将更加精确的特征信息输入训练后的第二子模型,能够更加准确地预测待分析的金融文档中金融欺诈信息的主体。
在其中的一些实施例中,第一子模型为BERT模型;
图4是根据本申请实施例的待分析的金融文档对应的特征信息获取方法的流程图,如图4所示,将待分析的金融文档输入到训练后的第一子模型,得到待分析的金融文档对应的特征信息,具体包括如下步骤:
步骤S401,使用待训练的金融文档对BERT模型中的一层前序编码预测器进行训练,得到被训练的前序编码预测器对应的第一权重值,其中,BERT模型中有多层前序编码预测器。
步骤S402,获取BERT模型中多个未被训练的前序编码预测器对应的各第二权重值。
步骤S403,根据第一权重值和各第二权重值,得到BERT模型的权重值。
步骤S404,通过全连接层将BERT模型的权重值映射至512维,得到训练后的BERT模型。
步骤S405,将待分析的金融文档输入到训练后的BERT模型,得到待分析的金融文档对应的特征信息。
通过上述步骤,将BERT模型中的一层前序编码预测器进行训练,得到对应的第一权重值,并根据第一权重值得到训练后的BERT模型,因此,训练后的BERT模型能够更加精确地提取待分析的金融文档对应的特征信息。
在其中的一些实施例中,被训练的前序编码预测器为BERT模型中的最底层前序编码预测器。
在本实施例中,每层前序编码预测器之间不是相互独立的,后一层的前序编码预测器除了本身的输入特征,还会结合前面层的前序编码预测器的输入得到合并特征,并输出合并特征。
通过上述方式,对最底层的前序编码预测器进行训练,得到训练后的BERT模型,训练后的BERT模型能够更加精确地提取待分析的金融文档对应的特征信息。
在其中的一些实施例中,根据各金融主体在第一预测结果集合中出现的次数,确定金融主体是否作为识别结果输出包括:
将第一预测结果的数量的常数倍确定为第二阈值,若金融主体在第一预测结果集合中出现的次数大于或等于第二阈值,将金融主体作为识别结果输出。
通过上述方式,在第一预测结果集合中将出现的次数大于或等于第二阈值的金融主体作为识别结果输出,将出现次数小于第二阈值的金融主体去除,从而能够根据第二阈值从第一预测结果集合中准确地确定金融欺诈信息的主体,实现了更加准确地确定金融欺诈信息的主体,避免了将不准确的金融主体作为识别结果输出。
图5是根据本申请实施例的再一种金融主体的识别方法的流程图,如图5所示,该流程包括如下步骤:
步骤S501,根据待训练的金融文档,确定两个以上各不相同的第一主体识别模型,第一主体识别模型包括训练后的第一子模型和训练后的第二子模型。
在本实施例中,获取待训练的金融文档,根据待训练的金融文档,得到第一字符序列和第二字符序列;
将第一字符序列分为训练集和验证集,根据训练集和第二字符序列,对两个以上各不相同的第二主体识别模型进行一轮以上的训练,得到第三主体识别模型集合,第三主体识别模型集合由与各第二主体识别模型对应的多个第三主体识别模型组成,其中,第二主体识别模型每进行一轮训练得到一个第三主体识别模型;
使用验证集对各第三主体识别模型进行验证,得到各第三主体识别模型的召回率和第二预测结果集合,第二预测结果集合由与各第三主体识别模型对应的各第二预测结果组成,各第二预测结果包含由对应的第三主体识别模型预测得到的若干金融主体,将第三主体识别模型集合中符合召回率要求的第三主体识别模型确定为第四主体识别模型,其中,与第四主体识别模型对应的各第二预测结果组成第三预测结果集合;
根据各金融主体在第三预测结果集合中出现的次数,确定金融主体是否作为预测结果输出;
计算预测结果与验证集中标定的金融欺诈信息主体的匹配度,将计算得到的匹配度满足要求的第四主体识别模型确定为第一主体识别模型。
在其中一个实施例中,第二主体识别模型通过以下至少之一构建:
BERT-BLSTM-CRF模型和BERT-IDCNN-CRF模型。
在其中一个实施例中,获取待训练的金融文档,根据待训练的金融文档,得到第一字符序列和第二字符序列,具体包括:
获取待训练的金融文档,对待训练的金融文档进行预处理,得到第一文本信息;
对第一文本信息进行标注,得到第一字符序列和第二字符序列。
在其中一个实施例中,对待训练的金融文档进行预处理,得到第一文本信息,具体包括:
通过正则匹配去除待训练的金融文档中的冗余信息,得到处理后的金融文档,其中,处理后的金融文档包括标题和正文;
获取标题与正文的编辑距离,若编辑距离大于第一阈值,则将标题与正文进行拼接,得到第一文本信息。
在其中一个实施例中,对第一文本信息进行标注,得到第一字符序列和第二字符序列包括:
对第一文本信息中的金融主体进行标注,得到第三字符序列,其中,第三字符序列包括标题和正文;
在第三字符序列中标记金融主体在正文中是否出现、在正文中出现的次数和在标题中是否出现,得到带有标记信息的第二字符序列;
标注金融主体在第三字符序列中的位置信息,得到带有标注信息的第一字符序列。
步骤S502,将待分析的金融文档输入到训练后的第一子模型,得到待分析的金融文档对应的特征信息,其中,训练后的第一子模型通过待训练的金融文档训练得到。
步骤S503,将待分析的金融文档对应的特征信息输入到训练后的第二子模型,得到第一预测结果集合。
在本实施例中,第一预测结果集合由与各第一主体识别模型对应的各第一预测结果组成,各第一预测结果包含由对应的第一主体识别模型预测得到的若干金融主体。
在其中一个实施例中,第一子模型为BERT模型;
将待分析的金融文档输入到训练后的第一子模型,得到待分析的金融文档对应的特征信息,具体包括:
使用待训练的金融文档对BERT模型中的一层前序编码预测器进行训练,得到被训练的前序编码预测器对应的第一权重值,其中,BERT模型中有多层前序编码预测器;
获取BERT模型中多个未被训练的前序编码预测器对应的各第二权重值;
根据第一权重值和各第二权重值,得到BERT模型的权重值;
通过全连接层将BERT模型的权重值映射至512维,得到训练后的BERT模型;
将待分析的金融文档输入到训练后的BERT模型,得到待分析的金融文档对应的特征信息。
在其中一个实施例中,被训练的前序编码预测器为BERT模型中的最底层前序编码预测器。
步骤S504,将第一预测结果的数量的常数倍确定为第二阈值,若金融主体在第一预测结果集合中出现的次数大于或等于第二阈值,将金融主体作为识别结果输出。
通过上述步骤,将待分析的金融文档输入两个以上各不相同的第一主体识别模型,得到第一预测结果集合,第一预测结果集合由与各第一主体识别模型对应的各第一预测结果组成,各第一预测结果包含由对应的第一主体识别模型预测得到的若干金融主体,根据各金融主体在第一预测结果集合中出现的次数,确定金融主体是否作为识别结果输出,解决了容易误判金融欺诈信息的主体的问题,从两个以上各不相同的第一主体识别模型预测的若干个金融主体中确定最终的金融主体,实现了更加准确地识别金融欺诈信息的主体。
图6是根据本申请实施例的又一种金融主体的识别方法的流程图,如图6所示,该流程包括如下步骤:
步骤S601,对待训练的金融文档进行预处理,得到第一文本信息。
步骤S602,对第一文本信息进行标注,得到第一字符序列和第二字符序列。
步骤S603,将第一字符序列分为训练集和验证集,根据训练集和第二字符序列,对两个以上各不相同的第二主体识别模型进行一轮以上的训练,得到第三主体识别模型集合,第三主体识别模型集合由与各第二主体识别模型对应的多个第三主体识别模型组成,其中,第二主体识别模型每进行一轮训练得到一个第三主体识别模型。
步骤S604,使用验证集对各第三主体识别模型进行验证,得到各第三主体识别模型的召回率和第二预测结果集合,第二预测结果集合由与各第三主体识别模型对应的各第二预测结果组成,各第二预测结果包含由对应的第三主体识别模型预测得到的若干金融主体,将第三主体识别模型集合中符合召回率要求的第三主体识别模型确定为第四主体识别模型,其中,与第四主体识别模型对应的各第二预测结果组成第三预测结果集合。
步骤S605,根据各金融主体在第三预测结果集合中出现的次数,确定金融主体是否作为预测结果输出。
步骤S606,计算预测结果与验证集中标定的金融欺诈信息主体的匹配度,将计算得到的匹配度满足要求的第四主体识别模型确定为第一主体识别模型,第一主体识别模型包括训练后的BERT模型和训练后的第二子模型。
在本实施例中,使用待训练的金融文档对BERT模型中的一层前序编码预测器进行训练,得到被训练的前序编码预测器对应的第一权重值,其中,BERT模型中有多层前序编码预测器;获取BERT模型中多个未被训练的前序编码预测器对应的各第二权重值;根据第一权重值和各第二权重值,得到BERT模型的权重值;通过全连接层将BERT模型的权重值映射至512维,得到训练后的BERT模型。
步骤S607,将待分析的金融文档输入到训练后的BERT模型,得到待分析的金融文档对应的特征信息。
步骤S608,将待分析的金融文档对应的特征信息输入到训练后的第二子模型,得到第一预测结果集合。
步骤S609,根据各金融主体在第一预测结果集合中出现的次数,确定金融主体是否作为识别结果输出。
通过上述步骤,将待分析的金融文档输入两个以上各不相同的第一主体识别模型,得到第一预测结果集合,第一预测结果集合由与各第一主体识别模型对应的各第一预测结果组成,各第一预测结果包含由对应的第一主体识别模型预测得到的若干金融主体,根据各金融主体在第一预测结果集合中出现的次数,确定金融主体是否作为识别结果输出,解决了容易误判金融欺诈信息的主体的问题,有助于互联网行业的金融监管的实施,能够从海量的金融信息中识别出欺诈的金融信息主体,从而能够及时控制阻止经济犯罪的传播,为防范打击互联网经济犯罪和降低群众的财产损失具有很大的现实意义。
由于所有的待分析的金融文档和待训练的金融文档均来自于爬取特定金融网页中的金融信息文本,金融信息文本具体包括两个部分,分别为文本标题title和文本信息text,有的网页中有title文本没有text文本,有的网页中有text文本没有title文本,且文本长度不一,所以首先需要对title和text两个部分的文本进行预处理。
在其中一个实施例中,待训练的金融文档包括文本标题title和文本信息text,对待训练的金融文档进行预处理,得到第一文本信息包括,具体包括:
通过正则匹配过滤掉待训练的金融文档中的噪音,包括图片信息、网址信息、网页标签、日期、特殊字符及非中文、非英文和非数字符号,然后通过计算文本标题title与文本信息text文本之间的编辑距离判断title与text是否具有包含关系,从而去除title和text任意为空的文本数据,具体地,计算title与text之间的文本编辑距离,当title与text的编辑距离小于200时,仅保留文本信息text,当title与text的编辑距离大于200时,将文本标题title与文本信息text进行拼接,得到处理后的文本信息;
以标点符号的优先级对处理后的文本信息进行切割,并按原顺序进行重组,当重组的句子长度超过510个字符时,则生成一条新的数据样本并对剩余句子重复执行上述过程,直到所有处理后的文本信息都被组装完成,得到第一文本信息。通过上述方式,通过正则匹配过滤掉待训练的金融文档中的噪音,通过title与text的编辑距离去除title和text任意为空的文本数据,解决了待训练的金融文档中冗余信息过多的问题,以标点符号的优先级对处理后的文本信息进行切割,解决了单一文本过长的问题,并且完整的利用了数据信息。
在其中一个实施例中,对第一文本信息进行标注,得到第一字符序列和第二字符序列,具体包括:
对第一文本信息进行人工打标签,标出每一条金融文档信息中包含的金融主体entity,构成金融主体entity列表,并标注出信息表达的是否是欺诈的内容,构成标签列negative,形成原始数据集4列:title、text、entity、negative,记为第三字符序列;
将第三字符序列映射成"O"、"B-ORG","I-ORG"的字符标签,实体词在第三字符序列中对应的第一个字符为B-ORG,实体词对应的余下字符为I-ORG,第三字符序列中的其他词为O,形成字符与标签的一一映射关系,得到第一字符序列;
在第三字符序列中,标注实体词在文本信息text前507个字符中出现的次数、标注实体词是否在text中出现以及标注实体词是否在title中出现,得到第二字符序列。
通过上述方式,对第一文本信息进行标注,得到第一字符序列和第二字符序列,为后续根据第一字符序列和第二字符序列对第二主体识别模型进行训练,得到第一主体识别模型做准备。
在其中一个实施例中,获取待分析的金融文档,具体包括:
基于BERT模型构建金融欺诈信息检测模型,具体地,将BERT模型的最后一层全连接层的输出连接激活函数Sigmoid(0/1),得到金融欺诈信息检测模型,将第一字符序列输入金融欺诈信息检测模型,得到待分析的金融文档。
另外,在本实施例中,可以用传统的机器学习模型来获取待分析的金融文档,传统的机器学习模型包括SVM模型和Logistic Regression模型。
通过上述方式,将具有金融欺诈信息的金融文档作为待分析的金融文档,为后续根据待分析的金融文档识别金融欺诈信息的主体做准备。
在其中一个实施例中,构建两个以上各不相同的第二主体识别模型包括:
在本实施例中通过四种方式构建第二主体识别模型。
方式一:基于BERT-BLSTM-CRF模型构建第二主体识别模型,具体地,将BERT训练模型学习到的token向量输入到BILSTM模型进一步学习,使模型能够理解文本序列上下文关系,最后通过CRF模型获得每个token的分类结果。本申请首先使用的原始的BERT模型最后的全连接层的输出特征作为BLSTM模型的输入,然后将BLSTM模型的全连接层的输出搭载CRF模型来完成金融主体信息的识别,三层结构分别为:①BERT使用Transformer机制对输入文本进行编码,使用预训练模型获取字符的语义表示;②BiLSTM在BERT输出结果的基础上进一步提取数据的高层特征;③CRF对BiLSTM层的输出结果进行状态转移约束。
方式二:对原生的BERT模型进行了一部分改进,原生的BERT模型每一层对文本的理解都不相同,本申请通过动态权重融合的方式得到BERT模型的最终权重,图7是根据本申请实施例的BERT模型动态权重融合的示意图,如图7所示,本申请对BERT模型的第12层transformer生成的表示赋予一个权重,然后通过训练来确定第一权重值,获取第1层到第11层对应的第二权重值,并将第1~12层transformer对应的权重进行平均,得到最终的权重值,通过一层全连接层将最终的权重值降维至512维,将动态融合的BERT模型搭载BLSTM-CRF模型作为第二种方式构建第二主体识别模型。
方式三:基于BERT-IDCNN-CRF模型构建第二主体识别模型,在文本丢失局部信息的条件下,IDCNN能充分捕获长序列文本的长距离信息,适合长文本的文本数据识别,与BILSTM模型不同的是即使在并行的条件下对长度为n的句子进行处理也只需要O(n)的复杂度,其精度与BERT-BLSTM-CRF模型相当,预测速度相比提升了一半。
方式四:本申请基于方式二改进的BERT模型配合IDCNN-CRF构建第二主体识别模型。
在本实施例中,不限于上述四种方式来构建第二主体识别模型,比如,可以用BIGRU模型替代上述四种第二主体识别模型中的BILSTM模型或IDCNN模型,从而能够对第一字符序列和第二字符序列做进一步的特征提取,实现语义的编码过程。
通过上述方式,构建两个以上各不相同的第二主体识别模型,为后续根据各不相同的第二主体识别模型识别金融欺诈信息的主体做准备。
在本实施例中还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
获取待分析的金融文档;
将待分析的金融文档输入到两个以上各不相同的第一主体识别模型,得到第一预测结果集合,第一预测结果集合由与各第一主体识别模型对应的各第一预测结果组成,各第一预测结果包含由对应的第一主体识别模型预测得到的若干金融主体;
根据各金融主体在第一预测结果集合中出现的次数,确定金融主体是否作为识别结果输出。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
此外,结合上述实施例中提供的金融主体的识别方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种金融主体的识别方法。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。