邮箱账号异常检测方法、装置、电子设备及存储介质

文档序号:8283 发布日期:2021-09-17 浏览:29次 英文

邮箱账号异常检测方法、装置、电子设备及存储介质

技术领域

本申请涉及网络安全

技术领域

,具体而言,涉及一种邮箱账号异常检测方法、装置、电子设备及存储介质。

背景技术

企业内网中邮箱是日常办公经常使用的沟通工具,攻击者也通常利用邮箱服务器或邮箱帐号作为攻击的入口,如钓鱼邮件等。研究人员通过调研发现,很多机构工作邮箱存在对内或向外发送大量垃圾邮件、黑产邮件等现象,而这些邮箱通常是已被攻击者完全控制,被攻击者在不知情地情况下发生上述行为。

目前针对邮件行为异常分析常见的方法主要有以下两种:第一种:采用是否存在群发行为等方法。其中邮件群发通常根据邮箱帐号短时间内发送大量邮件来进行判定,这一方法相对简单,容易形成误报。第二种:判断邮箱帐号是否短时间内在多个不同地点登录来进行检测,这一方法需要过滤常规的邮件代收服务等设置,并且只考虑了登录行为,检测条件相对苛刻,结果较难触发。

由此可知,上述两种方法对邮箱账号检测的准确率较低。

发明内容

本申请实施例的目的在于提供一种邮箱账号异常检测方法、装置、电子设备及存储介质,用以提高对邮箱账号检测的准确率。

第一方面,本申请实施例提供一种邮箱账号异常检测方法,包括:获取第一邮箱账号在预设时间段内的多个邮件数据;对每一所述邮件数据进行特征提取,获得每一所述邮件数据对应的邮件特征;其中,所述邮件特征包括账号通信特征、通联关系特征和邮件内容特征;所述账号通信特征用于表征所述第一邮箱账号在所述预设时间段内与第二邮箱账号通信的数量属性;所述通联关系特征用于表征所述第一邮箱账号与有过通联行为的相关邮箱账号的关系属性;所述邮件内容特征用于表征所述第一邮箱账号在预设时间段内发送的邮件的内容属性;将所述账号通信特征、所述通联关系特征和所述邮件内容特征输入预先构建的检测模型中,获得所述检测模型输出的所述第一邮箱账号是否异常的检测结果。

本申请实施例通过同时使用账号通信特征、通联关系特征和邮件内容特征作为特征向量,利用机器学习算法对多个邮件数据进行分析,从而从多个维度确定第一邮箱账号是否存在异常情况,提高了检测的准确性。

在一实施例中,对每一所述邮件数据进行特征提取,获得账号通信特征,包括:统计所述邮件数据中,所述第一邮箱账号作为发送方与第二邮箱账号通信的第一账号数量,以及所述第一邮箱账号作为收件方第二邮箱账号通信的第二账号数量;根据所述第一账号数量和所述第二账号数量确定所述账号通信特征。

由于被攻击的邮箱往往会在短时间内向多个邮箱发送垃圾邮件,因此,将与第一邮箱账号发生过通信的第一账号数量和第二账号数量作为分析第一邮箱账号是否存在异常的一个因素,从而能够准确地对第一邮箱账号是否发生异常进行检测。

在一实施例中,对每一所述邮件数据进行特征提取,获得通联关系特征,包括:获取与所述第一邮箱账号通信的所有第二邮箱账号;获取所述第二邮箱账号在所述预设时间段内通信的除所述第一邮箱账号以外的第三邮箱账号;根据所述第二邮箱账号和所述第三邮箱账号确定所述通联关系特征。

在一实施例中,所述根据所述第二邮箱账号和所述第三邮箱账号确定所述通联关系特征,包括:获取所述第二邮箱账号对应的第三账号数量;构建所述第一邮箱账号、所述第二邮箱账号和所述第三邮箱账号的连接关系;根据所述连接关系统计所述第一邮箱账号到所述第三邮箱账号之间的边数;根据所述第三账号数量和所述边数确定所述通联关系特征。

本申请实施例中,通联关系特征表达的是邮箱帐号与其它相关邮箱帐号的关系行为分析,一般来说,一个特定帐号会与特定的对象进行通联,这种通联行为经过传导会出现一定的聚集现象,即出现一个通联群组,在这群组内的通联行为被认为是正常的。而如果是失陷邮箱帐号,通常是无目的或有目的的群发行为,导致超出了这一群组,因此,通过聚集系数来计算这通联关系的聚集程度。

在一实施例中,对每一所述邮件数据进行特征提取,获得邮件内容特征,包括:统计所述邮件数据中的主题数量以及主题长度信息;根据所述主题长度信息计算获得对应的主题均值和主题标准差;统计包含邮件正文的第一邮件数量及正文长度信息,并根据所述正文长度信息计算获得对应的正文均值和正文标准差;统计包含附件的第二邮件数据及附件长度信息;根据所述主题数量、所述主题均值、所述主题标准差、所述第一邮件数量、所述正文均值、所述正文标准差、所述第二邮件数据和所述附件长度信息确定所述邮件内容特征。

由于攻击者通常在攻击邮箱后,会发送大量内容相近或相似的邮件,因此,本申请实施例通过对邮件内容进行分析,从而能够准确地对第一邮箱账号是否存在异常进行检测。

在一实施例中,所述邮件数据包括邮件正文,所述方法还包括:抽取所述邮件正文中的关键词;根据所述关键词获得邮件数据之间的相似性特征;相应的,所述将所述账号通信特征、所述通联关系特征和所述邮件内容特征输入预先构建的检测模型中,获得所述检测模型输出的所述第一邮箱账号是否异常的检测结果,包括:将所述账号通信特征、所述通联关系特征、所述邮件内容特征和相似性特征输入预先构建的检测模型中,获得所述检测模型输出的所述第一邮箱账号是否异常的检测结果。

本申请实施例针对包含正文的邮件进行相似度计算,获得相似性特征,并将相似性特征作为检测第一邮箱账号是否异常的因素,从而提高了检测的准确性。

在一实施例中,所述方法还包括:获取训练样本集,所述训练样本集包括多个训练邮件数据和每一所述训练邮件数据对应的标识;其中,所述标识用于表征所述训练邮件数据对应的邮箱账号是否为异常邮箱;将所述多个训练邮件数据输入待训练检测模型中,获得所述待训练检测模型输出的预测结果;其中,所述待训练检测模型为通过随机森林算法构建;根据所述预测结果和所述标识对所述待训练检测模型中的参数进行优化,以获得训练好的所述检测模型。

本申请实施例通过同时使用账号通信特征、通联关系特征和邮件内容特征作为特征向量,利用机器学习算法对多个邮件数据进行分析,从而从多个维度确定第一邮箱账号是否存在异常情况,提高了检测的准确性。

第二方面,本申请实施例提供一种邮箱账号异常检测装置,包括:数据获取模块,用于获取第一邮箱账号在预设时间段内的多个邮件数据;特征提取模块,用于对每一所述邮件数据进行特征提取,获得每一所述邮件数据对应的邮件特征;其中,所述邮件特征包括账号通信特征、通联关系特征和邮件内容特征;所述账号通信特征用于表征所述第一邮箱账号在所述预设时间段内与第二邮箱账号通信的数量属性;所述通联关系特征用于表征所述第一邮箱账号与有过通联行为的相关邮箱账号的关系属性;所述邮件内容特征用于表征所述第一邮箱账号在预设时间段内发送的邮件的内容属性;检测模块,用于将所述账号通信特征、所述通联关系特征和所述邮件内容特征输入预先构建的检测模型中,获得所述检测模型输出的所述第一邮箱账号是否异常的检测结果。

第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的方法。

第四方面,本申请实施例提供一种非暂态计算机可读存储介质,包括:所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的方法。

本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种邮箱账号异常检测方法流程示意图;

图2为本申请实施例提供的一种检测模型训练方法流程示意图;

图3为本申请实施例提供的一种随机森林架构示意图;

图4为本申请实施例提供的邮箱账号异常检测装置结构示意图;

图5为本申请实施例提供的电子设备实体结构示意图。

具体实施方式

为了提高对邮箱账号是否存在异常情况检测的准确性,本申请实施例提供一种邮箱账号异常检测方法,该方法通过获取预设时间段内的多个邮件数据,并对邮件数据进行提取,获得账号通信特征、通联关系特征和邮件内容特征,将账号通信特征、通联关系特征和邮件内容特征输入检测模型中获得检测结果。

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

可以理解的是,本申请实施例提供的模型训练方法以及邮箱账号异常的检测方法可以应用于终端设备(也可以称为电子设备)以及服务器;其中终端设备具体可以为智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assitant,PDA)等;服务器具体可以为应用服务器,也可以为Web服务器。

为了便于理解,本申请实施例提供的技术方案,下面以终端设备作为执行主体为例,对本申请实施例提供的模型训练方法及检测方法的应用场景进行介绍。应当说明的是,模型训练方法以及预测方法均可以是同一终端设备执行,也可以是不同终端设备执行。

图1为本申请实施例提供的一种邮箱账号异常检测方法流程示意图,如图1所示,该方法包括:

步骤101:获取第一邮箱账号在预设时间段内的多个邮件数据。

其中,第一邮箱账号是指被检测是否存在异常的账号。该异常是指被攻击者攻击,从而受攻击者控制。可以理解的是,邮箱账号异常也称为邮箱账号失陷。预设时间段可以是近一周,近一个月等,也可以是历史某个时间段,本申请实施例对此不作具体限定。

终端设备可以获取预设时间段内该第一邮箱账号所收发的所有的邮件数据;也可以是部分邮件数据,例如:多个邮件数据中不包含工作时间内的邮件。

步骤102:对每一所述邮件数据进行特征提取,获得每一所述邮件数据对应的邮件特征;其中,所述邮件特征包括账号通信特征、通联关系特征和邮件内容特征;所述账号通信特征用于表征所述第一邮箱账号在所述预设时间段内与第二邮箱账号通信的数量属性;所述通联关系特征用于表征所述第一邮箱账号与有过通联行为的相关邮箱账号的关系属性;所述邮件内容特征用于表征所述第一邮箱账号在预设时间段内发送的邮件的内容属性。

步骤103:将所述账号通信特征、所述通联关系特征和所述邮件内容特征输入预先构建的检测模型中,获得所述检测模型输出的所述第一邮箱账号是否异常的检测结果。

其中,检测模型可以采用随机森林分类算法构建并训练获得,当然还可以选择其他分类算法进行构建,例如支持向量机等,本申请实施例对构建检测模型的算法不作具体限定。

本申请实施例通过同时使用账号通信特征、通联关系特征和邮件内容特征作为特征向量,利用机器学习算法对多个邮件数据进行分析,从而从多个维度确定第一邮箱账号是否存在异常情况,提高了检测的准确性。

在上述实施例的基础上,在获得邮件数据后,还可以对邮件数据进行预处理,即,将邮件中的发件人、收件人、抄送人、密送人的通信关系分解开,生成邮件通信关系列表,如下表所示:

字段 说明
mail_from 邮件发件人
from_dom 邮件发件人的域名
mail_to 邮件收件人,包括收件人,抄送人等
to_dom 邮件收件人的域名
type 收件类型,包括发送,抄送等

应当说明的是,上表中各个字段可以为空,例如:若某个邮件数据中没有抄送人,那么对该邮件数据分解后,抄送人字段对应的值为空。

在上述实施例的基础上,对每一所述邮件数据进行特征提取,获得账号通信特征,包括:

统计所述邮件数据中,所述第一邮箱账号作为发送方与第二邮箱账号通信的第一账号数量,以及所述第一邮箱账号作为收件方第二邮箱账号通信的第二账号数量;

根据所述第一账号数量和所述第二账号数量确定所述账号通信特征。

在具体的实施过程中,第二邮箱账号是指与第一邮箱账号具有通信关系的邮箱账号。例如:第一邮箱账号在预设时间段内共发送了10封邮件,这10封邮件中,有2封是发送给邮箱A的,有3封邮件是发送给邮箱B的,有1封邮件是发送给邮箱C的,还有4封邮件是发送给邮箱D的。那么,邮箱A、邮箱B、邮箱C和邮箱D均为第二邮箱账号。第一账号数量是指接收第一邮箱账号发送的邮件的第二邮箱账号的数量。上述举例中的第一账号数量为4。应当说明的是,此处所说的发送可以包括抄送。

第二账号数量是指向第一邮箱账号发送邮件的第二邮箱账号的数量。例如:第一邮箱账号接收到邮箱A发送的2封邮件,第一邮箱账号接收到邮箱B发送的4封邮件,第一邮箱账号接收到邮箱E发送的1封邮件,此时,第二账号数量为3。可以理解的是,邮箱E也为第二邮箱账号。

第一账号数量和第二账号数量构成了账号通信特征。

在另一实施例中,在统计第一账号数量和第二账号数量时,还可以区分第二邮箱账号为内部邮箱和外部邮箱。即,将第一账号数量包含两个数据,分别为第一邮箱账号发送给第二邮箱账号为内部邮箱的账号数量,以及第一邮箱账号发送给第二邮箱账号为外部邮箱的账号数量。同样的,第二账号数量也包含两个数据,分别为向第一邮箱账号发送邮件的内部邮箱的账号数量,以及向第一邮箱账号发送邮件的外部邮箱的账号数量,将上述四个账号数量作为账号通信特征。

在一实施例中,通信属性可结合当前邮件帐号的历史行为进行特征计算,如第一邮箱账号通常的联系人仅限于一定范围或工作组内,但在预设时间段内发现其与内部邮箱很少通信,反而大量邮件是跟外部邮箱进行通信,则可能存在敏感数据外泄的风险。将当前计算得到的特征数量与其历史行为进行比较可得到一个指标值。

其中,该指标值可以通过如下方式进行计算:

首先确定第一邮箱账号在正常状态下,某一历史时间段内平均每天向内部邮箱发送邮件的标准数量,然后将上述计算获得的第一邮箱账号发送给第二邮箱账号为内部邮箱的账号数量与标准数量的比值,即可获得该指标值。

可以理解的是,第一邮箱账号向外部邮箱发送邮件的指标值、第一邮箱账号接收外部邮箱发送的邮件的指标值和第一邮箱账号接收内部邮箱发送的邮件的指标值的计算方法与上述方法类似,此处不再赘述。

由于被攻击的邮箱往往会在短时间内向多个邮箱发送垃圾邮件,因此,将与第一邮箱账号发生过通信的第一账号数量和第二账号数量作为分析第一邮箱账号是否存在异常的一个因素,从而能够准确地对第一邮箱账号是否发生异常进行检测。

在上述实施例的基础上,对每一所述邮件数据进行特征提取,获得通联关系特征,包括:

获取与所述第一邮箱账号通信的所有第二邮箱账号;

获取所述第二邮箱账号在所述预设时间段内通信的除所述第一邮箱账号以外的第三邮箱账号;

根据所述第二邮箱账号和所述第三邮箱账号确定所述通联关系特征。

在具体的实施过程中,通联关系特征是指第一邮箱帐号与有过通联行为的相关邮箱帐号的关系行为分析。例如:第一邮箱账号在预设时间段内与邮箱A发生过通信关系,可以理解的是,该通信关系可以是第一邮箱账号向邮箱A发送邮件,也可以是第一邮箱账号接收邮箱A发送的邮件。在该预设时间段内,邮箱A又跟邮箱B发生过通信关系,那么邮箱B称为第三邮箱账号。这种现象体现了部分节点(邮箱账号)间存在的密集连接性质。

通联关系特征表达的是邮箱帐号与其它相关邮箱帐号的关系行为分析,一般来说,一个特定帐号会与特定的对象进行通联,这种通联行为经过传导会出现一定的聚集现象,即出现一个通联群组,在这群组内的通联行为被认为是正常的。而如果是失陷邮箱帐号,通常是无目的或有目的的群发行为,导致超出了这一群组,因此,通过聚集系数来计算这通联关系的聚集程度。因此,在确定通联关系特征时,可以采用聚类系数来表示,具体方法如下:

首先,统计第一邮箱账号对应的有通联关系的邻居节点数,该邻居节点数包括直接与第一邮箱账号通信的第二邮箱账号的数量,和与第二邮箱账号通信的第三邮箱账号的第三账号数量。

构建所述第一邮箱账号、所述第二邮箱账号和所述第三邮箱账号的连接关系;

根据所述连接关系统计所述第一邮箱账号到所述第三邮箱账号之间的边数;例如:第一邮箱账号与邮箱A通信,邮箱A与邮箱B通信,那么第一邮箱账号到邮箱A之间存在一条边,邮箱A到邮箱B之间存在一条边。

根据所述第三账号数量和所述边数确定所述通联关系特征,具体通过如下公式计算获得:

其中,lcc为聚类系数;edge_num为邻居节点数;jump_num为边数。

本申请实施例中,通联关系特征表达的是邮箱帐号与其它相关邮箱帐号的关系行为分析,一般来说,一个特定帐号会与特定的对象进行通联,这种通联行为经过传导会出现一定的聚集现象,即出现一个通联群组,在这群组内的通联行为被认为是正常的。而如果是失陷邮箱帐号,通常是无目的或有目的的群发行为,导致超出了这一群组,因此,通过聚集系数来计算这通联关系的聚集程度。在上述实施例的基础上,对每一所述邮件数据进行特征提取,获得邮件内容特征,包括:

统计所述邮件数据中的主题数量以及主题长度信息;

根据所述主题长度信息计算获得对应的主题均值和主题标准差;

统计包含邮件正文的第一邮件数量及正文长度信息,并根据所述正文长度信息计算获得对应的正文均值和正文标准差;

统计包含附件的第二邮件数据及附件长度信息;

根据所述主题数量、所述主题均值、所述主题标准差、所述第一邮件数量、所述正文均值、所述正文标准差、所述第二邮件数据和所述附件长度信息确定所述邮件内容特征。

其中,主题数量是指多个邮件数据中邮件主题的数量。每个邮件数据均包含一个主题信息,在统计主题数量时,将属于同一个主题的多个邮件数据记为一个主题。主题长度信息可以采用字节数表示,即每个邮件主题对应的字节数。

根据主题字节数可以计算获得主题均值和主题标准差,应当说明的是,主题均值和主题标准差的计算方法与现有的均值和标准差计算方法一致,此处不再赘述。

有的邮件中包括正文,有的邮件则不包括正文,第一邮件数量是指多个邮件数据中包含邮件正文的邮件数量。正文长度信息可以采用正文的字节数表示。同样的,正文均值和正文标准差与现有的均值和标准差计算方法一致,此处不再赘述。

主题数量、主题均值、主题标准差、第一邮件数量、正文均值、正文标准差、第二邮件数据和附件长度信息构成了邮件内容特征。

由于攻击者在控制邮箱后,进行内网持续渗透时,可能发送大量雷同文件给特定邮箱账号,以获取更多信息或控制权限,因此,这些邮件的长度相近,长度标准差较小,因此,可作为邮件内容特征中的一种。

由于攻击者通常在攻击邮箱后,会发送大量内容相近或相似的邮件,因此,本申请实施例通过对邮件内容进行分析,从而能够准确地对第一邮箱账号是否存在异常进行检测。

在上述实施例的基础上,所述邮件数据包括邮件正文,所述方法还包括:

抽取所述邮件正文中的关键词;

根据所述关键词获得邮件数据之间的相似性特征;

相应的,

所述将所述账号通信特征、所述通联关系特征和所述邮件内容特征输入预先构建的检测模型中,获得所述检测模型输出的所述第一邮箱账号是否异常的检测结果,包括:

将所述账号通信特征、所述通联关系特征、所述邮件内容特征和相似性特征输入预先构建的检测模型中,获得所述检测模型输出的所述第一邮箱账号是否异常的检测结果。

在具体的实施过程中,对于包含邮件正文的邮件数据,可以从邮件数据中读取邮件正文,并对邮件正文进行分词,并对分词后的邮件正文进行去停用词处理,从而获得关键词。

在获得每个包含邮件正文的邮件数据的关键词后,根据关键词计算邮件数据之间的相似性。其中,计算相似性的具体方案可以为:

将每个邮件数据对应的关键词进行语义分析,获得每个关键词的词向量,然后利用SIF编码方法对词向量进行处理,获得邮件数据对应的句向量。

根据计算两个邮件数据分别对应的句向量之间的距离,从而将距离小于预设阈值的邮箱数据作为相似邮箱数据。

相似性特征可以包含相似邮箱数据的数量。其中,包含相似邮箱数据的数量是指:多个邮件数据中,将相似邮箱数据的最大值作为相似邮箱数据的数量;例如:共有10个包含邮件正文的邮件数据,经过上述方法可知第一个邮件数据与第二个邮件数据相似,那么相似邮箱数据的数量为3。在另一实施例中,包含相似邮箱数据的数量还可以指:将所有相似邮箱数据的数量作为相似邮箱数据的数量。例如:共有10个包含邮件正文的邮件数据,经过上述方法可知,第三个、第四个、第五个邮件数据相似,那么相似邮箱数据的数量为5。

在获得相似性特征后,将所述账号通信特征、所述通联关系特征、所述邮件内容特征和相似性特征输入预先构建的检测模型中,获得所述检测模型输出的所述第一邮箱账号是否异常的检测结果。

本申请实施例针对包含正文的邮件进行相似度计算,获得相似性特征,并将相似性特征作为检测第一邮箱账号是否异常的因素,从而提高了检测的准确性。

图2为本申请实施例提供的一种检测模型训练方法流程示意图,如图2所示,该方法包括:

步骤201:获取训练邮件数据;获取到的训练邮件数据中包括多个邮箱账号的邮件数据,并且多个邮箱账号中,一部分为正常的邮箱账号,一部分为异常的邮箱账号。可以理解的是,正常的邮箱账号与异常的邮箱账号的比例可以是1:1,也可以是3:7,还可以其他比例,本申请实施例对此不作具体限定。另外,每个邮箱账号对应的邮件数据的数量可以相等或近似相等。

步骤202:特征提取;对每个训练邮箱数据进行特征提取,获得训练邮箱数据对应的账号通信特征、通联关系特征和邮件内容特征。

步骤203:数据标注;数据的标注包括以下两个主要过程:(1)数据预过滤:对提取的邮件数据进行人工标注,去除内网环境中正常的邮件群发行为或正规的邮箱通联行为。通常企业内部有组帐号,针对日常办公的正常行为进行预过滤。(2)对过滤后的邮件数据进行初步分析,标注上其分类标签。若有已标注好或公开数据集则可跳过此过程。

步骤204:将标注好的训练邮件数据输入待训练模型中;训练邮件数据可以采用随机森林算法构建,图3为本申请实施例提供的一种随机森林架构示意图,如图3所示。随机森林是以决策树为基学习器构建的一种集成算法,可用于分类和回归。随机森林由多棵决策树构成,且森林中的每一棵决策树之间没有关联,模型的最终输出由森林中的每一棵决策树共同决定。处理分类问题时,对于测试样本,森林中每棵决策树会给出最终类别,最后综合考虑森林内每一棵决策树的输出类别,以投票方式来决定测试样本的类别。

本申请实施例选取随机森林分类算法训练分类模型,输入步骤202提取的多维度特征,并经过适当的特征预处理,如标准化,归一化等过程,构建随机森林机器学习模型进行训练,得到检测模型。

应当说明的是,图3所示的随机森林架构只是一种示例,在实际应用中,可以根据实际情况确定随机森林的架构,例如每个决策树中每一层的节点数,本申请实施例对此不作具体限定。

图4为本申请实施例提供的邮箱账号异常检测装置结构示意图,该装置可以是电子设备上的模块、程序段或代码。应理解,该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。所述装置包括:数据获取模块401、特征提取模块402和检测模块403,其中:

数据获取模块401用于获取第一邮箱账号在预设时间段内的多个邮件数据;特征提取模块402用于对每一所述邮件数据进行特征提取,获得每一所述邮件数据对应的邮件特征;其中,所述邮件特征包括账号通信特征、通联关系特征和邮件内容特征;所述账号通信特征用于表征所述第一邮箱账号在所述预设时间段内与第二邮箱账号通信的数量属性;所述通联关系特征用于表征所述第一邮箱账号与有过通联行为的相关邮箱账号的关系属性;所述邮件内容特征用于表征所述第一邮箱账号在预设时间段内发送的邮件的内容属性;检测模块403用于将所述账号通信特征、所述通联关系特征和所述邮件内容特征输入预先构建的检测模型中,获得所述检测模型输出的所述第一邮箱账号是否异常的检测结果。

在上述实施例的基础上,特征提取模块402具体用于:

统计所述邮件数据中,所述第一邮箱账号作为发送方与第二邮箱账号通信的第一账号数量,以及所述第一邮箱账号作为收件方第二邮箱账号通信的第二账号数量;

根据所述第一账号数量和所述第二账号数量确定所述账号通信特征。

在上述实施例的基础上,特征提取模块402具体用于:

获取与所述第一邮箱账号通信的所有第二邮箱账号;

获取所述第二邮箱账号在所述预设时间段内通信的除所述第一邮箱账号以外的第三邮箱账号;

根据所述第二邮箱账号和所述第三邮箱账号确定所述通联关系特征。

在上述实施例的基础上,特征提取模块402具体用于:

获取所述第二邮箱账号对应的第三账号数量;

构建所述第一邮箱账号、所述第二邮箱账号和所述第三邮箱账号的连接关系;

根据所述连接关系统计所述第一邮箱账号到所述第三邮箱账号之间的边数;

根据所述第三账号数量和所述边数确定所述通联关系特征。

在上述实施例的基础上,特征提取模块402具体用于:

统计所述邮件数据中的主题数量以及主题长度信息;

根据所述主题长度信息计算获得对应的主题均值和主题标准差;

统计包含邮件正文的第一邮件数量及正文长度信息,并根据所述正文长度信息计算获得对应的正文均值和正文标准差;

统计包含附件的第二邮件数据及附件长度信息;

根据所述主题数量、所述主题均值、所述主题标准差、所述第一邮件数量、所述正文均值、所述正文标准差、所述第二邮件数据和所述附件长度信息确定所述邮件内容特征。

在上述实施例的基础上,所述邮件数据包括邮件正文,该装置还包括正文特征提取模块,用于:

抽取所述邮件正文中的关键词;

根据所述关键词获得邮件数据之间的相似性特征;

相应的,

检测模块403具体用于:

将所述账号通信特征、所述通联关系特征、所述邮件内容特征和相似性特征输入预先构建的检测模型中,获得所述检测模型输出的所述第一邮箱账号是否异常的检测结果。

在上述实施例的基础上,该装置还包括模型训练模块,用于:

获取训练样本集,所述训练样本集包括多个训练邮件数据和每一所述训练邮件数据对应的标识;其中,所述标识用于表征所述训练邮件数据对应的邮箱账号是否为异常邮箱;

将所述多个训练邮件数据输入待训练检测模型中,获得所述待训练检测模型输出的预测结果;其中,所述待训练检测模型为通过随机森林算法构建;

根据所述预测结果和所述标识对所述待训练检测模型中的参数进行优化,以获得训练好的所述检测模型。

图5为本申请实施例提供的电子设备实体结构示意图,如图5所示,所述电子设备,包括:处理器(processor)501、存储器(memory)502和总线503;其中,

所述处理器501和存储器502通过所述总线503完成相互间的通信;

所述处理器501用于调用所述存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取第一邮箱账号在预设时间段内的多个邮件数据;对每一所述邮件数据进行特征提取,获得每一所述邮件数据对应的邮件特征;将所述账号通信特征、所述通联关系特征和所述邮件内容特征输入预先构建的检测模型中,获得所述检测模型输出的所述第一邮箱账号是否异常的检测结果。

处理器501可以是一种集成电路芯片,具有信号处理能力。上述处理器501可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器502可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)等。

本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取第一邮箱账号在预设时间段内的多个邮件数据;对每一所述邮件数据进行特征提取,获得每一所述邮件数据对应的邮件特征;将所述账号通信特征、所述通联关系特征和所述邮件内容特征输入预先构建的检测模型中,获得所述检测模型输出的所述第一邮箱账号是否异常的检测结果。

本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取第一邮箱账号在预设时间段内的多个邮件数据;对每一所述邮件数据进行特征提取,获得每一所述邮件数据对应的邮件特征;将所述账号通信特征、所述通联关系特征和所述邮件内容特征输入预先构建的检测模型中,获得所述检测模型输出的所述第一邮箱账号是否异常的检测结果。

在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:主题模型训练和主题预测方法、装置、设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!