一种电商网络异常用户检测方法及系统
技术领域
本发明涉及电商平台的网络安全领域,特别涉及一种电商网络异常用户检测方法及系统。
背景技术
随着互联网的不断普及和发展,许多不良商家通过操纵大量用户在各大电商网络平台上进行虚假评论、恶意刷单等欺诈活动,诱导顾客购买有缺陷的产品,严重损害了消费者们的利益。为了消除这些异常用户所带来的负面影响,本发明提出了一种电商网络异常用户检测方法及系统,可以较准确的检测到异常用户。
发明内容
针对上述问题本发明提供了一种电商网络异常用户检测方法及系统,能够对电商平台网络中的异常用户进行有效可靠的检测。
为了达到上述目的,本发明采用了下列技术方案:
本发明通过分析电商网络中异常用户的产生机制,重点关注用户在不同设备上的登录活动,并据此提出了异常用户的两大行为特性:设备聚集性和活动聚集性。根据这两大特性,本发明提供一种电商网络异常用户检测方法,该方法包含三个主要环节,步骤S10为电商网络数据预处理环节,步骤S20-S40为电商网络异常用户检测模型构建及优化环节,步骤S50为电商网络异常用户检测结果输出及处理环节。
一种电商网络异常用户检测方法,具体步骤如下:
S10、对采集到的电商网络数据进行预处理,降低噪声数据对检测结果的影响;
S20、对步骤S10预处理后获得的电商网络数据进行空间结构信息的抽取,构建异质信息网络并转化为用户-设备二分图;
S30、基于步骤S20获得的用户-设备二分图,利用自编码器和支持向量数据描述构建电商网络异常用户检测模型;
S40、对于步骤S30构建的电商网络异常用户检测模型,通过迭代计算方式对模型进行训练,确定模型的最优参数;
S50、利用步骤S30构建的电商网络异常检测模型,以及步骤S40确定的模型最优参数,将异常用户检测结果进行输出,并对异常用户进行处理。
进一步,所述步骤S10中对采集到的电商网络数据进行预处理具体包含以下步骤:
S11、清理采集到的电商网络数据中具有缺失值的样本,通过随机采样原数据集进行补齐;
S12、对样本进行矫正,降低由于采样的随机性对检测结果可能造成的影响。
进一步,所述步骤S20具体包含以下步骤:
S21、将步骤S10预处理后的电商网络数据抽象为异质信息网络,并转化为用户-设备二分图G=(X,Y,E),X={x1,x2,...,xM}表示M个用户构成的集合,其中xm表示第m个用户,m∈[1,M],Y={y1,y2,...,yN}表示N个设备的集合,其中yn表示第n个设备,n∈[1,N],E={emn}m=1,2,...,M,n=1,2,...,N表示用户在不同设备上登录行为的集合,emn表示用户xm登录设备yn的行为,如果用户xm在设备yn上进行登录,则emn=1,否则,emn=0;
S22、构建用户-设备二分图结构,并表示为S=[s1,s2,...,sM]T,其中sm=[em1,em2,...,emN],m∈[1,M]。
进一步,所述步骤S30中构建的电商网络异常检测模型包含编码器、解码器、检测器三个部分。
所述步骤S30具体包含以下步骤:
S31、编码器用于将用户-设备二分图结构S编码为超球隐空间中的用户低维表示集合Z,编码过程的形式化表示如式(1)所示:
Z=Relu(WS+b) (1)
其中,Z=[z1,z2,...,zm,...,zM]T为二分图结构S在超球隐空间中的用户低维表示集合,zm为sm在超球隐空间中对应的用户低维表示,W与b分别为编码权重和偏置,编码器部分使用Relu激活函数,Relu激活函数如式(2)定义:
S32、解码器用于将用户低维表示集合Z重构为二分图结构解码过程的形式化表示如式(3)所示:
其中,重构二分图结构W与b分别为解码权重和偏置,与编码权重和偏置相同,解码器部分同样使用Relu激活函数;
S33、检测器采用支持向量数据描述对超球隐空间中的用户低维表示集合Z进行检测,超球隐空间的核心c由式(4)计算:
每个用户低维表示与核心c之间的欧式距离由式(5)计算:
其中,dm为用户低维表示zm与核心c之间的欧式距离,将全部用户低维表示与核心之间的距离形成的集合记作D={d1,d2,...,dM};
S34、通过3σ准则对集合D的正态分布情况进行讨论,寻找合适的超球半径r,若x~N(μ,σ2),则有:
P{|x-μ|<σ}=0.6826 (6)
P{|x-μ|<2σ}=0.9545 (7)
P{|x-μ|<3σ}=0.9973 (8)
其中,x为正态变量,σ为标准差,μ为均值,由式(8)可知,正态变量x的取值在区间(μ-3σ,μ+3σ)之外的概率小于0.003,一般认为这一事件的概率是非常低的;
S35、根据3σ准则,检测器计算集合D中的σ和μ,将(μ-3σ,μ+3σ)区间以外的dm剔除,并在余下的集合中选择最大值作为半径r,这样保证了绝大多数用户能够表示在超球隐空间内,最后,将每个用户低维表示与核心间的欧式距离与半径r进行对比,若某用户低维表示与核心间的欧氏距离大于半径r,则该用户为异常用户,反之,则为正常用户。
进一步,所述步骤S40具体包含以下步骤:
S41、本方法根据异常用户的两大行为特性:设备聚集性和活动聚集性,计算在原始空间中用户之间的行为相似度。
根据设备聚集性可知,异常用户在很大程度上会共享设备,在二分图中表现为异常用户有着许多共同连接的设备,使得它们之间的相似度较高,而正常用户的行为是独立的,总体上相似度较低,用户之间的设备相似度使用式(9)计算:
其中,i,j∈[1,M,sim_dij为用户xi和xj之间的设备相似度,Ni表示用户xi登录过的设备的集合,Nj表示用户xj登录过的设备的集合;
根据活动聚集性可知,异常用户群体会在一天中的某个时间段内爆发集体性活动,本方法将一天等分为24个时间段,统计每个用户在各个时间段内登录设备的次数Tp,p∈[0,23],并将每个用户的登录行为描述为ti=[T0,T1,...,T23],用户之间的活动相似度由式(10)计算:
其中,sim_tij为用户xi和xj之间的活动相似度,ti表示用户xi的登录行为,tj表示用户xj的登录行为;
根据式(9)、式(10),用户在原始空间中的行为相似度由式(11)计算:
simij=sim_dij×sim_tij (11)
其中,simij为用户xi和xj之间的行为相似度;
S42、用户低维表示之间的行为差异可以通过式(12)来计算:
其中,disij为用户低维表示zi和zj之间的欧式距离。
进一步的,用户低维表示之间的行为相似度由式(13)来计算:
其中,为用户低维表示zi和zj之间的行为相似度;
S43、为S30建立的电商网络异常用户检测模型建立式(14)所示的联合目标函数:
L=Lrec+α(Lsim+Lsvdd) (14)
其中α为超参数,取值范围在(0,1)内,Lrec为重构误差,用于度量原始输入S和重构输出之间的差异,由式(15)计算:
Lsim为行为相似度差异,用于度量两个用户间的行为相似度在编码前后的差异性,由式(16)计算:
Lsvdd为超球约束,作为区分正常用户和异常用户间的分类边界,由式(17)计算:
S44、对步骤S30中的电商网络异常用户检测模型进行初始化,初始化自编码器参数W和b,并给定超球隐空间维度dim、迭代次数epoch、批大小batch size和学习率learningrate;
迭代执行步骤S45-S49,直到达到设定的迭代次数,完成对电商网络异常用户检测模型的训练,获得模型的最优参数:
S45、将S22获取的用户-设备二分图结构S作为输入,按式(1)编码器编码获取用户低维表示集合Z;
S46、按式(3)解码器对用户低维表示集合Z进行解码得到完成正向传播;
S47、按式(11)计算用户之间的行为相似度,按式(13)计算用户低维表示之间的行为相似度;
S48、采用随机梯度下降法,通过优化式(14)中的联合目标函数L,完成反向传播,实现对自编码器中权重W和偏置b的更新;
S49、按步骤S33-S35,检测器对用户低维表示集合Z进行异常检测。
进一步,所述步骤S50具体包含以下步骤:
S51、通过迭代执行步骤S45-S49的训练过程获得电商网络异常用户检测模型的最优参数后,将使用最优参数获取的异常检测结果作为最终的检测结果;
S52、将异常用户检测结果输出至电商平台的用户安全管理相关人员,用于提升其异常用户检测的效率和可靠性,并针对异常用户的危害程度及风险影响进行进一步针对性处理。
本发明还提供一种电商网络异常用户检测系统,包括计算机处理器和内存、电商网络数据预处理单元、电商网络异常用户检测模型训练单元,电商网络异常用户检测结果输出单元。所述电商网络数据预处理单元执行步骤S10,对采集到的电商网络数据进行预处理,并加载到计算机内存中;所述电商网络异常用户检测模型训练单元根据电商网络数据预处理单元产生的电商网络数据执行步骤S20-S40,构建电商网络异常用户检测模型,通过迭代计算确定模型中参数的最优值;所述电商网络异常用户检测结果输出单元执行步骤S50,将电商网络异常用户检测结果输出至相关工作人员或科研人员,用于各电商平台的异常用户检测、网络安全检测等相关任务。
与现有技术相比本发明具有以下优点:
1、本发明检测方法通过构建异质信息网络并转化为用户-设备二分图,不仅可以在此基础上保留用户的行为特征,还有效表达了用户和设备两类实体之间的空间结构关系,有助于获得鲁棒性和可解释性更强的异常用户检测结果。
2、本发明检测方法利用自编码器和支持向量数据描述建立电商网络异常用户检测模型,使模型具有一定的自监督学习能力,能够自动为异常检测工作提供监督信息,有效的提升了模型的检测性能。
附图说明
图1为本发明所述步骤S30中的电商网络异常用户检测模型结构图;
图2为本发明所述电商网络异常用户检测系统的系统结构图;
图3为本发明所述电商网络异常用户检测方法的流程图。
具体实施方式
为了进一步阐述本发明的技术方案,下面结合附图及实施例对本发明进行进一步说明。
本发明所述的电商网络异常用户检测方法通过计算机程序实施,下面将按照图3所示流程详述本发明提出的技术方案的具体实施方式。通过本发明的技术方案,对亚马逊电商平台中某天执行日志的随机采样样本进行异常用户检测。该执行日志中包括用户ID、设备ID、登录时间等内容,其中用户个数M为236,设备个数N为275,样本数量共5000条。
实施方式主要包含以下关键内容:
S10、对采集到的电商网络数据进行预处理,降低噪声数据对检测结果的影响,具体包含以下步骤:
S11、清理采集到的电商网络数据中具有缺失值的样本,通过随机采样原数据集进行补齐;
S12、对样本进行矫正,降低由于采样的随机性对检测结果可能造成的影响。
S20、对步骤S10获得的电商网络数据进行空间结构信息的抽取,构建异质信息网络并转化为用户-设备二分图,具体包含以下步骤:
S21、将步骤S10预处理后的电商网络数据抽象为异质信息网络,并转化为用户-设备二分图G=(X,Y,E),X={x1,x2,...,xM}表示M个用户构成的集合,其中xm表示第m个用户,m∈[1,M],Y={y1,y2,...,yN}表示N个设备的集合,其中yn表示第n个设备,n∈[1,N],E={emn}m=1,2,...,M,n=1,2,...,N表示用户在不同设备上登录行为的集合,emn表示用户xm登录设备yn的行为,如果用户xm在设备yn上进行登录,则emn=1,否则,emn=0;
S22、构建用户-设备二分图结构,并表示为S=[s1,s2,...,sM]T,其中sm=[em1,em2,...,emN],m∈[1,M]。
S30、基于步骤S20获得的用户-设备二分图,利用自编码器和支持向量数据描述构建电商网络异常用户检测模型。所述电商网络异常检测模型包含编码器、解码器、检测器三个部分,其整体结构如附图1所示,具体包含以下步骤:
S31、编码器用于将用户-设备二分图结构S编码为超球隐空间中的用户低维表示集合Z,编码过程的形式化表示如式(1)所示:
Z=Relu(WS+b) (1)
其中,Z=[z1,z2,...,zM]T为二分图结构S在超球隐空间中的用户低维表示集合,zm为sm在超球隐空间中对应的用户低维表示,W与b分别为编码权重和偏置,编码器部分使用Relu激活函数,Relu激活函数如式(2)定义:
S32、解码器用于将用户低维表示集合Z重构为二分图结构解码过程的形式化表示如式(3)所示:
其中,重构二分图结构W与b分别为解码权重和偏置,与编码权重和偏置相同,解码器部分同样使用Relu激活函数;
S33、检测器采用支持向量数据描述对超球隐空间中的用户低维表示集合Z进行检测,超球隐空间的核心c由式(4)计算:
每个用户低维表示与核心c之间的欧式距离由式(5)计算:
其中,dm为用户低维表示zm与核心c之间的欧式距离,将全部用户低维表示与核心之间的距离形成的集合记作D={d1,d2,...,dM};
S34、通过3σ准则对集合D的正态分布情况进行讨论,寻找合适的超球半径r,若x~N(μ,σ2),则有:
P{|x-μ|<σ}=0.6826 (6)
P{|x-μ|<2σ}=0.9545 (7)
P{|x-μ|<3σ}=0.9973 (8)
其中,x为正态变量,σ为标准差,μ为均值,由式(8)可知,正态变量x的取值在区间(μ-3σ,μ+3σ)之外的概率小于0.003,一般认为这一事件的概率是非常低的;
S35、根据3σ准则,检测器计算集合D中的σ和μ,将(μ-3σ,μ+3σ)区间以外的dm剔除,并在余下的集合中选择最大值作为半径r,这样保证了绝大多数用户能够表示在超球隐空间内,最后,将每个用户低维表示与核心间的欧式距离与半径r进行对比,若某用户低维表示与核心间的欧氏距离大于半径r,则该用户为异常用户,反之,则为正常用户。
S40、对于步骤S30构建的电商网络异常用户检测模型,通过迭代计算方式对模型进行训练,确定模型的最优参数,具体包含以下步骤:
S41、根据异常用户的两大行为特性:设备聚集性和活动聚集性,计算在原始空间中用户之间的行为相似度。
根据设备聚集性可知,异常用户在很大程度上会共享设备,在二分图中表现为异常用户有着许多共同连接的设备,使得它们之间的相似度较高,而正常用户的行为是独立的,总体上相似度较低,用户之间的设备相似度使用式(9)计算:
其中,i,j∈[1,M,sim_dij为用户xi和xj之间的设备相似度,Ni表示用户xi登录过的设备的集合,Nj表示用户xj登录过的设备的集合;
根据活动聚集性可知,异常用户群体会在一天中的某个时间段内爆发集体性活动,本方法将一天等分为24个时间段,统计每个用户在各个时间段内登录设备的次数Tp,p∈[0,23],并将每个用户的登录行为描述为ti=[T0,T1,...,T23],用户之间的活动相似度由式(10)计算:
其中,sim_tij为用户xi和xj之间的活动相似度,ti表示用户xi的登录行为,tj表示用户xj的登录行为;
根据式(9)、式(10),用户在原始空间中的行为相似度由式(11)计算:
simij=sim_dij×sim_tij (11)
其中,simij为用户xi和xj之间的行为相似度;
S42、用户低维表示之间的行为差异可以通过式(12)来计算:
其中,disij为用户低维表示zi和zj之间的欧式距离。
进一步的,用户低维表示之间的行为相似度由式(13)来计算:
其中,为用户低维表示zi和zj之间的行为相似度;
S43、为S30建立的电商网络异常用户检测模型建立式(14)所示的联合目标函数:
L=Lrec+α(Lsim+Lsvdd) (14)
其中α为超参数,取值范围在(0,1)内,Lrec为重构误差,用于度量原始输入S和重构输出之间的差异,由式(15)计算:
Lsim为行为相似度差异,用于度量两个用户间的行为相似度在编码前后的差异性,由式(16)计算:
Lsvdd为超球约束,作为区分正常用户和异常用户间的分类边界,由式(17)计算:
S44、对步骤S30中的电商网络异常用户检测模型进行初始化,初始化自编码器参数W和b,并给定超球-隐空间维度dim、迭代次数epoch、批大小batch size和学习率learning rate;
迭代执行步骤S45-S49,直到达到设定的迭代次数,完成对电商网络异常用户检测模型的训练,获得模型的最优参数:
S45、将S22获取的用户-设备二分图结构S作为输入,按式(1)编码器编码获取用户低维表示集合Z;
S46、按式(3)解码器对用户低维表示集合Z进行解码得到完成正向传播;
S47、按式(11)计算用户之间的行为相似度,按式(13)计算用户低维表示之间的行为相似度;
S48、采用随机梯度下降法,通过优化式(14)中的联合目标函数L,完成反向传播,实现对自编码器中权重W和偏置b的更新;
S49、按步骤S33-S35,检测器对用户低维表示集合Z进行异常检测。
S50、利用步骤S30构建的电商网络异常检测模型,以及步骤S40确定的模型最优参数,将异常用户检测结果进行输出,并对异常用户进行处理,具体包含以下步骤:
S51、通过迭代执行步骤S45-S49的训练过程获得电商网络异常用户检测模型的最优参数后,将使用最优参数获取的异常检测结果作为最终的检测结果;
S52、将异常用户检测结果输出至电商平台的用户安全管理相关人员,提升其异常用户检测的效率和可靠性,并针对异常用户的危害程度及风险影响进行进一步针对性处理。
技术效果评价:
为验证本发明提出技术方案的有效性和先进性,将本发明与几种经典的异常检测方法进行比较,对比方法包括K最近邻方法(KNN)、孤立森林方法(IF)、一类支持向量机方法(OCSVM)、局部异常因子方法(LOF),以及主成分分析方法(PCA),以20次实验的平均识别F1-measure和AUC为评价指标,将上述匹配结果进行对比分析,比较结果如表1所示:
由表中结果可以看出,相较几种经典的异常检测方法,本发明技术方案在对电商网络异常用户进行检测时,能获得更优的结果。
如图2所示,一种电商网络异常用户检测系统,包括计算机处理器和内存、电商网络数据预处理单元、电商网络异常用户检测模型训练单元,电商网络异常用户检测结果输出单元。所述电商网络数据预处理单元执行步骤S10,对采集到的电商网络数据进行预处理,并加载到计算机内存中;电商网络异常用户检测模型训练单元根据电商网络数据预处理单元产生的电商网络数据执行步骤S20-S40,构建电商网络异常用户检测模型,并通过迭代计算确定模型中参数的最优值。电商网络异常用户检测结果输出单元执行步骤S50,将电商网络异常用户检测结果输出至相关工作人员或科研人员,用于各电商平台的异常用户检测,网络安全检测等相关任务。
应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干变型和改进,这些也应视为属于本发明的保护范围。