基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法
技术领域
本发明属于传感云
技术领域
,更具体地,涉及一种基于流量权重控制 的传感边缘云内部DDoS攻击主动防御方法。背景技术
传感边缘云网络中计算任务高密度卸载连接使得传感设备的计算任务 能高可靠、低时延地卸载到边缘节点,有效地提高了边缘网络的吞吐量和 分布式处理能力。然而,传感边缘云网络内部的恶意节点能利用交互频次 较强的高密度卸载连接发起DDoS攻击,使得传感设备计算任务卸载失败。
为了提供跨领域的服务,传感边缘云技术实现了多种传感设备的统一 连接。虽然传感边缘云的服务领域在不断增长,但是他所面临的安全问题 日益严峻。由于传感设备有限的计算能力,在传感设备上难以部署复杂的 保护机制,因此,传感边缘云网络一般采纳一些保护级别较低的轻量级安 全协议,这使得传感设备易受到攻击,他被恶意的攻击者控制后成为一个 内部DDoS攻击者,在没有任何征兆的情况下,在计算任务卸载到边缘节点过程中,内部DDoS攻击者通过高密度的任务卸载连接向边缘节点发起DDoS 攻击,阻碍合法的传感设备卸载计算任务到边缘节点。由于内部DDoS攻击 者是寄生于传感边缘云网络中的一个隐形攻击者,难以被入侵检测系统及 时发现。同时,内部DDoS攻击者同时通过多个连接向边缘节点发起流量攻 击,这使得在多个边缘节点上同时防御造成困难。在传统的网络环境下, 针对DDoS攻击防御的问题已有广泛的研究。然而,由于内部DDoS攻击流 量的不确定性和动态性使得这些方法不能直接应用于传感边缘云环境下传 感设备计算任务高密度卸载连接中内部DDoS攻击的主动防御。Y.Jia等提出 了以边缘为中心的DDoS攻击防御机制,该机制主要用于对DDoS攻击的检 测、识别和分类,并不是一个强有力的DDoS攻击缓解和抑制机制 ("FlowGuard:An Intelligent Edge Defense Mechanism Against IoT DDoSAttacks,"in IEEE Internet of Things Journal)。Z.Li等针对low-rateDDoS攻击, 提出动态容器数量调节技术并分配资源来最大化受DDoS攻击时云环境的 服务质量,未针对传感边缘云环境下计算任务高密度卸载连接中的DDoS攻 击开发相应的解决方案(ExploringNew Opportunities to Defeat Low-Rate DDoS Attack in Container-Based CloudEnvironment,"in IEEE Transactions on Parallel and Distributed Systems,vol.31,no.3,pp.695-706,1 March 2020)。Y. Huang等针对复杂网络连接上病毒的传播问题,提出微分博弈模型来开发网 络连接权重自适应机制来抵抗病毒的传播,该机制的计算复杂性较高("A Differential Game Approach to Decentralized Virus-Resistant WeightAdaptation Policy Over Complex Networks,"in IEEE Transactions on Control ofNetwork Systems,vol.7,no.2,pp.944-955,June2020)。K.A.Simpson通过直接控制主 机流量来缓解DDoS攻击,每个防御者在源到目标节点的路径上采用各自的 策略来减少负载流量,未考虑多个防御者协同控制策略("Per-Host DDoS Mitigation by Direct-ControlReinforcement Learning,"in IEEE Transactions on Network and ServiceManagement,vol.17,no.1,pp.103-117,March2020)。 这些研究方案还存在如下不足:
(1)已提出的方法对内部DDoS攻击流量的不确定状态考虑有限,未 考虑多任务同时向不同的边缘节点卸载时,内部DDoS攻击流对多个边缘节 点的影响。使得防御者面对不确定的内部DDoS攻击流时,实现流量权重控 制策略较为困难。
(2)虽然已有的解决方案已提出基于强化学习的流量控制方法,但未 考虑在不影响正常的计算任务卸载量的情况下,通过流量权重控制对计算 任务高密度卸载连接中的内部DDoS攻击流进行控制。
(3)传统的DDoS防御方法针对云计算环境或无线传感器网络环境, 着重在DDoS攻击检测,而未考虑传感边缘云环境下,使用流量权重控制来 主动防御内部DDoS攻击。特别是,内部DDoS攻击者同时对多个进行分布 式任务处理的边缘节点发起攻击时,还未提出相应的以边缘节点为中心的 主动防御方法。
发明内容
为解决以上方法的不足,本发明提出了一种传感边缘云环境下,传感 设备计算任务高密度卸载连接中,内部DDoS攻击者同时对进行分布式处理 的边缘节点发起攻击时,考虑内部DDoS攻击流的不确定性和动态性,实现 边缘节点对传感设备侧内部DDoS攻击的低复杂性的主动协作防御。为实现 上述目的,按照本发明的一个方面,提供了一种基于流量权重控制的传感 边缘云内部DDoS攻击主动防御方法,包括以下步骤:
(1)在防御周期内t,对于每一个待决策的协作防御边缘节点i、其他 防御协作者集合{-i}、采用动态随机博弈模型,获取纳什均衡状态下成本函 数最小时的协作防御边缘节点的流量权重 并根据当前的协作防御边缘节点的流量 权重,计算最优控制策略所述控制策略,即在攻击持续时间[0,T]内的 所有防御协作者流量权重的集合{wi(t),w-i(t)};
所述成本函数考虑了边缘节点受内部DDoS攻击时,流量状态和任务 卸载量阈值;
(2)根据步骤(1)获得的最优控制策略重新配置协作防御边 缘节点端的流量权重,达到协作防御边缘节点的流量权重 实现纳什均衡状态。
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其所述动态随机博弈Gs,记作:
其中,为包括协作防御边缘节点i、其他防御协作者-i、可 能为DDoS攻击者的所有传感设备节点的博弈参与者,表示所有博弈参与 者的个数;
w(t)为流量权重空间w(t)={{wo(t)},{wi(t),w-i(t)}},其中{wo(t)}∈Wo, wi(t),w-i(t)∈Wi;wo(t)防御协作者与攻击者o连接上的通信频次即流量权重, 为内部DDoS攻击者o采取的流量权重,为攻击者o允许的最 大流量权重;wi(t)为协作防御边缘节点i与传感设备节点连接上通信频次即 流量权重,w-i(t)为其他防御协作者-i与传感设备节点连接上通信频次即流 量权重,为协作防御边缘节点采取的流量权重,防御者允许 的最大流量权重;
S(t)为状态空间,S(t)={θo(t),θi(t)},o∈N,i∈M,其中N表示内部DDoS攻 击者的个数,M表示协作防御边缘节点的个数;θo(t)为内部DDoS攻击者 的流量状态,θi(t)为防御协作者i观测到的流量状态;qo(t) 表示内部DDoS攻击者的攻击速率,wo(t)为与攻击者o连接上的通信频次, 即流量权重;其中,qo(t)wo(t)为来自内部DDoS 攻击者o的流量,为来自其他传感设备的流量之和,qj(t)为来 自其他传感设备j的传输速率,wj(t)为与其他传感设备j连接上的通信频次, 即流量权重。
J(t)为成本函数,采用二次递增函数作为成本函数J(t)如下:
其中,qth为任务卸载量阈值,如果传感设备计算任务卸载量超过阈值, 表明传感设备被劫持且变为一个内部DDoS攻击者,干扰合法传感设备正常 的计算任务卸载过程;θi(t)为防御协作者i观测到的流量状态,σ2(t)为内部 DDoS攻击速率的方差。
为最优控制策略,即在攻击持续时间[0,T]内,最小化平均成本函数 时的所有防御协作者流量权重的集合;即:
其中,ηT为在时间T时的成本。
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其对于动态随机博弈Gs,其在时间T和状态S(T)的值函数u(t,S(t))定 义如下:
在纳什均衡状态下,最优控制策略为:
其中,和分别为值函数满足纳什均衡条件时防御协 作者i和其他防御协作者-i的流量权重配置行动值;所述博弈模型Gs的纳什 均衡条件为:
其中,为协作防御边缘节点i采取的最优流量权重,为其他的协 作防御边缘节点-i采取的最优流量权重,u(T)为T时刻值函数的值。
此时:
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其采用平均场博弈近似求解动态随机博弈模型,获取平均场博弈纳 什均衡状态下任务卸载量的收益R(t)最大即成本函数J(t)最小时的控制策略 作为最优控制策略。
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其所述平均场博弈模型(u(t,sm(t)),v(t,s)),其中u(t,sm(t))为协作防御边 缘节点i的值函数,v(t,s)为所有协作防御边缘节点的流量权重的概率分布, 表示为:
其中,h表示传感边缘云任务高密度卸载连接中的网络节点数量; sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态,si(t)为协作防 御边缘节点i观察到的流量状态,s-i(t)为其他防御协作者-i观察到的流量状 态;I是指示函数,当所有协作防御边缘节点观察到的流量状态sm(t)等于流 量状态s时,则I的值为1,否则为0,流量状态s是一个可设定参数;
所述平均场博弈纳什均衡状态为,协作防御边缘节点的流量权重满足以下条件:
此时所有协作防御边缘节点的流量权重的概率分布达到最优v*(t,s),且 使得成本函数最小。
对于平均场博弈(u(t,sm(t)),v(t,s)),其值函数u(t,sm(t))为:
其中,R(t)为奖励函数,按照如下方法计算:
其中,ω是惩罚因子,当防御者的协作行动不被允许时,在攻击持续 时间内的流量总和的损失;Δhi(t)=hi(t)-hi(t-1),Δwi(t)=wi(t)-wi(t-1);ξt表示 具有M个边缘节点的系统中,每个边缘节点在流量权重配置策略下流量分 配的公平因子,按照如下方法计算:
其中xi=hi(t)/qi(t),hi(t)为协作防御边缘节点的接收率,qi(t)=qo(t)表示 内部DDoS攻击率。
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其采用协作防御边缘节点的最小化成本函数HJB方程的解作为达到 最优流量权重w*(t)时的值函数u(t,sm(t))、采用FPK方程计算达到最优流量权 重w*(t)时的最优流量权重的概率分布v*(t,s)。
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其所述协作防御边缘节点的最小化成本函数HJB方程为:
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其所述用于计算达到最优流量权重w*(t)时的最优流量权重的概率分 布v*(t,s)的FPK方程为:
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其采用无模型强化学习更新值函数,求解HJB方程获得最优权重; 优选采用强化学习Q函数进更新值函数,求解HJB方程,具体如下:
所述强化学习样本为:De1=(sm(t),w-i(t),Ri(t),sm(t+1)),其中sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态,w-i(t)为其他 防御协作者-i与传感设备节点连接上通信频次即流量权重,Ri(t)为协作防御 边缘节点i奖励函数的值即获得的奖励,sm(t+1)为下一决策周期所有协作防 御边缘节点观察到的流量状态。
所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值更 新函数为:
其中,α表示学习率,为奖励函数,
其中,为协作防御边缘节点的平均流量权重Mi表示 除防御者i之外的其他协作防御者的集合大小,表示防御协作边缘节点i 的流量权重控制策略的概率分布;表示除防御协作边缘节点i之外的其 他防御协作边缘节点的流量权重控制策略概率分布,有:
由前一时刻的平均动作值计算;
其中,β为表示探索率温度超参数;
损失函数为:
其中,是目标平均场 Q值,由目标网络估计其值,所述目标网络由目标网络参数来调节,γ为 折扣因子,是sm(t)状态的平均场Q函数值,使用评估网 络获得其值,所述评估网络由评估网络参数调节;
所述强化学习Q函数的训练的梯度为:
所述强化学习Q函数的收敛条件为:达到平均场博弈反馈纳什均衡条 件;
获得强化学习Q函数收敛时协作防御边缘节点的流量权重作为最优协 作防御边缘节点的流量权重
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其采用其他协作者的平均行动值近似其他防御协作者-i与传感设 备节点连接上通信频次即流量权重w-i(t),具体如下:
所述强化学习样本为:其中 sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态, wvec=[w1(t),...,wM(t)]为所有协作防御边缘节点的流量权重向量, 其中为协作防御边缘节点的流量权重平均值, Rvec=[R1(t),...,RM(t)],Ri(t)为协作防御边缘节点i奖励函数 的值即获得的奖励,sm(t+1)为下一决策周期所有协作防御边缘节点观察到 的流量状态。
所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值的 目标网络参数更新为
其中,α表示学习率,为评估网络参数,为目标网络参数,初始和为预先设定;使用随机梯度下降法更新评估网络的参数由更新目标网 络参数
损失函数为:
其中,是目标平均场 Q值,由目标网络估计其值,所述目标网络由目标网络参数来调节,γ为 折扣因子;
所述强化学习Q函数的训练的梯度为:
所述强化学习Q函数的收敛条件为:达到平均场博弈反馈纳什均衡条 件,获得此时协作防御边缘节点的流量权重作为最优协作防御边缘节点的 流量权重
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够 取得下列有益效果:
(1)本发明考虑了由于内部DDoS攻击造成的计算任务高密度卸载连 接中流量的不确定性和动态性,并模型化为Ornstein-Uhlenbech动态方程, 使用DSG来捕获内部DDoS攻击者和边缘节点交互过程。
(2)为了减少计算复杂性,本发明把DSG转化为平均场博弈来解决多 博弈参与者的主动协作防御问题,并且为优化流量权重控制策略提供了HJB 和FPK方程。
(3)为了高效地求解HJB方程并获得主动协作防御边缘节点的流量权 重控制策略,本发明提出了基于平均场的协作防御边缘节点强化学习算法 来获得内部DDoS攻击流量权重控制方法。该方法集成了强化学习和MFG 方程,为减缓和抑制计算任务高密度卸载连接中的内部DDoS攻击流提供一 种新的解决方案。
附图说明
图1是本发明实施例提供的基于流量权重控制的传感边缘云内部DDoS 攻击主动防御方法示意图;
图2是本发明提供的每个防御者强化学习的工作流程;
图3是本发明提供的基于流量权重的传感边缘云内部DDoS攻击主动 防御方法应用效果示意图;其中图3(a)为主动防御前内部DDoS攻击者对 高密度卸载连接攻击场景,其中图3(b)为主动防御后消除内部DDos攻击 流。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施 例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例 仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明 各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互 组合。
本发明提供的基于流量权重控制的传感边缘云内部DDoS攻击主动防 御方法,包括以下步骤:
(1)在防御周期内t,对于每一个待决策的协作防御边缘节点i、其他 防御协作者集合{-i}、采用动态随机博弈模型,获取纳什均衡状态下成本函 数最小时的协作防御边缘节点的流量权重 并根据当前的协作防御边缘节点的流量 权重,计算最优控制策略所述控制策略,即在攻击持续时间[0,T]内的 所有防御协作者流量权重的集合{wi(t),w-i(t)};
所述动态随机博弈Gs,记作:
其中,为包括协作防御边缘节点i、其他防御协作者-i、可 能为DDoS攻击者的所有传感设备节点的博弈参与者;表示所有博弈参与 者的个数。
w(t)为流量权重空间w(t)={{wo(t)},{wi(t),w-i(t)}},其中{wo(t)}∈Wo, wi(t),w-i(t)∈Wi;wo(t)防御协作者与攻击者o连接上的通信频次即流量权重, 为内部DDoS攻击者o采取的流量权重,为攻击者o允许的最 大流量权重;wi(t)为协作防御边缘节点i与传感设备节点连接上通信频次即 流量权重,w-i(t)为其他防御协作者-i与传感设备节点连接上通信频次即流 量权重,为协作防御边缘节点采取的流量权重,防御者允许 的最大流量权重;
S(t)为状态空间,S(t)={θo(t),θi(t)},o∈N,i∈M,其中N表示内部DDoS攻 击者的个数,M表示协作防御边缘节点的个数,其中θo(t)为内部DDoS攻击 者的流量状态,θi(t)为防御协作者i观测到的流量状态; qo(t)表示内部DDoS攻击者的攻击速率,wo(t)为与攻击者o连接上的通信频 次,即流量权重;其中,qo(t)wo(t)为来自内 部DDoS攻击者o的流量,为来自其他传感设备的流量之和,qj(t)为来自其他传感设备j的传输速率,wj(t)为与其他传感设备j连接上的 通信频次,即流量权重。
J(t)为成本函数,考虑了边缘节点受内部DDoS攻击时,流量状态和任 务卸载量阈值,本发明采用二次递增函数作为成本函数J(t)如下:
其中,qth为任务卸载量阈值,如果传感设备计算任务卸载量超过阈值, 表明传感设备被劫持且变为一个内部DDoS攻击者,干扰合法传感设备正常 的计算任务卸载过程;θi(t)为防御协作者i观测到的流量状态,σ2(t)为内部 DDoS攻击速率的方差。
为最优控制策略,即在攻击持续时间[0,T]内,最小化平均成本函数 时的所有防御协作者流量权重的集合;即:
其中,ηT为在时间T时的成本。
对于动态随机博弈Gs,其在时间T和状态S(T)的值函数u(t,S(t))定义如 下:
在纳什均衡状态下,最优控制策略为:
其中,和分别为值函数满足纳什均衡条件时防御协作者i 和其他防御协作者-i的流量权重配置行动值;所述博弈模型Gs的纳什均衡 条件为:
其中,为协作防御边缘节点i采取的最优流量权重,为其他的协 作防御边缘节点-i采取的最优流量权重,u(T)为T时刻值函数的值。
此时:
优选,采用平均场博弈近似求解动态随机博弈模型,获取平均场博弈 纳什均衡状态下任务卸载量的收益R(t)最大即成本函数J(t)最小时的控制 策略作为最优控制策略。具体地:
所述平均场博弈模型(u(t,sm(t)),v(t,s)),其中u(t,sm(t))为协作防御边缘节点i的值函数,v(t,s)为所有协作防御边缘节点的流量权重的概率分布,表 示为:
其中,h表示传感边缘云任务高密度卸载连接中的网络节点数量; sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态,si(t)为协作防 御边缘节点i观察到的流量状态,s-i(t)为其他防御协作者-i观察到的流量状 态;I是指示函数,当所有协作防御边缘节点观察到的流量状态sm(t)等于流 量状态s时,则I的值为1,否则为0,流量状态s是一个可设定参数;
所述平均场博弈纳什均衡状态为,协作防御边缘节点的流量权重满足以下条件:
此时所有协作防御边缘节点的流量权重的概率分布达到最优v*(t,s),且 使得成本函数最小。
对于平均场博弈(u(t,sm(t)),v(t,s)),其值函数u(t,sm(t))为:
其中,R(t)为奖励函数,按照如下方法计算:
其中,ω是惩罚因子,当防御者的协作行动不被允许时,在攻击持续 时间内的流量总和的损失;Δhi(t)=hi(t)-hi(t-1),Δwi(t)=wi(t)-wi(t-1);ξt表示 具有M个边缘节点的系统中,每个边缘节点在流量权重配置策略下流量分 配的公平因子,按照如下方法计算:
其中xi=hi(t)/qi(t),hi(t)为协作防御边缘节点的接收率,qi(t)=qo(t)表示内部 DDoS攻击率。
根据最优控制理论和Bellman优化原理,采用协作防御边缘节点的最小 化成本函数HJB方程的解作为达到最优流量权重w*(t)时的值函数u(t,sm(t))、 采用FPK方程计算达到最优流量权重w*(t)时的最优流量权重的概率分布 v*(t,s);
所述协作防御边缘节点的最小化成本函数HJB方程为:
所述用于计算达到最优流量权重w*(t)时的最优流量权重的概率分布 v*(t,s)的FPK方程为:
优选地,采用无模型强化学习更新值函数,求解HJB方程获得最优权 重;优选采用强化学习Q函数进更新值函数,求解HJB方程,具体如下:
所述强化学习样本为:De1=(sm(t),w-i(t),Ri(t),sm(t+1)),其中 sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态,w-i(t)为其他 防御协作者-i与传感设备节点连接上通信频次即流量权重,Ri(t)为协作防御 边缘节点i奖励函数的值即获得的奖励,sm(t+1)为下一决策周期所有协作防 御边缘节点观察到的流量状态。
所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值更 新函数为:
其中,α表示学习率,为奖励函数,
其中,为协 作防御边缘节点的平均流量权重Mi表示除防御者i之外的 其他协作防御者的集合大小,表示防御协作边缘节点i的流量权重控制策 略的概率分布。表示除防御协作边缘节点i之外的其他防御协作边缘节 点的流量权重控制策略概率分布,有:
由前一时刻的平均动作值计算;
其中,β为表示探索率温度超参数,是一个可以设定的常量。
损失函数为:
其中,是目标平均场Q值,由目标网络估计其值,γ为折扣因子,yi由参数来调节, 是sm(t)状态的平均场Q函数值,使用评估网络获得其值, 网络调节参数为
所述强化学习Q函数的训练的梯度为:
所述强化学习Q函数的收敛条件为:达到平均场博弈反馈纳什均衡条 件。
获得强化学习Q函数收敛时协作防御边缘节点的流量权重作为最优协 作防御边缘节点的流量权重
优选采用其他协作者的平均流量权重近似其他防御协作者-i与传 感设备节点连接上通信频次即流量权重w-i(t),具体如下:
所述强化学习样本为:其中 sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态, wvec=[w1(t),...,wM(t)]为所有协作防御边缘节点的流量权重向量, 其中为协作防御边缘节点的流量权重平均值, Rvec=[R1(t),...,RM(t)],Ri(t)为协作防御边缘节点i奖励函数 的值即获得的奖励,sm(t+1)为下一决策周期所有协作防御边缘节点观察到 的流量状态。
所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值的 目标网络参数更新为
其中,α表示学习率,为评估网络参数,为目标网络参数,初始和为预先设定;使用随机梯度下降法更新评估网络的参数然后由更新目 标网络参数如图2所示。
损失函数为:
其中,是目标平均场Q值,由目标网络估计其值,所述目标网络由目标网络参数来调节, γ为折扣因子;
所述强化学习Q函数的训练的梯度为:
所述强化学习Q函数的收敛条件为:达到平均场博弈反馈纳什均衡条 件,获得此时协作防御边缘节点的流量权重作为最优协作防御边缘节点的 流量权重
具有M个防御者的平均场协作博弈的反馈纳什均衡是一个联合的流量 权重配置策略行动值且流量权重配置策 略满足以下条件:
(2)根据步骤(1)获得的最优控制策略重新配置协作防御边 缘节点端的流量权重,达到协作防御边缘节点的流量权重 实现纳什均衡状态。
本发明通过控制传感设备计算任务高密度卸载连接的流量权重来实现 内部DDoS攻击流的减缓或抑制,从而最大限度的提高传感设备计算任务的 平均卸载量。在传感边缘云网络中,为了获得防御者最优流量控制的主动 防御策略,本发明把内部恶意节点利用计算任务高密度卸载连接对多个边 缘节点发起的不确定DDoS攻击模型化为一个动态随机博弈(Dynamic stochastic game,DSG),为了解决多个防御者参与的动态随机博弈问题,随后,本发明把DSG转换为平均场博弈(Mean field game,MFG)。使用平均场方 法来构造Hamilton-Jacobi-Bellman(HJB)和Fokker-Planck-Kolmogorov(FPK)方 程来获得优化解。由于解HJB和FPK方程来获得多个防御者的流量权重控 制策略具有较高的复杂性和时间成本,本发明提出基于平均场强化学习的 主动流量权重控制算法,最大限度减少多个防御者的流量权重控制策略求 解的复杂性。
以下为实施例:
一种基于流量权重控制的内部DDoS攻击主动防御方法,包括以下步骤:
(1)在防御周期内t,对于每一个待决策的协作防御边缘节点i、其他 防御协作者集合{-i}、采用动态随机博弈模型,获取纳什均衡状态下成本函 数最小时的协作防御边缘节点的流量权重 并根据当前的协作防御边缘节点的流量 权重,计算控制策略所述控制策略,即在攻击持续时间[0,T]内的所有 防御协作者流量权重的集合{wi(t),w-i(t)};
所述动态随机博弈Gs,记作:
其中,为包括协作防御边缘节点i、其他防御协作者-i、可 能为DDoS攻击者的所有传感设备节点的博弈参与者;表示所有博弈参与 者的个数。
w(t)为流量权重空间w(t)={{wo(t)},{wi(t),w-i(t)}},其中{wo(t)}∈Wo, wi(t),w-i(t)∈Wi;wo(t)防御协作者与攻击者o连接上的通信频次即流量权重, 为内部DDoS攻击者o采取的流量权重,为攻击者o允许的 最大流量权重;wi(t)为协作防御边缘节点i与传感设备节点连接上通信频次 即流量权重,w-i(t)为其他防御协作者-i与传感设备节点连接上通信频次即 流量权重,为协作防御边缘节点采取的流量权重,wi max防御者允 许的最大流量权重;
S(t)为状态空间,S(t)={θo(t),θi(t)},o∈N,i∈M,其中N表示内部DDoS攻 击者的个数,M表示协作防御边缘节点的个数。θo(t)为内部DDoS攻击者 的流量状态,θi(t)为防御协作者i观测到的流量状态;qo(t) 表示内部DDoS攻击者的攻击速率,wo(t)为与攻击者o连接上的通信频次, 即流量权重;其中,qo(t)wo(t)为来自内部DDoS 攻击者o的流量,为来自其他传感设备的流量之和,qj(t)为来 自其他传感设备j的传输速率,wj(t)为与其他传感设备j连接上的通信频次, 即流量权重。
在传感设备计算任务卸载过程中,内部DDoS攻击严重降低了传感边缘 云网络中任务卸载量。受内部DDoS攻击时,计算任务卸载量与边缘节点的 接收率和流量权重有关。因此本发明提出了内部DDoS攻击感知模型来分析 计算任务卸载流量,以提高系统平均的计算任务卸载量。此外,博弈论提 供了一个理想的框架来处理多博弈参与之间的攻防交互问题。因此,在博 弈框架中内部DDoS攻击者和边缘节点作为博弈参与者,使用表 示在博弈框架中有个攻击者和防御者。
(1)内部DDoS攻击者o对M个协作防御边缘节点发起的攻击流量状 态方程为:
其中,o∈[1,N],qo(t)表示内部DDoS攻击者的攻击速率,wo(t)表示 每条连接上的通信频次,本发明称为权重。
(2)边缘节点作为防御者,相互协作控制流量权重防御内部DDoS攻 击,每个防御者i观测到的流量状态方程为:
其中,i∈[1,M],j∈[1,N-1]且j≠i,第一项表示来自内部DDoS攻击 者o的流量,第二项表示来自其他传感设备的流量。qj(t)表示来自其他传感 设备的速率,wj(t)表示来自其他传感设备通信连接的权重。
为了主动防御内部DDoS攻击者,协作防御者i能采取的行动为任务卸 载连接权重内部DDoS攻击者采取的行动为任务卸载连接权重 为其中,和分别表示防御者和内部DDoS攻击者允许 的任务卸载连接最大权重。传感边缘云计算任务卸载流量的可信状态由权 重控制策略的流量权重值决定,分别对应于wi(t),w-i(t)∈Wi,wo(t)∈Wo,其中 w-i(t)表示除防御者i以外的其他协作防御者采取的流量权重。进一步来说, 本发明考虑了传感边缘云网络中内部DDoS攻击者和边缘节点的任务卸载流量的动态性和不确定性。以此,采用Ornstein-Uhlenbeck动态方程来模型 化内部DDoS攻击流量状态的动态变化:
其中,μ,和σ分别表示内部DDoS攻击速率的均值和方差。此外,B(t) 表示标准的布朗运动函数,τ表示时间间隔的个数,εi表示标准正态分布中的一个随机值,Δt表示布朗运动变化的方差。B(t)用来 刻画内部DDoS攻击速率动态变化的不确定性。令所有的内部DDoS攻击速 率动态变化方程均使用相同的μ和σ值。在固定时间t,流量权重不变,为 常数,则内部DDoS攻击流量状态的动态变化方程为:
得到内部DDoS攻击流量状态的动态变化方程为:
类似地,协作防御边缘节点的流量动态变化方程为:
J(t)为成本函数,考虑了边缘节点受内部DDoS攻击时,流量状态和任 务卸载量阈值,本发明采用二次递增函数作为成本函数J(t)如下:
其中,qth为任务卸载量阈值,如果传感设备计算任务卸载量超过阈值, 表明传感设备被劫持且变为一个内部DDoS攻击者,干扰合法传感设备正常 的计算任务卸载过程;θi(t)为防御协作者i观测到的流量状态,σ2(t)为内部 DDoS攻击速率的方差。
在传感边缘云网络中,防御协作者的流量权重控制策略和内部DDoS 攻击行为的感知与计算任务的卸载量相关。内部DDoS攻击者o产生的计算 任务卸载量为:
对于协作防御者i(边缘节点)和其他的协作防御者-i,各自接收的计 算任务卸载量为:
本发明使用相同的任务卸载量阈值qth来衡量传感设备的计算任务卸载 行为。如果传感设备计算任务卸载量超过阈值,表明传感设备被劫持且变 为一个内部DDoS攻击者,干扰合法传感设备正常的计算任务卸载过程。 由于内部DDoS攻击者的流量权重无法控制,协作防御者只能控制边缘节 点端的流量权重,因此,本发明设计以边缘节点为中心的主动的流量权重 控制策略,仅考虑φi(t),φ-i(t)≥qth的情况。此时,满足条件:
定义函数
为了最小化内部DDoS攻击流量,本发明设计了成本函数,他集成了 边缘节点观测到的流量状态和内部DDoS攻击者的流量阈值。当传感设备 的计算任务卸载量超过阈值时,发生了内部DDoS攻击,防御者通过协作 调节流量权重来最小化成本函数。成本函数表示如下:
为方便分析内部DDoS攻击流量的动态性,使得J(t)>0,使用二次递 增函数作为成本函数,因此,成本函数能够通过控制流量权重减轻内部 DDoS攻击对任务卸载过程的破坏程度。
为最优控制策略,即在攻击持续时间[0,T]内,最小化平均成本函数 时的所有防御协作者行动值的集合;即:
其中,ηT为在时间T时的成本。每个防御者(边缘节点),在内部DDoS攻击 的持续时间[0,T]内,将决定他的最优策略使得成本函数值最小
以上动态随机博弈模型刻画了内部DDoS攻击者的攻击行动空间以及 防御者的行动空间,有助于设计多边缘节点协作的分布式主动防御算法。 此外,本博弈模型考虑了内部DDoS攻击流量状态的动态随机性,并且在 成本函数中加入了这些攻击特征对最优策略求解的影响。本发明用值函数 刻画这些影响。
对于动态随机博弈Gs,其在时间T和状态S(T)的值函数u(t,S(t))定义如 下:
其中,u(T,S(T))是在时间T和状态S(T)的值函数。根据Bellman优化原 理,最终的优化策略依赖于前一个优化策略的结果。因此,可以得出,对 于攻击持续时间t∈[0,T]内,如果最终的优化策略的值函数 则w*(t→T)是最优的任务卸载流量权重。
在纳什均衡状态下,最优控制策略为:
其中,和分别为值函数满足纳什均衡条件时防御协 作者i和其他防御协作者-i的流量权重配置行动值;所述博弈模型Gs的纳什 均衡条件为:
其中,为协作防御边缘节点i采取的最优流量权重,为其他的协 作防御边缘节点-i采取的最优流量权重,u(T)为T时刻值函数的值。
此时:
最优流量权重和使得正常的任务卸载流量和抑制的DDoS攻 击流量达均衡状态,此时成本函数最小。然而,由于传感边缘云任务高密 度卸载连接中的网络节点数量h是巨大的,获得纳什均衡解非常困难。因此, 本发明把动态随机博弈(DSG)转换为平均场博弈(MFG)来求解。这使得每 个协作防御边缘节点在面对高密度连接的内部DDoS攻击时,能够更据自 己观察到的流量状态来优化权重配置策略。
优选,采用平均场博弈近似求解动态随机博弈模型,获取平均场博弈 纳什均衡状态下任务卸载量的收益R(t)最大即成本函数J(t)最小时的控制 策略作为最优控制策略。
平均场博弈是一种特殊的微分博弈,每个博弈参与者与其他大量的博 弈参与者交互。本发明主要解决多边缘节点间的协作防御问题,因此,本 发明中的平均场博弈是一个平均场协作博弈模型,该模型可表示为一个二 元组(u(t,sm(t)),v(t,s)),其中u(t,sm(t))为协作防御边缘节点i的值函数,v(t,s)为 所有协作防御边缘节点的流量权重的概率分布,表示为:
其中,h表示传感边缘云任务高密度卸载连接中的网络节点数量; sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态,si(t)为协作防 御边缘节点i观察到的流量状态,s-i(t)为其他防御协作者-i观察到的流量状 态;I是指示函数,当所有协作防御边缘节点观察到的流量状态sm(t)等于流 量状态s时,则I的值为1,否则为0,流量状态s是一个可设定参数;
在受内部DDoS攻击时,给定所有协作防御边缘节点观察到的流量状态 sm(t)=[si(t),s-i(t)],协作防御边缘节点的平均场即所有协作防御边缘节点的流 量权重的概率分布。对于给定的时刻t,平均场表示受内部DDoS攻击时, 计算任务卸载流量状态在协作防御边缘节点集合上的概率分布。协作防御 边缘节点在执行分布式的流量权重配置策略行动过程中更新其值函数。
在协作防御过程中,协作防御边缘节点i的流量权重配置策略行动将影 响到其他的协作防御边缘节点的流量权重配置策略行动,协作防御边缘节 点i的流量状态变化表示为:
dsi(t)=wo(t)dqo(t)+σ2(t)dB(t)
其他协作防御边缘节点-i的流量状态变化表示为:
ds-i(t)=w-i(t)ω-i(t)dt+σ2(t)dB(t)
其中,B(t)为标准的布朗运动函数,τ表示时间间隔的个数,εi表示标准正态分布中的一 个随机值,Δt表示布朗运动变化的方差。
对于平均场博弈(u(t,sm(t)),v(t,si)),其值函数u(t,sm(t))为:
其中,R(t)为奖励函数,按照如下方法计算:
其中,ω是惩罚因子,当防御者的协作行动不被允许时,在攻击持续 时间内的流量总和的损失;Δhi(t)=hi(t)-hi(t-1),Δwi(t)=wi(t)-wi(t-1);ξt表示 具有M个边缘节点的系统中,每个边缘节点在流量权重配置策略下流量分 配的公平因子,按照如下方法计算:
其中xi=hi(t)qi(t),hi(t)为协作防御边缘节点的接收率,qi(t)=qo(t)表示内部DDoS攻击率。
平均场协作博弈是一个动态的优化过程。在内部DDoS攻击的持续时间 t∈[0,T]内,每个协作防御边缘节点优化的流量权重来最大化其任务卸 载量的收益Ri(t),平均场协作博弈解是一个协作反馈的纳什均衡,其中的 反馈是指奖励。故:
所述平均场博弈纳什均衡状态为,协作防御边缘节点的流量权重满足以下条件:
此时所有协作防御边缘节点的流量权重的概率分布达到最优v*(t,s),且 使得成本函数最小。在纳什均衡点时协作防御节点抑制了DDoS攻击流, 同时通过最大化其收益确保了正常的任务卸载流量和抑制的DDoS攻击流 的均衡。
平均场博弈达到反馈纳什均衡时,防御者获得最优策略行动值边缘节点的流量状态最优分布达到最优v*(t,s),并且满足
对于理性的协作防御节点来说,采用均衡流量权重控制策略行动值 w*(t)后,不会再在采用其他的策略,此时,对应的边缘节点的流量状态的 概率分布为v*(t,s)。
本发明使用随机偏微分方程来获得平均场协作博弈反馈纳什均衡策略 解,协作防御节点能够观察到任意时刻t的流量状态sm(t),并且在内部DDoS 攻击的持续时间t∈[0,T]内,观测所有流量状态,寻找最优的流量权重w*(t)来 减缓或抑制内部DDoS攻击流量。
根据最优控制理论和Bellman优化原理,采用协作防御边缘节点的最小 化成本函数HJB方程的解作为达到最优流量权重w*(t)时的值函数u(t,sm(t))、 采用FPK方程计算达到最优流量权重w*(t)时的最优流量权重的概率分布 v*(t,s);
所述协作防御边缘节点的最小化成本函数HJB方程为:
如果从上式中解出一个最优解,说明值函数u(t,sm(t))能够通过HJB方程 得到,此时值函数中的流量状态对应于协作防御边缘节点的最优流量权重w*(t)。
所述用于计算达到最优流量权重w*(t)时的最优流量权重的概率分布 v*(t,s)的FPK方程为:
求解式HJB方程和FPK方程的关键点是获得概率分布v0(t,s),并且根据 Bellman原理更新值函数u(t,sm(t)),来获得协作防御边缘节点的最优流量权 重控制策略行动值w*(t)。整个求解过程需要大量的计算。
在给定初始状态概率分布v0(t,s)的情况下,通过更新值函数u(t,sm(t))来 求解最优流量权重控制策略行动值w*(t)。在受内部DDoS攻击时,由于协作 防御边缘节点最后的流量状态被定义为在攻击持续时间内的流量总和R(t)。
优选地,采用无模型强化学习更新值函数,求解HJB方程获得最优权 重;优选采用强化学习Q函数进更新值函数,求解HJB方程,具体如下:
所述强化学习样本为:De1=(sm(t),w-i(t),Ri(t),sm(t+1)),其中 sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态,w-i(t)为其他 防御协作者-i与传感设备节点连接上通信频次即流量状态,Ri(t)为协作防御 边缘节点i奖励函数的值即获得的奖励,sm(t+1)为下一决策周期所有协作防 御边缘节点观察到的流量状态。
所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值跟 新函数为:
其中,α表示学习率,为奖励函数,
其中,为协作防御边缘节点的平均流量权重Mi表示 除防御者i之外的其他协作防御者的集合大小,表示防御协作边缘节点i 的流量权重控制策略的概率分布。表示除防御协作边缘节点i之外的其 他防御协作边缘节点的流量权重控制策略概率分布,有:
可由前一时刻的平均动作值计算;
其中,β为表示探索率温度超参数,是一个可以设定的常量。
损失函数为:
其中,是目标平均场Q值,由目标网络估计其值,所述目标网络由网络调节参数来调节, γ为折扣因子,是sm(t)状态的平均场Q函数值,使用评估 网络获得其值,所述网络调节参数为
所述强化学习Q函数的训练的梯度为:
所述强化学习Q函数的收敛条件为:达到平均场博弈反馈纳什均衡条 件。
获得强化学习Q函数收敛时协作防御边缘节点的流量权重作为最优协 作防御边缘节点的流量权重
根据平均场博弈值函数,HJB方程中的值函数能够通过强化学习方法 来近似,并且同时获得最优的流量权重。在本发明中,考虑了M个协作防 御边缘节点协作采取防御行动,他们需要估计联合防御策略的行动值。这 使得标准的Q-learning算法不再适用,为了解决这个问题,本发明把传统的 强化学习扩展为平均场多博弈参与者强化学习,使用强化学习中的Q函数 来近似HJB方程中的值函数。使用协作防御边缘节点的流量状态和流量权重值参数化Q函数为:
其中,M(i)表示除协作防御边缘节点i之外的其他协作防御边缘节点的 集合,集合大小为Mi=|M(i)|。根据协作防御边缘节点集合M(i)来计算流量 权重控制策略的平均行动值使用协作防御边缘节点的流量状态和流 量权重值参数化Q函数可近似为:
由于使用平均场近似方法,简化了平均场协作博弈的Q函数,协作防 御边缘节点之间的平均场协作博弈的Q函数简化为
可以得出,实现平均场多博弈参与者强化学习问题转化为求解协作防 御者i的最优策略问题,且与相互协作的防御者的平均行动值有关, 且
其中是前一时刻的平均动作值,其他防御者协作的流量权重w-i(t) 由策略决定,他受前一时刻的平均流量权重影响。随后,策略根 据平均流量权重更新,策略和平均行动的关系式为:
其中,β表示探索率温度超参数,是一个可设定的常量。
优选采用其他协作者的平均行动值近似其他防御协作者-i与传感 设备节点连接上通信频次即流量权重w-i(t),具体如下:
所述强化学习样本为:其中 sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态, wvec=[w1(t),...,wM(t)]为所有协作防御边缘节点的流量权重向量, 其中为协作防御边缘节点的流量权重平均值, Rvec=[R1(t),...,RM(t)],Ri(t)为协作防御边缘节点i奖励函数 的值即获得的奖励,sm(t+1)为下一决策周期所有协作防御边缘节点观察到 的流量状态。
所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值的 目标网络参数更新为
其中,α表示学习率,为评估网络参数,为目标网络参数,初始和为预先设定,使用随机梯度下降法更新评估网络的参数然后由更新目 标网络参数如图2所示。
损失函数为:
其中,是目标平均场 Q值,由目标网络估计其值,γ为折扣因子,yi由参数来调节,是sm(t)状态的平均场Q函数值,使用评估网络获得其值, 评估网络由评估网络参数调节;
所述强化学习Q函数的训练的梯度为:
所述强化学习Q函数的收敛条件为:达到平均场博弈反馈纳什均衡条 件,获得此时协作防御边缘节点的流量权重作为最优协作防御边缘节点的 流量权重
具有M个防御者的平均场协作博弈的反馈纳什均衡是一个联合的流量 权重配置策略行动值且流量权重配置策 略满足以下条件:
具体地,可表示为以下程序,如图3所示:
步骤1:初始评估网络参数和目标网络参数其他协作防御者的平均行动值并且标记 状态为未达到纳什均衡状态即Flag=1
步骤2:Whileflag=1do
步骤3:Fori=1toNdo
①对于每个防御者i,采样流量权重wi(t),使用当前的平均流量权重计算如 下:
②对于每个防御者i,计算新的平均行动值如下:
③对于每个防御者采取联合的流量权重控制强化学习行动值wvec=[w1(t),...,wM(t)]并且观察其奖励 Rvec=[R1(t),...,RM(t)]以及下一个流量状态sm(t+1)。
④在经验池D中存储其中
Endfor
步骤4:Fori=1 to M do
①从经验池中采样κ个经验
②从经验池采样前一时刻及
③设定
④通过最小化损失函数更新评估网络中的参数
⑤对于每个防御者使用学习率α更新目标网络参数:
Endfor
步骤5:当达到反馈纳什均衡条件时,训练结束,flag=0,否则, 继续执行步骤4。
End while
步骤6:输出每个防御者在状态sm(t)对应的最优行动值
(2)根据步骤(1)获得的最优控制策略重新配置协作防御边 缘节点端的流量权重,达到协作防御边缘节点的流量权重 实现纳什均衡状态。
采用本发明防御前后的边缘传感系统,分别如图3(a)和图3(b)所 示。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等 同替换和改进等,均应包含在本发明的保护范围之内。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:一种面向位置隐私保护的任务卸载方法