多任务深度强化学习的深空探测器软着陆路径规划方法
技术领域
本发明涉及一种深空探测器软着陆路径规划方法,具体涉及一种多任务深度强化学习的深空探测器软着陆路径规划方法,属于人工智能与深空探测
技术领域
。背景技术
小行星探测是一项学科综合、高技术集成的系统工程,体现了一个国家的综合实力和竞争力。小行星探测不仅有利于人类进一步了解太阳系的起源和演化,而且可以推动航天新理论和技术的发展和验证,推动科技创新并进一步提高国家的综合国力。
传统的深空探测器,主要依靠人类先验知识来制定飞行策略,进而实施探测器着陆。但是,探测器在着陆过程中,由于缺乏路径自主规划功能,且由于小行星的特殊性和未知性,导致探测器在着陆过程中会出现失控、翻转或倾覆等问题。
解决深空探测器着陆问题,是实现深空探测的关键任务之一。由于深空环境复杂,且小行星存在弱引力等特性,如何减少探测器对地面人工先验知识的依赖,通过自主规划路径进行探测器软着陆,是实现探测器自主采样的关键。此外,由于深空中存在很多的障碍物,探测器在软着陆过程中,通过实施路径规划,能够避免与深空中的障碍物以及其他星体发生碰撞,从而提高着陆的成功率。
目前,现有的探测器着陆路径规划方法包括基于D3QN PER算法的行星车路径规划方法、基于光学的自主导航方法、采用固定时序控制着陆、采用确定附着策略进行着陆等。但是,这些方法或者仅适用于静态环境,或者缺乏自主规划能力,难以应对复杂的深空环境,尤其是在面对未知参数的小行星时,很容易导致探测器着陆失败。
发明内容
本发明的目的是为了解决深空探测器着陆过程中,因飞行距离远、与地面通信延时较长,多依赖人工经验缺乏自主规划能力,以及小行星自身的未知性和特殊性等原因,导致深空探测器着陆失败率高的技术问题,创造性地提出一种多任务深度强化学习的深空探测器软着陆路径规划方法。
本发明的创新点在于:基于DDPG(深度确定性策略强化学习算法,DeepDeterministic Policy Gradient),采用多任务学习和融合时间上下文的自注意力机制,实现深空探测器的稳定着陆,为后续实现小行星探测、自主取样和航天员登录活动奠定基础。
本发明采用以下技术方案实现。
一种多任务深度强化学习的深空探测器软着陆路径规划方法,包括以下步骤:
首先,在DDPG模型基础上,采用多任务学习构造多智能体强化学习模型。DDPG算法包含actor和critic网络两个部分,actor包含online策略网络和target策略网络,critic包含online Q网络和target Q网络,online网络和target网络都是由两个MLP构成。在DDPG的基础上,采用基于硬参数共享的多任务学习方式改进MLP。采用融合时间上下文信息的自注意力机制改进MLP,使每个智能体在学习时能够更加关注使自己获得最大收益的信息进行学习。
online策略网络和随机噪声生成一个随机过程,actor网络根据随机过程为每个智能体选择一个行为并与环境作用,返回奖励以及新的状态actor将每个智能体的存入经验池中,作为训练online网络的数据集。
然后,每个智能体从对应的经验池中随机采样N个数据,作为online策略网络、online Q网络的一个mini-batch训练数据。
之后,采用均方误差计算online Q网络的梯度,之后更新online Q网络。采用Monte-carlo方法计算策略网络的梯度,之后更新online策略网络。
最后,采用软更新方式更新target策略网络的参数,完成路径规划。
有益效果
与现有技术相比,本发明方法具有以下优点:
1.通过采用多任务学习方式,充分利用智能体之间的对抗与协作关系,进一步提升每个智能体应对不确定情况的能力,提高模型整体的泛化性能。
2.通过采用融合时间上下文信息的自注意力机制,不仅可以避免智能体陷入局部最优状态,而且也可以使智能体更加聚焦到有利于自身获得最大回报的信息进行学习,进一步提高探测器着陆的成功率。
附图说明
图1为本发明的模型结构示意图。
图2为智能体基于硬参数共享的多任务学习结构图。
图3为本方法采用的深度强化学习DDPG模型结构图。
图4为本方法与其他方法对比的实验结果图。
具体实施方式
下面结合附图对本发明方法做进一步详细说明。
如图1所示。一种多任务深度强化学习的深空探测器软着陆路径规划方法,包括以下步骤。
步骤1:将深空探测器的节点、深空环境中的障碍物均定义为智能体。
步骤2:在DDPG模型基础上,采用多任务学习构造多智能体强化学习模型。如图2所示。具体如下:
DDPG模型由对策略进行模拟的actor网络和对Q函数进行模拟的critic网络组成。其中,actor网络包含online策略网络和target策略网络,critic网络包含online Q函数和target Q网络。如图3所示。
online策略网络和target策略网络均由两个MLP(多层感知机,Multi-layerPerceptron,MLP)组成。其中,智能体之间采用硬参数共享的多任务学习方法,在MLP的前5层进行参数共享。通过多任务学习,实现智能体之间的协作。当某个智能体在学习时,其它智能体作为监督信号来提升当前智能体的学习能力。
步骤3:当MLP进行特征提取时,采用融合时间上下文信息的自注意力机制对其进行改进,如式1、式2、式3所示:
Λi=softmax(f(Fi-1(oi,ai))) (1)
Fi=Λi*Fi (2)
Fi=Fi+Fi-1 (3)
其中,oi表示第i个智能体的观测值,ai表示第i个智能体的行为,f表示激活函数ReLu,Fi-1表示第i-1层的特征,Λi表示标准化输出,Fi表示第i层的特征。
通过使用自注意力机制,使智能体在进行多任务学习时,能够更加关注有利于使自己获得最大回报的信息进行学习。同时,采用时间上下文信息,避免了智能体陷入局部最优状态中。
步骤4:actor网络根据当前online策略μ和随机噪声Noise,生成一个随机过程,根据该随机过程为每个智能体选择一个为t时刻第i个智能体的动作。然后,智能体在当前状态和环境中执行返回奖励和新的状态其中,reward函数设置如式4所示:
其中,dt表示t时刻智能体距离小行星的距离,dt-1表示t-1时刻智能体距离小行星的距离;dbody表示智能体距离探测器主体的距离,dagent_i表示第i个智能体距离探测器主体的距离;ωagent_t表示t时刻智能体的加速度,ωagent_t-1表示t-1时刻智能体的加速度;vagent_t表示t时刻智能体的速度,vagent_t-1表示t-1时刻智能体的速度。
步骤5:actor网络将每个智能体的存入经验池D中,作为训练online策略网络的数据集,D=(x,x’,a1,...,aN,r1,...,rN)包含所有智能体的观测值、行为和奖励。
其中,x表示智能体的观测值,x’表示智能体更新的观测值,aN表示第N个智能体的动作,rN表示第N个智能体的奖励。
步骤6:每个智能体从对应的经验池D中,随机采样N个数据,作为online策略网络、online Q策略网络的1个mini-batch训练数据。
步骤7:利用式5定义的均方误差,计算online Q网络的梯度。
其中,θi表示第i个智能体的策略函数μθi的参数,表示第i个智能体在策略μ、智能体观测值x和行为ɑ下的Q函数值,(a1,...,aN)表示第1个到第N个智能体的动作,y表示真实值,Ex,a,r,x’表示智能体在观测值x、行为a、奖励r和新观测值x’下的期望值,L(θi)表示关于θi的损失函数,ri表示第i个智能体获得的奖励,γ表示折扣因子,表示第i个智能体在新策略μ’下的Q函数值,(a’1,...,a’N)表示第1个到第N个智能体的新动作。
步骤8:更新online Q策略网络。采用Adam优化器更新θQ,θQ表示online Q策略网络的参数。
步骤9:由于智能体之间存在交互,每个智能体的策略会受其他智能体的影响,将策略近似为其中φ表示近似策略的参数,简写为则智能体的近似策略如式7、式8所示:
其中,表示第j个智能体在第i次迭代时的近似策略参数,表示关于的损失函数;表示第j个智能体在观测值oj条件下执行aj时的近似策略函数;表示近似策略的熵;λ表示折扣稀疏;表示关于观测值oj和动作aj的期望值;表示近似真实值;ri表示reward值;表示更新策略后的Q函数值;x’表示更新的观测值,表示智能体的近似策略函数,其中(o1,…,oi,…,oN)表示智能体的观测值。
步骤10:每个智能体期望获得的最大reward如式9所示,利用式10计算策略网络的梯度:
其中,ui表示第i个智能体的策略函数,Ri(s,a)表示在状态s下执行动作ɑ获得的奖励,表示第k个子策略服从均匀分布unif(1,K)、状态s的分布为pμ、并且在下执行动作ɑ时的期望值;表示进行梯度计算;表示子策略的经验池;Je(μi)表示状态s根据分布pμ时Ri(s,a)的期望值;K表示所有子策略的个数;表示第k个子策略在观测值x和动作ɑ取样于时的期望值;表示在观测值为oi条件下动作为ai时第i个智能体在第k个子策略时的策略函数,其中oi表示第i个智能体的观测值,ai表示第i个智能体的行为;表示观测值为x、动作为(a1,…,aN)时执行策略μi时的Q函数值;表示观测值为oi时第i个智能体的第k个子策略的策略函数。
步骤11:更新online策略网络。采用Adam优化器更新θμ,θμ表示策略函数μ的参数。
步骤12:采用式11的软更新方式,更新target策略网络的参数。
软更新:其中,τ表示调节系数,θQ表示Q函数的参数,θQ’表示更新后的Q函数的参数,θμ表示策略函数μ的参数,θμ’表示更新后策略函数μ’的参数。
在实验测试中,AMDRL模型的超参数设置如表1所示:
表1 AMTDRL模型超参数
探测器的参数设置如表2所示:
表2探测器参数
本发明以MADDPG模型作为基线进行对比,实验结果如图4所示。算法迭代30000个episode,每隔100次进行取样。从图4可以看出,在迭代前10000次时AMTDRL与MADDPG获得的平均reward趋于一致,但是对着迭代次数的增加,AMTDRL的平均reward值一直高于MADDPG,说明在该方法下探测器可以更好的躲避障碍,获得更优的着陆路径。