首页 > 航天航空 专利正文
一种无人机空基回收装置及方法与流程

时间:2022-02-18 阅读: 作者:专利查询

一种无人机空基回收装置及方法与流程

1.本发明涉及一种无人机回收装置,尤其涉及一种无人机空基回收装置及方法。


背景技术:

2.未来战争中,在没有可靠陆基或海基着陆点时,空基回收将是小型、大作战半径无人机最简易后勤和最低成本的解决方案,还具有对无人机性能影响最小和再次快速发射等优势,因此空基快速回收平台将是未来集群无人机发展的重要方向。随着无人机向小型化、集群化方向发展,集群作战运用第一时间内释放数十架甚至上百架无人机,在空中快速发射、组网、信息共享和智能协同。在没有可靠的陆基或海基着陆点时,空基回收将是集群无人机作战最简易的后勤支撑方案,不仅可以提高集群获取信息的质量,还可以重复使用,降低作战成本。无人机需要通过一个高度集成的空中平台,将集群无人机整体装载、运输、发射至指定空域,在空中为无人机提供发射、回收平台,为集群无人机之间、无人机与平台之间提供信息交互、存储的载体,实现重复利用。同时由于无人机上不需要安装着陆回收的装置,无人机便可以腾出更多的空间增加有效载荷,提高续航能力。同时,提高集群无人机空基回收效率,是集群战术走向战场的关键。需要结合空中平台的结构方案,设计快速回收机构,满足大数量集群无人机的快速回收需求,实现高度集成化、小型化,并与电气、控制一体化设计,在有限的空间内尽可能多地装载、回收大量无人机,提高回收效率和可靠性,从而大幅提高无人集群作战的能力。先进有人/无人协作的关键要素是系统的自主性,不同作战方式对集群无人机空中平台的自主能力要求存在一定差异。通常,无人机数量越多所需自主性越强。从协同效果和智能化方面讲,集群无人机空中平台自主化、智能化的提升将提升整体作战能力。一方面为集群无人机之间提供信息交互、自我修复和后勤支配;另一方面提供高可靠自主对接、高效率自主回收的高度自主化能力。通过智能化手段大幅提高空基回收的自动化程度,实现半自主到完全脱离人工的全自动回收,将大幅提高回收效率和成功率,降低运维成本,提升作战能力。
3.现有无人机回收技术存在以下问题:1)撞钩滑轨法:如专利cn107697303a和cn110155337a等,其结构废重大,且为半自动操作;2)拦截网回收:如专利cn107792381a和cn109229403a等,对回收速度要求高、依赖人工操作回收无人机,回收姿态不确定;3)天钩回收:如专利cn109358645a,挂钩回收操作繁琐,大部分依赖于人工操作,难以实现自动化,不利于集群模式;4)伞降回收:如专利cn109850164a,受风阻及外界环境叠加因素影响,回收效率较低;5)空中加油式软管捕获回收:如美国“小精灵”项目回收方式,对准配合难度大、稳定性差、效率较低,自动化程度低,不利于集群作战。并且,空中无人机回收属于超密集编队飞行类任务,位置为一前一后或者一前多后。在前方飞行的载机会产生尾流,激烈变化的外界环境严重影响回收安全性,为了保证无人机能安全回收,需要回收碰撞过程发生在载机的扰流区之外,或采用低大气紊流敏感度的回收装置。


技术实现要素:

4.本发明所要解决的技术问题在于克服现有技术所存在的回收效率低、对接难度大、自主程度低等问题,提供一种无人机空基回收装置,可高效、安全地实现集群无人机的空基回收。
5.本发明具体采用以下技术方案解决上述技术问题:
6.一种无人机空基回收装置,包括:
7.回收平台,其安装于回收载机的机舱内并可伸出和收入机舱;所述回收平台包括固定连接的顶板和底板,所述顶板和底板上对称地分别设置有缓冲推杆阵列,所述缓冲推杆阵列由一组前端带有缓冲部件并可受控伸缩的缓冲推杆所组成,所述回收平台中设置有用于对各缓冲推杆的压力进行监测的压力传感器阵列以及用于对待回收无人机的轮廓及位姿信息进行检测的红外视觉系统;
8.机械臂,其安装于回收载机的机舱内;所述机械臂的前端连接有可伸入所述缓冲推杆阵列中进行抓取的机械爪;
9.控制模块,用于对所述缓冲推杆阵列及机械臂进行控制。
10.优选地,所述机械爪为多指式夹持机械爪,具有至少两个并排平行设置的夹持部件,各夹持部件之间的间距与所述缓冲推杆阵列中缓冲推杆之间的间距相适配从而使得机械爪的各夹持部件可同时伸入所述缓冲推杆阵列中,所述夹持部件由上下对称设置并可受控夹合的两根抓取指构成。
11.优选地,所述顶板和底板之间通过一组可受控伸缩的连接件固定连接。
12.优选地,所述缓冲推杆包括支撑架以及穿设于所述支撑架上部且前端带有缓冲橡胶头的多级作动筒,所述多级作动筒与支撑架之间设置有缓冲弹簧,所述支撑架的底板上所述多级作动筒的投影区域设置有压力传感器。
13.优选地,控制模块在控制缓冲推杆阵列进行待回收无人机的捕获时,对缓冲推杆阵列中各缓冲推杆的做动力、作动位移进行实时预测,以做动力和作动位移的预测结果作为目标量对缓冲推杆阵列进行闭环控制,并在缓冲推杆阵列中各缓冲推杆的实测压力与预设标准压力满足预设的匹配程度时控制缓冲推杆阵列停止动作。
14.进一步优选地,控制模块使用预先离线训练好的神经网络进行所述实时预测;所述神经网络的输入为回收载机、待回收无人机、回收平台的状态参数u1=[h
1 v
1x v
1y v
1z φ
1 θ
1 ψ
1 p
1 q
1 r1]
t
、u2=[h
2 v
2x v
2y v
2z φ
2 θ
2 ψ
2 p
2 q
2 r2]
t
、u3=[x
r y
r z
r φ
r θ
r ψ
r
]
t
,所述神经网络的输出y
t
=[f
t l
t
]
t
,其中,h1为回收载机的飞行高度,v
1x
、v
1y
、v
1z
分别为回收载机在x、y、z方向的速度,φ1、θ1、ψ1分别为回收载机在x、y、z方向对应的欧拉角,p1、q1、r1分别为回收载机在x、y、z方向对应的角速度;h2为无人机的飞行高度,v
2x
、v
2y
、v
2z
分别为无人机在x、y、z方向的速度,φ2、θ2、ψ2分别为无人机在x、y、z方向对应的欧拉角,p2、q2、r2分别为无人机在x、y、z方向对应的角速度;x
r
、y
r
、z
r
和φ
r
、θ
r
、ψ
r
分别为无人机相对于所述回收平台在x、y、z方向的位移和欧拉角,为缓冲推杆阵列的所有n个缓冲推杆的目标做动力,为缓冲推杆阵列的所有n个缓冲推杆的目标做动位移。
[0015]
进一步优选地,所述预设的匹配程度为匹配度大于等于80%。
[0016]
进一步优选地,所述神经网络为深度强化学习神经网络。
[0017]
更进一步优选地,所述深度强化学习神经网络的终止训练条件isdone及奖励函数reward具体如下:
[0018][0019]
其中,h1、h2分别为回收载机与无人机的飞行高度,v
1z
、v
2z
分别为回收载机与无人机在z方向的速度,v
2x
、v
2y
分别为无人机在x、y方向的速度,x1~x3为预设阈值;
[0020][0021]
其中,α、β、γ、μ、κ为常系数,x
r
、y
r
、z
r
分别为无人机相对于回收平台在x、y、z方向的位移,v
1x
、v
1y
、v
1z
分别为回收载机在x、y、z方向的速度,v
2x
、v
2y
、v
2z
分别为无人机在x、y、z方向的速度,t为回收过程总时间。
[0022]
一种无人机空基回收方法,基于如上任一技术方案所述无人机空基回收装置实现;所述回收方法包括以下步骤:
[0023]
步骤1、将所述回收平台伸出至回收载机的机舱下方,并令待回收无人机自主进入所述回收平台的顶板和底板之间的空间;
[0024]
步骤2、根据回收载机、待回收无人机的状态参数以及所述压力传感器阵列和红外视觉系统的检测结果,控制缓冲推杆阵列进行待回收无人机的捕获;
[0025]
步骤3、控制所述机械臂前端的机械爪伸入缓冲推杆阵列中夹住待回收无人机,然后控制缓冲推杆阵列缩回,最后控制所述机械臂将待回收无人机从回收平台中抓取出来。
[0026]
相比现有技术,本发明技术方案具有以下有益效果:
[0027]
本发明提出了一种独特的自适应回收方案,有效解决了集群无人机空中回收效率低、对接难度大、受空中对接大气紊流环境影响大的问题,且对所回收无人机的形状、布局、大小等无任何要求,适用于各种不同类型和尺寸的无人机,可实现空中大批量集群无人机的快速回收,降低了无人机使用成本;
[0028]
本发明进一步在回收控制过程中采用强化学习预测、神经网络修正、压力图匹配的方法,能够在复杂飞行任务剖面内具有较强的学习能力和适应性,有效提高了控制响应速度以及回收成功率,降低了对无人机的损坏,消耗的计算资源较少。
附图说明
[0029]
图1为本发明无人机空基回收方法的基本原理示意图;
[0030]
图2为具体实施例中回收平台的顶板底板连接伸缩杆未伸长的结构状态示意图;
[0031]
图3为具体实施例中回收装置在未捕获无人机时的结构状态示意图;
[0032]
图4为具体实施例中末端横向对接辅助装置示意图;
[0033]
图5为具体实施例中回收装置在捕获无人机时的结构状态示意图;
[0034]
图6为具体实施例中缓冲推杆的结构及原理示意图;
[0035]
图7为具体实施例中回收机械臂抓取无人机示例图;
[0036]
图8为具体实施例中机械臂的结构示意图;
[0037]
图9为具体实施例中控制模块的控制框图。
[0038]
图中包含以下附图标记:
[0039]
1、回收载机,10、载机舱门,100、载机舱门(关闭状态),2、集群无人机,3、回收平台,30、顶板底板连接伸缩杆,31、载机连接伸缩杆,310、载机连接伸缩杆(伸长状态),32、连接缓冲装置,33、固定吊顶,34、缓冲推杆,340、缓冲橡胶头,341、多级作动筒,3410、作动筒最外层,342、弹簧与多级作动筒固定平板,343、缓冲弹簧,3430、缓冲弹簧(压缩状态),344、弹簧固定平板,345、支撑架,346、多级作动筒底座,347、支撑架底板,348、压力传感器,3480、压力传感器(触发状态),35、红外视觉系统,36、末端横向对接辅助装置,4、回收机械臂,40、多自由度机械臂,41、机械爪。
具体实施方式
[0040]
针对集群无人机的回收难题,本发明提出了一种独特的自适应箱式回收方案,利用带有可控的缓冲推杆阵列的回收平台来进行无人机的空基回收,从而解决集群无人机空中回收效率低、对接难度大、受空中对接大气紊流环境影响大的问题,且对所回收无人机的形状、布局、大小等无任何要求,适用于各种不同类型和尺寸的无人机,可实现空中大批量集群无人机的快速回收,降低无人机使用成本。
[0041]
具体而言,本发明所提出的无人机空基回收装置,包括:
[0042]
回收平台,其安装于回收载机的机舱内并可伸出和收入机舱;所述回收平台包括固定连接的顶板和底板,所述顶板和底板上对称地分别设置有缓冲推杆阵列,所述缓冲推杆阵列由一组前端带有缓冲部件并可受控伸缩的缓冲推杆所组成,所述回收平台中设置有用于对各缓冲推杆的压力进行监测的压力传感器阵列以及用于对待回收无人机的轮廓及位姿信息进行检测的红外视觉系统;
[0043]
机械臂,其安装于回收载机的机舱内;所述机械臂的前端连接有可伸入所述缓冲推杆阵列中进行抓取的机械爪;
[0044]
控制模块,用于对所述缓冲推杆阵列及机械臂进行控制。
[0045]
本发明所提出的无人机空基回收方法,基于上述无人机空基回收装置实现;所述回收方法包括以下步骤:
[0046]
步骤1、将所述回收平台伸出至回收载机的机舱下方,并令待回收无人机自主进入所述回收平台的顶板和底板之间的空间;
[0047]
步骤2、根据回收载机、待回收无人机的状态参数以及所述压力传感器阵列和红外视觉系统的检测结果,控制缓冲推杆阵列进行待回收无人机的捕获;
[0048]
步骤3、控制所述机械臂前端的机械爪伸入缓冲推杆阵列中夹住待回收无人机,然后控制缓冲推杆阵列缩回,最后控制所述机械臂将待回收无人机从回收平台中抓取出来。
[0049]
为了便于公众理解,下面通过一个具体实施例并结合附图来对本发明的技术方案进行详细说明:
[0050]
本发明所提出无人机空基回收方法的基本原理如图1所示,图中上半部分为回收载机1进行无人机回收作业的状态。在进行无人机回收作业时,首先打开回收载机1的载机舱门10,利用载机连接伸缩杆31将回收平台3推至机舱下方位置;然后,待回收的集群无人机2自主进入回收平台3顶板和底板之间的空间后,控制顶板和底板的缓冲推杆阵列伸出,将无人机固定在顶板和底板之间;图中下半部分为回收平台3完成集群无人机2捕获后的工作状态,利用载机连接伸缩杆31将回收平台3收回至空基回收载机1的机舱内部,待完全收
回至原状态后,关闭载机舱门10,最终完成无人机回收过程。
[0051]
本实施例中的回收平台3如图2、图3所示,包括通过一组顶板底板连接伸缩杆30固定连接的顶板和底板,顶板和底板之间的空间即为无人机回收作业空间;其中,图2为回收平台3的顶板底板连接伸缩杆30未伸长的结构状态,图3为顶板底板连接伸缩杆30伸长的状态,在回收载机1内使顶板底板连接伸缩杆30处于收缩状态能够有效减小舱内空间占比。如图2、图3所示,本实施例中固定吊顶33安装在回收载机1的机舱顶部,回收平台3的顶板通过一组载机连接伸缩杆31与固定吊顶33连接,载机连接伸缩杆31外还套设有连接缓冲装置32;回收平台3的顶板和底板对称地分别设置有缓冲推杆阵列,所述缓冲推杆阵列由一组前端带有缓冲部件并可受控伸缩的缓冲推杆34所组成,回收平台3中还设置有用于对各缓冲推杆34的压力进行监测的压力传感器阵列以及用于对待回收无人机的轮廓及位姿信息进行检测的红外视觉系统35。
[0052]
如图4所示,本实施例中在回收平台3的顶板上还安装有末端横向对接辅助装置36,在集群无人机2进入对接区域后,末端横向对接辅助装置36可以调整回收平台3的横向位置,图4中左中右三幅图分别对应向右微调、不调整、向左微调,有利于提高对接成功率,降低集群无人机2的末端对接飞行控制精度要求。
[0053]
如图5所示,在集群无人机2自主进入回收平台3顶板和底板之间的空间后,红外视觉系统35将判断集群无人机2与回收平台3的相对位姿,控制器主动控制缓冲推杆34快速伸出完成集群无人机2的捕获,缓冲部件可有效缓冲集群无人机2与缓冲推杆34的碰撞动能,压力传感器阵列精准识别各个缓冲推杆34与集群无人机2的接触压力,控制器通过压力控制回路实现集群无人机2的可靠固定与安全捕获,并实现无人机捕获过程中的轮廓自适应感知。集群无人机2捕获成功后,还可以进一步在35红外视觉系统的位姿感知下,通过对缓冲推杆阵列的主动控制,实现集群无人机2在回收平台3内的姿态调整,以便回收机械臂4的快速、可靠抓取,有效提升无人机回收过程中的高自主控制、高可靠捕获、快速固定,保证无人机结构安全性。
[0054]
本实施例的缓冲推杆如图6所示,包括支撑架345以及穿设于支撑架345上部且前端带有缓冲橡胶头340的多级作动筒341,所述多级作动筒341与支撑架345之间设置有缓冲弹簧343,所述支撑架底板347上位于所述多级作动筒341的投影区域设置有压力传感器348。初始状态下,缓冲推杆34处于图中左侧所示的自然状态,此时多级作动筒341完全收回内部,缓冲弹簧348由于未受压,可以支撑多级作动筒341与压力传感器348保持一定的安全距离;当判定无人机进入回收平台3顶板和底板之间的空间后,多级作动筒341将处于伸长状态,如图6中间所示;当多级作动筒341伸长到一定位置后,其头部的缓冲橡胶头340会触碰到对侧分布的多级作动筒341或进入回收平台3顶板和底板之间的集群无人机2,此时缓冲橡胶头340会将碰撞动能经多级作动筒341传递至缓冲弹簧348,从而完成了动能与势能的转化,实现缓冲弹簧的压缩状态3480,如图6右侧所示。当缓冲弹簧348压缩一定距离后,多级作动筒341底部会触碰到压力传感器348,此时控制器会根据回收平台3内所有缓冲推杆34的压力传感器348所获取的压力图判断缓冲推杆阵列的状态,并通过此状态主动控制多级作动筒341运动,最终完成集群无人机2的高效捕获和高可靠固定。为方便后续回收机械臂4的抓取,红外视觉系统35将与压力图联合感知集群无人机2的位姿,并通过主动控制多级作动筒341,将集群无人机2姿态调整为水平状态。
[0055]
如图7所示,捕获成功并完成位姿调整的集群无人机2被缓冲推杆阵列紧密包裹在回收平台3的顶板和底板之间,为了继续进行其余集群无人机的回收作业,需要将已捕获的集群无人机2转移至载机机舱内的合适位置,但回收平台3内密布的缓冲推杆34使得现有的常规机械手难以伸入其中以实现集群无人机2的安全抓取。为此,本发明利用缓冲推杆34之间所存在的间隙,设计了一种能与该间隙相匹配的机械爪41;所述机械爪41为多指式夹持机械爪,具有至少两个并排平行设置的夹持部件,各夹持部件之间的间距与所述缓冲推杆阵列中缓冲推杆34之间的间距相适配从而使得机械爪41的各夹持部件可同时伸入所述缓冲推杆阵列中,所述夹持部件由上下对称设置并可受控夹合的两根抓取指构成。
[0056]
如图7、图8所示,本实施例的回收机械臂由多自由度机械臂40与2自由度机械爪41构成;所述多自由度机械臂40可以沿多个关节旋转,其前端与机械爪41相连,实现机械爪41在回收载机1内部的大范围、高精度、多自由度运动;所述机械爪41的夹持部件共有6只,分为2组对称安装在多自由度机械臂40的前端。机械爪41的夹持部件采用连杆结构,通过连杆运动带动上下对称设置的两根抓取指夹合来进行抓握动作,可以通过对称的两组夹持部件分别抓取集群无人机2的双翼。机械爪41中夹持部件的安装间距与回收平台3内的多级作动筒341的间距相匹配,可以通过多级作动筒341间隙伸入处于伸出状态的缓冲推杆阵列中,进行集群无人机2的固定夹取。
[0057]
本发明技术方案中,缓冲推杆阵列的准确控制是实现无人机快速安全捕获的关键。现有缓冲推杆大多采用开环控制的方式,无法实现作动位移的高精度控制,且简单的闭环控制也难以适用于回收平台3与集群无人机2复杂多变的对接情况,无法应对大数量缓冲推杆阵列的同步控制。为解决这一问题,本发明在控制缓冲推杆阵列进行待回收无人机的捕获时,对缓冲推杆阵列中各缓冲推杆的做动力、作动位移进行实时预测,以做动力和作动位移的修作结果作为目标量对缓冲推杆阵列进行闭环控制,并在缓冲推杆阵列中各缓冲推杆的实测压力与预设标准压力满足预设的匹配程度时控制缓冲推杆阵列停止动作。
[0058]
本实施例中控制模块对缓冲推杆阵列的控制过程具体如下:
[0059]
s1、获取状态参数:获取空基回收载机1的状态参数u1、集群无人机2的状态参数u2、回收平台3的状态参数u3;
[0060]
s11、空基回收载机1状态参数u1=[h
1 v
1x v
1y v
1z φ
1 θ
1 ψ
1 p
1 q
1 r1]
t

[0061]
s12、集群无人机2状态参数u2=[h
2 v
2x v
2y v
2z φ
2 θ
2 ψ
2 p
2 q
2 r2]
t

[0062]
其中,h1为空基回收载机1的飞行高度,v
1x
、v
1y
、v
1z
分别为空基回收载机1在xyz方向的速度,φ1、θ1、ψ1分别为空基回收载机1在xyz方向对应的欧拉角,p1、q1、r1分别为空基回收载机1在xyz方向对应的角速度;h2为集群无人机2的飞行高度,v
2x
、v
2y
、v
2z
分别为集群无人机2在xyz方向的速度,φ2、θ2、ψ2分别为集群无人机2在xyz方向对应的欧拉角,p2、q2、r2分别为集群无人机2在xyz方向对应的角速度。
[0063]
s13、回收平台3中的红外视觉系统35实时测量参数u3=[x
r y
r z
r φ
r θ
r ψ
r
]
t
,其中x
r
、y
r
、z
r
、φ
r
、θ
r
、ψ
r
分别为集群无人机2相对于回收平台3在xyz方向的位移与欧拉角。
[0064]
s2、预测多级作动筒341运动:建立基于深度强化学习神经网络的回收平台模型预测作动筒运动;
[0065]
s21、建立先验知识模型:建立包括空基回收载机紊流特性、缓冲推杆多级作动筒运动特性、集群无人机硬壳复材结构最大压力分布的先验知识模型。具体包括以下步骤:
[0066]
s211:空基回收载机流场特性:建立不同飞行高度、速度条件下的空基回收载机开舱门伸出回收平台、以及集群无人机回收状态下的流场特性;
[0067]
s212:缓冲推杆多级作动筒特性:分析缓冲推杆多级作动筒的运动特性、受力特性、控制响应,建立不同高度、速度条件下缓冲推杆多级作动筒特性;
[0068]
s213:集群无人机硬壳最大压力分布:分析集群无人机硬壳复材结构受力特性、建立不同飞行高度、速度条件下的集群无人机硬壳最大压力分布;
[0069]
s214:由上述建立的空基回收载机紊流特性、缓冲推杆多级作动筒运动特性和集群无人机硬壳复材结构最大压力分布建立先验知识模型,对强化学习智能体的执行者网络进行限制。
[0070]
s22、建立环境模型:建立空基回收载机1、集群无人机2飞机运动学、空气动力学模型,回收平台模型和大气环境等。
[0071]
s23、创建强化学习智能体:建立深度确定性策略梯度(deep deterministic policy gradient,ddpg)智能体,同时学习缓冲推杆的做动力与作动位移。
[0072]
s24、确定算法变量空间:定义ddpg智能体算法所需的观测变量、动作变量、终止训练条件以及奖励函数。具体包括以下步骤:
[0073]
s241、创建环境观测变量:本实施例的环境观测变量包括空基回收载机1的状态参数u1、集群无人机2的状态参数u2、回收平台3的状态参数u3;
[0074]
s242、创建动作变量:本实施例的动作变量包括缓冲推杆运动y=[f l]
t
,其中f=[f1,
···
,f
n
]为缓冲推杆阵列的所有n个缓冲推杆的做动力,l=[l1,
···
,l
n
]为缓冲推杆阵列的所有n个缓冲推杆的做动位移;
[0075]
s243、创建终止训练条件:设置适当的终止训练条件,以确定事件终止的条件,终止条件表征了事件明显进展顺利或进展不顺利,如果智能体达到其目标或无法恢复地远离其目标,则可以终止该事件。本实施例中的终止训练条件isdone具体如下:
[0076][0077]
其中,h1、h2分别为空基回收载机1与集群无人机2的飞行高度,v
1z
、v
2z
分别为空基回收载机1与集群无人机2在z方向的速度,v
2x
、v
2y
分别为集群无人机2在xy方向的速度,x1~x3为预设阈值;本实施例中的终止训练条件isdone具体如下:
[0078][0079]
即阈值x1~x3分别设置为200m、100m/s、250m/s;
[0080]
s244、创建奖励函数:本实施例中的奖励函数与待回收的集群无人机与回收平台的位置偏差,速度偏差,回收是否成功以及回收过程总时间有关,具体的奖励函数为:
[0081][0082]
其中,α、β、γ、μ、κ为常系数,x
r
、y
r
、z
r
分别为集群无人机2相对于回收平台3在xyz方向的位移,v
1x
、v
1y
、v
1z
分别为空基回收载机1在xyz方向的速度,v
2x
、v
2y
、v
2z
分别为集群无人机2在xyz方向的速度,t为回收过程总时间。
[0083]
s25、创建执行者

评价者神经网络:评价者网络,创建一个具有两个输入(观察和
动作)和一个输出的深度神经网络;执行者网络,ddpg智能体使用执行者表示要执行的操作,需创建一个具有一个观察输入,一个动作输出的深度神经网络。
[0084]
s26、训练强化学习智能体:设置强化学习智能体训练参数,当训练过程中奖励值趋于收敛状态且总奖励值达到设定目标值时,结束训练过程并保存智能体模型。具体包括以下步骤:
[0085]
s261、配置环境与算法模型,搭建回收平台与智能体的交互学习框架;
[0086]
s262、定义训练参数,设置最大训练轮数、步长、神经网络学习率、终止奖励值等参数;
[0087]
s263、初始化智能体,从环境中获得初始观测值s0,算初始作用a0=μ(s0),其中μ(s)为当前策略;
[0088]
s264、当前操作设置为初始操作a

a0,并将当前观测值设置为初始观测值s

s0;
[0089]
s265、将动作a应用与环境,并获得下一次观测值s1和奖励r,从经验集合(s,a,r,s1)中学习,并计算下一个动作a1=u(s1),用下一个动作更新当前操作a

a1,并用下一个观测值更新当前观测值s

s1;
[0090]
s266、如果训练满足终止条件则结束训练,否则继续进行当前操作。
[0091]
s227、预测作动筒运动:回收平台获取实时的空基回收载机1的状态参数u1、集群无人机2的状态参数u2,红外视觉系统35实时测量参数u3,预测缓冲推杆运动y=[f l]
t
,其中f=[f1,
···
,f
n
]为缓冲推杆阵列的所有n个缓冲推杆的做动力,l=[l1,
···
,l
n
]为缓冲推杆阵列的所有n个缓冲推杆的做动位移。s3、在线修正模型预测参数:通过神经网络学习离线学习集群无人机2在不同飞行条件下的u1与u2,以及回收平台3状态参数u3,在线修正多级作动筒341运动预测y。
[0092]
s31、离线学习:神经网络算法离线学习集群无人机2与空基回收载机1的不同飞行条件下,飞入回收平台3时,强化学习模型与真实回收平台的差异,输入参数为u1、u2、u3、y=[f l]
t
、y'=[f' l']
t
,其中f=[f1,
···
,f
n
]为缓冲推杆阵列的所有n个缓冲推杆的预测做动力,f'=[f1',
···
,f'
n
]为缓冲推杆阵列的所有n个缓冲推杆的实际做动力l=[l1,
···
,l
n
]为缓冲推杆阵列的所有n个缓冲推杆的预测做动位移,l'=[l'1,
···
,l'
n
]为缓冲推杆阵列的所有n个缓冲推杆的实际做动力。
[0093]
s32、在线修正:选取神经网络离线学习结果得到的样本数据库对缓冲推杆阵列的所有n个缓冲推杆做动力f=[f1,
···
,f
n
]与缓冲推杆阵列的所有n个缓冲推杆作动位移l=[l1,
···
,l
n
]进行修正,修正后的缓冲推杆运动为y
t
=[f
t l
t
]
t
其中,为缓冲推杆阵列的所有n个缓冲推杆的目标做动力,为缓冲推杆阵列的所有n个缓冲推杆的目标做动位移。
[0094]
s4、控制多级作动筒341运动:根据缓冲推杆运动目标值,采用闭环控制算法控制多级作动筒341的精准快速作动,对压力图进行匹配,实现无人机捕获、固定、姿态调整。
[0095]
s41、压力传感器348测量:均匀分布在回收平台3中的n个压力传感器348实时测量与集群无人机2接触后的压力值,p=[p1,
···
,p
n
]为压力传感器阵列所监测到的n个缓冲推杆的压力,将压力值绘制为压力图;
[0096]
s42、闭环控制:根据缓冲推杆运动目标值y
t
=[f
t l
t
]
t
,采用闭环控制算法控制多
级作动筒341的精准快速作动;
[0097]
s43、压力图匹配:当前实际压力图与无人机标准固定压力图进行匹配,当匹配度大于80%时停止多级作动筒341运动;
[0098]
s44、姿态调整:通过主动控制缓冲推杆运动,调整无人机位置,使无人机位于回收平台3中间位置。
[0099]
本实施例的回收平台3控制框图如图9所示,考虑无人机回收对接的高难度、高危险和复杂性,通过在仿真环境下利用强化学习训练获得回收平台强化学习机载模型。再利用神经网络离线学习、在线修正保证强化学习模型在回收平台实际使用中,在全寿命周期内能够适应真实环境变化、性能退化的影响。具体步骤如下:当开关处于“学习”位置时,通过神经网络算法离线学习集群无人机2与空基回收载机1的不同飞行条件下,飞入回收平台3时,强化学习模型与真实回收平台的差异,输入参数为u1、u2、u3、y=[f l]
t
、y'=[f' l']
t
;当开关处于“应用”应用位置时,选取神经网络离线学习结果得到的样本数据库对缓冲推杆34闭环控制进行在线修正,获得强化学习预测缓冲推杆运动y=[f l]
t
修正后的缓冲推杆运动目标值y
t
=[f
t l
t
]
t
。采用该方法能够在复杂飞行任务剖面内具有较强的学习能力和适应性,消耗的计算资源较少。同时,有利于提高回收平台的强化学习模型在全寿命周期内的控制精度与稳定性,其中u1、u2、u3分别为空基回收载机1、集群无人机2、回收平台3的状态参数,f=[f1,
···
,f
n
]为缓冲推杆阵列的所有n个缓冲推杆的预测做动力,f'=[f1',
···
,f'
n
]为缓冲推杆阵列的所有n个缓冲推杆的实际做动力l=[l1,
···
,l
n
]为缓冲推杆阵列的所有n个缓冲推杆的预测做动位移,l'=[l'1,
···
,l'
n
],为缓冲推杆阵列的所有n个缓冲推杆的目标做动力,为缓冲推杆阵列的所有n个缓冲推杆的目标做动位移。