发明

一种基于DDPG的空中安全数据采集及资源分配方法2025

2023-11-16 08:03:18 发布于四川 0
  • 申请专利号:CN202311112193.5
  • 公开(公告)日:2025-04-11
  • 公开(公告)号:CN117058929A
  • 申请人:北京岩烁科技有限公司
摘要:本发明公开了一种基于DDPG的空中安全数据采集及资源分配方法,包括将无人机安全数据收集过程建模为一个马尔可夫决策过程,构建优化问题,构建深度强化学习网络框架,策略网络以环境信息作为输入,无人机下一个时刻的速度矢量为输出,评论家网络以环境的信息和策略网络的输出作为输入,对策略网络的输出进行评估。构建强化学习网络中的奖励函数,当前时隙的状态信息输入到策略网络中,从而获得无人机的动作,无人机在仿真环境中执行所述动作,获取下一时隙的状态信息和该时隙的奖励,再将下一时隙的状态信息输入策略网络,如此循环直到无人机返回终点。本发明考虑了自适应能耗阈值,在返回终点和数据收集问题之间进行权衡,以最大化总保密率。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 117058929 A (43)申请公布日 2023.11.14 (21)申请号 202311112193.5 (22)申请日 2023.08.31 (71)申请人 重庆邮电大学 地址 400065 重庆市南岸区南山街道崇文 路2号 (72)发明人 雷宏江 冉浩祥  (74)专利代理机构 重庆市恒信知识产权代理有 限公司 50102 专利代理师 李金蓉 (51)Int.Cl. G08G 5/00 (2006.01) G08G 5/06 (2006.01) 权利要求书5页 说明书12页 附图3页 (54)发明名称 一种基于DDPG的空中安全数据采集及资源 分配方法 (57)摘要 本发明公开了一种基于DDPG的空中安全数 据采集及资源分配方法,包括将无人机安全数据 收集过程建模为一个马尔可夫决策过程,构建优 化问题,构建深度强化学习网络框架,策略网络 以环境信息作为输入,无人机下一个时刻的速度 矢量为输出,评论家网络以环境的信息和策略网 络的输出作为输入,对策略网络的输出进行评 估。构建强化学习网络中的奖励函数,当前时隙 的状态信息输入到策略网络中,从而获得无人机 的动作,无人机在仿真环境中执行所述动作,获 取下一时隙的状态信息和该时隙的奖励,再将下 A 一时隙的状态信息输入策略网络,如此循环直到 9 无人机返回终点。本发明考虑了自适应能耗阈 2 9 8 值,在返回终点和数据收集问题之间进行权衡, 5

最新专利