发明

基于强化学习的追捕策略训练方法、设备、介质及产品2025

2024-06-01 08:01:14 发布于四川 2
  • 申请专利号:CN202410244720.6
  • 公开(公告)日:2025-06-10
  • 公开(公告)号:CN118095340A
  • 申请人:南开大学
摘要:本发明公开一种基于强化学习的追捕策略训练方法、设备、介质及产品,涉及强化学习和追逃博弈控制技术领域,该方法涉及拦截者、追捕者和目标之间的博弈场景。拦截者采用比例指导策略对追捕者进行拦截,而追捕者则采用基于集成价值网络结构的均化深度确定性策略梯度算法对目标进行追捕。MDPG算法引入集成价值网络结构,其中每个价值网络对应一个目标值函数,使用不同的样本概率分布独立地进行训练。目标则采用逃逸策略来躲避追捕者的追捕。通过不同训练样本,计算各追逃博弈场景中智能体之间的距离和追捕者的航向角改变量,以得到各场景中追捕者的回报值。本发明提供的MDPG算法可实现追捕策略高效自主训练,提高了智能体追捕性能和成功率。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 118095340 A (43)申请公布日 2024.05.28 (21)申请号 202410244720.6 (22)申请日 2024.03.05 (71)申请人 南开大学 地址 300071 天津市南开区卫津路94号 (72)发明人 张建磊 张春燕 普显东  (74)专利代理机构 北京高沃律师事务所 11569 专利代理师 贾瑞华 (51)Int.Cl. G06N 3/008 (2023.01) G06N 3/08 (2023.01) 权利要求书2页 说明书13页 附图8页 (54)发明名称 基于强化学习的追捕策略训练方法、设备、 介质及产品 (57)摘要 本发明公开一种基于强化学习的追捕策略 训练方法、设备、介质及产品,涉及强化学习和追 逃博弈控制技术领域,该方法涉及拦截者、追捕 者和目标之间的博弈场景。拦截者采用比例指导 策略对追捕者进行拦截,而追捕者则采用基于集 成价值网络结构的均化深度确定性策略梯度算 法对目标进行追捕。MDPG算法引入集成价值网络 结构,其中每个价值网络对应一个目标值函数, 使用不同的样本概率分布独立地进行训练。目标 则采用逃逸策略来躲避追捕者的追捕。通过不同 训练样本,计算各追逃博弈场景中智能体之间的 A 距离和追捕者的航向角改变量,以得到各场景中 0 追捕者的回报值。本发明提供的MDPG算法可实现 4 3 5 追捕策略高效自主训练,提高了智能体追捕性能 9 0 8 和成功率。 1 1 N C CN 11

最新专利