基于强化学习的追捕策略训练方法、设备、介质及产品2025
- 申请专利号:CN202410244720.6
- 公开(公告)日:2025-06-10
- 公开(公告)号:CN118095340A
- 申请人:南开大学
专利内容
(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 118095340 A (43)申请公布日 2024.05.28 (21)申请号 202410244720.6 (22)申请日 2024.03.05 (71)申请人 南开大学 地址 300071 天津市南开区卫津路94号 (72)发明人 张建磊 张春燕 普显东 (74)专利代理机构 北京高沃律师事务所 11569 专利代理师 贾瑞华 (51)Int.Cl. G06N 3/008 (2023.01) G06N 3/08 (2023.01) 权利要求书2页 说明书13页 附图8页 (54)发明名称 基于强化学习的追捕策略训练方法、设备、 介质及产品 (57)摘要 本发明公开一种基于强化学习的追捕策略 训练方法、设备、介质及产品,涉及强化学习和追 逃博弈控制技术领域,该方法涉及拦截者、追捕 者和目标之间的博弈场景。拦截者采用比例指导 策略对追捕者进行拦截,而追捕者则采用基于集 成价值网络结构的均化深度确定性策略梯度算 法对目标进行追捕。MDPG算法引入集成价值网络 结构,其中每个价值网络对应一个目标值函数, 使用不同的样本概率分布独立地进行训练。目标 则采用逃逸策略来躲避追捕者的追捕。通过不同 训练样本,计算各追逃博弈场景中智能体之间的 A 距离和追捕者的航向角改变量,以得到各场景中 0 追捕者的回报值。本发明提供的MDPG算法可实现 4 3 5 追捕策略高效自主训练,提高了智能体追捕性能 9 0 8 和成功率。 1 1 N C CN 11
最新专利
- 数据要素化、资产化及去中心流通方法,装置及存储介质公开日期:2025-06-24公开号:CN118096155A申请号:CN202410154773.9数据要素化、资产化及去中心流通方法,装置及存储介质
- 发布时间:2024-06-01 07:57:350
- 申请号:CN202410154773.9
- 公开号:CN118096155A
- 一种用于聊天机器人的编译次数优化方法、设备及介质公开日期:2025-06-24公开号:CN118092927A申请号:CN202410100506.3一种用于聊天机器人的编译次数优化方法、设备及介质
- 发布时间:2024-06-01 07:56:280
- 申请号:CN202410100506.3
- 公开号:CN118092927A
- 一种路径规划策略的优化方法及装置公开日期:2025-06-24公开号:CN118070992A申请号:CN202410249921.5一种路径规划策略的优化方法及装置
- 发布时间:2024-06-01 07:25:570
- 申请号:CN202410249921.5
- 公开号:CN118070992A
- 一种滑坡涌浪近远场传播演化耦合方法及系统公开日期:2025-06-24公开号:CN117910387A申请号:CN202410069549.X一种滑坡涌浪近远场传播演化耦合方法及系统
- 发布时间:2024-04-21 07:48:170
- 申请号:CN202410069549.X
- 公开号:CN117910387A
- 岩体结构网络连通指数确定方法、装置和设备公开日期:2025-06-24公开号:CN117911861A申请号:CN202311809228.0岩体结构网络连通指数确定方法、装置和设备
- 发布时间:2024-04-21 07:46:060
- 申请号:CN202311809228.0
- 公开号:CN117911861A
- 一种基于正交平面的智能交通单目深度估计方法公开日期:2025-06-24公开号:CN117893590A申请号:CN202410063481.4一种基于正交平面的智能交通单目深度估计方法
- 发布时间:2024-04-21 07:20:210
- 申请号:CN202410063481.4
- 公开号:CN117893590A