基于强化学习的追捕策略训练方法、设备、介质及产品2025
- 申请专利号:CN202410244720.6
- 公开(公告)日:2025-06-10
- 公开(公告)号:CN118095340A
- 申请人:南开大学
专利内容
(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 118095340 A (43)申请公布日 2024.05.28 (21)申请号 202410244720.6 (22)申请日 2024.03.05 (71)申请人 南开大学 地址 300071 天津市南开区卫津路94号 (72)发明人 张建磊 张春燕 普显东 (74)专利代理机构 北京高沃律师事务所 11569 专利代理师 贾瑞华 (51)Int.Cl. G06N 3/008 (2023.01) G06N 3/08 (2023.01) 权利要求书2页 说明书13页 附图8页 (54)发明名称 基于强化学习的追捕策略训练方法、设备、 介质及产品 (57)摘要 本发明公开一种基于强化学习的追捕策略 训练方法、设备、介质及产品,涉及强化学习和追 逃博弈控制技术领域,该方法涉及拦截者、追捕 者和目标之间的博弈场景。拦截者采用比例指导 策略对追捕者进行拦截,而追捕者则采用基于集 成价值网络结构的均化深度确定性策略梯度算 法对目标进行追捕。MDPG算法引入集成价值网络 结构,其中每个价值网络对应一个目标值函数, 使用不同的样本概率分布独立地进行训练。目标 则采用逃逸策略来躲避追捕者的追捕。通过不同 训练样本,计算各追逃博弈场景中智能体之间的 A 距离和追捕者的航向角改变量,以得到各场景中 0 追捕者的回报值。本发明提供的MDPG算法可实现 4 3 5 追捕策略高效自主训练,提高了智能体追捕性能 9 0 8 和成功率。 1 1 N C CN 11
最新专利
- 一种基于种子点生长的有线表格重建方法、设备及介质公开日期:2025-07-11公开号:CN118097696A申请号:CN202410236729.2一种基于种子点生长的有线表格重建方法、设备及介质
- 发布时间:2024-06-01 08:00:560
- 申请号:CN202410236729.2
- 公开号:CN118097696A
- 一种省间绿电合同分时段分解方法公开日期:2025-07-11公开号:CN117910744A申请号:CN202311845131.5一种省间绿电合同分时段分解方法
- 发布时间:2024-04-21 07:46:320
- 申请号:CN202311845131.5
- 公开号:CN117910744A
- 一种基于产品文档的筛选式采编方法、系统及电子设备公开日期:2025-07-11公开号:CN117851561A申请号:CN202311724872.8一种基于产品文档的筛选式采编方法、系统及电子设备
- 发布时间:2024-04-11 07:24:460
- 申请号:CN202311724872.8
- 公开号:CN117851561A
- 电力设备的数字孪生模型构建方法、装置和计算机设备公开日期:2025-07-11公开号:CN117828788A申请号:CN202410015373.X电力设备的数字孪生模型构建方法、装置和计算机设备
- 发布时间:2024-04-07 07:32:350
- 申请号:CN202410015373.X
- 公开号:CN117828788A
- 基于时间步长迭代的核素嬗变方法公开日期:2025-07-11公开号:CN117786999A申请号:CN202311844642.5基于时间步长迭代的核素嬗变方法
- 发布时间:2024-03-31 07:43:360
- 申请号:CN202311844642.5
- 公开号:CN117786999A
- 一种基于三维激光扫描点云的深埋隧道围岩变形分析方法公开日期:2025-07-11公开号:CN117788574A申请号:CN202311700389.6一种基于三维激光扫描点云的深埋隧道围岩变形分析方法
- 发布时间:2024-03-31 07:33:240
- 申请号:CN202311700389.6
- 公开号:CN117788574A