发明

一种基于循环神经网络的自评估机器人任务中错误可知的策略学习方法

2023-06-07 21:37:26 发布于四川 1
  • 申请专利号:CN202211451138.4
  • 公开(公告)日:2025-04-15
  • 公开(公告)号:CN115723132A
  • 申请人:浙江大学
摘要:本发明公开了一种基于循环神经网络的自评估机器人任务中错误可知的策略学习方法。本发明针对具有自评估模块的机器人任务可以在执行动作之前评估该动作的特性,充分利用动作的自评估结果,将其建模到错误可知的策略学习中,利用循环神经网络隐式地编码观测和评估的记忆,使得策略本身具有基于之前的错误尝试进行分布更新的能力,从而使得最终执行的动作更加安全可靠。相比于通用的排序策略,本发明考虑了之前尝试的自评估结果对动作概率值分布的影响,从而可以再观测不变的情况下根据已知的失败更新策略分布,使得探索的次数尽可能少,更适用于机器人算法的在线调整。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 115723132 A (43)申请公布日 2023.03.03 (21)申请号 202211451138.4 (22)申请日 2022.11.20 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 王越 许可淳 熊蓉  (74)专利代理机构 杭州中成专利事务所有限公 司 33212 专利代理师 李亦慈 唐银益 (51)Int.Cl. B25J 9/16 (2006.01) B25J 15/08 (2006.01) G06N 3/0442 (2023.01) G06N 3/0455 (2023.01) G06N 3/08 (2023.01) 权利要求书1页 说明书4页 附图1页 (54)发明名称 一种基于循环神经网络的自评估机器人任 务中错误可知的策略学习方法 (57)摘要 本发明公开了一种基于循环神经网络的自 评估机器人任务中错误可知的策略学习方法。本 发明针对具有自评估模块的机器人任务可以在 执行动作之前评估该动作的特性,充分利用动作 的自评估结果,将其建模到错误可知的策略学习 中,利用循环神经网络隐式地编码观测和评估的 记忆,使得策略本身具有基于之前的错误尝试进 行分布更新的能力,从而使得最终执行的动作更 加安全可靠。相比于通用的排序策略,本发明考 虑了之前尝试的自评估结果对动作概率值分布 的影响,从而

最新专利