发明

一种基于循环神经网络的自评估机器人任务中错误可知的策略学习方法

2023-06-07 21:37:26 发布于四川 1

申请专利号：CN202211451138.4
公开（公告）日：2025-04-15
公开（公告）号：CN115723132A
申请人：浙江大学

摘要：本发明公开了一种基于循环神经网络的自评估机器人任务中错误可知的策略学习方法。本发明针对具有自评估模块的机器人任务可以在执行动作之前评估该动作的特性，充分利用动作的自评估结果，将其建模到错误可知的策略学习中，利用循环神经网络隐式地编码观测和评估的记忆，使得策略本身具有基于之前的错误尝试进行分布更新的能力，从而使得最终执行的动作更加安全可靠。相比于通用的排序策略，本发明考虑了之前尝试的自评估结果对动作概率值分布的影响，从而可以再观测不变的情况下根据已知的失败更新策略分布，使得探索的次数尽可能少，更适用于机器人算法的在线调整。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 115723132 A (43)申请公布日 2023.03.03 (21)申请号 202211451138.4 (22)申请日 2022.11.20 (71)申请人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人王越　许可淳　熊蓉　 (74)专利代理机构杭州中成专利事务所有限公司 33212 专利代理师李亦慈　唐银益 (51)Int.Cl. B25J 9/16 (2006.01) B25J 15/08 (2006.01) G06N 3/0442 (2023.01) G06N 3/0455 (2023.01) G06N 3/08 (2023.01) 权利要求书1页说明书4页附图1页 (54)发明名称一种基于循环神经网络的自评估机器人任务中错误可知的策略学习方法 (57)摘要本发明公开了一种基于循环神经网络的自评估机器人任务中错误可知的策略学习方法。本发明针对具有自评估模块的机器人任务可以在执行动作之前评估该动作的特性，充分利用动作的自评估结果，将其建模到错误可知的策略学习中，利用循环神经网络隐式地编码观测和评估的记忆，使得策略本身具有基于之前的错误尝试进行分布更新的能力，从而使得最终执行的动作更加安全可靠。相比于通用的排序策略，本发明考虑了之前尝试的自评估结果对动作概率值分布的影响，从而

一种基于循环神经网络的自评估机器人任务中错误可知的策略学习方法

专利内容

最新专利

相关专利