发明

模型的训练方法、对象的控制方法、装置、介质及设备

2023-05-20 11:15:54 发布于四川 0

申请专利号：CN202210621933.7
公开（公告）日：2024-11-26
公开（公告）号：CN114917586A
申请人：北京字跳网络技术有限公司

摘要：本公开涉及一种模型的训练方法、对象的控制方法、装置、介质及设备，所述方法包括：获取第一虚拟对象与第二虚拟对象在虚拟环境中交互所产生的交互序列，交互序列包括多个采样数据；获取每一交互序列对应的训练奖励权重参数，训练奖励权重参数对应于训练深度强化学习模型的一种决策风格类型；根据交互序列对应的训练奖励权重参数和交互序列中的回报值，确定与每一采样数据对应的目标回报值；根据基于每一采样数据的状态特征和决策动作确定出的动作价值预计值，和采样数据对应的目标回报值，确定训练深度强化学习模型的目标损失；基于目标损失对训练深度强化学习模型进行训练。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 114917586 A (43)申请公布日 2022.08.19 (21)申请号 202210621933.7 (22)申请日 2022.06.01 (71)申请人北京字跳网络技术有限公司地址 100190 北京市海淀区紫金数码园4号楼2层0207 (72)发明人付悦　黄学峰　邓诗弘　 (74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙) 11447 专利代理师曹寒梅 (51)Int.Cl. A63F 13/55 (2014.01) A63F 13/56 (2014.01) G06K 9/62 (2022.01) G06N 3/08 (2006.01) 权利要求书4页说明书21页附图4页 (54)发明名称模型的训练方法、对象的控制方法、装置、介质及设备 (57)摘要本公开涉及一种模型的训练方法、对象的控制方法、装置、介质及设备，所述方法包括：获取第一虚拟对象与第二虚拟对象在虚拟环境中交互所产生的交互序列，交互序列包括多个采样数据；获取每一交互序列对应的训练奖励权重参数，训练奖励权重参数对应于训练深度强化学习模型的一种决策风格类型；根据交互序列对应的训练奖励权重参数和交互序列中的回报值，确定与每一采样数据对应的目标回报值；根据基于每一采样数据的状态特征和决策动作确定出的动作价值预计值，和采样数据对应的目标回报值， A 确定训练深度强化学习模型的目标

模型的训练方法、对象的控制方法、装置、介质及设备

专利内容

最新专利

相关专利