模型的训练方法、对象的控制方法、装置、介质及设备
- 申请专利号:CN202210621933.7
- 公开(公告)日:2024-11-26
- 公开(公告)号:CN114917586A
- 申请人:北京字跳网络技术有限公司
专利内容
(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 114917586 A (43)申请公布日 2022.08.19 (21)申请号 202210621933.7 (22)申请日 2022.06.01 (71)申请人 北京字跳网络技术有限公司 地址 100190 北京市海淀区紫金数码园4号 楼2层0207 (72)发明人 付悦 黄学峰 邓诗弘 (74)专利代理机构 北京英创嘉友知识产权代理 事务所(普通合伙) 11447 专利代理师 曹寒梅 (51)Int.Cl. A63F 13/55 (2014.01) A63F 13/56 (2014.01) G06K 9/62 (2022.01) G06N 3/08 (2006.01) 权利要求书4页 说明书21页 附图4页 (54)发明名称 模型的训练方法、对象的控制方法、装置、介 质及设备 (57)摘要 本公开涉及一种模型的训练方法、对象的控 制方法、装置、介质及设备,所述方法包括:获取 第一虚拟对象与第二虚拟对象在虚拟环境中交 互所产生的交互序列,交互序列包括多个采样数 据;获取每一交互序列对应的训练奖励权重参 数,训练奖励权重参数对应于训练深度强化学习 模型的一种决策风格类型;根据交互序列对应的 训练奖励权重参数和交互序列中的回报值,确定 与每一采样数据对应的目标回报值;根据基于每 一采样数据的状态特征和决策动作确定出的动 作价值预计值,和采样数据对应的目标回报值, A 确定训练深度强化学习模型的目标