发明

人工智能AI模型的训练方法、装置、设备及介质

2023-05-25 12:28:35 发布于四川 0
  • 申请专利号:CN202011164804.7
  • 公开(公告)日:2025-07-11
  • 公开(公告)号:CN112221152A
  • 申请人:腾讯科技(深圳)有限公司
摘要:本申请公开了一种人工智能AI模型的训练方法、装置、设备及介质,涉及人工智能的机器学习领域。该方法包括:调用人工智能AI模型在游戏程序中进行游戏对局获得训练数据,训练数据包括游戏对局中的参考游戏状态、决策网络根据参考游戏状态输出的目标游戏动作和价值网络根据参考游戏状态输出的状态价值,状态价值包括在k个价值分类上的k个状态子价值,k为大于1的整数;根据训练数据以及k个价值分类对应的k个价值计算公式,计算人工智能AI模型在参考游戏状态采用目标游戏动作的动作价值,动作价值包括在k个价值分类上的k个动作子价值;根据状态价值和动作价值之差,训练人工智能AI模型。该方法可以提高价值网络预估状态价值的准确性。

专利内容

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 112221152 A (43)申请公布日 2021.01.15 (21)申请号 202011164804.7 (22)申请日 2020.10.27 (71)申请人 腾讯科技(深圳)有限公司 地址 518057 广东省深圳市南山区高新区 科技中一路腾讯大厦35层 (72)发明人 韩国安 邱福浩 王亮 付强  (74)专利代理机构 北京三高永信知识产权代理 有限责任公司 11138 代理人 徐立 (51)Int.Cl. A63F 13/67 (2014.01) G06N 20/00 (2019.01) 权利要求书3页 说明书22页 附图9页 (54)发明名称 人工智能AI模型的训练方法、装置、设备及 介质 (57)摘要 本申请公开了一种人工智能AI模型的训练 方法、装置、设备及介质,涉及人工智能的机器学 习领域。该方法包括:调用人工智能AI模型在游 戏程序中进行游戏对局获得训练数据,训练数据 包括游戏对局中的参考游戏状态、决策网络根据 参考游戏状态输出的目标游戏动作和价值网络 根据参考游戏状态输出的状态价值,状态价值包 括在k个价值分类上的k个状态子价值,k为大于1 的整数;根据训练数据以及k个价值分类对应的k 个价值计算公式,计算人工智能AI模型在参考游 戏状态采用目标游戏动作的动作价值,动作价值 A 包括在k个价值分类上的k个动作子价值;根据状 2 态价值和动作价值之差,训练人工智能AI模型。 5

最新专利