发明

音频处理模型的训练方法、音频转换方法及装置

2023-08-25 07:27:37 发布于四川 1
  • 申请专利号:CN202310576603.5
  • 公开(公告)日:2025-04-25
  • 公开(公告)号:CN116631421A
  • 申请人:网易(杭州)网络有限公司
摘要:本申请提供了一种音频处理模型的训练方法、音频转换方法、装置、电子设备及计算机可读存储介质,训练方法包括:确定样本音频数据的样本发音特征;将样本发音特征输入第一待训练模型进行数值化编码得到数值化的第一输出特征,第一待训练模型为基于过去的信息对数据进行数值化编码的模型;将样本发音特征输入第二模型进行数值化编码得到数值化的第二输出特征,第二模型为基于过去和未来的信息对数据进行处理的模型;基于减小第一输出特征与第二输出特征之间的差别的第一参数调整原则,对第一待训练模型进行参数调整,得到调整后第一模型;根据调整后第一模型确定音频处理模型。如此,使得流式歌声转换能够实现流式推理的同时保证了流式推理的效果。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 116631421 A (43)申请公布日 2023.08.22 (21)申请号 202310576603.5 (22)申请日 2023.05.19 (71)申请人 网易(杭州)网络有限公司 地址 310052 浙江省杭州市滨江区长河街 道网商路599号4幢7层 (72)发明人 朱鹏程 薛鹤洋 毕梦霄 郭帅  张晴 吕唐杰  (74)专利代理机构 北京清源汇知识产权代理事 务所(特殊普通合伙) 11644 专利代理师 李惠 (51)Int.Cl. G10L 21/013 (2013.01) G10L 25/03 (2013.01) 权利要求书4页 说明书17页 附图2页 (54)发明名称 音频处理模型的训练方法、音频转换方法及 装置 (57)摘要 本申请提供了一种音频处理模型的训练方 法、音频转换方法、装置、电子设备及计算机可读 存储介质,训练方法包括:确定样本音频数据的 样本发音特征;将样本发音特征输入第一待训练 模型进行数值化编码得到数值化的第一输出特 征,第一待训练模型为基于过去的信息对数据进 行数值化编码的模型;将样本发音特征输入第二 模型进行数值化编码得到数值化的第二输出特 征,第二模型为基于过去和未来的信息对数据进 行处理的模型;基于减小第一输出特征与第二输 出特征之间的差别的第一参数调整原则,对第一 A 待训练模型进行参数调整 ,得到调整后第一模 1 型;根据调整后第一模

最新专利