发明

一种基于推理整合到训练过程中的音频生成的加速方法2024

2024-03-29 07:27:59 发布于四川 0
  • 申请专利号:CN202311816670.6
  • 公开(公告)日:2024-03-26
  • 公开(公告)号:CN117765923A
  • 申请人:派欧云计算(上海)有限公司
摘要:本发明提出了一种基于推理整合到训练过程中的音频生成的加速方法,包括步骤1:训练去噪扩散概率模型(DDPM),在正向过程中,通过马尔可夫链和高斯噪声,按预设噪声调度向数据样本注入噪声,获得带噪声的数据分布;步骤2:推理过程为逆向,逐步从高斯分布的噪声中恢复数据,利用参数化的逆向转换步骤和神经网络估计的噪声训练模型,目的是最大化似然函数的变分下界;步骤3:优化DDPM,通过比较生成样本与真实样本的距离,使用多分辨率短时傅里叶变换(STFT)损失函数和其他度量,以接近人类的感知质量;步骤4:增强模型对不同噪声级别的鲁棒性,在训练中考虑不同噪声水平变化,同时针对声码器任务优化推理过程中的噪声级别选择。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 117765923 A (43)申请公布日 2024.03.26 (21)申请号 202311816670.6 G06N 3/084 (2023.01) G10L 21/0216 (2013.01) (22)申请日 2023.12.27 (71)申请人 派欧云计算(上海)有限公司 地址 201203 上海市浦东新区中国(上海) 自由贸易试验区博云路2号801室 (72)发明人 张青青 王闻宇 王晓飞  (74)专利代理机构 上海汉声知识产权代理有限 公司 31236 专利代理师 黄超宇 胡晶 (51)Int.Cl. G10L 13/027 (2013.01) G06N 5/04 (2023.01) G06N 3/0475 (2023.01) G06N 3/047 (2023.01) G06N 3/045 (2023.01) 权利要求书3页 说明书6页 附图1页 (54)发明名称 一种基于推理整合到训练过程中的音频生 成的加速方法 (57)摘要 本发明提出了一种基于推理整合到训练过 程中的音频生成的加速方法,包括步骤1:训练去 噪扩散概率模型(DDPM),在正向过程中,通过马 尔可夫链和高斯噪声,按预设噪声调度向数据样 本注入噪声,获得带噪声的数据分布;步骤

最新专利