发明

一种基于推理整合到训练过程中的音频生成的加速方法2024

2024-03-29 07:27:59 发布于四川 0

申请专利号：CN202311816670.6
公开（公告）日：2024-03-26
公开（公告）号：CN117765923A
申请人：派欧云计算（上海）有限公司

摘要：本发明提出了一种基于推理整合到训练过程中的音频生成的加速方法，包括步骤1：训练去噪扩散概率模型(DDPM)，在正向过程中，通过马尔可夫链和高斯噪声，按预设噪声调度向数据样本注入噪声，获得带噪声的数据分布；步骤2：推理过程为逆向，逐步从高斯分布的噪声中恢复数据，利用参数化的逆向转换步骤和神经网络估计的噪声训练模型，目的是最大化似然函数的变分下界；步骤3：优化DDPM，通过比较生成样本与真实样本的距离，使用多分辨率短时傅里叶变换(STFT)损失函数和其他度量，以接近人类的感知质量；步骤4：增强模型对不同噪声级别的鲁棒性，在训练中考虑不同噪声水平变化，同时针对声码器任务优化推理过程中的噪声级别选择。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 117765923 A (43)申请公布日 2024.03.26 (21)申请号 202311816670.6 G06N 3/084 (2023.01) G10L 21/0216 (2013.01) (22)申请日 2023.12.27 (71)申请人派欧云计算（上海）有限公司地址 201203 上海市浦东新区中国(上海) 自由贸易试验区博云路2号801室 (72)发明人张青青　王闻宇　王晓飞　 (74)专利代理机构上海汉声知识产权代理有限公司 31236 专利代理师黄超宇　胡晶 (51)Int.Cl. G10L 13/027 (2013.01) G06N 5/04 (2023.01) G06N 3/0475 (2023.01) G06N 3/047 (2023.01) G06N 3/045 (2023.01) 权利要求书3页说明书6页附图1页 (54)发明名称一种基于推理整合到训练过程中的音频生成的加速方法 (57)摘要本发明提出了一种基于推理整合到训练过程中的音频生成的加速方法，包括步骤1：训练去噪扩散概率模型(DDPM)，在正向过程中，通过马尔可夫链和高斯噪声，按预设噪声调度向数据样本注入噪声，获得带噪声的数据分布；步骤

一种基于推理整合到训练过程中的音频生成的加速方法2024

专利内容

最新专利

相关专利