发明

一种文本生成音频方法及系统2025

2024-04-11 07:27:28 发布于四川 0

申请专利号：CN202311844353.5
公开（公告）日：2025-04-01
公开（公告）号：CN117854475A
申请人：北京邮电大学

摘要：本发明提供一种文本生成音频方法及系统，所述方法的步骤包括扩散模型训练和音频推理；在所述扩散模型训练的步骤中，对训练音频数据进行梅尔转换得到第一梅尔频谱，将所述第一梅尔频谱构建为第一梅尔图像，将所述第一梅尔图像通过图像编码器编码为图像特征向量；获取训练音频数据对应的训练文本数据，将训练文本数据通过文本编码器编码为训练文本特征向量；将图像特征向量、训练文本特征向量及预设的训练噪声向量输入到扩散模型中，对扩散模型进行训练；在音频推理的步骤中，基于待生成文本得到待生成文本特征向量，将待生成文本特征向量和预设的高斯噪声向量输入到扩散模型中，得到目标图像特征向量，基于所述目标图像特征向量得到目标音频。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 117854475 A (43)申请公布日 2024.04.09 (21)申请号 202311844353.5 (22)申请日 2023.12.28 (71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号 (72)发明人李雅　薛锦隆　邓雅月　高迎明　 (74)专利代理机构北京金咨知识产权代理有限公司 11612 专利代理师王紫腾 (51)Int.Cl. G10L 13/047 (2013.01) G10L 13/08 (2013.01) G10L 19/02 (2013.01) G10L 19/20 (2013.01) G10L 25/24 (2013.01) 权利要求书2页说明书7页附图3页 (54)发明名称一种文本生成音频方法及系统 (57)摘要本发明提供一种文本生成音频方法及系统，所述方法的步骤包括扩散模型训练和音频推理；在所述扩散模型训练的步骤中，对训练音频数据进行梅尔转换得到第一梅尔频谱，将所述第一梅尔频谱构建为第一梅尔图像，将所述第一梅尔图像通过图像编码器编码为图像特征向量；获取训练音频数据对应的训练文本数据，将训练文本数据通过文本编码器编码为训练文本特征向量；将图像特征向量、训练文本特征向量及预设的训练噪声向量输入到扩散模型中，对扩散模型进行训练；在音频推理的步骤中，基于待生成文本得到待生成文本特征向量，将待生成文本特征向

一种文本生成音频方法及系统2025

专利内容

最新专利

相关专利