发明

一种文本生成音频方法及系统2025

2024-04-11 07:27:28 发布于四川 0
  • 申请专利号:CN202311844353.5
  • 公开(公告)日:2025-04-01
  • 公开(公告)号:CN117854475A
  • 申请人:北京邮电大学
摘要:本发明提供一种文本生成音频方法及系统,所述方法的步骤包括扩散模型训练和音频推理;在所述扩散模型训练的步骤中,对训练音频数据进行梅尔转换得到第一梅尔频谱,将所述第一梅尔频谱构建为第一梅尔图像,将所述第一梅尔图像通过图像编码器编码为图像特征向量;获取训练音频数据对应的训练文本数据,将训练文本数据通过文本编码器编码为训练文本特征向量;将图像特征向量、训练文本特征向量及预设的训练噪声向量输入到扩散模型中,对扩散模型进行训练;在音频推理的步骤中,基于待生成文本得到待生成文本特征向量,将待生成文本特征向量和预设的高斯噪声向量输入到扩散模型中,得到目标图像特征向量,基于所述目标图像特征向量得到目标音频。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 117854475 A (43)申请公布日 2024.04.09 (21)申请号 202311844353.5 (22)申请日 2023.12.28 (71)申请人 北京邮电大学 地址 100876 北京市海淀区西土城路10号 (72)发明人 李雅 薛锦隆 邓雅月 高迎明  (74)专利代理机构 北京金咨知识产权代理有限 公司 11612 专利代理师 王紫腾 (51)Int.Cl. G10L 13/047 (2013.01) G10L 13/08 (2013.01) G10L 19/02 (2013.01) G10L 19/20 (2013.01) G10L 25/24 (2013.01) 权利要求书2页 说明书7页 附图3页 (54)发明名称 一种文本生成音频方法及系统 (57)摘要 本发明提供一种文本生成音频方法及系统, 所述方法的步骤包括扩散模型训练和音频推理; 在所述扩散模型训练的步骤中,对训练音频数据 进行梅尔转换得到第一梅尔频谱,将所述第一梅 尔频谱构建为第一梅尔图像,将所述第一梅尔图 像通过图像编码器编码为图像特征向量;获取训 练音频数据对应的训练文本数据,将训练文本数 据通过文本编码器编码为训练文本特征向量;将 图像特征向量、训练文本特征向量及预设的训练 噪声向量输入到扩散模型中,对扩散模型进行训 练;在音频推理的步骤中,基于待生成文本得到 待生成文本特征向量,将待生成文本特征向

最新专利