一种文本生成音频方法及系统2025
- 申请专利号:CN202311844353.5
- 公开(公告)日:2025-04-01
- 公开(公告)号:CN117854475A
- 申请人:北京邮电大学
专利内容
(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 117854475 A (43)申请公布日 2024.04.09 (21)申请号 202311844353.5 (22)申请日 2023.12.28 (71)申请人 北京邮电大学 地址 100876 北京市海淀区西土城路10号 (72)发明人 李雅 薛锦隆 邓雅月 高迎明 (74)专利代理机构 北京金咨知识产权代理有限 公司 11612 专利代理师 王紫腾 (51)Int.Cl. G10L 13/047 (2013.01) G10L 13/08 (2013.01) G10L 19/02 (2013.01) G10L 19/20 (2013.01) G10L 25/24 (2013.01) 权利要求书2页 说明书7页 附图3页 (54)发明名称 一种文本生成音频方法及系统 (57)摘要 本发明提供一种文本生成音频方法及系统, 所述方法的步骤包括扩散模型训练和音频推理; 在所述扩散模型训练的步骤中,对训练音频数据 进行梅尔转换得到第一梅尔频谱,将所述第一梅 尔频谱构建为第一梅尔图像,将所述第一梅尔图 像通过图像编码器编码为图像特征向量;获取训 练音频数据对应的训练文本数据,将训练文本数 据通过文本编码器编码为训练文本特征向量;将 图像特征向量、训练文本特征向量及预设的训练 噪声向量输入到扩散模型中,对扩散模型进行训 练;在音频推理的步骤中,基于待生成文本得到 待生成文本特征向量,将待生成文本特征向
最新专利
- 音频类别预测方法、装置、存储介质及电子设备公开日期:2025-04-04公开号:CN113763928A申请号:CN202110578096.X音频类别预测方法、装置、存储介质及电子设备
- 发布时间:2023-07-03 11:02:250
- 申请号:CN202110578096.X
- 公开号:CN113763928A
- 一种啸叫检测方法、语音通话方法以及相关装置公开日期:2025-04-04公开号:CN113450812A申请号:CN202010235244.3一种啸叫检测方法、语音通话方法以及相关装置
- 发布时间:2023-06-23 08:25:330
- 申请号:CN202010235244.3
- 公开号:CN113450812A
- 信号啸叫抑制方法、装置、计算机设备和存储介质公开日期:2025-04-04公开号:CN114822479A申请号:CN202210368262.8信号啸叫抑制方法、装置、计算机设备和存储介质
- 发布时间:2023-05-17 11:57:140
- 申请号:CN202210368262.8
- 公开号:CN114822479A
- 课堂中不同声音的区分方法、装置、设备以及存储介质公开日期:2025-04-04公开号:CN114822557A申请号:CN202210339090.1课堂中不同声音的区分方法、装置、设备以及存储介质
- 发布时间:2023-05-17 11:56:270
- 申请号:CN202210339090.1
- 公开号:CN114822557A
- 信号修正方法、装置、设备、存储介质及计算机程序产品公开日期:2025-04-04公开号:CN114520006A申请号:CN202210103474.3信号修正方法、装置、设备、存储介质及计算机程序产品
- 发布时间:2023-05-10 11:48:250
- 申请号:CN202210103474.3
- 公开号:CN114520006A
- 基于音频信号特征的浮选过程工况识别方法公开日期:2025-04-04公开号:CN114510970A申请号:CN202210092432.4基于音频信号特征的浮选过程工况识别方法
- 发布时间:2023-05-10 11:43:540
- 申请号:CN202210092432.4
- 公开号:CN114510970A