发明

语音合成方法、装置、语音合成模型训练方法、装置2024

2024-04-16 07:24:29 发布于四川 0

申请专利号：CN202410052370.3
公开（公告）日：2024-10-29
公开（公告）号：CN117877460A
申请人：汉王科技股份有限公司

摘要：本申请公开了一种语音合成方法、装置、语音合成模型训练方法、装置、电子设备，属于计算机技术领域。所述方法包括：对目标文本执行单词到音素的转换处理，得到目标音素；对目标文本进行语义情感提取，得到目标文本的情感语义特征向量；对目标音素进行多头注意力编码处理，得到音素特征向量；对情感语义特征向量和音素特征向量进行融合处理，得到融合向量；对融合向量进行随机时长预测，得到每个目标音素的持续时长信息；获取融合向量的均值和方差；根据均值、方差和持续时长信息，编码得到音频数据。本方法通过引入待合成文本的情感和语义信息，提高文本先验分布的复杂程度，拉近先验分布和后验分布距离，最终合成更富有表现力和情感的语音。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 117877461 A (43)申请公布日 2024.04.12 (21)申请号 202410059545.3 (22)申请日 2024.01.15 (71)申请人北京捷通华声科技股份有限公司地址 100193 北京市海淀区东北旺西路8号 9号楼3层2区318 (72)发明人周科霖　李健　陈明　武卫东　 (74)专利代理机构北京康信知识产权代理有限责任公司 11240 专利代理师霍文娟 (51)Int.Cl. G10L 13/027 (2013.01) G10L 13/08 (2013.01) G06F 16/635 (2019.01) G06V 40/16 (2022.01) G06N 3/08 (2023.01) 权利要求书2页说明书16页附图3页 (54)发明名称音频的生成方法、计算机可读存储介质和音频生成系统 (57)摘要本申请提供了一种音频的生成方法、计算机可读存储介质和音频生成系统。该方法包括：获取人脸图像；采用目标算法根据人脸图像生成初始音频；根据人脸图像进行特征识别，得到人物情感和人物性格；构建语音合成模型，其中，语音合成模型是使用多组训练数据训练得到的，多组训练数据中的每一组训练数据均包括历史时间段内获取的历史初始音频，历史人物情感，历史人物性格，历史初始音频、历史人物情感和历史人物性格对应的历史目标

语音合成方法、装置、语音合成模型训练方法、装置2024

专利内容

最新专利

相关专利