发明

语音合成方法、装置、语音合成模型训练方法、装置2024

2024-04-16 07:24:29 发布于四川 0
  • 申请专利号:CN202410052370.3
  • 公开(公告)日:2024-10-29
  • 公开(公告)号:CN117877460A
  • 申请人:汉王科技股份有限公司
摘要:本申请公开了一种语音合成方法、装置、语音合成模型训练方法、装置、电子设备,属于计算机技术领域。所述方法包括:对目标文本执行单词到音素的转换处理,得到目标音素;对目标文本进行语义情感提取,得到目标文本的情感语义特征向量;对目标音素进行多头注意力编码处理,得到音素特征向量;对情感语义特征向量和音素特征向量进行融合处理,得到融合向量;对融合向量进行随机时长预测,得到每个目标音素的持续时长信息;获取融合向量的均值和方差;根据均值、方差和持续时长信息,编码得到音频数据。本方法通过引入待合成文本的情感和语义信息,提高文本先验分布的复杂程度,拉近先验分布和后验分布距离,最终合成更富有表现力和情感的语音。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 117877461 A (43)申请公布日 2024.04.12 (21)申请号 202410059545.3 (22)申请日 2024.01.15 (71)申请人 北京捷通华声科技股份有限公司 地址 100193 北京市海淀区东北旺西路8号 9号楼3层2区318 (72)发明人 周科霖 李健 陈明 武卫东  (74)专利代理机构 北京康信知识产权代理有限 责任公司 11240 专利代理师 霍文娟 (51)Int.Cl. G10L 13/027 (2013.01) G10L 13/08 (2013.01) G06F 16/635 (2019.01) G06V 40/16 (2022.01) G06N 3/08 (2023.01) 权利要求书2页 说明书16页 附图3页 (54)发明名称 音频的生成方法、计算机可读存储介质和音 频生成系统 (57)摘要 本申请提供了一种音频的生成方法、计算机 可读存储介质和音频生成系统。该方法包括:获 取人脸图像;采用目标算法根据人脸图像生成初 始音频;根据人脸图像进行特征识别,得到人物 情感和人物性格;构建语音合成模型,其中,语音 合成模型是使用多组训练数据训练得到的,多组 训练数据中的每一组训练数据均包括历史时间 段内获取的历史初始音频,历史人物情感,历史 人物性格,历史初始音频、历史人物情感和历史 人物性格对应的历史目标

最新专利