语音合成方法、装置、语音合成模型训练方法、装置2024
- 申请专利号:CN202410052370.3
- 公开(公告)日:2024-10-29
- 公开(公告)号:CN117877460A
- 申请人:汉王科技股份有限公司
专利内容
(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 117877461 A (43)申请公布日 2024.04.12 (21)申请号 202410059545.3 (22)申请日 2024.01.15 (71)申请人 北京捷通华声科技股份有限公司 地址 100193 北京市海淀区东北旺西路8号 9号楼3层2区318 (72)发明人 周科霖 李健 陈明 武卫东 (74)专利代理机构 北京康信知识产权代理有限 责任公司 11240 专利代理师 霍文娟 (51)Int.Cl. G10L 13/027 (2013.01) G10L 13/08 (2013.01) G06F 16/635 (2019.01) G06V 40/16 (2022.01) G06N 3/08 (2023.01) 权利要求书2页 说明书16页 附图3页 (54)发明名称 音频的生成方法、计算机可读存储介质和音 频生成系统 (57)摘要 本申请提供了一种音频的生成方法、计算机 可读存储介质和音频生成系统。该方法包括:获 取人脸图像;采用目标算法根据人脸图像生成初 始音频;根据人脸图像进行特征识别,得到人物 情感和人物性格;构建语音合成模型,其中,语音 合成模型是使用多组训练数据训练得到的,多组 训练数据中的每一组训练数据均包括历史时间 段内获取的历史初始音频,历史人物情感,历史 人物性格,历史初始音频、历史人物情感和历史 人物性格对应的历史目标