发明

语音数据的处理方法、装置、电子设备和可读存储介质

2023-08-11 23:08:34 发布于四川 0
  • 申请专利号:CN202310595157.2
  • 公开(公告)日:2025-04-01
  • 公开(公告)号:CN116564269A
  • 申请人:网易(杭州)网络有限公司
摘要:本公开提供了一种语音数据的处理方法、装置、电子设备和可读存储介质。其中,方法包括:获取目标说话人的人声标签和文本数据;将人声标签输入预先训练完成的音色生成模型,生成目标说话人的目标人声表征向量,其中,音色生成模型根据对多维先验概率分布进行采样的采样结果与人声标签生成目标人声表征向量;将目标人声表征向量和文本数据输入预先训练完成的语音合成模型,生成目标说话人的语音数据。该方式中,通过音色生成模型可以分类生成不同类型的人声和音色的目标人声表征向量;通过语音合成模型可以生成目标说话人的语音数据,从而控制目标说话人的语音数据的音色特点,提高说话人音色生成的可控性。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 116564269 A (43)申请公布日 2023.08.08 (21)申请号 202310595157.2 G10L 15/06 (2013.01) G10L 17/04 (2013.01) (22)申请日 2023.05.24 (71)申请人 网易(杭州)网络有限公司 地址 310052 浙江省杭州市滨江区网商路 599号网易大厦 (72)发明人 朱鹏程 张雍茂 毕梦霄 郭帅  张晴 薛鹤洋 胡志鹏 吕唐杰  (74)专利代理机构 北京超凡宏宇专利代理事务 所(特殊普通合伙) 11463 专利代理师 荣颖佳 (51)Int.Cl. G10L 13/02 (2013.01) G10L 25/03 (2013.01) G10L 25/27 (2013.01) G10L 13/033 (2013.01) 权利要求书3页 说明书17页 附图4页 (54)发明名称 语音数据的处理方法、装置、电子设备和可 读存储介质 (57)摘要 本公开提供了一种语音数据的处理方法、装 置、电子设备和可读存储介质。其中,方法包括: 获取目标说话人的人声标签和文本数据;将人声 标签输入预先训练完成的音色生成模型,生成目 标说话人的目标人声表征向量,其中,音色生成

最新专利