发明

用于原始音频的基于小占用空间流的模型

2023-06-03 12:11:05 发布于四川 0
  • 申请专利号:CN202010979804.6
  • 公开(公告)日:2024-10-29
  • 公开(公告)号:CN112634936A
  • 申请人:百度(美国)有限责任公司
摘要:WaveFlow是用于原始音频的小占用空间生成流,可以以最大的似然度直接对其进行训练。WaveFlow使用扩展的二维(2D)卷积架构处理波形的远程结构,同时使用表达性自回归函数对局部变化进行建模。WaveFlow可以为原始音频提供基于似然度模型(包括WaveNet和WaveGlow)的统一视图,这可视为特殊情况。它生成高保真语音,同时合成速度比现有系统快几个数量级,因为它仅使用几个序列步骤来生成相对较长的波形。WaveFlow显著减小了自回归模型与基于流的模型之间存在的似然度差距,从而实现有效合成。它具有5.91M参数的小占用空间使其比一些现有模型小15倍。WaveFlow可在V100图形处理单元(GPU)上以比实时快42.6倍的速度生成22.05kHz高保真音频,而无需使用工程化推理内核。

专利内容

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 112634936 A (43)申请公布日 2021.04.09 (21)申请号 202010979804.6 G10L 25/48 (2013.01) (22)申请日 2020.09.17 (30)优先权数据 62/905,261 2019.09.24 US 16/986,166 2020.08.05 US (71)申请人 百度(美国)有限责任公司 地址 美国加利福尼亚州 (72)发明人 平伟 彭开南 赵可心 宋钊  (74)专利代理机构 北京英赛嘉华知识产权代理 有限责任公司 11204 代理人 王达佐 王艳春 (51)Int.Cl. G10L 25/03 (2013.01) G10L 25/27 (2013.01) G10L 25/30 (2013.01) 权利要求书2页 说明书16页 附图8页 (54)发明名称 用于原始音频的基于小占用空间流的模型 (57)摘要 WaveFlow是用于原始音频的小占用空间生 成流,可以以最大的似然度直接对其进行训练。 WaveFlow使用扩展的二维(2D)卷积架构处理波 形的远程结构,同时使用表达性自回归函数对局 部变化进行建模。WaveFlow可以为原始音频提供 基于似然度模型(包括WaveNet和WaveGlow)的统 一视图,这可视为特殊情况。它生成高保真语音, 同时合成速度比现有系统快

最新专利