发明

一种基于语音驱动的真实感虚拟人生成方法及装置

2023-06-04 11:13:58 发布于四川 2
  • 申请专利号:CN202310081778.9
  • 公开(公告)日:2025-06-10
  • 公开(公告)号:CN116206607A
  • 申请人:北京航空航天大学|||北京航空航天大学江西研究院
摘要:本发明提出一种基于语音驱动的真实感虚拟人生成方法:输入源视频和驱动音频;以源视频中的人物为虚拟人原型,从源视频中提取头部姿态、面部形状信息以及纹理信息;以驱动音频作为虚拟人说话的内容,输入驱动音频,合成与驱动音频同步的面部表情参数和眨眼动作信息;使用面部表情参数、眨眼动作信息、头部姿态、面部形状信息以及纹理信息构建虚拟人3DMM模型渲染图;引入Wav2Lip模块,将3DMM模型渲染图的唇部信息进行语音唇形一致性加强,获得虚拟人唇部增强结果图;输入驱动音频的梅尔频谱特征、虚拟人唇部增强结果图以及参考背景,利用条件生成对抗网络生成虚拟人视频。本发明有助于提高虚拟人视频生成的质量。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 116206607 A (43)申请公布日 2023.06.02 (21)申请号 202310081778.9 (22)申请日 2023.02.08 (71)申请人 北京航空航天大学 地址 100191 北京市海淀区学院路37号 (72)发明人 百晓 李嘉禾 王晨 郑锦  (51)Int.Cl. G10L 15/25 (2013.01) G10L 17/04 (2013.01) G10L 25/03 (2013.01) G10L 25/27 (2013.01) G10L 25/48 (2013.01) G06V 40/16 (2022.01) G06V 10/774 (2022.01) G06V 10/82 (2022.01) G06N 3/0475 (2023.01) G06N 3/09 (2023.01) 权利要求书3页 说明书5页 附图3页 (54)发明名称 一种基于语音驱动的真实感虚拟人生成方 法及装置 (57)摘要 本发明提出一种基于语音驱动的真实感虚 拟人生成方法 :输入源视频和驱动音频 ;以源视 频中的人物为虚拟人原型,从源视频中提取头部 姿态、面部形状信息以及纹理信息 ;以驱动音频 作为虚拟人说话的内容,输入驱动音频,合成与 驱动音频同步的面部表情参数和眨眼动作信息; 使用面部表情参数、眨眼动作信息、头部姿态、面 部形状信息以及纹理信息构建虚拟人3DMM模型 渲染图;引入Wav2Lip模块,将3DMM模型渲染

最新专利