发明

一种基于语音驱动的真实感虚拟人生成方法及装置

2023-06-04 11:13:58 发布于四川 3

申请专利号：CN202310081778.9
公开（公告）日：2025-06-10
公开（公告）号：CN116206607A
申请人：北京航空航天大学|||北京航空航天大学江西研究院

摘要：本发明提出一种基于语音驱动的真实感虚拟人生成方法：输入源视频和驱动音频；以源视频中的人物为虚拟人原型，从源视频中提取头部姿态、面部形状信息以及纹理信息；以驱动音频作为虚拟人说话的内容，输入驱动音频，合成与驱动音频同步的面部表情参数和眨眼动作信息；使用面部表情参数、眨眼动作信息、头部姿态、面部形状信息以及纹理信息构建虚拟人3DMM模型渲染图；引入Wav2Lip模块，将3DMM模型渲染图的唇部信息进行语音唇形一致性加强，获得虚拟人唇部增强结果图；输入驱动音频的梅尔频谱特征、虚拟人唇部增强结果图以及参考背景，利用条件生成对抗网络生成虚拟人视频。本发明有助于提高虚拟人视频生成的质量。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 116206607 A (43)申请公布日 2023.06.02 (21)申请号 202310081778.9 (22)申请日 2023.02.08 (71)申请人北京航空航天大学地址 100191 北京市海淀区学院路37号 (72)发明人百晓　李嘉禾　王晨　郑锦　 (51)Int.Cl. G10L 15/25 (2013.01) G10L 17/04 (2013.01) G10L 25/03 (2013.01) G10L 25/27 (2013.01) G10L 25/48 (2013.01) G06V 40/16 (2022.01) G06V 10/774 (2022.01) G06V 10/82 (2022.01) G06N 3/0475 (2023.01) G06N 3/09 (2023.01) 权利要求书3页说明书5页附图3页 (54)发明名称一种基于语音驱动的真实感虚拟人生成方法及装置 (57)摘要本发明提出一种基于语音驱动的真实感虚拟人生成方法：输入源视频和驱动音频；以源视频中的人物为虚拟人原型，从源视频中提取头部姿态、面部形状信息以及纹理信息；以驱动音频作为虚拟人说话的内容，输入驱动音频，合成与驱动音频同步的面部表情参数和眨眼动作信息；使用面部表情参数、眨眼动作信息、头部姿态、面部形状信息以及纹理信息构建虚拟人3DMM模型渲染图；引入Wav2Lip模块，将3DMM模型渲染

一种基于语音驱动的真实感虚拟人生成方法及装置

专利内容

最新专利

相关专利