发明

一种跨模态唇语识别方法

2023-07-07 07:07:39 发布于四川 0
  • 申请专利号:CN202110941080.0
  • 公开(公告)日:2025-05-23
  • 公开(公告)号:CN113851131A
  • 申请人:西安电子科技大学广州研究院
摘要:本发明提供了一种跨模态唇语识别方法,包括S1,数据预处理:获取视频数据的嘴唇区域和音频数据的特征矩阵;S2,模型训练:依次进行说话人识别任务的训练、跨模态对比学习、模型参数、标准化唇语特征等步骤直到模型收敛;S3,模型部署:仅输入待识别的非训练数据视频序列,使用视觉识别分支获取说话人唇形特点,并对唇语特征进行标准化,最后进行唇语特征到文字的映射。本方法在无需额外人为标注数据的前提下,能够提取到具有更好可区分性的视觉特征,特征提取的泛化性和鲁棒性更好,能够跨说话人使用,也无需为每个类别样本单独训练一组模型参数。

专利内容

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 113851131 A (43)申请公布日 2021.12.28 (21)申请号 202110941080.0 G06N 3/08 (2006.01) (22)申请日 2021.08.17 (71)申请人 西安电子科技大学广州研究院 地址 510700 广东省广州市黄埔区中新知 识城海丝中心B5、B6、B7栋 (72)发明人 梁雪峰 黄奕洋  (74)专利代理机构 北京高航知识产权代理有限 公司 11530 代理人 乔浩刚 (51)Int.Cl. G10L 15/25 (2013.01) G10L 15/16 (2006.01) G10L 15/20 (2006.01) G06K 9/00 (2006.01) G06N 3/04 (2006.01) 权利要求书2页 说明书7页 附图1页 (54)发明名称 一种跨模态唇语识别方法 (57)摘要 本发明提供了一种跨模态唇语识别方法,包 括S1,数据预处理:获取视频数据的嘴唇区域和 音频数据的特征矩阵;S2,模型训练:依次进行说 话人识别任务的训练、跨模态对比学习、模型参 数、标准化唇语特征等步骤直到模型收敛;S3,模 型部署:仅输入待识别的非训练数据视频序列, 使用视觉识别分支获取说话人唇形特点,并对唇 语特征进行标准化,最后进行唇语特征到文字的 映射。本方法在无需额外人

最新专利