发明

一种跨模态唇语识别方法

2023-07-07 07:07:39 发布于四川 0

申请专利号：CN202110941080.0
公开（公告）日：2025-05-23
公开（公告）号：CN113851131A
申请人：西安电子科技大学广州研究院

摘要：本发明提供了一种跨模态唇语识别方法，包括S1，数据预处理：获取视频数据的嘴唇区域和音频数据的特征矩阵；S2，模型训练：依次进行说话人识别任务的训练、跨模态对比学习、模型参数、标准化唇语特征等步骤直到模型收敛；S3，模型部署：仅输入待识别的非训练数据视频序列，使用视觉识别分支获取说话人唇形特点，并对唇语特征进行标准化，最后进行唇语特征到文字的映射。本方法在无需额外人为标注数据的前提下，能够提取到具有更好可区分性的视觉特征，特征提取的泛化性和鲁棒性更好，能够跨说话人使用，也无需为每个类别样本单独训练一组模型参数。

专利内容

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 113851131 A (43)申请公布日 2021.12.28 (21)申请号 202110941080.0 G06N 3/08 (2006.01) (22)申请日 2021.08.17 (71)申请人西安电子科技大学广州研究院地址 510700 广东省广州市黄埔区中新知识城海丝中心B5、B6、B7栋 (72)发明人梁雪峰　黄奕洋　 (74)专利代理机构北京高航知识产权代理有限公司 11530 代理人乔浩刚 (51)Int.Cl. G10L 15/25 (2013.01) G10L 15/16 (2006.01) G10L 15/20 (2006.01) G06K 9/00 (2006.01) G06N 3/04 (2006.01) 权利要求书2页说明书7页附图1页 (54)发明名称一种跨模态唇语识别方法 (57)摘要本发明提供了一种跨模态唇语识别方法，包括S1，数据预处理：获取视频数据的嘴唇区域和音频数据的特征矩阵；S2，模型训练：依次进行说话人识别任务的训练、跨模态对比学习、模型参数、标准化唇语特征等步骤直到模型收敛；S3，模型部署：仅输入待识别的非训练数据视频序列，使用视觉识别分支获取说话人唇形特点，并对唇语特征进行标准化，最后进行唇语特征到文字的映射。本方法在无需额外人

一种跨模态唇语识别方法

专利内容

最新专利

相关专利