一种跨模态唇语识别方法
- 申请专利号:CN202110941080.0
- 公开(公告)日:2025-05-23
- 公开(公告)号:CN113851131A
- 申请人:西安电子科技大学广州研究院
专利内容
(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 113851131 A (43)申请公布日 2021.12.28 (21)申请号 202110941080.0 G06N 3/08 (2006.01) (22)申请日 2021.08.17 (71)申请人 西安电子科技大学广州研究院 地址 510700 广东省广州市黄埔区中新知 识城海丝中心B5、B6、B7栋 (72)发明人 梁雪峰 黄奕洋 (74)专利代理机构 北京高航知识产权代理有限 公司 11530 代理人 乔浩刚 (51)Int.Cl. G10L 15/25 (2013.01) G10L 15/16 (2006.01) G10L 15/20 (2006.01) G06K 9/00 (2006.01) G06N 3/04 (2006.01) 权利要求书2页 说明书7页 附图1页 (54)发明名称 一种跨模态唇语识别方法 (57)摘要 本发明提供了一种跨模态唇语识别方法,包 括S1,数据预处理:获取视频数据的嘴唇区域和 音频数据的特征矩阵;S2,模型训练:依次进行说 话人识别任务的训练、跨模态对比学习、模型参 数、标准化唇语特征等步骤直到模型收敛;S3,模 型部署:仅输入待识别的非训练数据视频序列, 使用视觉识别分支获取说话人唇形特点,并对唇 语特征进行标准化,最后进行唇语特征到文字的 映射。本方法在无需额外人
最新专利
- 一种基于融合通道注意力机制的残差模块的声音事件定位与识别方法公开日期:2025-06-13公开号:CN116631386A申请号:CN202310245365.X一种基于融合通道注意力机制的残差模块的声音事件定位与识别方法
- 发布时间:2023-08-25 07:24:090
- 申请号:CN202310245365.X
- 公开号:CN116631386A
- 一种基于主动流动控制的降低钝体辐射噪声方法及系统公开日期:2025-06-13公开号:CN116386581A申请号:CN202310297276.X一种基于主动流动控制的降低钝体辐射噪声方法及系统
- 发布时间:2023-07-06 10:30:340
- 申请号:CN202310297276.X
- 公开号:CN116386581A
- 语音检测的方法和系统公开日期:2025-06-13公开号:CN113767431A申请号:CN202080031842.7语音检测的方法和系统
- 发布时间:2023-07-03 11:00:280
- 申请号:CN202080031842.7
- 公开号:CN113767431A
- 车辆系统的语音控制公开日期:2025-06-13公开号:CN113711306A申请号:CN201980095208.7车辆系统的语音控制
- 发布时间:2023-07-01 07:09:420
- 申请号:CN201980095208.7
- 公开号:CN113711306A
- 电木两用低音古筝公开日期:2025-06-13公开号:CN112712781A申请号:CN202110087907.6电木两用低音古筝
- 发布时间:2023-06-05 18:10:300
- 申请号:CN202110087907.6
- 公开号:CN112712781A
- 背景噪声估计和语音活动检测系统公开日期:2025-06-13公开号:CN114930451A申请号:CN202080090845.8背景噪声估计和语音活动检测系统
- 发布时间:2023-05-20 11:10:050
- 申请号:CN202080090845.8
- 公开号:CN114930451A