发明

基于可插拔模块的深度学习语音辅助文字识别方法与装置

2023-07-16 07:20:38 发布于四川 0
  • 申请专利号:CN202310111405.1
  • 公开(公告)日:2025-07-18
  • 公开(公告)号:CN116434732A
  • 申请人:华中科技大学
摘要:本发明提出了一种基于可插拔模块的深度学习语音辅助文字识别方法:使用公开合成文本数据集作为图片训练数据,并提取出标签作为语料库,使用语音合成工具配对生成一定数量的语音数据;将图片‑语音数据送入识别网络中,分别得到图像特征和语音特征;将图像特征送入识别解码器,输出预测的字符序列;将可插拔模块接入场景文字识别网络,图像特征和语音特征经过可插拔模块中的语音解码器得到频谱特征;识别网络计算识别损失,可插拔模块计算语音频谱损失,反向传播优化识别网络权重参数;将可插拔模块拔出,由识别网络完成场景文字图像的识别。本发明使用语音信息以指导现有的场景文本识别网络,使其可以很容易的应用于现有的场景文字识别网络。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 116434732 A (43)申请公布日 2023.07.14 (21)申请号 202310111405.1 G06N 3/0464 (2023.01) G06N 3/08 (2023.01) (22)申请日 2023.02.07 (71)申请人 华中科技大学 地址 430074 湖北省武汉市洪山区珞喻路 1037号 (72)发明人 刘明宇 刘禹良 余文文 杨彪  张恩铭 程建伟 白翔  (74)专利代理机构 深圳市六加知识产权代理有 限公司 44372 专利代理师 向彬 (51)Int.Cl. G10L 13/08 (2013.01) G10L 15/16 (2006.01) G10L 15/26 (2006.01) G06N 3/0455 (2023.01) 权利要求书2页 说明书6页 附图2页 (54)发明名称 基于可插拔模块的深度学习语音辅助文字 识别方法与装置 (57)摘要 本发明提出了一种基于可插拔模块的深度 学习语音辅助文字识别方法:使用公开合成文本 数据集作为图片训练数据,并提取出标签作为语 料库,使用语音合成工具配对生成一定数量的语 音数据;将图片‑语音数据送入识别网络中,分别 得到图像特征和语音特征;将图

最新专利