发明

视听语音分离模型的训练方法、电子设备和存储介质

2023-06-25 07:12:54 发布于四川 1
  • 申请专利号:CN202211573033.6
  • 公开(公告)日:2025-08-08
  • 公开(公告)号:CN116312607A
  • 申请人:思必驰科技股份有限公司
摘要:本发明实施例提供一种视听语音分离模型的训练方法、电子设备和存储介质。该方法包括:将多个说话人的混合训练音频输入至视听语音分离模型,得到多个说话人的预测频谱图;确定预测频谱图的预测说话人视听特征以及混合训练音频的参考频谱图的参考说话人视听特征;基于预测说话人视听特征以及参考说话人视听特征确定的跨模态损失,通过交叉方向乘子法利用跨模态损失对视听语音分离模型进行混合精度量化条件的训练,得到轻量级的视听语音分离模型。本发明实施例基于交叉方向乘子法对模型进行量化调优训练出轻量级的视听语音分离模型,并且通过多模态模型能够充分利用不同模态对量化敏感度特性确保了轻量级的视听语音分离模型计算量与性能的平衡。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 116312607 A (43)申请公布日 2023.06.23 (21)申请号 202211573033.6 G06V 10/82 (2022.01) G06V 20/40 (2022.01) (22)申请日 2022.12.08 G06N 3/0464 (2023.01) (71)申请人 思必驰科技股份有限公司 G06N 3/08 (2023.01) 地址 215123 江苏省苏州市苏州工业园区 新平街388号腾飞创新园14栋 (72)发明人 钱彦旻 吴逸飞 李晨达  (74)专利代理机构 北京商专永信知识产权代理 事务所(普通合伙) 11400 专利代理师 黄谦 侯晓艳 (51)Int.Cl. G10L 21/0272 (2013.01) G10L 21/0308 (2013.01) G10L 25/30 (2013.01) G10L 25/57 (2013.01) G06V 40/16 (2022.01) 权利要求书2页 说明书9页 附图3页 (54)发明名称 视听语音分离模型的训练方法、电子设备和 存储介质

最新专利