发明

一种基于不确定度的集成自监督说话人识别方法

2023-07-06 10:35:52 发布于四川 0
  • 申请专利号:CN202310476907.4
  • 公开(公告)日:2025-05-13
  • 公开(公告)号:CN116386646A
  • 申请人:南京邮电大学
摘要:本发明属于说话人识别技术领域,公开了一种基于不确定度的集成自监督的语音学习方法,应用于说话人识别学习任务,本发明采用大量无标签数据对掩蔽自监督模型、对比自监督模型以及自回归预测自监督模型进行预训练,并将语音数据的梅尔语谱图特征结果分别输入三个自监督模型中,提取模型最后一层的输出,将其作为全连接层的输入,并将全连接层的输出经过ReLU激活函数计算得到各模型下输入语音数据的证据,通过得到的证据以及狄利克雷分布参数,计算出各个自监督模型输出的置信质量和不确定度,使用Dempster规则将三个自监督模型输出的分类决策质量集进行融合,从而得到每个类的最终概率和总体不确定度,输出最终分类结果。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 116386646 A (43)申请公布日 2023.07.04 (21)申请号 202310476907.4 (22)申请日 2023.04.28 (71)申请人 南京邮电大学 地址 210003 江苏省南京市鼓楼区新模范 马路66号 (72)发明人 季薇 杨茗淇 李云  (74)专利代理机构 南京正联知识产权代理有限 公司 32243 专利代理师 王素琴 (51)Int.Cl. G10L 17/02 (2013.01) G10L 17/04 (2013.01) G10L 17/18 (2013.01) 权利要求书3页 说明书6页 附图2页 (54)发明名称 一种基于不确定度的集成自监督说话人识 别方法 (57)摘要 本发明属于说话人识别技术领域,公开了一 种基于不确定度的集成自监督的语音学习方法, 应用于说话人识别学习任务,本发明采用大量无 标签数据对掩蔽自监督模型、对比自监督模型以 及自回归预测自监督模型进行预训练,并将语音 数据的梅尔语谱图特征结果分别输入三个自监 督模型中,提取模型最后一层的输出,将其作为 全连接层的输入,并将全连接层的输出经过ReLU 激活函数计算得到各模型下输入语音数据的证 据,通过得到的证据以及狄利克雷分布参数,计 算出各个自监督模型输出的置信质量和不确定 A 度,使用Dempster规则将三个自监督模型输出的 6 分类决策质量集进行融合,从而得到每个类的最

最新专利