发明

一种基于不确定度的集成自监督说话人识别方法

2023-07-06 10:35:52 发布于四川 0

申请专利号：CN202310476907.4
公开（公告）日：2025-05-13
公开（公告）号：CN116386646A
申请人：南京邮电大学

摘要：本发明属于说话人识别技术领域，公开了一种基于不确定度的集成自监督的语音学习方法，应用于说话人识别学习任务，本发明采用大量无标签数据对掩蔽自监督模型、对比自监督模型以及自回归预测自监督模型进行预训练，并将语音数据的梅尔语谱图特征结果分别输入三个自监督模型中，提取模型最后一层的输出，将其作为全连接层的输入，并将全连接层的输出经过ReLU激活函数计算得到各模型下输入语音数据的证据，通过得到的证据以及狄利克雷分布参数，计算出各个自监督模型输出的置信质量和不确定度，使用Dempster规则将三个自监督模型输出的分类决策质量集进行融合，从而得到每个类的最终概率和总体不确定度，输出最终分类结果。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 116386646 A (43)申请公布日 2023.07.04 (21)申请号 202310476907.4 (22)申请日 2023.04.28 (71)申请人南京邮电大学地址 210003 江苏省南京市鼓楼区新模范马路66号 (72)发明人季薇　杨茗淇　李云　 (74)专利代理机构南京正联知识产权代理有限公司 32243 专利代理师王素琴 (51)Int.Cl. G10L 17/02 (2013.01) G10L 17/04 (2013.01) G10L 17/18 (2013.01) 权利要求书3页说明书6页附图2页 (54)发明名称一种基于不确定度的集成自监督说话人识别方法 (57)摘要本发明属于说话人识别技术领域，公开了一种基于不确定度的集成自监督的语音学习方法，应用于说话人识别学习任务，本发明采用大量无标签数据对掩蔽自监督模型、对比自监督模型以及自回归预测自监督模型进行预训练，并将语音数据的梅尔语谱图特征结果分别输入三个自监督模型中，提取模型最后一层的输出，将其作为全连接层的输入，并将全连接层的输出经过ReLU 激活函数计算得到各模型下输入语音数据的证据，通过得到的证据以及狄利克雷分布参数，计算出各个自监督模型输出的置信质量和不确定 A 度，使用Dempster规则将三个自监督模型输出的 6 分类决策质量集进行融合，从而得到每个类的最

一种基于不确定度的集成自监督说话人识别方法

专利内容

最新专利

相关专利