发明

一种基于多尺度通道分离卷积特征提取的说话人聚类方法

2023-09-14 07:00:15 发布于四川 2

申请专利号：CN202210588389.0
公开（公告）日：2023-09-12
公开（公告）号：CN115101076A
申请人：燕山大学

摘要：本发明公开了一种基于多尺度通道分离卷积特征提取的说话人聚类方法，属于声纹识别技术领域，包括以下步骤：将VoxCeleb和AMI数据集切分为训练集、开发集和测试集；对VoxCeleb和AMI数据进行预处理；在ECAPA‑TDNN网络框架的基础上搭建多尺度通道分离卷积模块；选用AAM‑softmax损失函数对模型进行多次训练得到最优模型；利用多尺度通道分离卷积模型对AMI会议数据提取特征，并运用谱聚类进行聚类分析；使用标准的分割聚类错误率DER对聚类结果打分。本发明能够提取到具有判别性的声纹特征，并在谱聚类算法上取得良好的效果，以相对较小的参数量为代价取得了更低的分割聚类错误率。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 115101076 A (43)申请公布日 2022.09.23 (21)申请号 202210588389.0 (22)申请日 2022.05.26 (71)申请人燕山大学地址 066004 河北省秦皇岛市海港区河北大街438号 (72)发明人李海滨　张晓龙　李雅倩　肖存军　 (74)专利代理机构石家庄众志华清知识产权事务所(特殊普通合伙) 13123 专利代理师田秀芬 (51)Int.Cl. G10L 17/02 (2013.01) G10L 17/04 (2013.01) G10L 17/14 (2013.01) 权利要求书3页说明书10页附图3页 (54)发明名称一种基于多尺度通道分离卷积特征提取的说话人聚类方法 (57)摘要本发明公开了一种基于多尺度通道分离卷积特征提取的说话人聚类方法，属于声纹识别技术领域，包括以下步骤：将VoxCeleb和AMI数据集切分为训练集、开发集和测试集；对VoxCeleb和 AMI数据进行预处理；在ECAPA‑TDNN网络框架的基础上搭建多尺度通道分离卷积模块；选用AAM‑ softmax损失函数对模型进行多次训练得到最优模型；利用多尺度通道分离卷积模型对AMI会议数据提取特征，并运用谱聚类进行聚类分析；使用标准的分割聚类错误率DER对聚类结果打分。本发明能够提取到具有判别性的声纹特征，并在 A 谱聚类算法上取得良好的效果，以相对

一种基于多尺度通道分离卷积特征提取的说话人聚类方法

专利内容

最新专利

相关专利