发明

一种基于多尺度通道分离卷积特征提取的说话人聚类方法

2023-09-14 07:00:15 发布于四川 2
  • 申请专利号:CN202210588389.0
  • 公开(公告)日:2023-09-12
  • 公开(公告)号:CN115101076A
  • 申请人:燕山大学
摘要:本发明公开了一种基于多尺度通道分离卷积特征提取的说话人聚类方法,属于声纹识别技术领域,包括以下步骤:将VoxCeleb和AMI数据集切分为训练集、开发集和测试集;对VoxCeleb和AMI数据进行预处理;在ECAPA‑TDNN网络框架的基础上搭建多尺度通道分离卷积模块;选用AAM‑softmax损失函数对模型进行多次训练得到最优模型;利用多尺度通道分离卷积模型对AMI会议数据提取特征,并运用谱聚类进行聚类分析;使用标准的分割聚类错误率DER对聚类结果打分。本发明能够提取到具有判别性的声纹特征,并在谱聚类算法上取得良好的效果,以相对较小的参数量为代价取得了更低的分割聚类错误率。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 115101076 A (43)申请公布日 2022.09.23 (21)申请号 202210588389.0 (22)申请日 2022.05.26 (71)申请人 燕山大学 地址 066004 河北省秦皇岛市海港区河北 大街438号 (72)发明人 李海滨 张晓龙 李雅倩  肖存军  (74)专利代理机构 石家庄众志华清知识产权事 务所(特殊普通合伙) 13123 专利代理师 田秀芬 (51)Int.Cl. G10L 17/02 (2013.01) G10L 17/04 (2013.01) G10L 17/14 (2013.01) 权利要求书3页 说明书10页 附图3页 (54)发明名称 一种基于多尺度通道分离卷积特征提取的 说话人聚类方法 (57)摘要 本发明公开了一种基于多尺度通道分离卷 积特征提取的说话人聚类方法,属于声纹识别技 术领域,包括以下步骤:将VoxCeleb和AMI数据集 切分为训练集、开发集和测试集;对VoxCeleb和 AMI数据进行预处理;在ECAPA‑TDNN网络框架的 基础上搭建多尺度通道分离卷积模块;选用AAM‑ softmax损失函数对模型进行多次训练得到最优 模型;利用多尺度通道分离卷积模型对AMI会议 数据提取特征,并运用谱聚类进行聚类分析;使 用标准的分割聚类错误率DER对聚类结果打分。 本发明能够提取到具有判别性的声纹特征,并在 A 谱聚类算法上取得良好的效果,以相对

最新专利