发明

一种基于自适应类边界间隔的说话人识别方法、系统及存储介质2025

2024-04-16 07:22:26 发布于四川 0
  • 申请专利号:CN202311867976.4
  • 公开(公告)日:2025-01-24
  • 公开(公告)号:CN117877493A
  • 申请人:东北林业大学
摘要:本发明一种基于自适应类边界间隔的说话人识别方法、系统及存储介质,涉及说话人识别技术领域,为解决现方法假设不同说话人之间不存在差异性,调整类边界间隔的方式是固定且一致的,导致无法区分差异性较小的说话人的问题。包括:步骤1、获取说话人音频数据集,将添加音频数据添加标签;步骤2、对音频数据进行预处理,对预处理的音频数据中提取FBank特征作为声学特征;步骤3、构建基于深度学习的说话人识别模型,将说话人音频样本分为正确分类和错误分类,以样本属于某个说话人的概率为先验信息,自适应地调整类边界间隔,构建损失函数对模型进行训练;步骤4、将待测说话人音频数据输入训练后的说话人识别模型,判断是否为同一个人的音频数据。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 117877494 A (43)申请公布日 2024.04.12 (21)申请号 202311729285.8 G06V 40/18 (2022.01) G06V 20/40 (2022.01) (22)申请日 2023.12.14 G06V 10/80 (2022.01) (71)申请人 本相空间(珠海)科技有限公司 H04N 13/383 (2018.01) 地址 519000 广东省珠海市香洲区卫康路 H04N 13/344 (2018.01) 199号香洲创港中心2栋12层1201-1室 (72)发明人 钱馨园 江子扬 陈凯南 赵殊阳  蔡佳纹 孙骁良 曾心 张天昊  魏丽芳  (74)专利代理机构 北京市广友专利事务所有限 责任公司 11237 专利代理师 付忠林 张仲波 (51)Int.Cl. G10L 17/18 (2013.01) G10L 17/06 (2013.01) G10L 17/02 (2013.01) 权利要求

最新专利