物理
下拉
最新专利
-
一种目标说话人分离系统、设备及存储介质 公开日期:2023-03-17 公开号:CN115035907A 申请号:CN202210602186.2一种目标说话人分离系统、设备及存储介质
- 申请号:CN202210602186.2
- 公开号:CN115035907A
- 公开日期:2023-03-17
- 申请人:中国科学院自动化研究所
本发明提供一种目标说话人分离系统、电子设备及存储介质,系统包括:首先基于掩蔽的预训练策略对多种线索进行联合统一建模,提升模型对缺失线索的推断能力,并增强被扰动线索的表征精度;其次,构建层级化的线索调制模块。分别在初级线索调制模块中引入空间线索定向增强说话人语音;在中级线索调制模块中基于动态线索与听觉信号分量的时间相干性增强说话人语音;并在高级线索调制模块中引入稳态线索进行选择性过滤;最后,充分发挥仿真数据的有监督学习能力和真实混合数据的无监督学习效果,构建多线索约束下更高效的半监督学习方法。将“分离‑再混合”的无监督学习融入到线索驱动目标说话人分离框架下,提升系统在真实嘈杂环境下的自适应能力。- 发布时间:2023-06-30 07:01:17
- 4
-
车用语音唤醒方法、装置、电子设备及存储介质 公开日期:2023-05-23 公开号:CN115035896A 申请号:CN202210609856.3车用语音唤醒方法、装置、电子设备及存储介质
- 申请号:CN202210609856.3
- 公开号:CN115035896A
- 公开日期:2023-05-23
- 申请人:中国第一汽车股份有限公司
本发明公开了一种车用语音唤醒方法、装置、电子设备及存储介质,该方法包括:获取目标车辆的车联网数据以及预设帧数的座舱语音数据;根据所述车联网数据,确定车联网编码数据,并根据所述座舱语音数据,确定音频特征编码数据;根据所述车联网编码数据以及所述音频特征编码数据,确定特征融合数据;将所述特征融合数据输入至预先训练完成的唤醒模型中,得到与所述特征融合数据相对应的唤醒数据;其中,所述唤醒模型基于多尺度深度可分时域卷积网络构建;基于所述唤醒数据,对所述目标车辆的语音交互系统进行处理。通过本发明实施例的技术方案,实现了提高车用语音唤醒的场景适应性,并提高用户体验度的技术效果。- 发布时间:2023-06-30 07:01:18
- 6
-
噪声生成模型训练方法、装置、设备及介质 公开日期:2023-05-02 公开号:CN115035911A 申请号:CN202210614008.1噪声生成模型训练方法、装置、设备及介质
- 申请号:CN202210614008.1
- 公开号:CN115035911A
- 公开日期:2023-05-02
- 申请人:中国第一汽车股份有限公司
本申请实施例公开了一种噪声生成模型训练方法、装置、设备及介质。该方法包括:获取预设时间步长的参考噪声数据和期望噪声类别;将参考噪声数据和期望噪声类别输入至预设的噪声生成模型,以根据预设时间步长和期望噪声类别,生成期望类别特征,并提取参考噪声数据中的预测噪声特征,且根据期望类别特征和预测噪声特征,生成预设时间步长对应未来时刻的未来噪声数据;根据未来时刻的标准噪声数据和未来噪声数据,调整噪声生成模型中的待训练参数。本申请实施例提高了生成噪声的准确度,以及实现了对车辆行驶过程中噪声场景的全面覆盖。- 发布时间:2023-06-30 07:01:18
- 3
-
语音识别模型的训练方法、装置、电子设备及存储介质 公开日期:2023-12-05 公开号:CN115035890A 申请号:CN202210719500.5语音识别模型的训练方法、装置、电子设备及存储介质
- 申请号:CN202210719500.5
- 公开号:CN115035890A
- 公开日期:2023-12-05
- 申请人:北京百度网讯科技有限公司
本公开提供了一种语音识别模型的训练方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、语音识别等领域。具体实现方案为:根据正例样本构建负例样本,得到用于约束语音解码路径的目标负例样本;根据正例样本及目标负例样本,得到训练数据;根据训练数据对第一语音识别模型进行训练,得到第二语音识别模型。采用本公开,可以提高语音识别的准确率。- 发布时间:2023-12-07 07:00:08
- 7
-
一种中华白海豚哨叫声信号自动检测和提取方法 公开日期:2024-05-28 公开号:CN115050386A 申请号:CN202210541058.1一种中华白海豚哨叫声信号自动检测和提取方法
- 申请号:CN202210541058.1
- 公开号:CN115050386A
- 公开日期:2024-05-28
- 申请人:哈尔滨工程大学
本发明公开了一种中华白海豚哨叫声信号自动检测和提取方法,步骤1:对采集到的包含中华白海豚哨叫声信号的数据进行预处理;步骤2:得到的包含中华白海豚哨叫声信号的数据进行截取,切分成若干个时间片段,对全部时间片段逐个执行如下操作,得到含有中华白海豚哨叫声信号的信号起止时间结果;步骤3:根据步骤2中自动检测并保存的含有中华白海豚哨叫声信号的信号起止时间结果,重新对步骤1预处理后的信号进行切分,然后对切分后得到的包含中华白海豚哨叫声信号的信号生成时频图,并自动将每段信号生成的时频图保存。本发明实现针对在海豚研究中进行长期声呐信号采集获得的海量数据的全自动检测和提取,降低对人工干预的依赖,提升效率。- 发布时间:2024-05-30 07:00:22
- 6
-
一种气泡型水下宽频漫反射编码声学超表面及其使用方法 公开日期:2024-03-22 公开号:CN115050348A 申请号:CN202210646964.8一种气泡型水下宽频漫反射编码声学超表面及其使用方法
- 申请号:CN202210646964.8
- 公开号:CN115050348A
- 公开日期:2024-03-22
- 申请人:青岛大学
本发明属于水下声学超材料技术领域,涉及一种气泡型水下宽带漫反射编码声学超表面及其使用方法,该声学超表面包括多个第一阵元和多个第二阵元,每个第一阵元的四个侧面分别连接第一阵元或第二阵元,第一阵元由N×N个第一超表面单元组成,第二阵元由N×N个第二超表面单元组成;第一超表面单元中的立方体框架具有疏水特性,在水环境中,立方体框架会捕获空气形成气泡,第一超表面单元与第二超表面单元在较宽频带内声波反射相位差接近180度,且保持基本稳定,通过调整阵元编码序列的空间排布,实现声学RCS缩减;通过3D打印方式制作超表面,制作精度高,成本低,在水下声音探测、水中通信和隐身领域具有巨大的发展潜能和重要的研究价值。- 发布时间:2024-03-25 07:00:16
- 13
-
设备控制方法、装置、智能设备及可读存储介质 公开日期:2023-06-20 公开号:CN115050368A 申请号:CN202210965129.0设备控制方法、装置、智能设备及可读存储介质
- 申请号:CN202210965129.0
- 公开号:CN115050368A
- 公开日期:2023-06-20
- 申请人:北京探境科技有限公司
本申请提出了一种设备控制方法、装置、智能设备及可读存储介质,该方法包括:获取控制信号;若控制信号为遥控信号,则对遥控信号进行解码,得到对应的控制编码;若控制信号为语音控制信号,则识别语音控制信号中的目标命令词,得到与目标命令词对应的控制编码;将控制编码转换成对应的控制码串;对控制码串进行解码,根据解码后的控制编码执行相应的操作,并将当前设备工作状态更新为控制编码对应的工作状态。本申请可以实现不同控制方式时的智能设备状态的同步和保存,防止误操作,提升用户体验。- 发布时间:2023-06-30 07:01:51
- 3
-
无人机动平台振动噪声自适应抵消方法及系统 公开日期:2023-07-28 公开号:CN115064147A 申请号:CN202210452690.9无人机动平台振动噪声自适应抵消方法及系统
- 申请号:CN202210452690.9
- 公开号:CN115064147A
- 公开日期:2023-07-28
- 申请人:哈尔滨工程大学
本发明公开了一种无人机动平台振动噪声自适应抵消方法及系统,属于自适应噪声抵消技术领域,其中,该方法包括:构建基于双组合接收水听器的自适应噪声抵消器;初始化自适应噪声抵消器的基本参数:抽头数、自适应学习步长和抽头权系数矢量函数,以计算输出信号;根据输出残差信号更新自适应噪声抵消器的抽头权系数矢量函数和自适应学习步长;迭代前两个步骤直至收敛,获得n个时刻的输出残差信号即为噪声抵消后的有用信号。该方法有效提取与平台振动噪声强相关的信号,无需先验已知有用信号或振动干扰的先验信息,实时更新步长的同时有效解决收敛速度和稳态失调误差的矛盾,具有很强的抑制平台振动噪声能力,且对低信噪比应用场景有很好的适应性。- 发布时间:2023-07-30 07:00:12
- 4
-
基于深度学习的音乐多模态数据情感识别方法 公开日期:2024-04-19 公开号:CN115064181A 申请号:CN202210654145.8基于深度学习的音乐多模态数据情感识别方法
- 申请号:CN202210654145.8
- 公开号:CN115064181A
- 公开日期:2024-04-19
- 申请人:东北大学
本发明涉及音乐多模态数据情感识别技术领域,尤其涉及基于深度学习的音乐多模态数据情感识别方法。其主要针对现有音乐学习单一模态识别情感提升的空间有限,不能深度挖掘音乐数据集中的特征向量的问题,提出如下技术方案:S1:音乐数据的预处理;S2:MIDI数据的特征提取;S3:文本数据的特征提取;S4:多模态融合。本发明利用决策级融合的思路进行多模态融合能够比特征级融合取得更好的情感分类效果,对音乐文本的情感深度学习,促进深度学习在音乐情感识别中的应用,提高音乐的分析效果,减少人工情感标注的作业量,提高准确率,主要应用于基于深度学习的音乐多模态数据情感识别。- 发布时间:2024-04-21 07:00:13
- 7
-
一种声纹筛系统及方法 公开日期:2023-06-16 公开号:CN115064176A 申请号:CN202210712269.7一种声纹筛系统及方法
- 申请号:CN202210712269.7
- 公开号:CN115064176A
- 公开日期:2023-06-16
- 申请人:广州市迪声音响有限公司
本发明适用于声纹处理技术领域,尤其涉及一种声纹筛系统及方法,所述方法包括:获取预录音频数据,得到常驻准入声纹;实时获取实时音频信息,提取其中的声纹信息,将其划分为常驻准入声纹和新增声纹;进行内容识别,计算两者对应识别结果的重合度,判断新增声纹是否准入;根据常驻准入声纹以及准入的新增声纹从实时音频信息提取准入音频数据,并将其与背景音频一同输出。本发明通过事先录制预录音频,根据预录音频判断在本次使用范围内的人声,并在使用过程中,监测新增的人声,根据新增人声的内容判断是否准入,从而在进行音频混合时,将收集到的音频数据与背景音频进行混合输出,避免了声反馈的问题,也解决了使用者临时加入的问题。- 发布时间:2023-06-30 07:01:59
- 6
原创力.专利