物理
下拉
最新专利
-
一种噪声事件检测方法和装置 公开日期:2025-01-10 公开号:CN116913325A 申请号:CN202311015718.3一种噪声事件检测方法和装置
- 申请号:CN202311015718.3
- 公开号:CN116913325A
- 公开日期:2025-01-10
- 申请人:广东省生态环境监测中心|||广州大学
本发明公开了一种噪声事件检测方法和装置,方法包括:获取环境音频数据,若环境音频数据的声压低于阈值,提取环境音频数据的声学特征数据输入到噪声事件检测网络,生成帧级时间预测结果和事件类别预测结果;噪声事件检测网络通过训练数据对初始噪声事件检测网络训练而来;训练数据由标签噪声数据构造而来;初始噪声事件检测网络的编码器网络由无标签噪声数据对初始编码器网络训练而来;对声学特征数据进行筛选和异常点修正后,进行起止时间点的检测,并生成起止时间标注,生成噪声事件检测结果,以实现通过无标签噪声数据训练初始噪声事件检测网络的编码网络,并通过标签数据对噪声事件检测网络进行联合优化,提升噪声事件检测的性能和效果。- 发布时间:2023-10-22 07:34:24
- 0
-
音频处理方法、装置、设备、存储介质及程序产品 公开日期:2025-01-10 公开号:CN116741147A 申请号:CN202210203766.4音频处理方法、装置、设备、存储介质及程序产品
- 申请号:CN202210203766.4
- 公开号:CN116741147A
- 公开日期:2025-01-10
- 申请人:腾讯科技(深圳)有限公司
本申请提供了一种音频处理方法、装置、设备、存储介质及程序产品,涉及音视频技术领域。该方法包括:获取第一音频;对第一音频进行语音定位,获得第一音频中的至少一个目标音频段落;该目标音频段落是包括语音的音频段落;获取至少一个目标音频段落的音频特征;基于至少一个目标音频段落的音频特征进行语种识别,获得至少一个目标音频段落各自的语种类型;基于至少一个目标音频段落各自的语种类型,获取第一音频的语种类型。通过上述方法,避免了获取第一音频的语种类型的过程中的人工标注过程,简化了语种识别的过程,提高了获取音视频内容的语种类型的效率,提高了获取语种类型的准确性。- 发布时间:2023-09-14 07:11:06
- 0
-
基于深度学习的语音增强 公开日期:2025-01-10 公开号:CN116508099A 申请号:CN202180073792.3基于深度学习的语音增强
- 申请号:CN202180073792.3
- 公开号:CN116508099A
- 公开日期:2025-01-10
- 申请人:杜比实验室特许公司
公开了一种用于抑制噪声并增强语音的系统和相关方法。所述系统训练神经网络模型,所述神经网络模型获取与原始带噪声波形相对应的带能量并产生语音值,所述语音值指示每一帧处的每个频带中存在的语音量。所述神经模型包括实施某种前瞻的特征提取块。所述特征提取块之后是编码器,所述编码器沿频域进行稳定的下采样,从而形成收缩路径。所述编码器之后是对应的解码器,所述解码器沿频域进行稳定的上采样,从而形成扩大路径。所述解码器从对应级别的编码器接收经缩放的输出特征图。所述解码器之后是分类块,所述分类块生成语音值,所述语音值指示针对所述多个帧中的每一帧处的所述多个频带中的每个频带存在的语音量。- 发布时间:2023-07-30 07:13:17
- 1
-
歌曲和弦编配模型的训练方法、装置、介质和计算设备 公开日期:2025-01-10 公开号:CN113870818A 申请号:CN202111076756.0歌曲和弦编配模型的训练方法、装置、介质和计算设备
- 申请号:CN202111076756.0
- 公开号:CN113870818A
- 公开日期:2025-01-10
- 申请人:杭州网易云音乐科技有限公司
本公开的实施方式提供了一种歌曲和弦编配模型的训练方法、装置、介质和计算设备。所述方法包括:从样本歌曲的音频文件中提取音频特征信息,所述音频特征信息包括歌曲和弦,以及人声对应的音符序列;根据所述音频特征信息生成对应于所述音符序列的音符矩阵;将所述音符矩阵作为训练样本对所述歌曲和弦编配模型进行有监督训练,其中,提取到的所述歌曲和弦被作为所述训练样本的样本标签。该方法可以使作曲人员使用歌曲和弦编配模型实现对歌曲和弦的自动化编配。不仅能够大幅减少和弦编配需要的时间,从而提升作曲人员的编配效率并降低人工成本;而且即便是乐理基础较为薄弱的普通用户也能够实现和弦编配,从而有助于实现更加多样化的音乐服务形式。- 发布时间:2023-07-09 07:06:59
- 0
-
文本转语音方法、装置、计算机设备及存储介质 公开日期:2025-01-10 公开号:CN113851108A 申请号:CN202111130534.2文本转语音方法、装置、计算机设备及存储介质
- 申请号:CN202111130534.2
- 公开号:CN113851108A
- 公开日期:2025-01-10
- 申请人:平安科技(深圳)有限公司
本发明涉及语音合成领域,尤其涉及一种文本转语音方法、装置、计算机设备及存储介质。其方法包括:从音色数据库中获取音色信息,并从客户端获取目标文本,对目标文本和音色信息进行预处理,得到第一复合信息;将第一复合信息输入注意力层,通过注意力层中的注意力网络模型对第一复合信息的复合特征进行提取,得到注意力层输出的第二复合信息;将第二复合信息输入音色分类器,通过音色分类器对第二复合信息进行音色识别,判断第二复合信息是否为目标音;若第二复合信息为目标音,则通过语音生成器对第二复合信息进行解码,生成与目标文本对应的语音信息。本发明可以使生成的语音信息更加接近目标音,可提高语音合成的准确性。- 发布时间:2023-07-07 07:09:27
- 0
-
语音识别装置和方法 公开日期:2025-01-10 公开号:CN113454717A 申请号:CN201980077694.X语音识别装置和方法
- 申请号:CN201980077694.X
- 公开号:CN113454717A
- 公开日期:2025-01-10
- 申请人:三星电子株式会社
本公开涉及一种用于识别用户语音的电子装置和由电子装置识别用户语音的方法。根据一个实施例,识别用户语音的方法包括步骤:获得被分割成多个帧单元的音频信号;通过将根据预设标度分布的滤波器组应用于以帧单元分割的音频信号的频谱来确定针对每个滤波器组的能量分量;对确定的针对每个滤波器组的能量分量进行平滑;基于针对每个滤波器组的平滑后的能量分量提取音频信号的特征向量;以及通过将提取出的特征向量输入到语音识别模型来识别音频信号中的用户语音。- 发布时间:2023-06-23 08:24:25
- 0
-
完全监督的说话者日志化 公开日期:2025-01-10 公开号:CN113272894A 申请号:CN201980088275.6完全监督的说话者日志化
- 申请号:CN201980088275.6
- 公开号:CN113272894A
- 公开日期:2025-01-10
- 申请人:谷歌有限责任公司
一种方法(500)包括接收语音话语(120)并且将所述语音话语分段成多个分段(220)。对于所述语音话语的每个分段,该方法还包括从所述分段提取说话者判别嵌入(240)并且使用被配置成接收所提取的说话者判别嵌入作为特征输入的概率生成模型(300)来预测关于所述分段的可能说话者(262)的概率分布。所述概率生成模型在训练语音话语的语料库上被训练,每个训练语音话语被分段成多个训练分段(220T)。每个训练分段包括对应的说话者判别嵌入和对应的说话者标签(250)。该方法还包括基于对应的分段的可能说话者的所述概率分布来将说话者标签指配给所述语音话语的每个分段。- 发布时间:2023-06-17 07:21:43
- 0
-
一种基于GTCN的实时语音情感识别方法及应用装置 公开日期:2025-01-10 公开号:CN113257279A 申请号:CN202110316240.2一种基于GTCN的实时语音情感识别方法及应用装置
- 申请号:CN202110316240.2
- 公开号:CN113257279A
- 公开日期:2025-01-10
- 申请人:厦门大学
一种基于GTCN的实时语音情感识别方法及应用装置,涉及生物特征识别技术领域,方法包括:步骤一、搜集一定数量的虚拟现实交互式语音游戏玩家的语音数据,对提取出来的数据进行预处理,包括端点检测和分帧加窗的操作;步骤二、提取预处理过后的语音数据的组合特征作为输入数据;步骤三、构建基于GTCN的模型,将输入数据经过训练,判断输入语音的情感;步骤四、结合输入数据和模型中的情感分类,与识别对象进行交互。相比其他语音情感识别方法,本发明实现了更高的准确率,在多个数据集中都表现出更佳的情感分类效果和更好的鲁棒性,并且能够以更高的效率和更低的内存进行训练,是一种高效稳定的语音情感识别方法。- 发布时间:2023-06-17 07:15:30
- 0
-
场景画面展示方法、装置、终端及存储介质 公开日期:2025-01-10 公开号:CN113113045A 申请号:CN202110362953.2场景画面展示方法、装置、终端及存储介质
- 申请号:CN202110362953.2
- 公开号:CN113113045A
- 公开日期:2025-01-10
- 申请人:广州世音联软件科技有限公司
本申请关于一种场景画面展示方法、装置、终端及存储介质,涉及媒体交互技术领域。所述方法包括:展示目标界面,该目标界面中包含虚拟场景展示区域;在虚拟场景展示区域中展示虚拟场景的场景画面;该虚拟场景是基于目标歌曲在各个播放时间点上的第一音频参数生成的,该虚拟场景中包含虚拟对象,以及对应于第一音频参数的可通过区域;响应于人声数据流,更新场景画面;更新的场景画面是虚拟对象基于人声数据流的第二音频参数在虚拟场景中执行动作的画面。通过上述方法,使得对目标用户的唱歌行为进行评价的过程中,在对目标用户的唱歌水平进行评价的同时,提高了对唱歌评价过程具象化的效果,进而提高了唱歌评价界面的显示效果。- 发布时间:2023-06-14 12:51:33
- 0
-
选择性传感器轮询 公开日期:2025-01-10 公开号:CN112885349A 申请号:CN202110121741.5选择性传感器轮询
- 申请号:CN202110121741.5
- 公开号:CN112885349A
- 公开日期:2025-01-10
- 申请人:谷歌有限责任公司
本发明涉及选择性传感器轮询。提供了一种用于基于语音激活的数据分组的计算机网络环境的选择性传感器轮询系统。一种系统可接收由设备的麦克风检测到的音频信号。所述系统可解析所述音频信号以识别触发关键词和请求。所述系统可为具有多个字段的动作数据结构选择模板。所述系统可确定要针对所述第一字段的数据而轮询第一传感器。所述系统可确定要获得由所述第二传感器先前收集到的存储器中的数据。所述系统可利用来自所述传感器和存储器的所述数据生成和传送所述动作数据结构,并且将所述动作数据结构传送到第三方设备。- 发布时间:2023-06-11 12:22:12
- 0