物理
下拉
最新专利
-
语音处理方法、装置、设备及存储介质 公开日期:2024-04-16 公开号:CN112735392A 申请号:CN202011634031.4语音处理方法、装置、设备及存储介质
- 申请号:CN202011634031.4
- 公开号:CN112735392A
- 公开日期:2024-04-16
- 申请人:中国科学技术大学|||科大讯飞股份有限公司
本申请实施例公开了一种语音处理方法、装置、设备及存储介质,通过对用于解码文本单元的权重序列进行改进,使得每一文本单元对应的权重序列与各语音帧的时间信息的关联关系趋近于目标函数关系,由于每一文本单元对应的目标函数关系表示,该文本单元与各个语音帧的时间信息的关联度,与各个语音帧的时间信息间的关联关系,这就使得,利用权重序列进行解码得到的文本单元与语音帧的时间信息是强相关的,因此,利用各个语音帧的时间信息,以及各文本单元对应的目标函数能够准确实现语音帧的时间信息与文本单元的对应关系,也就是将语音帧的时间信息与文本单元准确对齐,从而提高了将语音识别结果与音频对齐的准确率。- 发布时间:2023-06-05 18:26:14
- 0
-
即时播放帧(IPF)的生成、传输及处理的方法、设备及系统 公开日期:2024-04-16 公开号:CN112740325A 申请号:CN201980061575.5即时播放帧(IPF)的生成、传输及处理的方法、设备及系统
- 申请号:CN201980061575.5
- 公开号:CN112740325A
- 公开日期:2024-04-16
- 申请人:杜比国际公司
本文描述一种用于对编码音频数据的位流进行解码的音频解码器,其中所述编码音频数据的位流表示音频样本值的序列并包括多个帧,其中每一帧包括相关联的编码音频样本值,所述音频解码器包括:确定器,所述确定器经配置以确定所述编码音频数据的位流的帧是否是包括与当前帧相关联的编码音频样本值及额外信息的即时播放帧;及初始化器,所述初始化器经配置以在所述确定器确定所述帧是即时播放帧时初始化所述解码器,其中初始化所述解码器包括在对与所述当前帧相关联的所述编码音频样本值进行解码之前对由所述额外信息包括的所述编码音频样本值进行解码。进一步描述一种用于对所述编码音频数据的位流进行解码的方法,以及一种音频编码器、一种音频编码器的系统及一种用于生成具有即时播放帧的所述编码音频数据的位流的方法。此外,还描述一种用于在编码音频数据的位流中生成即时播放帧或用于从编码音频数据的位流中移除即时播放帧的设备及相应的非暂时性数字存储媒体。- 发布时间:2023-06-05 18:12:06
- 0
-
语音提醒方法、装置、云端服务器及存储介质 公开日期:2024-04-16 公开号:CN112712807A 申请号:CN202011541167.0语音提醒方法、装置、云端服务器及存储介质
- 申请号:CN202011541167.0
- 公开号:CN112712807A
- 公开日期:2024-04-16
- 申请人:宁波奥克斯电气股份有限公司|||奥克斯空调股份有限公司
本发明涉及空调器技术领域,提出了一种语音提醒方法、装置、云端服务器及存储介质,所述方法应用于云端服务器,云端服务器与空调器通信连接,所述方法包括:接收空调器发送的语音音频,其中,语音音频是空调器采集的用户语音;判断语音音频是否为查询类音频;若语音音频为查询类音频,则指示空调器针对语音音频进行语音提醒。与现有技术相比,本发明避免了当用户无法区分空调器是故障还是正常运行阶段时而导致的故障误报、进而影响用户体验。- 发布时间:2023-06-05 18:08:56
- 0
-
语音标注质量评价方法、装置、设备及存储介质 公开日期:2024-04-16 公开号:CN112700763A 申请号:CN202011570121.1语音标注质量评价方法、装置、设备及存储介质
- 申请号:CN202011570121.1
- 公开号:CN112700763A
- 公开日期:2024-04-16
- 申请人:中国科学技术大学|||科大讯飞股份有限公司
本申请提出一种语音标注质量评价方法、装置、设备及存储介质,该方法包括:获取与目标语音对应的待标注的语音识别结果,所述待标注的语音识别结果通过对所述目标语音的语音识别结果进行文本片段替换得到,其中,替换后的文本片段是相对于所述目标语音的错误文本片段;获取标注对象对所述待标注的语音识别结果进行文本标注处理得到的标注结果,所述文本标注处理为标注识别错误的文本的处理;根据所述待标注的语音识别结果以及所述标注结果,确定所述标注对象对所述目标语音进行语音标注的标注质量。上述过程实现了对标注对象的语音标注质量的自动评价,实现了对标注对象的语音标注工作的监督,利于提升标注对象语音标注质量。- 发布时间:2023-06-05 18:01:29
- 0
-
一种语音转写方法及装置 公开日期:2024-04-16 公开号:CN112687273A 申请号:CN202011569238.8一种语音转写方法及装置
- 申请号:CN202011569238.8
- 公开号:CN112687273A
- 公开日期:2024-04-16
- 申请人:科大讯飞股份有限公司
本申请公开了一种语音转写方法及装置,该方法包括:在获取到第一声音采集设备在当前时刻下采集的第一当前声音信号之后,先根据该第一当前声音信号,确定该第一当前声音信号的声音能量;再判断该第一当前声音信号的声音能量是否高于该第一当前声音信号对应的转写阈值,以便在确定该第一当前声音信号的声音能量高于该第一当前声音信号对应的转写阈值时,对第一当前声音信号进行语音转写。其中,第一当前声音信号对应的转写阈值是根据第一历史声音信号的声音能量确定的,且该第一历史声音信号是由该第一声音采集设备在第一历史时间段内采集的。如此能够在出现快速对话、抢话、插话等多人同时说话的现象时准确地获取到各个发言者的发言信息。- 发布时间:2023-06-04 11:37:58
- 0
-
一种基于声学后验概率的任意说话人语音转换系统及方法 公开日期:2024-04-16 公开号:CN112634918A 申请号:CN202011057900.1一种基于声学后验概率的任意说话人语音转换系统及方法
- 申请号:CN202011057900.1
- 公开号:CN112634918A
- 公开日期:2024-04-16
- 申请人:江苏清微智能科技有限公司
本发明公开一种基于声学后验概率的任意说话人语音转换系统及方法,属于基于深度学习的语音转换的技术技术领域。包括:一个语音识别模型、一个多说话人数据集、一个语音转换模型、一个目标说话人数据集和一个LPCNet声码器;预训练一个语音转换模型,自适应训练所述语音转换模型,通过LPCNet声码器完成所述声学特征到目标说话人对应转换语音的合成。本发明解决了现有技术中语音转换只能完成特定说话人之间且质量较低的问题。- 发布时间:2023-06-03 12:11:15
- 0
-
生成语音指令的方法、装置、介质、设备、系统及车辆 公开日期:2024-04-16 公开号:CN112614490A 申请号:CN202011451314.5生成语音指令的方法、装置、介质、设备、系统及车辆
- 申请号:CN202011451314.5
- 公开号:CN112614490A
- 公开日期:2024-04-16
- 申请人:北京罗克维尔斯科技有限公司
本公开涉及一种生成语音指令的方法、装置、介质、设备、系统及车辆。方法包括:接收用户输入的语音音频,并将所述语音音频转换成相应的文本信息;利用多个语音引擎对所述文本信息进行语音识别,以得到多条语义信息;从多条所述语义信息中确定目标语义信息;根据所述目标语义信息生成目标语音指令。如此,利用多个语音引擎,提高了对语音音频识别的准确度,缩小了语义理解的意图与用户真实意图的偏差,使得生成的目标语音指令更符合用户的真实意图,提高了语音交互理解的准确率。- 发布时间:2023-06-03 12:03:58
- 0
-
音频分析系统及其分析方法 公开日期:2024-04-16 公开号:CN112562732A 申请号:CN202011556299.0音频分析系统及其分析方法
- 申请号:CN202011556299.0
- 公开号:CN112562732A
- 公开日期:2024-04-16
- 申请人:北京中科通量科技有限公司
本公开涉及音频分析系统及其分析方法,音频分析系统包括:前端机处理装置和音频分析装置,所述前端机处理装置和所述音频分析装置通过网络连接,其中,所述前端机处理装置包括抓取模块,该抓取模块用于抓取网络上的媒体流数据,所述音频分析装置接收来自所述前端机处理装置的媒体流数据,对该媒体流数据进行分析,所述音频分析装置包括:拼包模块、音视频分离模块、解码模块以及检测模块,该检测模块对所述音频数据的内容进行分析检测,具有样例匹配检测模块,该样例匹配检测模块通过在预先建立的样例检测库,优选进行音频样例比对。本发明通过分析服务器实现样例匹配库来过滤已知媒体流信息,大大减少检测压力,提升检测效率。- 发布时间:2023-06-02 13:37:13
- 0
-
一种视频翻译方法、系统、装置及存储介质 公开日期:2024-04-16 公开号:CN112562721A 申请号:CN202011375314.1一种视频翻译方法、系统、装置及存储介质
- 申请号:CN202011375314.1
- 公开号:CN112562721A
- 公开日期:2024-04-16
- 申请人:清华珠三角研究院|||赛业(广州)生物科技有限公司
本发明公开了一种视频翻译方法、系统、装置及存储介质,其中方法包括以下步骤:获取视频数据;对所述视频数据进行语音分割,获得语音片段以及与所述语音片段对应的视频片段;对所述语音片段进行语音识别,获得第一文本,对所述第一文本进行翻译,获得第二文本;根据所述第二文本获取合成语音,通过调整所述合成语音和与之对应的所述视频片段,使所述合成语音与所述视频片段匹配;检测并调整所述视频片段中的唇形,以使所述唇形与所述合成语音同步匹配。本发明实现了对视频自动翻译的功能,能够生成目标语言声音的音频,并生成声音与唇形匹配的视频,解决了不同语种间的交流障碍,无需人工配音,降低了翻译成本,可广泛应用于视频处理领域。- 发布时间:2023-06-02 13:29:28
- 0
-
回声数据消除方法及装置、终端设备、存储介质 公开日期:2024-04-16 公开号:CN112489671A 申请号:CN202011505942.7回声数据消除方法及装置、终端设备、存储介质
- 申请号:CN202011505942.7
- 公开号:CN112489671A
- 公开日期:2024-04-16
- 申请人:深圳市潮流网络技术有限公司
本发明公开了一种回声数据消除方法及装置、终端设备、存储介质。所述方法包括:播放包括第一音频数据和预设超声波音频数据的第二音频数据,预设超声波音频数据的至少第一频率值和第二频率值的组合所对应的数值为第一音频数据的标识号的数值;采集与所播放的声音,并生成第三音频数据;识别出至少第一频率值和第二频率值;根据包括至少第一频率值和第二频率值的组合所对应的数值查找第二音频数据的播放时间;根据播放时间和第三音频数据的采集时间计算回声延迟时间;根据回声延迟时间将第三音频数据中的第四音频数据和第一音频数据在时间上进行对齐;从第四音频数据中消除第一音频数据,以得到第五音频数据。本发明能获得更好的回声消除效果。- 发布时间:2023-06-02 12:36:41
- 0