物理
下拉
最新专利
-
空间音频方向参数的编码 公开日期:2025-09-19 公开号:CN114945982A 申请号:CN202080092858.9空间音频方向参数的编码
- 申请号:CN202080092858.9
- 公开号:CN114945982A
- 公开日期:2025-09-19
- 申请人:诺基亚技术有限公司
一种装置,包括被配置为执行以下操作的部件:获得与至少一个音频信号(102)的至少两个时频部分(202)相关联的方向参数值(108);以及基于码本(206),对所获得的方向参数值进行编码,其中,该码本包括两个或更多个量化级别,该两个或更多个量化级别被设置为使得第一量化级别包括第一组量化值,第二或随后的量化级别包括第二或另一组量化值和前面的量化级别量化值。- 发布时间:2022-10-24 10:21:16
- 72
-
一种终端硬件和算法软件处理相结合的离线语音识别方法 公开日期:2024-06-04 公开号:CN114944155A 申请号:CN202110186016.6一种终端硬件和算法软件处理相结合的离线语音识别方法
- 申请号:CN202110186016.6
- 公开号:CN114944155A
- 公开日期:2024-06-04
- 申请人:成都启英泰伦科技有限公司
一种终端硬件和算法软件处理相结合的离线语音识别方法及芯片,包括如下步骤:S1.麦克风实时抓取外部的模拟语音信号;S2.将第一缓存中的数据搬运到语音预处理模块;S3.得到洁净语音信号,将该洁净语音信号存放;S4.直接内存访问模块将洁净语音信号同时发送到语音端点检测模块和硬件计算模块;S5.语音端点检测模块计算判断所述洁净语音信号是否是有效语音信号;S6.计算语音声学特征;S7.神经网络计算模块针对语音声学特征进行计算,CPU进行语音识别处理。本发明将芯片中的CPU和各个硬件计算模块,通过有效的并行处理方式进行了连接,通过数据并行搬运,可以降低CPU处理能力要求,降低了芯片成本。- 发布时间:2022-10-24 10:22:05
- 82
-
用于对音频编码的音调信号进行频域长期预测的编码器、解码器、编码方法和解码方法 公开日期:2026-01-09 公开号:CN115004298A 申请号:CN201980103473.5用于对音频编码的音调信号进行频域长期预测的编码器、解码器、编码方法和解码方法
- 申请号:CN201980103473.5
- 公开号:CN115004298A
- 公开日期:2026-01-09
- 申请人:弗劳恩霍夫应用研究促进协会
提供了根据实施例的用于根据音频信号的一个或多个先前帧来对音频信号的当前帧进行编码的编码器(100)。一个或多个先前帧在当前帧之前,其中当前帧和一个或多个先前帧中的每一个包括音频信号的一个或多个谐波分量,其中当前帧和一个或多个先前帧中的每一个包括频域中或变换域中的多个频谱系数。为了生成对当前帧的编码,编码器(100)将确定对一个或多个先前帧中的最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。此外,编码器(100)将使用音频信号的一个或多个先前帧中的每个先前帧的多个频谱系数中的三个或更多个频谱系数构成的第一组频谱系数,来确定对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。- 发布时间:2022-10-24 10:22:14
- 35
-
播放控制方法、播放控制系统以及程序 公开日期:2025-09-23 公开号:CN115004295A 申请号:CN202080093135.0播放控制方法、播放控制系统以及程序
- 申请号:CN202080093135.0
- 公开号:CN115004295A
- 公开日期:2025-09-23
- 申请人:雅马哈株式会社
播放控制系统具备:状态检测部,对物体从操作面以规定的距离相离的第一状态、以及所述物体与所述操作面接触的第二状态进行检测;以及播放控制部,在检测出所述第一状态的第一时刻开始声音的播放,从所述第一时刻直到比检测出所述第二状态的第二时刻靠后的第三时刻,持续进行所述声音的播放,在所述第一时刻至所述第二时刻的第一期间内使所述声音的特征量变化。- 发布时间:2022-10-24 10:22:45
- 90
-
使用合成图像特征来对音频场景进行分类 公开日期:2025-10-03 公开号:CN115004299A 申请号:CN202080093349.8使用合成图像特征来对音频场景进行分类
- 申请号:CN202080093349.8
- 公开号:CN115004299A
- 公开日期:2025-10-03
- 申请人:微软技术许可有限责任公司
一种计算系统包括接收输入图像并将该输入图像编码成真实图像特征的编码器;将该真实图像特征解码成经重构图像的解码器;生成器,该生成器接收对应于该输入图像的第一音频数据并从该第一音频数据中生成第一合成图像特征,并且接收第二音频数据并从该第二音频数据中生成第二合成图像特征;鉴别器,该鉴别器接收真实和合成图像特征这两者并确定目标特征是真实的还是合成的;以及分类器,该分类器基于第二合成图像特征来对第二音频数据的场景进行分类。- 发布时间:2022-10-24 10:22:49
- 110
-
车载语音处理系统及方法、存储介质、终端 公开日期:2025-05-30 公开号:CN114999469A 申请号:CN202110229541.1车载语音处理系统及方法、存储介质、终端
- 申请号:CN202110229541.1
- 公开号:CN114999469A
- 公开日期:2025-05-30
- 申请人:博泰车联网科技(上海)股份有限公司
一种车载语音处理系统及方法、存储介质、终端,其中方法包括:获取语音数据库,语音数据库中包括若干同音关键词库、与各个同音关键词库相关联的若干库语境标识,各个同音关键词库中均具有若干库关键词,各个同音关键词库中的库关键词的输出优先级顺序与不同的库语境标识相关联;获取用户输入的语音数据;从语音数据中获取语境标识和关键词读音;在语音数据库中获取相匹配的同音关键词库;在同音关键词库相关联的若干库语境标识中获取相匹配的库语境标识,相匹配的库语境标识所关联的同音关键词库中的库关键词的输出优先级顺序为待输出优先级顺序。利用语境标识能够更加快速且精准的判断关键词读音的应用场景,进而提高语音识别的速度与精准度。- 发布时间:2022-10-24 10:25:15
- 140
-
人机语音对话的控制方法、装置及电子设备 公开日期:2025-10-03 公开号:CN114999470A 申请号:CN202110229744.0人机语音对话的控制方法、装置及电子设备
- 申请号:CN202110229744.0
- 公开号:CN114999470A
- 公开日期:2025-10-03
- 申请人:阿里巴巴创新公司
本申请公开了一种人机语音对话的控制方法,包括:接收用户端进行人机语音对话的第一语音流及监控机器端进行所述人机语音对话的第二语音流;获取所述第一语音流在第一时间切片的第一状态特征和所述第二语音流在所述第一时间切片的第二状态特征;根据所述第一状态特征和所述第二状态特征,从设定的控制指令集中选择对应的控制指令;其中,所述控制指令集包括控制机器端播报的指令和控制机器端静音的指令;在所述第一时间切片之后,根据所述相匹配的控制指令控制所述机器端进行所述人机语音对话。该方法使得电子设备可以在任意时刻及时、准确的控制机器端响应用户发出的语音流,以降低响应延迟,提升用户体验。- 发布时间:2022-10-24 10:25:17
- 57
-
语音数据处理方法、装置、智能设备及计算机存储介质 公开日期:2025-09-30 公开号:CN114999499A 申请号:CN202110232082.2语音数据处理方法、装置、智能设备及计算机存储介质
- 申请号:CN202110232082.2
- 公开号:CN114999499A
- 公开日期:2025-09-30
- 申请人:阿里巴巴创新公司
本申请实施例提供了一种语音数据处理方法、装置、智能设备及计算机存储介质,其中,语音数据处理方法包括:获取包含有多个人脸的人脸图像数据和语音频谱数据;对所述人脸图像数据和所述语音频谱数据进行处理,以确定出目标人脸;获取所述目标人脸对应的人脸特征及声纹特征,并基于所述人脸特征、所述声纹特征及所述语音频谱数据,确定用于指示所述语音频谱数据中的噪音数据的频谱掩码;根据所述频谱掩码,对所述语音频谱数据进行语音增强处理。通过本申请实施例提供的方案,可以对目标用户的语音进行增强,提升用户体验。- 发布时间:2022-10-24 10:25:40
- 84
-
音频播放方法及装置 公开日期:2023-08-15 公开号:CN114999438A 申请号:CN202110498738.5音频播放方法及装置
- 申请号:CN202110498738.5
- 公开号:CN114999438A
- 公开日期:2023-08-15
- 申请人:中移互联网有限公司|||中国移动通信集团有限公司
本申请公开了一种音频播放方法及装置,该音频播放方法,包括:获取目标用户的用户信息,其中,所述用户信息包括:自定义词库,所述自定义词库中记录有所述目标用户定义的词汇的音频;获取待合成的文本;利用目标语音合成模块对所述待合成的文本进行语音合成,得到所述待合成的文本对应的合成音频;在所述待合成的文本中包括所述目标用户的自定义词库中的第一词汇的情况下,使用第一音频替换所述合成音频中与所述第一词汇对应的音频部分,得到目标音频,其中,所述第一音频为所述自定义词库中的所述第一词汇的音频;播放所述目标音频。- 发布时间:2022-10-24 10:25:50
- 79
-
不须计算取样频率误差的盲源分离方法以及音频处理系统 公开日期:2026-01-09 公开号:CN114999520A 申请号:CN202110660272.4不须计算取样频率误差的盲源分离方法以及音频处理系统
- 申请号:CN202110660272.4
- 公开号:CN114999520A
- 公开日期:2026-01-09
- 申请人:台达电子国际(新加坡)私人有限公司
本揭露提出一种不须计算取样频率误差的盲源分离方法以及音频处理系统,盲源分离方法适用于一音频处理系统,此音频处理系统包括多个装置,每一个装置包括多个麦克风。先计算每个装置感测的信号向量与混和矩阵的一行之间的差异,此差异用来建立一目标函数,接着执行一最佳化演算法来计算混和矩阵。根据混和矩阵与信号向量可以计算出原始信号而不用计算装置之间的取样频率误差。如此一来,便不需要补偿取样频率误差。- 发布时间:2022-10-24 10:25:55
- 77
原创力.专利