物理
下拉
最新专利
-
空间音频方向参数的编码 公开日期:2025-09-19 公开号:CN114945982A 申请号:CN202080092858.9空间音频方向参数的编码
- 申请号:CN202080092858.9
- 公开号:CN114945982A
- 公开日期:2025-09-19
- 申请人:诺基亚技术有限公司
一种装置,包括被配置为执行以下操作的部件:获得与至少一个音频信号(102)的至少两个时频部分(202)相关联的方向参数值(108);以及基于码本(206),对所获得的方向参数值进行编码,其中,该码本包括两个或更多个量化级别,该两个或更多个量化级别被设置为使得第一量化级别包括第一组量化值,第二或随后的量化级别包括第二或另一组量化值和前面的量化级别量化值。- 发布时间:2022-10-24 10:21:16
- 1
-
一种终端硬件和算法软件处理相结合的离线语音识别方法 公开日期:2024-06-04 公开号:CN114944155A 申请号:CN202110186016.6一种终端硬件和算法软件处理相结合的离线语音识别方法
- 申请号:CN202110186016.6
- 公开号:CN114944155A
- 公开日期:2024-06-04
- 申请人:成都启英泰伦科技有限公司
一种终端硬件和算法软件处理相结合的离线语音识别方法及芯片,包括如下步骤:S1.麦克风实时抓取外部的模拟语音信号;S2.将第一缓存中的数据搬运到语音预处理模块;S3.得到洁净语音信号,将该洁净语音信号存放;S4.直接内存访问模块将洁净语音信号同时发送到语音端点检测模块和硬件计算模块;S5.语音端点检测模块计算判断所述洁净语音信号是否是有效语音信号;S6.计算语音声学特征;S7.神经网络计算模块针对语音声学特征进行计算,CPU进行语音识别处理。本发明将芯片中的CPU和各个硬件计算模块,通过有效的并行处理方式进行了连接,通过数据并行搬运,可以降低CPU处理能力要求,降低了芯片成本。- 发布时间:2022-10-24 10:22:05
- 5
-
播放控制方法、播放控制系统以及程序 公开日期:2025-09-23 公开号:CN115004295A 申请号:CN202080093135.0播放控制方法、播放控制系统以及程序
- 申请号:CN202080093135.0
- 公开号:CN115004295A
- 公开日期:2025-09-23
- 申请人:雅马哈株式会社
播放控制系统具备:状态检测部,对物体从操作面以规定的距离相离的第一状态、以及所述物体与所述操作面接触的第二状态进行检测;以及播放控制部,在检测出所述第一状态的第一时刻开始声音的播放,从所述第一时刻直到比检测出所述第二状态的第二时刻靠后的第三时刻,持续进行所述声音的播放,在所述第一时刻至所述第二时刻的第一期间内使所述声音的特征量变化。- 发布时间:2022-10-24 10:22:45
- 1
-
使用合成图像特征来对音频场景进行分类 公开日期:2025-10-03 公开号:CN115004299A 申请号:CN202080093349.8使用合成图像特征来对音频场景进行分类
- 申请号:CN202080093349.8
- 公开号:CN115004299A
- 公开日期:2025-10-03
- 申请人:微软技术许可有限责任公司
一种计算系统包括接收输入图像并将该输入图像编码成真实图像特征的编码器;将该真实图像特征解码成经重构图像的解码器;生成器,该生成器接收对应于该输入图像的第一音频数据并从该第一音频数据中生成第一合成图像特征,并且接收第二音频数据并从该第二音频数据中生成第二合成图像特征;鉴别器,该鉴别器接收真实和合成图像特征这两者并确定目标特征是真实的还是合成的;以及分类器,该分类器基于第二合成图像特征来对第二音频数据的场景进行分类。- 发布时间:2022-10-24 10:22:49
- 1
-
车载语音处理系统及方法、存储介质、终端 公开日期:2025-05-30 公开号:CN114999469A 申请号:CN202110229541.1车载语音处理系统及方法、存储介质、终端
- 申请号:CN202110229541.1
- 公开号:CN114999469A
- 公开日期:2025-05-30
- 申请人:博泰车联网科技(上海)股份有限公司
一种车载语音处理系统及方法、存储介质、终端,其中方法包括:获取语音数据库,语音数据库中包括若干同音关键词库、与各个同音关键词库相关联的若干库语境标识,各个同音关键词库中均具有若干库关键词,各个同音关键词库中的库关键词的输出优先级顺序与不同的库语境标识相关联;获取用户输入的语音数据;从语音数据中获取语境标识和关键词读音;在语音数据库中获取相匹配的同音关键词库;在同音关键词库相关联的若干库语境标识中获取相匹配的库语境标识,相匹配的库语境标识所关联的同音关键词库中的库关键词的输出优先级顺序为待输出优先级顺序。利用语境标识能够更加快速且精准的判断关键词读音的应用场景,进而提高语音识别的速度与精准度。- 发布时间:2022-10-24 10:25:15
- 4
-
人机语音对话的控制方法、装置及电子设备 公开日期:2025-10-03 公开号:CN114999470A 申请号:CN202110229744.0人机语音对话的控制方法、装置及电子设备
- 申请号:CN202110229744.0
- 公开号:CN114999470A
- 公开日期:2025-10-03
- 申请人:阿里巴巴创新公司
本申请公开了一种人机语音对话的控制方法,包括:接收用户端进行人机语音对话的第一语音流及监控机器端进行所述人机语音对话的第二语音流;获取所述第一语音流在第一时间切片的第一状态特征和所述第二语音流在所述第一时间切片的第二状态特征;根据所述第一状态特征和所述第二状态特征,从设定的控制指令集中选择对应的控制指令;其中,所述控制指令集包括控制机器端播报的指令和控制机器端静音的指令;在所述第一时间切片之后,根据所述相匹配的控制指令控制所述机器端进行所述人机语音对话。该方法使得电子设备可以在任意时刻及时、准确的控制机器端响应用户发出的语音流,以降低响应延迟,提升用户体验。- 发布时间:2022-10-24 10:25:17
- 3
-
语音数据处理方法、装置、智能设备及计算机存储介质 公开日期:2025-09-30 公开号:CN114999499A 申请号:CN202110232082.2语音数据处理方法、装置、智能设备及计算机存储介质
- 申请号:CN202110232082.2
- 公开号:CN114999499A
- 公开日期:2025-09-30
- 申请人:阿里巴巴创新公司
本申请实施例提供了一种语音数据处理方法、装置、智能设备及计算机存储介质,其中,语音数据处理方法包括:获取包含有多个人脸的人脸图像数据和语音频谱数据;对所述人脸图像数据和所述语音频谱数据进行处理,以确定出目标人脸;获取所述目标人脸对应的人脸特征及声纹特征,并基于所述人脸特征、所述声纹特征及所述语音频谱数据,确定用于指示所述语音频谱数据中的噪音数据的频谱掩码;根据所述频谱掩码,对所述语音频谱数据进行语音增强处理。通过本申请实施例提供的方案,可以对目标用户的语音进行增强,提升用户体验。- 发布时间:2022-10-24 10:25:40
- 1
-
音频播放方法及装置 公开日期:2023-08-15 公开号:CN114999438A 申请号:CN202110498738.5音频播放方法及装置
- 申请号:CN202110498738.5
- 公开号:CN114999438A
- 公开日期:2023-08-15
- 申请人:中移互联网有限公司|||中国移动通信集团有限公司
本申请公开了一种音频播放方法及装置,该音频播放方法,包括:获取目标用户的用户信息,其中,所述用户信息包括:自定义词库,所述自定义词库中记录有所述目标用户定义的词汇的音频;获取待合成的文本;利用目标语音合成模块对所述待合成的文本进行语音合成,得到所述待合成的文本对应的合成音频;在所述待合成的文本中包括所述目标用户的自定义词库中的第一词汇的情况下,使用第一音频替换所述合成音频中与所述第一词汇对应的音频部分,得到目标音频,其中,所述第一音频为所述自定义词库中的所述第一词汇的音频;播放所述目标音频。- 发布时间:2022-10-24 10:25:50
- 5
-
防误入间隔的监测方法、装置、设备、介质和程序产品 公开日期:2024-04-02 公开号:CN115019809A 申请号:CN202210534414.7防误入间隔的监测方法、装置、设备、介质和程序产品
- 申请号:CN202210534414.7
- 公开号:CN115019809A
- 公开日期:2024-04-02
- 申请人:中国南方电网有限责任公司超高压输电公司广州局
本申请涉及电力安全领域,提供了一种防误入间隔的监测方法、装置、设备、介质和程序产品。本申请能够在不依赖服务器的通讯信号状态的前提下,准确地对电力运行人员进行身份验证,且仅需通过结构较简单、制造成本较低的设备即可实现。该方法包括:获取操作票的名称;接收监护人朗读的操作票名称,将所述监护人朗读的操作票名称与所述操作票的名称进行分段识别,得到第一分段识别结果;若所述第一分段识别结果表征所述监护人朗读的操作票名称正确,则接收操作人朗读的操作票名称,并将所述操作人朗读的操作票名称与所述操作票的名称进行分段识别,得到第二分段识别结果;根据所述第二分段识别结果,确定是否需要开启间隔的电子锁。- 发布时间:2024-04-04 07:00:07
- 3
-
一种在线学习语音识别应答装置及方法 公开日期:2024-03-08 公开号:CN115019777A 申请号:CN202210695667.2一种在线学习语音识别应答装置及方法
- 申请号:CN202210695667.2
- 公开号:CN115019777A
- 公开日期:2024-03-08
- 申请人:华南理工大学
本发明公开了一种在线学习语音识别应答装置及方法,用于将电话通话的语音识别为文字,并根据这些文字给出相关的机器语音回答,尤其是这种电话自动应答装置有在线学习的功能,可以用于替代电话人工客服,电话咨询系统、电话指挥决策系统等。本发明利用一台普通电脑的声卡实现2路模拟语音识别,结合差频原理识别和提取对话语音中的专用词汇,提高了语音识别率和回答的准确率。- 发布时间:2024-03-10 07:00:07
- 4
原创力.专利