物理
下拉
最新专利
-
基于韵律情感迁移的语音合成系统及方法 公开日期:2024-04-02 公开号:CN117636842A 申请号:CN202410089533.5基于韵律情感迁移的语音合成系统及方法
- 申请号:CN202410089533.5
- 公开号:CN117636842A
- 公开日期:2024-04-02
- 申请人:北京天翔睿翼科技有限公司
本发明公开了一种基于韵律情感迁移的语音合成系统及方法,该系统包括:文本编码器模块、序列对齐模块、多级风格适配器、内容适配器模块、解码器模块,其中,文本编码器模块用于TTS系统中输入的文本进行向量化编码,此种编码会混合一些风格属性;序列对齐模块用于语音‑文本的对齐,对齐后通过内容适配器模块,消除这种风格属性;多级风格适配器对参考音频进行多尺度特征的提取,并将这些多尺度特征进行融合,再和内容适配后的输出一起输入语音帧解码器进行梅尔声谱的输出;最后接入声码器即可将梅尔声谱转为语音波形。本申请不仅能够对韵律进行细粒度建模,而且解决了长句依赖中局部和全局信息的获取问题,提高了语言合成系统的泛化能力。- 发布时间:2024-03-05 07:21:29
- 0
-
一种人机交互物流机器人及其控制方法 公开日期:2024-04-02 公开号:CN114267356A 申请号:CN202111669677.0一种人机交互物流机器人及其控制方法
- 申请号:CN202111669677.0
- 公开号:CN114267356A
- 公开日期:2024-04-02
- 申请人:重庆特斯联智慧科技股份有限公司
本申请提供一种人机交互物流机器人及其控制方法,该方法包括:获取语音交互命令的声纹信息和对应的意图物流任务;计算语音交互命令的声纹信息与多个预设声纹信息的匹配度,根据语音交互命令的声纹信息与一个预设声纹信息匹配,用户的身份验证通过;将意图物流任务与预设物流任务单中的任务进行匹配,选取匹配度最高的任务作为最优匹配任务,并发送随机生成的验证码给最优匹配任务中记录的用户手机号码;根据最优匹配任务发出语音问题,接收用户对于语音问题的回答语音信息,与最优匹配任务中记载的起始点、目的点以及随机生成的验证码比对,如果匹配则按照最优匹配任务执行物流运输。本申请实现对物流机器人的人机交互中安全性的控制,防止误命令的出现。- 发布时间:2023-05-05 09:37:17
- 0
-
一种儿童语音识别的方法、电子设备及介质 公开日期:2024-04-02 公开号:CN117809631A 申请号:CN202310618498.7一种儿童语音识别的方法、电子设备及介质
- 申请号:CN202310618498.7
- 公开号:CN117809631A
- 公开日期:2024-04-02
- 申请人:上海电机学院
本发明公开一种儿童语音识别的方法、电子设备及介质,属于人工智能领域。针对现有儿童语音识别成本高且识别效果差的问题,本发明提供一种儿童语音识别的方法,包括将成人语音的语料库中的成人语音进行转换成儿童语音;将成人语音卷积神经网络的隐含层参数进行迁移,形成初始儿童语音卷积神经网络;更新最后一个隐含层和Softmax激活函数的参数,得到最终儿童语音卷积神经网络;将最终儿童语音卷积神经网络用于儿童语音识别。本发明通过将成人语音转换成儿童语音,得到虚拟儿童语音的语料库,解决儿童语料库资源稀少的问题;最终儿童语音卷积神经网络的搭建在成人语音卷积神经网络的基础上进行更新,使时间成本与金钱成本都大幅度降低,且有效保障精度。- 发布时间:2024-04-04 07:16:55
- 0
-
一种一体式成型的无头吉他 公开日期:2024-04-02 公开号:CN220709941U 申请号:CN202322182874.0一种一体式成型的无头吉他
- 申请号:CN202322182874.0
- 公开号:CN220709941U
- 公开日期:2024-04-02
- 申请人:桂林智神信息技术股份有限公司
本实用新型提供了一种一体式成型的无头吉他,包括:琴颈,琴身主体,琴颈下壳以及指板;琴颈,琴身主体以及指板一体式成型;指板的正面设置有品丝,指板远离琴身主体的一端设置有上弦枕,琴颈位于指板的背面,琴颈下壳设置在琴颈的背面;指板与琴颈位于琴身主体的前侧。本实用新型提出了一种一体式成型的无头吉他,不包括琴头,从造型上来看轻巧、便携、前卫,使用一体式工艺设计,从声音效果上来看共振好、声音好、延音好、结构稳定性好不易跑音,不用频繁调音,将琴桥设置在一体式的拉弦板上,节省空间,结构更紧凑,一体式的拉弦板调音效果突出、调音方便,优化了调音体验。- 发布时间:2024-04-04 07:37:22
- 0
-
激光语音监听信号高保真解调及信噪比优化方法 公开日期:2024-04-02 公开号:CN117809685A 申请号:CN202410003135.7激光语音监听信号高保真解调及信噪比优化方法
- 申请号:CN202410003135.7
- 公开号:CN117809685A
- 公开日期:2024-04-02
- 申请人:中国电子科技集团公司第二十六研究所
本发明公开了一种激光语音监听信号高保真解调及信噪比优化方法,将激光语音监测得到的探测信号和对应的实际语音信号作为训练样本;对训练样本中的探测信号进行预处理,以使探测信号中调制信息的重要表征参数能够尽量准确地传递进入拟训练的人工智能模型;将预处理后的探测信号输入人工智能模型进行训练;得到训练后的人工智能模型;将实际待解调的探测信号按前述方法进行预处理;将预处理后的实际待解调探测信号输入训练后的人工智能模型中,输出即为解调信号。本发明能够实现有效信号与非平稳噪声之间的高精度分离,在完成信号识别提取的同时实现信噪优化。- 发布时间:2024-04-04 07:24:06
- 0
-
自应答智能辅助电话机器人 公开日期:2024-04-02 公开号:CN117809657A 申请号:CN202410223528.9自应答智能辅助电话机器人
- 申请号:CN202410223528.9
- 公开号:CN117809657A
- 公开日期:2024-04-02
- 申请人:国网山东省电力公司东营供电公司
本申请属于电话机器人技术领域,提供了自应答智能辅助电话机器人,由语音接收反馈模块和语义判断模块构成,语义判断模块接收文本信息,并基于类型判断模型对文本信息进行识别,对会话进程和会话初始目的进行识别;若会话初始目的为信息上传,基于信息收集模型反馈语音;若会话初始目的为信息获取语义判断模块基于信息答疑模型对文本信息进行识别以判断用户信息获取目标,根据相应信息获取目标检索数据库,将检索结果反馈语音。本申请提升信息收集归纳能力和答案获取的能力,提升交流的速度和准确性,进而提高信息交流效率。- 发布时间:2024-04-04 07:27:13
- 0
-
基于矢量量化对抗生成网络的情感音乐生成方法及系统 公开日期:2024-04-02 公开号:CN117809598A 申请号:CN202410151211.9基于矢量量化对抗生成网络的情感音乐生成方法及系统
- 申请号:CN202410151211.9
- 公开号:CN117809598A
- 公开日期:2024-04-02
- 申请人:陕西师范大学|||黑龙江大学
本发明公开一种基于矢量量化对抗生成网络的情感音乐生成方法及系统,方法包括以下步骤:根据指定的情感标签,用训练好的情感音乐模型生成指定情感的音乐元素序列;对指定情感的音乐元素序列进行解码及合成,得到情感音乐;所述情感音乐生成模型框架为矢量量化对抗生成网络,包含1个编码器、1个解码器、1个码本和1个生成器;训练阶段输入为情感音乐元素序列,输出为相同情感音乐元素序列;推理阶段输入为指定的情感标签,输出为含有情感的音乐元素序列。相比循环对抗生成网络的情感迁移方法,不需要为每对情感单独训练一个模型,更节省训练成本;本方法采用离散码本表示情感特征的高维向量,可以更好的将各情感数据进行集中聚类。- 发布时间:2024-04-04 07:26:22
- 0
-
防误入间隔的监测方法、装置、设备、介质和程序产品 公开日期:2024-04-02 公开号:CN115019809A 申请号:CN202210534414.7防误入间隔的监测方法、装置、设备、介质和程序产品
- 申请号:CN202210534414.7
- 公开号:CN115019809A
- 公开日期:2024-04-02
- 申请人:中国南方电网有限责任公司超高压输电公司广州局
本申请涉及电力安全领域,提供了一种防误入间隔的监测方法、装置、设备、介质和程序产品。本申请能够在不依赖服务器的通讯信号状态的前提下,准确地对电力运行人员进行身份验证,且仅需通过结构较简单、制造成本较低的设备即可实现。该方法包括:获取操作票的名称;接收监护人朗读的操作票名称,将所述监护人朗读的操作票名称与所述操作票的名称进行分段识别,得到第一分段识别结果;若所述第一分段识别结果表征所述监护人朗读的操作票名称正确,则接收操作人朗读的操作票名称,并将所述操作人朗读的操作票名称与所述操作票的名称进行分段识别,得到第二分段识别结果;根据所述第二分段识别结果,确定是否需要开启间隔的电子锁。- 发布时间:2024-04-04 07:00:07
- 0
-
语音识别装置、方法、电子设备和计算机可读存储介质 公开日期:2024-04-02 公开号:CN111862944A 申请号:CN201910364997.1语音识别装置、方法、电子设备和计算机可读存储介质
- 申请号:CN201910364997.1
- 公开号:CN111862944A
- 公开日期:2024-04-02
- 申请人:北京嘀嘀无限科技发展有限公司
本申请实施例提供了一种语音识别装置、方法、电子设备和计算机可读存储介质,其中,该方法包括:获取服务请求端与服务提供端之间的具有地域化语言风格的语音内容;对所述具有地域化语言风格的语音内容进行特征提取,得到所述语音内容对应的具有地域化语言风格的声学特征向量;将所述具有地域化语言风格的声学特征向量输入到预先训练的目标语音识别模型中,将所述语音内容转化为文本信息。本申请实施例能够提高对具有地域化语言风格的语音内容进行识别时的识别准确度。- 发布时间:2024-04-04 07:29:38
- 0
-
语音交互控制方法、装置、电子设备、存储介质和系统 公开日期:2024-04-02 公开号:CN111768783A 申请号:CN202010622594.5语音交互控制方法、装置、电子设备、存储介质和系统
- 申请号:CN202010622594.5
- 公开号:CN111768783A
- 公开日期:2024-04-02
- 申请人:北京百度网讯科技有限公司
本申请公开了一种语音交互控制方法、装置、电子设备、存储介质和系统,涉及语音识别、人机交互和深度学习技术领域。其中,一种语音交互控制方法的具体实现方案为:采集音频信号;检测所述音频信号中的唤醒词;基于检测的唤醒词结果,播放提示音和/或执行音频信号中的语音指令。本申请实施例简化了交互流程。- 发布时间:2024-04-04 07:30:42
- 0