物理
下拉
最新专利
-
语音合成方法、装置、语音合成模型训练方法、装置 公开日期:2024-10-29 公开号:CN117877460A 申请号:CN202410052370.3语音合成方法、装置、语音合成模型训练方法、装置
- 申请号:CN202410052370.3
- 公开号:CN117877460A
- 公开日期:2024-10-29
- 申请人:汉王科技股份有限公司
本申请公开了一种语音合成方法、装置、语音合成模型训练方法、装置、电子设备,属于计算机技术领域。所述方法包括:对目标文本执行单词到音素的转换处理,得到目标音素;对目标文本进行语义情感提取,得到目标文本的情感语义特征向量;对目标音素进行多头注意力编码处理,得到音素特征向量;对情感语义特征向量和音素特征向量进行融合处理,得到融合向量;对融合向量进行随机时长预测,得到每个目标音素的持续时长信息;获取融合向量的均值和方差;根据均值、方差和持续时长信息,编码得到音频数据。本方法通过引入待合成文本的情感和语义信息,提高文本先验分布的复杂程度,拉近先验分布和后验分布距离,最终合成更富有表现力和情感的语音。- 发布时间:2024-04-16 07:24:29
- 0
-
一种基于深度学习判别方位历程图中目标轨迹类型的方法 公开日期:2024-10-29 公开号:CN117219121A 申请号:CN202311073446.2一种基于深度学习判别方位历程图中目标轨迹类型的方法
- 申请号:CN202311073446.2
- 公开号:CN117219121A
- 公开日期:2024-10-29
- 申请人:武汉普惠海洋光电技术有限公司|||北京神州普惠科技股份有限公司
一种基于深度学习判别方位历程图中目标轨迹类型的方法,其主要特征在于包括以下步骤:首先通过波束形成获取水声目标方位历程图,并进行多目标轨迹方位跟踪,获取跟踪轨迹方位的波束时域数据后加载深度学习预训练分类识别模型进行机器学习,最后判断跟踪的目标轨迹类型并得出该跟踪轨迹的预测类别,本发明算法合理,处理效率高,将深度学习技术应用于被动声呐多目标轨迹判别方法上,利用深度学习网络模型处理疑似目标轨迹的波束时域数据,能够在复杂的海洋噪声环境下快速发现可疑目标轨迹,极大地降低了工作人员的工作强度,并且判断目标轨迹的准确性高。- 发布时间:2023-12-17 07:34:23
- 0
-
一种语音合成模型的训练方法、装置、设备及介质 公开日期:2024-10-29 公开号:CN113870827A 申请号:CN202111142243.5一种语音合成模型的训练方法、装置、设备及介质
- 申请号:CN202111142243.5
- 公开号:CN113870827A
- 公开日期:2024-10-29
- 申请人:平安科技(深圳)有限公司
本申请涉及人工智能技术,提供一种语音合成模型的训练方法、装置、设备及介质。其中的方法包括:获取训练样本,训练样本包括训练语音信息和训练语音信息对应的训练文本信息,训练语音信息和训练文本信息指示的内容相同;通过参数编码器对训练语音信息进行编码处理,得到训练语音信息的嵌入信息;通过语音合成模型对训练文本信息进行编码处理,得到训练文本信息的音素数据;通过语音合成模型对嵌入信息和音素数据进行解码处理,得到目标语音信息;根据训练语音信息和目标语音信息,对语音合成模型进行训练,得到训练后的语音合成模型,可提高语音合成模型的训练效率。- 发布时间:2023-07-09 07:08:18
- 0
-
语音合成模型训练方法、语音合成方法和装置 公开日期:2024-10-29 公开号:CN113823260A 申请号:CN202111221947.1语音合成模型训练方法、语音合成方法和装置
- 申请号:CN202111221947.1
- 公开号:CN113823260A
- 公开日期:2024-10-29
- 申请人:科大讯飞股份有限公司
本发明提供一种语音合成模型训练方法、语音合成方法和装置,其中方法包括:确定初始合成模型,所述初始合成模型包括时长预测模块,所述时长预测模块用于预测文本中各音素在合成语音中的时长;基于所述初始合成模型,确定样本文本的合成语音,基于所述样本文本的样本语音和所述合成语音之间的差距,对所述时长预测模块的参数进行迭代更新,得到训练完成的语音合成模型。本发明提供的方法和装置,能够通过初始合成模型中的时长预测模块对样本文本中各音素在合成语音中的时长进行预测,避免了时长累计误差的问题,提高了语音合成模型在实际应用中的性能和准确率。- 发布时间:2023-07-06 11:00:54
- 0
-
一种音频编码方法和音频编码装置 公开日期:2024-10-29 公开号:CN113808597A 申请号:CN202010480931.1一种音频编码方法和音频编码装置
- 申请号:CN202010480931.1
- 公开号:CN113808597A
- 公开日期:2024-10-29
- 申请人:华为技术有限公司
本申请实施例公开了一种音频编码方法和音频编码装置,用于提高音频信号的编码质量。本申请实施例提供一种音频编码方法,包括:获取音频信号的当前帧,所述当前帧包括高频带信号;对所述高频带信号进行编码,以获得所述当前帧的编码参数,所述编码包括:音调成分筛选;所述编码参数用于表示所述高频带信号的目标音调成分的信息,所述目标音调成分是经过所述音调成分筛选后获得的,所述音调成分的信息包括所述音调成分的位置信息、数量信息、以及幅度信息或能量信息;对所述编码参数进行码流复用,以获得编码码流。- 发布时间:2023-07-05 07:14:33
- 0
-
一种分段式节流消音装置 公开日期:2024-10-29 公开号:CN113724676A 申请号:CN202111000925.2一种分段式节流消音装置
- 申请号:CN202111000925.2
- 公开号:CN113724676A
- 公开日期:2024-10-29
- 申请人:德格瑞(南通)压缩空气净化设备有限公司
本发明公开了一种分段式节流消音装置,所述分段式节流消音装置包括节流板,所述节流板上对称开设有四个对称的第一安装孔,所述安装孔内安装有支撑杆,所述支撑杆的一端固定安装有限位板,另一端固定安装有支撑板,还包括消音机构,所述消音机构穿过所述支撑板和所述节流板的中心抵住所述限位板设置,所述消音机构的中部与所述支撑板可拆卸连接,所述消音机构靠近所述限位板的端部固定安装有阀板;具有优化消音效果,快速排出高压气体等优点。- 发布时间:2023-07-03 10:35:38
- 0
-
增强局部依赖关系无监督预训练语音识别模型及训练方法 公开日期:2024-10-29 公开号:CN113380237A 申请号:CN202110642843.1增强局部依赖关系无监督预训练语音识别模型及训练方法
- 申请号:CN202110642843.1
- 公开号:CN113380237A
- 公开日期:2024-10-29
- 申请人:中国科学技术大学
本发明提供了一种增强局部依赖关系的无监督预训练语音识别模型,所述语音识别模型包括编码器模块和解码器模块;所述编码器模块包括特征提取模块和上下文模块,所述上下文模块采用包括深度可分离卷积模块的transformer编码器,所述transformer编码器包括自注意力模块;其中,所述深度可分离卷积模块和所述自注意力模块的位置的组合方式如下:所述自注意力模块后接所述深度可分离卷积模块,两者是串行关系;所述自注意力模块和所述深度可分离卷积模块并行;所述自注意力模块先和所述深度可分离卷积模块并行,然后再和所述深度可分离卷积模块串行;所述自注意力模块先和所述深度可分离卷积模块串行,然后再和所述深度可分离卷积模块并行。- 发布时间:2023-06-23 07:52:23
- 0
-
一种花瓣型通道多孔吸声结构 公开日期:2024-10-29 公开号:CN113362795A 申请号:CN202110506484.7一种花瓣型通道多孔吸声结构
- 申请号:CN202110506484.7
- 公开号:CN113362795A
- 公开日期:2024-10-29
- 申请人:西安交通大学
本发明公开了一种花瓣型通道多孔吸声结构,刚性背衬上设置有穿孔面板,穿孔面板上间隔平行布置有若干花瓣型微通道,花瓣型微通道的半径r满足极坐标θ函数关系。本发明吸声体结构简单、使用方便、吸声效果极佳,具有较宽的吸声频带,可以适用于室内墙体、交通工具内壁面,能够较好地替代现有的人工多孔吸声体。- 发布时间:2023-06-23 07:32:49
- 0
-
一种新型爵士鼓底鼓双踩下摆式踏板 公开日期:2024-10-29 公开号:CN113160777A 申请号:CN202110153453.8一种新型爵士鼓底鼓双踩下摆式踏板
- 申请号:CN202110153453.8
- 公开号:CN113160777A
- 公开日期:2024-10-29
- 申请人:北京骎英教育科技有限公司
本发明公开了一种新型爵士鼓底鼓下摆式双踩踏板,采用弯形拉杆(26)、摇臂夹(22)及配合结构,设置在轴下方和踏板上方之间,通过由下向上前的摆动击打,同时利用向前摆动的惯性,获得饱满的击打音色,脚的发力轻松,减少了演奏者或初学者对踏板的关注度和负担;通过对摇臂夹(22)的弯曲设计,使击打鼓面提高,由此获得了更大的摆动惯性,完全改变了传统锤头通过轴转动在上方向前击打鼓面的方式,克服了演奏者因为传统踩踏底板因为用力方式对演奏者演奏的困扰,具有突出的出乎意料的效果。- 发布时间:2023-06-15 07:17:05
- 0
-
语音交互方法、装置、计算机可读存储介质及电子设备 公开日期:2024-10-29 公开号:CN113066489A 申请号:CN202110279812.4语音交互方法、装置、计算机可读存储介质及电子设备
- 申请号:CN202110279812.4
- 公开号:CN113066489A
- 公开日期:2024-10-29
- 申请人:深圳地平线机器人科技有限公司
本公开实施例公开了一种语音交互方法、装置、计算机可读存储介质及电子设备,其中,该方法包括:获取至少一路音频信号;利用预设的语音识别模型对至少一路音频信号进行识别,得到第一类识别结果;从缓存中确定已存储的识别数据;基于已存储的识别数据,生成第二类识别结果;利用语音识别模型,对第一类识别结果和第二类识别结果进行处理,得到至少一路音频信号分别对应的语句识别结果;对各个语句识别结果进行语义解析,得到至少一个解析结果;基于至少一个解析结果,生成用于控制语音交互设备执行相应功能的指令。本公开实施例提高了对至少一路音频信号进行处理的效率,有助于在多路语音交互的场景仍然能够满足低资源消耗、低处理延迟的要求。- 发布时间:2023-06-14 12:30:06
- 0