物理
下拉
最新专利
-
直播互动方法、装置、电子设备及可读存储介质 公开日期:2024-12-31 公开号:CN112562705A 申请号:CN202011508099.8直播互动方法、装置、电子设备及可读存储介质
- 申请号:CN202011508099.8
- 公开号:CN112562705A
- 公开日期:2024-12-31
- 申请人:广州虎牙信息科技有限公司
本申请实施例提供一种直播互动方法、装置、电子设备及可读存储介质,通过将主播输入的第一音频数据进行切分,并从得到的多个音频片段中提取出内容特征图,然后通过提取该内容特征图的内容特征向量,并对该内容特征向量进行转换,得到具有目标音色风格的风格转换图。接着对内容特征图和风格转换图进行特征反转换,得到具有该目标音色风格的第二音频数据。最后,根据第二音频数据生成该主播对应的虚拟形象的互动视频流,并发送给客户端进行播放。如此,能够针对任意主播,在不改变音频内容的同时,将虚拟形象直播过程中的音色风格转换为目标音色风格以与观众进行互动,进而提高直播过程中的互动效果,更大程度上地调动观众与主播的互动。- 发布时间:2023-06-02 13:35:40
- 0
-
混响增益归一化 公开日期:2024-12-31 公开号:CN112534498A 申请号:CN201980052745.3混响增益归一化
- 申请号:CN201980052745.3
- 公开号:CN112534498A
- 公开日期:2024-12-31
- 申请人:奇跃公司
公开了用于提供精确且独立控制的混响特性的系统和方法。在一些实施例中,系统可以包括混响处理系统、直接处理系统和组合器。混响处理系统可以包括混响初始功率RIP控制系统和混响器。RIP控制系统可以包括混响初始增益RIG和RIP校正器。RIG可以被配置为将RIG值应用于输入信号,RIP校正器可以被配置为将RIP校正因子应用于来自RIG的信号。混响器可以被配置为将混响效果应用于来自RIP控制系统的信号。在一些实施例中,可以计算和应用一个或多个值和/或校正因子,以使得从混响处理系统中的部件输出的信号被归一化为预定值(例如,单位值(1.0))。- 发布时间:2023-06-02 13:10:58
- 0
-
一种语音交互方法、装置、智能终端及存储介质 公开日期:2024-12-31 公开号:CN112489654A 申请号:CN202011287390.7一种语音交互方法、装置、智能终端及存储介质
- 申请号:CN202011287390.7
- 公开号:CN112489654A
- 公开日期:2024-12-31
- 申请人:深圳康佳电子科技有限公司
本发明公开了一种语音交互方法、装置、智能终端及存储介质,其中,上述语音交互方法包括:获取目标对象的语音指令;对上述语音指令进行语音文字识别,获取识别内容;基于上述识别内容进行多维度语义分析,获取语义分析结果;基于上述语义分析结果做出响应。在对用户语音进行语音文字识别后,基于识别内容进行多维度语义分析,充分考虑用户思考问题的维度,从而基于多维度分析理解用户的真实意图,提高语义分析识别的准确性,有利于为用户提供更好的语音交互。- 发布时间:2023-06-02 12:28:35
- 1
-
语音对象识别模型的训练方法、识别方法和装置 公开日期:2024-12-31 公开号:CN114613370A 申请号:CN202210369273.8语音对象识别模型的训练方法、识别方法和装置
- 申请号:CN202210369273.8
- 公开号:CN114613370A
- 公开日期:2024-12-31
- 申请人:北京达佳互联信息技术有限公司
本公开关于语音对象识别模型的训练方法、识别方法和装置,训练方法包括:获取多个语音对象中每个语音对象的第一语音信号样本、第二语音信号样本和重叠语音信号样本;将每个语音对象的第一语音信号样本和重叠语音信号样本输入语音提取器,获得提取出的第三语音信号样本;将每个语音对象对应的第三语音信号样本输入语音表征提取器,获得每个语音对象对应的语音表征;将每个语音对象对应的语音表征输入身份判别器,获得身份预测概率;根据每个语音对象对应的第三语音信号样本、第二语音信号样本、身份预测概率以及标识标签,计算损失;通过损失调整语音提取器、语音表征提取器和身份判别器的参数,从而对语音对象识别模型进行训练。- 发布时间:2023-05-14 11:21:59
- 0
-
一种基于个性化语音进行视频合成的处理方法及装置 公开日期:2024-12-31 公开号:CN114519997A 申请号:CN202210146223.3一种基于个性化语音进行视频合成的处理方法及装置
- 申请号:CN202210146223.3
- 公开号:CN114519997A
- 公开日期:2024-12-31
- 申请人:湖南快乐阳光互动娱乐传媒有限公司
本申请公开了一种基于个性化语音进行视频合成的处理方法及装置,获取待处理数据和处于授权状态的视频对象,通过智能审核技术,对待处理数据进行智能审核,得到审核结果,若审核结果为合法的待处理数据,则通过预设模拟规则对视频对象的声线进行模拟,得到目标语音,将目标语音与视频对象对应的视频进行合成,得到个性化视频。通过上述方案,无需人工去截取和逐字拼接个性化语音,只需通过深度学习方法来模拟视频对象的声线来合成个性化语音,并与后续的视频对象对应的视频进行合成,提高个性化语音和视频合成的效果、多样性和趣味性。此外,通过智能审核技术来审核用户输入的内容是否合规,无需人工参与审核,从而提高了审核的效率。- 发布时间:2023-05-10 11:48:49
- 0
-
确定要应用于多声道音频信号的校正、相关编码和解码 公开日期:2024-12-31 公开号:CN114503195A 申请号:CN202080069491.9确定要应用于多声道音频信号的校正、相关编码和解码
- 申请号:CN202080069491.9
- 公开号:CN114503195A
- 公开日期:2024-12-31
- 申请人:奥兰治
本发明涉及一种用于确定要对多声道声音信号进行的一组校正(Corr.)的方法,其中,该组校正是基于表示原始多声道信号的空间图像的信息(Inf.B)和表示已经进行编码并且然后解码的原始多声道信号的空间图像的信息(Inf.B)来确定的。本发明还涉及一种实施该确定方法的解码方法和编码方法,并且涉及相关联的编码设备和解码设备。- 发布时间:2023-05-09 11:52:35
- 0
-
一种基于修正LoRaWAN协议的离线语音中控实现方法及装置 公开日期:2024-12-31 公开号:CN114333833A 申请号:CN202111331503.3一种基于修正LoRaWAN协议的离线语音中控实现方法及装置
- 申请号:CN202111331503.3
- 公开号:CN114333833A
- 公开日期:2024-12-31
- 申请人:绿碳智能建筑(杭州)有限公司|||浙江慧居智能物联有限公司
本发明公开了一种基于修正LoRaWAN协议的离线语音中控实现方法及装置,所述离线语音中控通过修正后的LoRaWAN模块,实现了离线语音中控与智能家居系统交互已达到控制的需求,解决了离线语音无法控制智能家居问题;离线语音中控通过对LoRaWAN的CLASS C模式进行修正,满足智能家居实时响应需求。离线语音中控通过修正后的LoRaWAN的CLASS C模式,依旧保持远距离传输和高性能的绕射能力。离线语音中控实现了一次唤醒后可以连续多次进行语音交互,解决了一次交互就需要一次唤醒的繁琐唤醒,更符合用户语音交互习惯。离线语音中控通过服务器可以自区分局域命令还是全局命令,解决了不同场所需要局域控制还是全局控制的引起的误控制等异常问题。- 发布时间:2023-05-06 09:53:52
- 0
-
吸油烟机的异音识别及音频注入的控制方法和系统 公开日期:2024-12-31 公开号:CN114299990A 申请号:CN202210105179.1吸油烟机的异音识别及音频注入的控制方法和系统
- 申请号:CN202210105179.1
- 公开号:CN114299990A
- 公开日期:2024-12-31
- 申请人:杭州老板电器股份有限公司
本发明提供了一种吸油烟机的异音识别及音频注入的控制方法和系统,包括:获取目标吸油烟机在运行时产生的目标声音信号;基于小波包分析对目标声音信号进行小波包分解,得到目标特征向量;基于预设特征向量与目标特征向量之间的比值,判断目标声音信号是否为异常噪音;如果是,则在预设调控声数据库中确定与目标特征向量对应的目标调控声,并通过播放目标调控声对目标声音信号进行掩蔽;预设调控声数据库包括多个调控声,每个调控声对应一个特征向量范围。本发明缓解了现有技术中存在的不能有效识别异音和不能针对产生的异音进行降噪处理的技术问题。- 发布时间:2023-05-05 10:03:56
- 0
-
音频数据处理方法、装置、电子设备、存储介质及产品 公开日期:2024-12-31 公开号:CN114299997A 申请号:CN202111539880.6音频数据处理方法、装置、电子设备、存储介质及产品
- 申请号:CN202111539880.6
- 公开号:CN114299997A
- 公开日期:2024-12-31
- 申请人:北京声智科技有限公司
本申请提供了一种音频数据处理方法、装置、电子设备、存储介质及产品,属于语音交互技术领域。方法包括:接收输入的音频数据,对音频数据进行识别处理,输出识别结果;在识别结果包括唤醒词的情况下,获取音频数据的解码图,解码图包括音频数据对应的解码路径的跳转标识序列,跳转标识序列用于表示音频数据中相邻音频帧之间的音素变化情况;从跳转标识序列中确定目标跳转标识,目标跳转标识满足目标条件,目标条件表示跳转标识序列中的跳转标识属于唤醒词的唤醒音素序列对应的跳转标识;基于目标跳转标识,确定唤醒词对应的唤醒音频数据的首端点。该方案实现了音素级别的端点检测,能够准确地检测出唤醒音频数据的首端点。- 发布时间:2023-05-05 09:54:54
- 0
-
一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法 公开日期:2024-12-31 公开号:CN114203203A 申请号:CN202110812035.5一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法
- 申请号:CN202110812035.5
- 公开号:CN114203203A
- 公开日期:2024-12-31
- 申请人:南京邮电大学
本发明揭示了一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法,包括如下步骤:S1、提取傅里叶系数特征并输入深度神经网络,训练深度神经网络以提取瓶颈特征,得到深层瓶颈层特征及浅层瓶颈层特征;S2、对深层瓶颈层特征与浅层瓶颈层特征的寻优融合;S3、对融合后的深浅层瓶颈层特征进行特征筛选,降低特征维度,提取情感区分度高的特征;S4、构建组合分类器,提出多分类器联合判决算法,进行联合判决、得到最终判决结果。本发明提取了深层瓶颈层特征和浅层瓶颈层特征,并利用GA对这两种特征进行融合,弥补了单一的瓶颈层特征不能全面表达情感信息的缺陷,进一步提升了语音情感识别效果。- 发布时间:2023-04-28 09:58:52
- 0