首页 / 专利分类库 / 乐器;声学
序号 专利名 申请号 申请日 公开(公告)号 公开(公告)日 发明人
101 一种自适应语音通信方法、设备及存储介质 CN202410070888.X 2024-01-17 CN117935823A 2024-04-26 卓春才; 杨德文; 皮碧虹; 龙丁奋
发明涉及车载语音通讯技术领域,公开了一种自适应语音通信方法、设备及存储介质。该方法包括:选择音频编码器,判断语音数据是否支持硬编码处理;若不支持硬编码处理,则判断CPU是否过载;若CPU不过载,则读取网络带宽,判断网络带宽是否小于带宽阈值;若小于带宽阈值,则使用Opus编码,对所述PCM音频裸数据进行编码处理,得到Opus编码数据,发送所述Opus编码数据至接收端;若不小于带宽阈值,则使用AAC编码,对PCM音频裸数据进行编码处理,得到AAC编码数据,发送AAC编码数据至接收端。在本发明实施例中,自适应语音通信方法能够解决车载在线语音识别通讯时语音编码器压缩率低、编码音频策略单一的问题。
102 音频编码方法、装置、介质、设备和程序产品 CN202410156543.6 2024-02-04 CN117935822A 2024-04-26 李强; 王凌志; 叶东翔; 朱勇
申请公开了一种支持低频增强的音频编码方法、装置、介质、设备和程序产品,属于音频编解码技术领域。该方法包括:在音频播放设备具有重低音播放能时,根据低频效果声道参数,将音频中的低频信号通过离散余弦变换、低通滤波、信号自适应性分析、频带扩展编码、频域噪声整形参数获取、离散余弦变换谱系数量化、熵编码、残余编码和位流复用的处理,得到音频对应的码流;在音频播放设备不具有重低音播放能力时,根据低频效果声道参数,生成音频对应的虚拟低音,并将虚拟低音叠加到音频的原始声道上,利用完成叠加的音频进行L2HC编码。本申请能够在减少计算量的条件下,支持单声道和双声道的音频生成低频效果,增强了用户体验。
103 一种说话人嵌入层模型训练方法及说话人识别方法 CN202311848913.4 2023-12-29 CN117935812A 2024-04-26 李郡; 尚德龙; 周玉梅
发明公开了一种说话人嵌入层模型训练方法及说话人识别方法,获取训练数据集,所述训练数据集中的每项数据包括音频频谱和说话人标签;构建说话人嵌入层模型;基于训练数据集以及混合插值方法,前向传播计算损失函数,反向传播更新说话人嵌入层模型参数,直至说话人嵌入层模型收敛,获得完成训练的说话人嵌入层模型。优点:使用混合插值方法,生成混合音频频谱和计算混合音频频谱相应的损失函数,扩充了混合插值数据,提高模型的稳健性;并且在计算音频频谱对应的损失函数时,对批次中的每个正样本,使其余弦距离应大于当前批次的所有负样本对距离,提高说话人嵌入层模型的区分性。
104 语音智能识别方法和系统 CN202410277656.1 2023-10-30 CN117935810A 2024-04-26 邹弘伶
发明提供的一种语音智能识别方法和系统,该方法包括基于用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频使用第一分割模型输出得到说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离;基于麦克的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据;将用户说话语音数据转换为文字,该方法能够准确的将环境中其他人的人声和用户人声进行分割。
105 多用户配置 CN202410272195.9 2020-03-27 CN117935806A 2024-04-26 T·G·卡瑞根; P·L·科夫曼; D·C·格拉哈姆
本公开涉及多用户配置。示例性方法包括:在电子设备处:接收请求;以及响应于该请求:如果语音输入不匹配与跟该电子设备相关联的账户相关联的语音简档:则使得使用与该电子设备相关联的第一账户基于该请求来输出第一信息;如果该电子设备的设置具有第一状态,则使得基于该请求来更新该第一账户的账户数据;并且如果该设置具有第二状态,则放弃使得更新该账户数据;并且如果该语音输入匹配与跟该电子设备相关联的账户相关联的语音简档:则使得使用与匹配的语音简档相关联的该账户来输出该第一信息;并且使得基于该请求来更新该账户的账户数据。
106 多用户配置 CN202410271615.1 2020-03-27 CN117935805A 2024-04-26 T·G·卡瑞根; P·L·科夫曼; D·C·格拉哈姆
本公开涉及多用户配置。示例性方法包括:在电子设备处:接收请求;以及响应于该请求:如果语音输入不匹配与跟该电子设备相关联的账户相关联的语音简档:则使得使用与该电子设备相关联的第一账户基于该请求来输出第一信息;如果该电子设备的设置具有第一状态,则使得基于该请求来更新该第一账户的账户数据;并且如果该设置具有第二状态,则放弃使得更新该账户数据;并且如果该语音输入匹配与跟该电子设备相关联的账户相关联的语音简档:则使得使用与匹配的语音简档相关联的该账户来输出该第一信息;并且使得基于该请求来更新该账户的账户数据。
107 一种CMS摄像头语音识别系统 CN202410092817.X 2024-01-23 CN117935800A 2024-04-26 卢明; 唐德亮; 许姗姗
发明公开了一种CMS摄像头语音识别系统,包括控制单元、语音识别处理模、操控模块、操控开关模块;所述控制单元由主控单元和副控单元构成;所述控制单元分别与语音识别处理模块、操控模块、操控开关模块连接;所述语音识别处理模块与操控模块连接;所述操控模块、操控开关模块连接连接;所述操控模块与CMS摄像头连接。本发明涉及CMS摄像头语音识别技术领域,本发明的有益效果是,通过语音识别系统,便于CMS摄像头安装后,调整度和调整打开关闭,使用方便,让CMS摄像头更加智能化,满足科技创新需求。
108 一种语音交互式装置、语音交互方法及电子设备 CN202410025820.X 2024-01-08 CN117935799A 2024-04-26 张岸宏; 李业纯; 刘钰
申请公开了一种语音交互式装置、语音交互方法及电子设备,涉及智能交互技术领域。该语音交互装置包括拾音模、识别模块、鉴别模块和交互模块。本申请公开的语音交互方法与该语音交互装置相对应,公开的电子设备与该语音交互方法相对应。采用本申请,通过识别模块对语音信号进行识别以确认语音交互需求,同时,在存在不同用户发出的语音内容时,通过对语音信号的聚类处置实现语音数据的精准识别,从而明确是否有语音交互需求,然后再根据该语音交互需求对应的语音数据中是否存在交互内容需求来明确后续交互模块的执行内容,解决了现有技术中无法为用户提供舒适的使用体验的问题。
109 信息交互方法、装置、电子设备以及存储介质 CN202311820687.9 2023-12-27 CN117935797A 2024-04-26 张博; 孟祥涛; 李智
本公开提供了一种信息交互方法、装置、电子设备以及存储介质,涉及计算机技术领域和信息交互技术领域。该信息交互方法包括:获取与目标对象针对目标事件进行第n次信息交互的历史内容信息和目标事件的当前处理状态信息,历史内容信息包括目标对象针对目标事件的处理意图,其中,n为大于等于1的整数;根据处理意图和当前处理状态信息,生成第n+1次信息交互的目标路径,其中,目标路径指示了与目标对象进行第n+1次信息交互过程中的多个会话节点之间的关联关系;以及基于关联关系、处理意图、当前处理状态信息生成用于向目标对象发送的交互信息。
110 设备控制的方法、装置、电子设备、存储介质及车辆 CN202310587764.4 2023-05-23 CN117935792A 2024-04-26 华承平
本公开涉及一种设备控制的方法、装置、电子设备、存储介质及车辆,应用于车辆控制领域,包括:接收第二设备通过声波发射装置发送的超声波信号,所述超声波信号包括唤醒抑制指令,根据所述唤醒抑制指令,停止对接收到的语音唤醒词的响应,能够通过超声波信号接收唤醒抑制指令,无需建立第一设备与第二设备之间的无线连接,实现过程较简单。
111 一种基于决策树的语音回复异常词汇检测与修正处理方法 CN202310480656.7 2023-04-28 CN117935790A 2024-04-26 吴新开; 李永伟; 范雨琦; 刘云浩; 霍向
发明公开了一种基于决策树的语音回复异常词汇检测与修正处理方案,属于智能硬件技术领域,所述方法包括:对获取的语音输入进行语义解析,提取出目标场景关键词;基于所述目标场景关键词,生成初始回复语句;基于预先创建的决策树对所述初始回复语句进行异常词检测;按照第一预设规则对检测到的异常词进行修正处理,得到目标回复语句;输出所述目标回复语句。通过本申请提供的基于决策树的语音回复异常词汇检测与修正处理方案,能够精准地对初始回复语句中的异常词进行规避,提升网络安全性。
112 语音识别方法及系统、设备、存储介质 CN202410071729.1 2024-01-17 CN117935789A 2024-04-26 吕召彪; 赵文博; 肖清; 许程冲
申请实施例公开了一种语音识别方法及系统、设备、存储介质,语音识别方法应用于语音识别系统包括的电子设备,语音识别系统还包括麦克阵列,麦克风阵列包括多个麦克风,方法包括:通过多个麦克风,获取与各个麦克风对应的多个声源数据;获取各个声源数据对应的语音特征,将各个声源数据对应的语音特征分别与预设语音特征进行相似度比对,获取各个声源数据对应的匹配语音特征;对各个声源数据对应的匹配语音特征进行语音质量分析,根据语音质量分析结果,确定目标声源数据;根据各个目标声源数据对应的语音质量分析结果,对各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征;根据融合语音特征以及预先设置的语音识别网络模型,获取语音识别结果。能够对不同麦克风采集的声源数据进行语音质量分析,并根据结果进行语音特征的融合处理,通过融合语音特征进行语音识别,提高语音识别处理的准确性。
113 语音识别模型的训练方法、装置、电子设备及存储介质 CN202410155152.2 2024-02-02 CN117935786A 2024-04-26 付立; 范璐; 吴友政; 何晓冬
本公开提供了一种语音识别模型的训练方法和语音识别方法。该训练方法包括:获取训练音频数据;对训练音频数据进行编码处理,得到第一特征数据;通过初始关键文本子模型对关键文本数据进行特征提取,得到第二特征数据;通过初始特征融合子模型对第一特征数据和第二特征数据进行特征融合,得到第三特征数据;对与第一特征数据和第三特征数据相对应的第四特征数据进行解码处理,得到训练音频数据对应的识别文本数据;基于识别文本数据和标注文本数据,训练初始关键文本子模型和初始特征融合子模型,以基于训练完成的关键文本子模型和训练完成的特征融合子模型得到语音识别模型。通过该方法训练得到的语音识别模型能够提升对关键词的语音识别效果。
114 用于在端到端模型中跨语言语音识别的基于音素的场境化 CN202311813671.5 2020-04-28 CN117935785A 2024-04-26 胡珂; 安托万·让·布吕盖; 塔拉·N·赛纳特; 罗希特·普拉卡什·普拉巴瓦尔卡尔; 戈兰·蓬达克
申请公开了用于在端到端模型中跨语言语音识别的基于音素的场境化。一种方法(500)包括接收对由第一语言的母语讲话者(110)讲出的话语(106)进行编码的音频数据,以及接收包括不同于第一语言的第二语言的一个或多个项的偏移项列表(105)。该方法还包括使用语音识别模型(200)处理从音频数据推导的声学特征(105)以生成第一语言的词条和对应音素序列的语音识别分数。该方法还包括基于偏移项列表中的一个或多个项对音素序列的语音识别分数重新评分,以及使用词条的语音识别分数和音素序列的重新评分的语音识别分数执行解码图(400)以生成对话语的转录(116)。
115 语音意图识别方法及其模型训练方法、设备、存储介质 CN202311793025.7 2023-12-22 CN117935782A 2024-04-26 熊世富; 张佳乐; 申凯; 高建清; 刘聪; 潘嘉
申请公开了语音意图识别方法及其模型训练方法、设备、存储介质,该识别方法包括:提取待识别语音数据的语义特征;以及获取待识别语音数据的语音边界信息,语音边界信息用于区分待识别语音数据中的有效语音部分和无效语音部分;基于语音边界信息,对语义特征进行特征抽取,得到意图特征,语音边界信息用于指示从有效语音部分对应的语义特征中抽取得到意图特征;基于意图特征确定待识别语音数据的意图。上述方案,能够提升语音识别的准确率。
116 一种基于增量学习的语种识别方法 CN202410089667.7 2024-01-23 CN117935776A 2024-04-26 王老虎; 刘浩伟; 马安香
发明的一种基于增量学习的语种识别方法,包括步骤1:对原始音频文件进行预处理,提取得到音频特征序列;步骤2:搭建基于Transformer的语种识别模型框架;步骤3:使用多语种数据集训练语种识别模型,采用交叉熵损失函数进行优化训练;步骤4:保持步骤3训练好的语种识别模型的结构和参数不变,在其解码端添加新预测层,构成新的语种识别模型;步骤5:将新的多语种数据集输入到新的语种识别模型中,得到旧预测层输出的预测的语种概率和新预测层输出的预测的语种概率;步骤6:设置新的损失函数,通过最小化损失函数来更新新的语种识别模型的参数;步骤7:使用随机梯度下降法训练新的语种识别模型,最终得到基于增量学习的语种识别模型。
117 一种语音合成方法、语音合成模型的训练方法和相关装置 CN202311868862.1 2023-12-28 CN117935773A 2024-04-26 张治慧; 胡亚军; 方昕; 潘嘉; 高建清
申请公开了一种语音合成方法、语音合成模型的训练方法和相关装置,该方法包括:获取目标对象的目标参考语音和目标文本的文本特征;基于目标参考语音,提取目标对象的语音韵律特征;至少将语音韵律特征与文本特征进行融合,以得到第一融合特征;基于第一融合特征生成目标对象对应目标文本的目标声学特征,能够提高语音合成的真实性。
118 一种基于VITS神经样条流改进的音素时长预测方法 CN202410117821.7 2024-01-29 CN117935771A 2024-04-26 冯杰; 朱明航; 张海翔; 马汉杰
发明公开了一种基于VITS神经样条流改进的音素时长预测方法,通过改进VITS模型中的随机时长预测器,引入基于神经样条流的方法,有效提升了音素时长预测的准确性,通过对输入数据分布的细致分析和区间的划分,模型能够在各个块区间内进行更有效的耦合变换,这使得模型在实际语音合成应用中能够以更高的精确度预测音素的时长。此外,本发明通过对模型进行冻结训练,可以加速训练过程并专注于优化时长预测模块的性能,这种方法不仅提高了训练效率,还确保了模型在预测音素时长时的准确性,采用误差均值和方差作为评估指标进一步验证了模型的预测准确性,并通过调整超参数B优化了变换区间边界值,实现了模型性能的最优化。
119 合成语音的调整方法、训练方法及相关装置 CN202410029165.5 2024-01-08 CN117935770A 2024-04-26 刘利娟; 潘嘉; 高建清; 刘聪
申请公开了一种合成语音的调整方法、训练方法及相关装置。该方法包括:获取初始合成语音的属性调整文本,以及,获取目标说话人的原属性特征,其中,属性调整文本用于表征对初始合成语音进行语音属性调整的属性差异,初始合成语音是利用原属性特征和声学特征进行语音合成得到的;利用属性调整文本和原属性特征进行属性预测,得到新属性特征;基于新属性特征和声学特征进行语音合成,得到调整后的合成语音。上述方案,能够实现对语音属性的调整,满足用户对于合成语音的个性化需求。
120 一种AIGC模型的语音数据处理方法及系统 CN202410324909.6 2024-03-21 CN117935766A 2024-04-26 纪方圆
发明公开了一种AIGC模型的语音数据处理方法及系统,方法包括:对原始语音数据进行声谱动态映射处理,以匹配预设AIGC模型;将处理后的语音数据分割成多个语音样本,并提取每个语音样本的声学特征;对提取的声学特征进行熵值计算,得到熵声纹;根据所述熵声纹对语音样本进行归类,将归类后的语音样本通过所述预设AIGC模型,生成目标语音内容。利用本发明实施例,能够更全面地分析和处理语音数据,改善声学特征提取的多维性和多样性,并且能够增强AIGC模型生成语音的自然度和准确性。
QQ群二维码
意见反馈