首页 / 专利分类库 / 乐器;声学
序号 专利名 申请号 申请日 公开(公告)号 公开(公告)日 发明人
141 用于生态音频信息的滤波增强方法 CN202410179556.5 2024-02-18 CN117727314B 2024-04-26 高树会; 宋佳男
申请涉及语音处理技术领域,提出了用于生态音频信息的滤波增强方法,包括:获取类音频信号数据;根据鸟类音频信号数据获取频谱能量差异指数;根据频谱能量差异指数获取音频受噪因子;根据音频受噪因子获取噪声受扰指数;根据鸟类音频信号数据获取声干扰程度指数;根据风声干扰程度指数获取风声干扰调整系数;根据噪声受扰指数及风声干扰调整系数获取维纳滤波平滑调整系数;根据维纳滤波平滑调整系数获取维纳滤波平滑系数;利用维纳滤波算法基于维纳滤波平滑系数获取滤波增强后的鸟类音频信号数据。本申请通过自适应维纳滤波平滑系数,提高了对鸟类音频信号数据的滤波增强效果。
142 语音识别方法、装置、设备及可读存储介质 CN202410034818.9 2024-01-10 CN117558263B 2024-04-26 马志强; 李永超; 孙磊
申请公开了一种语音识别方法、装置、设备及可读存储介质。本方案中,预先对端到端语音识别模型进行领域自适应训练得到多领域语音识别模型以及各领域的提示向量参数,每个领域的提示向量参数用于指示该领域专有的语音识别信息,在获取待识别语音数据、确定待识别语音数据的声学特征序列之后,获取待识别语音数据所属领域的提示向量参数,将该提示向量参数和声学特征序列,输入该领域的多领域语音识别模型,多领域语音识别模型对提示向量参数和声学特征序列进行编解码处理,得到语音数据的识别结果。本方案可有效保证端到端语音识别模型在各领域识别效果。
143 一种基于人工智能的音视频同步方法及系统 CN202310223830.X 2023-03-09 CN116230003B 2024-04-26 张耀庭
发明公开了一种基于人工智能的音视频同步方法及系统,涉及音频处理技术领域,该方法包括:采集获得原始文件,其中,原始文件包括音频文件和视频文件;构建原始文件的用户特征和语音特征的特征映射关系;进行音频文件的特征识别标识,获得用户标识结果;构建偏离验证时间区间,通过用户标识结果、偏离验证时间区间进行视频文件的音视频同步匹配,获得匹配结果;采集获得校正需求信息,根据校正需求信息解析获得特征数量;根据特征帧数量和匹配结果生成校正特征帧,根据校正特征帧进行音频文件的同步调整。本发明解决了现有技术中音视频同步准确率低,处理时间长的技术问题,达到了智能化进行音视频同步处理,缩短调整时间的技术效果。
144 一种智能型 CN202210861313.0 2022-07-20 CN115171627B 2024-04-26 韩雪
发明公开了一种智能型琴,包括琴体和底座,所述琴体的底部面固定有底座,并且底座的底部放置在地面上;还包括:座椅,后侧端螺钉固定有滑杆,且滑杆的右端滑动伸入容纳箱的内部,并且容纳箱的顶部固定在琴体的底部,所述滑杆的后端面固定有齿,且齿块的一端与齿轮的端面相啮合连接,并且齿轮的中部固定连接有转杆。该智能型钢琴安装有第二收卷辊,通过座椅从容纳箱内移动时,座椅带动滑杆同步移动,然后使得转杆通过锥形轮组带动皮带轮组旋转,并且通过皮带轮组使得第二旋杆能够通过第二收卷辊拉动第一拉绳带动显示屏进行升降,从而使得显示屏能够收纳到琴体的内部,继而避免了显示屏上会沾满灰尘。
145 语音监控方法、装置、电子设备及计算机可读介质 CN202210550817.0 2022-05-18 CN114945099B 2024-04-26 沈志铭
本公开涉及一种语音监控方法、装置、电子设备及计算机可读介质,属于直播技术领域。该方法包括:获取实时直播语音流,并根据所述实时直播语音流得到待匹配的语音片段;计算所述语音片段对应的音频信号,并根据所述语音片段的音频信号得到对应的语音特征参数;确定所述敏感词库中的各个敏感词对应的语音特征参数;根据所述语音片段对应的语音特征参数和各个所述敏感词对应的语音特征参数,得到所述语音片段与各个所述敏感词之间的匹配距离;在所述匹配距离小于或等于匹配距离阈值时,对所述语音片段进行敏感词处理。本公开通过将实时语音片段与敏感词的语音特征参数进行匹配,可以有效识别出直播语音中的敏感词,提高对直播语音的监管效率。
146 基于脉冲响应降噪的厅堂客观音质参量测量方法及系统 CN202210219997.4 2022-03-08 CN114783463B 2024-04-26 刘海生; 周庆丽
发明公开一种基于脉冲响应降噪的厅堂客观音质参量测量方法及系统,涉及建筑声学测量技术领域。通过对等幅值扫频信号进行加权,使扫频信号幅值在头部逐渐增大,在尾部逐渐减小,避免了扫频信号幅值突变引起的负载过大和附加脉冲,得到无尾部脉冲干扰、精度更高的脉冲响应;通过对能量脉冲响应信号进行截断处理,避免了头部及尾部以噪声为主的能量脉冲响应信号对计算精度的干扰,提高了测量结果的准确度;通过对能量脉冲响应信号进行降噪和截断能量补偿处理,避免了信号中的噪声影响客观音质参量的计算精度,从而使处理后的能量脉冲响应信号在背景噪声比较大的情况下具有良好的信噪比,减小测量误差,提高客观音质参量测量结果的准确度。
147 一种基于脉冲神经网络的睡眠鼾声检测系统 CN202111359937.4 2021-11-17 CN113974607B 2024-04-26 张汝林; 李文钧; 李瑞雪; 岳克强; 王超; 陈石; 李宇航; 沈皓哲
发明公开了一种基于脉冲神经网络的睡眠鼾声检测系统,先将从声音信号中提取的梅尔频率倒谱系数MFCC,特征参数经过阈值编码映射成脉冲序列作为网络输入,将传统长短期记忆网络LSTM单元中的sigmod激活和tanh激活替换成阈值激活函数,使改进后的LSTM脉冲神经单元能用于脉冲序列计算,网络在更新参数时使用高斯函数近似替代阈值激活函数,以便采用反向传播算法进行参数更新,完成网络模型的训练,实现鼾声和非鼾声的识别检测。该方法相比于传统神经网络分类检测计算量更少、更节能,可以更好地应用到集成电路和移动设备中。
148 一种鲁棒哈默斯坦子带样条自适应回声消除方法 CN202111131576.8 2021-09-26 CN113870881B 2024-04-26 于涛; 李文奇
发明公开了一种鲁棒哈默斯坦子带样条自适应回声消除方法,其步骤主要是:A、样条自适应滤波,远端语音输入信号x(n)通过样条非线性插值得到中间输出信号s(n);B、s(n)经过子带自适应滤波器得到子带输出信号yj(k),j为子带数,同时s(n)经过线性滤波得到输出信号y(n);C、期望信号d(n)的子带分解信号dj(k)与yj(k)相减,得到误差信号ej(k),同时得到误差信号e(n)=d(n)‑y(n);D、建立指数双曲余弦的鲁棒代价函数;E、利用随机梯度法,自适应更新滤波器权值和局部样条节点;F、迭代递归,重复A到E的步骤,直到通话结束。本发明方法能克服脉冲干扰带来的不利影响,利用子带结构解相关的优势,非线性回声消除效果好。
149 一种基于语音增强的说话人识别方法及系统 CN202111140239.5 2021-09-28 CN113823293B 2024-04-26 熊盛武; 张欣冉
发明提供了一种基于语音增强的说话人识别方法及系统,其中的方法包括如下步骤:S1采集大量的原始语音数据;S2对原始语音数据中包含的干扰噪声和无关说话人声音进行去除;S3:提取MFCC特征和GFCC特征,融合得到语音的声学特征;S4:基于卷积神经网络构建说话人识别模型,将从大量的原始语音数据中提取的声学特征作为训练数据,对说话人识别模型进行训练;S5:收集注册语音样本进行注册,再获取待识别说话人的语音数据,采用S2和S3的方法进行语音增强和特征提取后,输入训练好的模型得到待识别说话人特征,根据待识别说话人特征与已注册的说话人特征的相似度,对待识别说话人的身份进行识别。本发明可以提高声纹识别系统的识别准确率。
150 噪声抑制方法、装置、介质以及电子设备 CN202110129579.1 2021-01-29 CN113571078B 2024-04-26 鲍枫; 刘志鹏; 李岳鹏
本公开提供了一种噪声抑制方法、装置、介质以及电子设备。该方法包括:获取原始语音信号的低频频谱特征和高频频谱特征,并对低频频谱特征和高频频谱特征进行特征组合处理得到频带能量特征;在原始语音信号中确定当前语音信号和上一帧语音信号,并对当前帧语音信号和上一帧语音信号进行线性域变换处理得到频谱特征参数;对频谱特征参数和频带能量特征进行相关性计算得到倒谱特征,并对倒谱特征进行降维映射处理得到降维特征;对降维特征和倒谱特征进行特征融合处理得到增益信息,并对增益信息进行噪声抑制处理得到原始语音信号的降噪语音信号。本公开保证了关键噪声种类的噪声抑制效果和效率,极大地降低了噪声抑制的复杂度。
151 具有多个前馈麦克和多个控制器的主动降噪(ANR)系统 CN202080018670.X 2020-03-04 CN113544767B 2024-04-26 O·M·涅尔森
本文档中描述的技术可体现在一种方法中,该方法包括:接收由与主动降噪(ANR)设备相关联的至少第一前馈麦克捕获的第一输入信号;接收由与该ANR设备相关联的至少第二前馈麦克风捕获的第二输入信号;使用设置在第一ANR信号流路径中的第一滤波器来处理该第一输入信号,以生成用于该ANR设备的声换能器的第一输出信号;使用设置在第二ANR信号流路径中的第二滤波器来处理该第二输入信号,以生成用于该声换能器的第二输出信号,其中该第二滤波器不同于该第一滤波器;以及基于组合该第一输出信号与该第二输出信号来生成用于该声换能器的组合信号。
152 一种语音合成方法、装置和用于语音合成的装置 CN202110657200.4 2021-06-11 CN113409765B 2024-04-26 王睿敏; 孟凡博; 刘恺; 陈伟
发明实施例提供了一种语音合成方法、装置和用于语音合成的装置。其中的方法包括:获取音频训练数据,音频训练数据包括不同音色特征以及不同情感特征的音频数据;根据音频训练数据训练语音合成模型,所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数,以及不同情感特征的音频训练数据训练得到的韵律模型参数;将待合成的文本数据、至少一个说话人标识、以及情感标识输入语音合成模型,通过语音合成模型输出语音合成数据,语音合成数据包含说话人标识对应的音色特征以及情感标识对应的情感特征。本发明实施例可以合成不同音色特征以及不同情感特征组合的目标音频,可以扩展语音合成模型的适用范围。
153 一种语音合成方法、装置和用于语音合成的装置 CN202110656404.6 2021-06-11 CN113409764B 2024-04-26 王睿敏; 孟凡博; 刘恺; 陈伟
发明实施例提供了一种语音合成方法、装置和用于语音合成的装置。其中的方法包括:获取文本数据、至少一个说话人标识、以及格标识;将所述文本数据、所述至少一个说话人标识、以及所述风格标识输入语音合成模型,所述语音合成模型根据所述文本数据、所述说话人标识对应的音色模型参数、以及所述风格标识对应的韵律模型参数进行语音合成,得到合成语音数据;所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数,以及不同风格特征的音频训练数据训练得到的韵律模型参数。本发明实施例可以合成不同音色不同风格的目标音频,扩展语音合成模型的适用范围,降低对训练数据的要求以及降低训练数据的采集成本。
154 语音转换方法、语音转换模型的训练方法、装置和介质 CN202110462563.2 2021-04-27 CN113345452B 2024-04-26 刘皓冬; 李栋梁; 刘恺
发明实施例提供了一种语音转换方法、语音转换模型的训练方法、装置和介质,其中的训练方法具体包括:确定第一训练数据;所述第一训练数据包括:N个训练样本;根据所述N个训练样本,对语音转换模型进行训练;所述对语音转换模型进行训练,包括:从所述训练样本对应的语音识别结果中,滤除所述训练样本对应的音色信息。本发明实施例能够提高目标语音的音色与第二人声的音色之间的相似度,进而能够提高语音转换的效果。
155 脚踏式箱鼓 CN202110713067.X 2021-06-25 CN113345390B 2024-04-26 王升
发明公开了脚踏式箱鼓,包括箱体,箱体上设有底鼓踏板和军鼓踏板,底鼓踏板上连接有底鼓传导组件,底鼓传导组件上连接有底鼓鼓槌,军鼓踏板上连接有军鼓传导组件,军鼓传导组件上连接有军鼓鼓槌,箱体内设有面板,面板上连接有响弦,响弦另一端与连接架相连接,箱体上设有音孔;不需要演奏者必须以坐姿演奏,可以以站或坐的方式进行演奏,同时是以脚踩的方式进行演奏,解放了双手,使表演者可以弹奏其他的乐器吉他等,以达到多乐器演奏、给自己伴奏的目的,而且通过此种结构,可以使箱鼓体积变小,更易于携带。
156 快速自适应预测拟合语音方法、系统、终端及存储介质 CN202011620040.8 2020-12-30 CN112802453B 2024-04-26 李建飞
发明涉及一种快速自适应预测拟合语音方法、系统、终端及存储介质,属于语音通信领域,应用于实时语音通信过程中由于通信链路异常导致的数据断流,其包括:步骤S1、获取断流前音频数据,当发生断流事件时,从数据缓冲区中读取断流前的音频数据;步骤S2、合成初始音频数据,分析断流之前的音频数据,并提取语音信号的峰值、断流时刻数据点值和主要频谱作为初始音频数据的特征值,基于所述特征值合成初始音频数据;步骤S3、调节断流后的音频音量以使初始音频数据播放时呈现音量渐弱的效果;步骤S4、获取断流恢复后的实际音频数据,并调节断流恢复后的实际音频数据的音量,以使实际音频数据播放时的音量逐渐恢复到断流前平。本发明用于解决实时语音通信异常时播放端声音出现卡顿、爆响等异常响动使得用户体验糟糕的问题。
157 应用于音频监控的音频场景分类方法、装置以及设备 CN202011506902.4 2020-12-18 CN112562727B 2024-04-26 黄真明; 陆春亮; 王毅
发明公开了一种应用于音频监控的音频场景分类方法、装置以及设备,本发明的构思在于针对现有音频场景分类方式耗时且浪费资源的问题,从两个方面解决,一方面是基于处理时效性,实时针对每一个音频分段进行质量研判,保证只对有效音频片段进行检测,并且是以音频片段作为处理单位,一旦检测出分类结果便终止对其他可用片段的处理,这样可以大幅减少不必要的检测过程;另一方面,利用RNN架构的特点在场景类型检测过程中无需再保存各音频片段的信息,仅需要将前一步处理结果作为后续处理的输入,这样可以充分节约资源空间。由此可见,本发明既能够保证处理时效,又能够使系统轻量化,从而可以灵活适用于各种规模的音频监控应用环境。
158 一种基于序列卷积的语音情感识别方法及装置 CN202011169102.8 2020-10-28 CN112489687B 2024-04-26 陈海波; 请求不公布姓名
发明公开了一种基于序列卷积的语音情感识别方法及装置,该方法包括获取待识别的语音信息,对语音信息进行提取得到所述语音信息的描述子向量,将描述子向量输入到序列卷积模型,得到语音信息的序列,对语音信息的序列进行处理,得到语音信息的序列特征以及局部特征,根据语音信息的序列特征和局部特征识别所述语音信息的情感。通过并列地使用局部特征和序列特征的方式来进行语音情感特征的识别,区别于传统上单独地使用局部特征或在局部特征的基础上获得时序特征来进行情感的识别方式,可以提高识别准确率。同时使用序列卷积的步长的设置来实现语音情感识别中的跳,来减少信息的冗余性。
159 被动唤醒用户交互设备的方法和系统 CN201980038193.0 2019-06-05 CN112272819B 2024-04-26 维贾亚·库玛·涂卡; 德普拉吉·普拉巴卡尔·帕特卡; 哈里什·比什诺伊; 切森·科纳纳克里·普塔纳; 苏洛尚·奈克
本文中的实施例公开了用于被动唤醒用户交互设备和配置用户交互设备的动态唤醒时间的方法和系统,该方法包括检测与存在于物联网(IoT)环境中的至少一个设备相关的至少一个第一非语音事件的发生。该方法包括检测与至少一个设备相关的至少一个后续事件的发生。该方法包括在检测到发生至少一个第一事件和至少一个后续事件中的至少一个时,估计用户发起与用户交互设备的至少一个交互的上下文概率。在确定所估计的上下文概率高于预定义的阈值时,该方法包括配置动态唤醒时间以将用户交互设备切换到被动唤醒状态。
160 波束形成器和声学回声消除器(AEC)系统 CN201980037436.9 2019-06-20 CN112236820B 2024-04-26 特德·瓦达; 阿舒托什·潘迪
本文描述了用于声学回声消除的技术。在示例实施方式中,一种系统包括扬声器、具有多个麦克的麦克风阵列、波束形成器(BF)逻辑和声学回声消除器(AEC)逻辑。扬声器被配置成接收参考信号。BF逻辑被配置成接收来自多个麦克风的音频信号并生成波束形成信号。AEC逻辑被配置成接收波束形成信号和参考信号。AEC逻辑还被配置成:每个时间计算偏置系数向量多次;基于偏置系数向量计算背景滤波器系数;基于背景滤波器系数将背景滤波器应用于参考信号和波束形成信号以生成背景消除信号;以及至少基于背景消除信号生成输出信号
QQ群二维码
意见反馈