一种基于增量学习的语种识别方法专利检索-乐器声学专利检索查询-专利查询网

一种基于增量学习的语种识别方法
申请号	CN202410089667.7	申请日	2024-01-23	公开(公告)号	CN117935776A	公开(公告)日	2024-04-26
申请人	东北大学;			发明人	王老虎; 刘浩伟; 马安香;
摘要	本发明的一种基于增量学习的语种识别方法，包括步骤1：对原始音频文件进行预处理，提取得到音频特征序列；步骤2：搭建基于Transformer的语种识别模型框架；步骤3：使用多语种数据集训练语种识别模型，采用交叉熵损失函数进行优化训练；步骤4：保持步骤3训练好的语种识别模型的结构和参数不变，在其解码端添加新预测层，构成新的语种识别模型；步骤5：将新的多语种数据集输入到新的语种识别模型中，得到旧预测层输出的预测的语种概率和新预测层输出的预测的语种概率；步骤6：设置新的损失函数，通过最小化损失函数来更新新的语种识别模型的参数；步骤7：使用随机梯度下降法训练新的语种识别模型，最终得到基于增量学习的语种识别模型。
权利要求	1.一种基于增量学习的语种识别方法，其特征在于，包括：步骤1：对原始音频文件进行预处理，提取得到音频特征序列；步骤2：搭建基于Transformer的语种识别模型框架；步骤3：使用多语种数据集训练语种识别模型，采用交叉熵损失函数进行优化训练；步骤4：保持步骤3训练好的语种识别模型的结构和参数不变，在其解码端添加新预测层，构成新的语种识别模型；步骤5：将新的多语种数据集输入到新的语种识别模型中，得到旧预测层输出的预测的语种概率和新预测层输出的预测的语种概率；步骤6：设置新的损失函数，通过最小化损失函数来更新新的语种识别模型的参数；步骤7：使用随机梯度下降法训练新的语种识别模型，最终得到基于增量学习的语种识别模型。 2.如权利要求1所述的基于增量学习的语种识别方法，其特征在于，所述步骤1具体为：针对原始音频，使用梅尔倒谱系数语音特征提取算法处理计算得到对应的梅尔倒谱系数。 3.如权利要求1所述的基于增量学习的语种识别方法，其特征在于，所述步骤2中的语种识别模型框架包括：特征提取器、编码器、解码器和预测层；所述特征提取器包括两个间隔为2，卷积核为2×2的卷积层；特征提取器将输入的音频特征序列的长度进行压缩，得到长度为原始音频特征序列长度四分之一的音频序列；编码器由多个相同的编码层组成，每个都编码层包含自注意力层和前馈神经网络层两个子层；解码器由多个相同的解码层组成，每个解码层包含自注意力层、交叉注意力层和前馈神经网络层三个子层；预测层：解码器的输出经过预测层后得到维度为语种数量的向量，归一化后得到预测的语种概率分布，得到每个语种的预测概率。 4.如权利要求1所述的基于增量学习的语种识别方法，其特征在于，所述步骤3具体为：步骤3.1：采集多语种数据集{X,Y}，X为多语种的音频文件经过预处理得到的音频特征序列集合，Y为X对应的真实的语种概率分布；步骤3.2：将多语种数据集输入到语种识别模型中，得到预测的语种概率分布；步骤3.3：采用如下交叉熵损失函数进行优化训练，使得语种识别模型能准确识别各种语种，最终得到训练好的语种识别模型；其中，C为多语种数据集的语种数量，为预测的语种概率分布，为预测的语种概率，Y＝(y1,y2,…yC)为真实的语种概率分布，yi为真实的语种概率。 5.如权利要求1所述的基于增量学习的语种识别方法，其特征在于，所述步骤4具体为：保持步骤3训练好的语种识别模型的结构和参数不变，仅在解码器后添加新的预测层，使得解码器的输出经过新的预测层输出得到维度大小为更新后语种数量的向量，进而支持预测新增加的语种。 6.如权利要求4所述的基于增量学习的语种识别方法，其特征在于，所述步骤5具体为：步骤5.1：采集新的多语种数据集{Xn,Yn}，Xn为新的多语种的音频文件经预处理得到的音频特征序列集合，Yn为Xn对应的真实的语种概率分布；步骤5.2：将Xn输入到新的语种识别模型中，得到旧预测层输出的预测的语种概率分布和新预测层输出的预测的语种概率分布 D为新的多语种数据集的语种数量。 7.如权利要求6所述的基于增量学习的语种识别方法，其特征在于，所述步骤6的修改后的损失函数为：其中，Lnew为交叉熵损失函数，Lold为知识蒸馏损失函数，Yn为真实的语种概率分布，为新预测层输出的预测的语种概率分布；为旧预测层输出的预测的语种概率分布；为的子集，是取前C个元素得到的集合，即 λo为权重参数；为正则项；其中，T＝2，λ为正则化参数，θ为新的语种识别模型的参数，n为新的语种识别模型的参数总数。
说明书全文	一种基于增量学习的语种识别方法技术领域 [0001] 本发明属于语种识别技术领域，涉及一种基于增量学习的语种识别方法。背景技术 [0002] 语种识别是指计算机根据不同语种的特性判断给定语音片段所属语言种类的技术，广泛应用于多语言信息处理场景，如自动语音识别等。 [0003] 传统的语种识别模型注重于特征的提取处理，可以分为基于音素特征和基于声学特征的两大类。基于音素特征的方法将语音转化为音素序列，通过不同语言音素搭配规律的差异来提取音素特征。而基于声学特征的方法直接从语音信号中提取声学特征，如线性预测倒谱系数、梅尔频率倒谱系数和感知线性预测系数等，然后通过算法(如高斯混合等)得到目标特征，最终通过统计模型计算分数来进行语种判断，代表方法有基于高斯混合模型的通用背景模型(GMM‑UBM)和基于辨识矢量的方法(i‑vector)。 [0004] 基于深度学习的语种识别采用端到端的神经网络架构完成特征提取和识别任务。这种方法无需手动提取特征，可以获得更优秀的表示学习，并能够有效利用大规模数据。具体实现为：收集并准备标注好的多语种语音数据集作为训练样本，然后进行语音信号的特征提取，接着构建深度学习模型(常用的模型包括卷积神经网络或循环神经网络)，用于从提取的特征中学习语种之间的差异。以声学特征作为输入，语种预测作为输出，进行模型训练，并通过验证集来调优模型参数，以提高泛化性能。最后，使用测试集评估模型在未见过的数据上的性能，实现对不同语种的准确识别。 [0005] 传统的语种识别模型中，基于音素特征的语种识别方法根据不同语言音素搭配规律的不同来识别语种，性能表现优越，但是该方法需要带有音素标注的语音数据，计算代价高昂且繁琐。基于声学特征的语种识别方法直接从语音片段中提取底层声学特征序列，不需要额外的标注信息，但是单帧底层声学特征区别性不大，使用其作为语种识别的依据会影响特定语种之间的识别准确率，比如方言语种之间的区分。 [0006] 基于深度学习的语种识别模型性能优于前两者，是目前语种识别任务中最常用的方法，但是其也面临两个关键的缺陷问题：成本和遗忘。首先，由于深度神经网络的训练需要大量的计算资源和时间，当需要添加新的语种进行识别时，重新训练整个网络会带来巨大的开销，包括硬件、时间和计算成本。其次，采用传统微调方法时，网络容易出现灾难性遗忘，即对新语种的适应会导致对已有语种的性能下降，因为模型会忘记先前学到的信息，对其他语种的识别效果会受到明显影响。这限制了模型的灵活性和可扩展性，使得应对多语种环境的挑战变得更为困难。发明内容 [0007] 本发明的目的是提出一种基于增量学习的语种识别方法，可以在不使用旧语种数据的情况下，对已训练好的语种识别模型进行更新，使得语种识别模型在学习识别新语种的过程中保持对旧语种识别的准确率，以此解决模型在增量训练过程中面临的成本和遗忘的问题。 [0008] 本发明提供一种基于增量学习的语种识别方法，包括： [0009] 步骤1：对原始音频文件进行预处理，提取得到音频特征序列； [0010] 步骤2：搭建基于Transformer的语种识别模型框架； [0011] 步骤3：使用多语种数据集训练语种识别模型，采用交叉熵损失函数进行优化训练； [0012] 步骤4：保持步骤3训练好的语种识别模型的结构和参数不变，在其解码端添加新预测层，构成新的语种识别模型； [0013] 步骤5：将新的多语种数据集输入到新的语种识别模型中，得到旧预测层输出的预测的语种概率和新预测层输出的预测的语种概率； [0014] 步骤6：设置新的损失函数，通过最小化损失函数来更新新的语种识别模型的参数； [0015] 步骤7：使用随机梯度下降法训练新的语种识别模型，最终得到基于增量学习的语种识别模型。 [0016] 进一步的，所述步骤1具体为： [0017] 针对原始音频，使用梅尔倒谱系数语音特征提取算法处理计算得到对应的梅尔倒谱系数。 [0018] 进一步的，所述步骤2中的语种识别模型框架包括：特征提取器、编码器、解码器和预测层； [0019] 所述特征提取器包括两个间隔为2，卷积核为2×2的卷积层；特征提取器将输入的音频特征序列的长度进行压缩，得到长度为原始音频特征序列长度四分之一的音频序列； [0020] 编码器由多个相同的编码层组成，每个都编码层包含自注意力层和前馈神经网络层两个子层； [0021] 解码器由多个相同的解码层组成，每个解码层包含自注意力层、交叉注意力层和前馈神经网络层三个子层； [0022] 预测层：解码器的输出经过预测层后得到维度为语种数量的向量，归一化后得到预测的语种概率分布，得到每个语种的预测概率。 [0023] 进一步的，所述步骤3具体为： [0024] 步骤3.1：采集多语种数据集{X,Y}，X为多语种的音频文件经过预处理得到的音频特征序列集合，Y为X对应的真实的语种概率分布； [0025] 步骤3.2：将多语种数据集输入到语种识别模型中，得到预测的语种概率分布； [0026] 步骤3.3：采用如下交叉熵损失函数进行优化训练，使得语种识别模型能准确识别各种语种，最终得到训练好的语种识别模型； [0027] [0028] 其中，C为多语种数据集的语种数量，为预测的语种概率分布，为预测的语种概率，Y＝(y1,y2,…yC)为真实的语种概率分布，yi为真实的语种概率。 [0029] 进一步的，所述步骤4具体为： [0030] 保持步骤3训练好的语种识别模型的结构和参数不变，仅在解码器后添加新的预测层，使得解码器的输出经过新的预测层输出得到维度大小为更新后语种数量的向量，进而支持预测新增加的语种。 [0031] 进一步的，所述步骤5具体为： [0032] 步骤5.1：采集新的多语种数据集{Xn,Yn}，Xn为新的多语种的音频文件经预处理得到的音频特征序列集合，Yn为Xn对应的真实的语种概率分布； [0033] 步骤5.2：将Xn输入到新的语种识别模型中，得到旧预测层输出的预测的语种概率分布和新预测层输出的预测的语种概率分布 D为新的多语种数据集的语种数量。 [0034] 进一步的，所述步骤6的修改后的损失函数为： [0035] [0036] 其中，Lnew为交叉熵损失函数，Lold为知识蒸馏损失函数，Yn为真实的语种概率分布，为新预测层输出的预测的语种概率分布；为旧预测层输出的预测的语种概率分布；为的子集，是取前C个元素得到的集合，即 λo为权重参数；为正则项； [0037] [0038] [0039] [0040] [0041] 其中，T＝2，λ为正则化参数，θ为新的语种识别模型的参数，n为新的语种识别模型的参数总数。 [0042] 本发明的一种基于增量学习的语种识别方法，最终构建的基于增量学习的语种识别模型可以获取到增量学习的能力。该能力使得模型可以不断学习新的语种知识，在吸收新知识的同时保留、整合、优化旧知识，在训练的过程中无需旧语种数据的参与，进一步降低训练所带来的计算和空间资源的浪费。附图说明 [0043] 图1是本发明一种基于增量学习的语种识别方法的流程图； [0044] 图2是本发明最终获得的基于增量学习的语种识别模型的框架图。具体实施方式 [0045] 如图1所示，本发明的一种基于增量学习的语种识别方法，包括： [0046] 步骤1：数据预处理。对原始音频文件进行预处理，提取得到音频特征序列； [0047] 具体实施时，针对原始音频，使用梅尔倒谱系数语音特征提取算法处理计算得到对应的梅尔倒谱系数。 [0048] 步骤2：搭建基于Transformer的语种识别模型框架，包括：特征提取器、编码器、解码器和预测层。 [0049] 特征提取器：包括两个间隔为2，卷积核为2×2的卷积层；特征提取器将输入的音频特征序列的长度进行压缩，得到长度为原始音频特征序列长度四分之一的音频序列。 [0050] 编码器：由多个相同的编码层组成，每个都编码层包含自注意力层和前馈神经网络层两个子层。自注意力层允许模型在序列中的不同位置分配不同的注意力权重，从而更好地捕捉序列内部的关系。前馈神经网络能够对每个位置的表示进行逐元素的非线性变换，从而更好地捕捉局部特征。每个子层都会经过残差连接和层归一化。残差连接缓解了梯度消失问题层归一化对每个子层的输出进行标准化，有助于训练过程的稳定性。 [0051] 解码器：由多个相同的解码层组成，每个解码层包含自注意力层、交叉注意力层和前馈神经网络层三个子层。交叉注意力层可以捕捉编码器输出和解码器输入之间的关系。自注意力层以及前馈网络层的功能与编码器的自注意力层和前馈神经网络层的功能相同，每个子层同样都会经过残差连接和层归一化。 [0052] 预测层：解码器的输出经过预测层后得到维度为语种数量的向量，归一化后得到预测的语种概率分布，得到每个语种的预测概率。 [0053] 步骤3：使用多语种数据集训练语种识别模型，采用交叉熵损失函数进行优化训练，所述步骤3具体为： [0054] 步骤3.1：采集多语种数据集{X,Y}，X为多语种的音频文件经过预处理得到的音频特征序列集合，Y为X对应的真实的语种概率分布； [0055] 步骤3.2：将多语种数据集输入到语种识别模型中，得到预测的语种概率分布； [0056] 步骤3.3：采用如下交叉熵损失函数进行优化训练，使得语种识别模型能准确识别各种语种，最终得到训练好的语种识别模型； [0057] [0058] 其中，C为多语种数据集的语种数量，为预测的语种概率分布，为预测的语种概率，Y＝(y1,y2,…yC)为真实的语种概率分布，yi为真实的语种概率。 [0059] 步骤4：搭建新的语种识别模型。保持步骤3训练好的语种识别模型的结构和参数不变，在其解码端添加新预测层，构成新的语种识别模型，所述步骤4具体为： [0060] 保持步骤3训练好的语种识别模型的结构和参数不变，仅在解码器后添加新的预测层，使得解码器的输出经过新的预测层输出得到维度大小为更新后语种数量的向量，进而支持预测新增加的语种。 [0061] 步骤5：将新的多语种数据集输入到新的语种识别模型中，得到旧预测层输出的预测的语种概率和新预测层输出的预测的语种概率，所述步骤5具体为： [0062] 步骤5.1：采集新的多语种数据集{Xn,Yn}，Xn为新的多语种的音频文件经预处理得到的音频特征序列集合，Yn为Xn对应的真实的语种概率分布； [0063] 步骤5.2：将Xn输入到新的语种识别模型中，得到旧预测层输出的预测的语种概率分布和新预测层输出的预测的语种概率分布 D为新的多语种数据集的语种数量。 [0064] 步骤6：设置新的损失函数，通过最小化损失函数来更新新的语种识别模型的参数； [0065] 具体实施时，修改后的损失函数为： [0066] [0067] 其中，Lnew为交叉熵损失函数，Lold为知识蒸馏损失函数，Yn为真实的语种概率分布，为新预测层输出的预测的语种概率分布；为旧预测层输出的预测的语种概率分布；为的子集，是取前C个元素得到的集合，即 λo为权重参数；为正则项； [0068] [0069] [0070] [0071] [0072] 其中，T＝2，λ为正则化参数，θ为新的语种识别模型的参数，n为新的语种识别模型的参数总数。 [0073] 步骤7：使用随机梯度下降法训练新的语种识别模型，最终得到基于增量学习的语种识别模型。 [0074] 本发明在训练新语种时，利用新数据在旧预测层的结果进行知识蒸馏：利用旧任务上预测的概率分布来约束新任务得到的预测的概率分布。新的语种识别模型在学习新语种时使用通过在新任务损失函数中加入正则项，新语种可以较好被学习的前提下，避免新任务的训练过分调整旧模型的参数而导致新模型在旧任务上性能的下降。 [0075] 以上所述仅为本发明的较佳实施例，并不用以限制本发明的思想，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

意见反馈