首页 / 专利库 / 信号处理 / 信号处理 / 音频信号处理 / 音频分割 / 基于深度卷积循环神经网络的语种识别方法及装置

基于深度卷积循环神经网络的语种识别方法及装置

阅读:364发布:2020-05-17

专利汇可以提供基于深度卷积循环神经网络的语种识别方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 提供一种基于深度卷积循环神经网络的语种识别方法及装置,用于对待测音频序列进行识别从而识别出对应的语种,该方法不需要音频领域的专家知识即可实现高准确率的语种识别功能,其特征在于,包括如下步骤:步骤S1,将待测音频序列分成多个时间长度为2s的音频段;步骤S2,依次将各个音频段进行短时傅里叶变换转化为对应的 频谱 图;步骤S3,依次将频谱图输入预先训练的卷积循环神经网络模型从而获取对应每个音频段的音频类别判断概率;步骤S4,根据每个音频数据的相应所有音频段的音频类别判断概率得出各个对应音频数据的语种类别。,下面是基于深度卷积循环神经网络的语种识别方法及装置专利的具体信息内容。

1.一种基于深度卷积循环神经网络的语种识别方法,用于对待测音频序列进行识别从而识别出对应的语种,其特征在于,包括如下步骤:
步骤S1,将所述待测音频序列分成多个时间长度为2s的音频段;
步骤S2,依次将各个所述音频段进行短时傅里叶变换转化为对应的频谱图;
步骤S3,依次将所述频谱图输入预先训练的卷积循环神经网络模型从而获取对应每个所述音频段的音频类别判断概率;
步骤S4,根据每个所述待测音频序列的相应所有所述音频段的所述音频类别判断概率得出各个对应所述待测音频序列的语种类别,
其中,所述卷积循环神经网络模型包括VGG架构的卷积神经网络和Bi-LSTM网络结构的循环神经网络,所述频谱图输入所述卷积神经网络后得出的特征向量在沿时间轴进行切片操作后再被输入所述循环神经网络。
2.根据权利要求1所述的基于深度卷积循环神经网络的语种识别方法,其特征在于:
其中,所述步骤S1中对所述待测音频序列进行分割时,将时长低于2s的音频段直接丢弃。
3.根据权利要求1所述的基于深度卷积循环神经网络的语种识别方法,其特征在于:
其中,所述步骤S1中对所述待测音频序列进行分割的同时,还将分割得到的各个所述音频段以未压缩的无损WAVE格式进行统一编码。
4.根据权利要求1所述的基于深度卷积循环神经网络的语种识别方法,其特征在于:
其中,所述步骤S4包括如下子步骤:
步骤S4-1,将每个所述待测音频序列的所有对应的所述音频类别判断概率进行平均取值得到每个所述待测音频序列的平均判断概率;
步骤S4-2,根据所述平均判断概率中概率表示最大的类别作为相应所述待测音频序列的所述语种类别。
5.根据权利要求1所述的基于深度卷积循环神经网络的语种识别方法,其特征在于:
其中,所述卷积循环神经网络模型通过下模型训练步骤获得:
步骤T1,构建初始卷积循环神经网络模型,该初始卷积循环神经网络模型包含的模型参数为随机设置;
步骤T2,将训练集中的音频序列经过所述步骤S1至所述步骤S2生成频谱图并依次输入所述初始卷积循环神经网络模型并进行一次迭代
步骤T3,采用所述初始卷积循环神经网络模型的最后一层的模型参数分别计算出损失误差;
步骤T4,将所述损失误差反向传播更新模型参数;
步骤T5,重复所述步骤T2至所述步骤T4直至达到训练完成条件,得到训练后的所述卷积循环神经网络模型。
6.根据权利要求5所述的基于深度卷积循环神经网络的语种识别方法,其特征在于:
其中,所述训练集中的所述音频序列包含一般音频数据以及与随机生成的白噪声、裂纹噪声、咖啡馆噪声、高斯噪声、脉冲噪声中的一种或几种混合在一起的混合音频数据。
7.一种基于卷积循环神经网络模型的语种识别装置,用于对待测音频序列进行识别从而识别出对应的语种,其特征在于,包括:
预处理部,用于将所述待测音频序列分成多个时间长度为2s的音频段并通过短时傅里叶变换转化为对应的频谱图;以及
语种识别部,用于将所述频谱图输入预先存储的卷积循环神经网络从而识别出各个所述音频序列所对应的语种类别,
其中,所述卷积循环神经网络模型包括VGG架构的卷积神经网络和Bi-LSTM网络结构的循环神经网络,所述频谱图输入所述卷积神经网络后得出的特征向量在沿时间轴进行切片操作后再被输入所述循环神经网络,
所述语种识别部通过如下步骤完成所述语种类别的识别:
特征提取步骤,依次将所述频谱图输入预先训练的卷积循环神经网络模型从而获取对应每个所述音频段的特征数据;
类别识别步骤,根据每个所述音频序列的相应所有所述音频段的所述音频类别判断概率得出各个对应所述音频序列的语种类别。

说明书全文

基于深度卷积循环神经网络的语种识别方法及装置

技术领域

[0001] 本发明涉及一种音频识别领域,涉及一种日常场景下的语种识别方法,具体涉及一种基于深度卷积循环神经网络的语种识别方法及装置。

背景技术

[0002] 日常生活中,很多的智能语音助手都需要用户手动指定系统的输入语言才能正常工作,然而我们可以使用自动的语种识别技术来推断用户所使用的语言。语种识别技术作为很多语音处理任务的预处理部分,在多语种语音识别、跨语种通信和机器翻译等领域有着广泛的应用。
[0003] 传统的语种识别技术大多是对底层的声学特征统计建模来进行识别,常用的底层声学特征如梅尔频率倒谱系数(MFCC)和感知线性预测系数(PLP)都是先通过快速傅里叶变换(FFT)将音频序列从时域变换到频域上,再通过滤波器模拟人对听觉的感知,从而在每一抽取一定维度的系数作为底层声学特征。建模方法通常采用的是高斯混合模型(GMM)及其改进方法,GMM-UBM可以较好地拟合真实数据的分布,但其建模后的均值超矢量带有大量的冗余信息,对这些均值超矢量进行分类较为困难,因此识别的准确率有着较大的限制。
[0004] 然而随着深度学习信号处理领域的发展,基于深度学习的语种识别方法也越来越多,但是这些研究方法主要集中在使用不同形式的循环神经网络来处理音频数据的输入序列。这样仅仅利用了音频的时序特征,没有考虑到音频的空间特征,也难以达到预期的效果。

发明内容

[0005] 为解决上述问题,提供一种通过图像领域解决语种识别问题的语种识别方法,该方法不需要音频领域的专家知识即可完成准确率高的语种识别功能,本发明采用了如下技术方案:
[0006] 本发明提供了一种基于深度卷积循环神经网络的语种识别方法,用于对待测音频序列进行识别从而识别出对应的语种,其特征在于,包括如下步骤:步骤S1,将待测音频序列分成多个时间长度为2s的音频段;步骤S2,依次将各个音频段进行短时傅里叶变换转化为对应的频谱图;步骤S3,依次将频谱图输入预先训练的卷积循环神经网络模型从而获取对应每个音频段的音频类别判断概率;步骤S4,根据每个待测音频序列的相应所有音频段的音频类别判断概率得出各个对应待测音频序列的语种类别,其中,卷积循环神经网络模型包括VGG架构的卷积神经网络和Bi-LSTM网络结构的循环神经网络,频谱图输入卷积神经网络后得出的特征向量在沿时间轴进行切片操作后再被输入循环神经网络。
[0007] 本发明提供的基于深度卷积循环神经网络的语种识别方法,还可以具有这样的技术特征,其中,步骤S1中对待测音频序列进行分割时,将时长低于2s的音频段直接丢弃。
[0008] 本发明提供的基于深度卷积循环神经网络的语种识别方法,还可以具有这样的技术特征,其中,步骤S1中对待测音频序列进行分割的同时,还将分割得到的各个音频段以未压缩的无损WAVE格式进行统一编码。
[0009] 本发明提供的基于深度卷积循环神经网络的语种识别方法,还可以具有这样的技术特征,其中,步骤S4包括如下子步骤:步骤S4-1,将每个待测音频序列的所有对应的音频类别判断概率进行平均取值得到每个待测音频序列的平均判断概率;步骤S4-2,根据平均判断概率中概率表示最大的类别作为相应待测音频序列的语种类别。
[0010] 本发明提供的基于深度卷积循环神经网络的语种识别方法,还可以具有这样的技术特征,其中,卷积循环神经网络模型通过如下模型训练步骤获得:步骤T1,构建初始卷积循环神经网络模型,该初始卷积循环神经网络模型包含的模型参数为随机设置;步骤T2,将训练集中的音频序列经过步骤S1至步骤S2生成频谱图并依次输入初始卷积循环神经网络模型并进行一次迭代;步骤T3,采用初始卷积循环神经网络模型的最后一层的模型参数分别计算出损失误差;步骤T4,将损失误差反向传播更新模型参数;步骤T5,重复步骤T2至步骤T4直至达到训练完成条件,得到训练后的卷积循环神经网络模型。
[0011] 本发明提供的基于深度卷积循环神经网络的语种识别方法,还可以具有这样的技术特征,其中,训练集中的音频序列包含一般音频数据以及与随机生成的白噪声、裂纹噪声、咖啡馆噪声、高斯噪声、脉冲噪声中的一种或几种混合在一起的混合音频数据。
[0012] 本发明还提供了一种基于卷积循环神经网络模型的语种识别装置,用于对待测音频序列进行识别从而识别出对应的语种,其特征在于,包括:预处理部,用于将待测音频序列中的各个待测音频序列分成多个时间长度为2s的音频段并通过短时傅里叶变换转化为对应的频谱图;以及语种识别部,用于将频谱图输入预先训练完成的卷积循环神经网络从而识别出各个待测音频序列所对应的语种类别,其中,卷积循环神经网络模型包括VGG架构的卷积神经网络和Bi-LSTM网络结构的循环神经网络,频谱图输入卷积神经网络后得出的特征向量在沿时间轴进行切片操作后再被输入循环神经网络,语种识别部通过如下步骤完成语种类别的识别:特征提取步骤,依次将频谱图输入预先训练的卷积循环神经网络模型从而获取对应每个音频段的特征数据;类别识别步骤,根据每个待测音频序列的相应所有音频段的音频类别判断概率得出各个对应待测音频序列的语种类别。
[0013] 发明作用与效果
[0014] 根据本发明的基于深度卷积循环神经网络的语种识别方法,因为将待测音频序列分成音频段,同时通过短时傅里叶变换将各个音频段转化为频谱图,再通过一种结合卷积神经网络和循环神经网络的卷积循环神经网络模型来识别频谱图,实现了通过神经网络模型对频谱图提取特征而不是直接提取声学特征,即通过图像识别方法实现了声学识别功能,解决了原声音识别中底层的声学特征难以直接得到带有语种区分性的信息、而高层的声学特征额外需要音频领域专业知识的问题。进一步,本发明还采用Bi-LSTM循环神经网络来捕捉时序特征,它能够捕捉双向的时序信息并且在处理长时间的信息和序列信息时可以自动选择遗忘不重要的节点并记忆重要的节点,一定程度上还能够解决传统的循环神经网络梯度爆炸和梯度消失的问题。因此本发明能够适用于一系列日常、嘈杂的场景中的语种识别任务,并具有较高的语种识别的精度附图说明
[0015] 图1是本发明实施例中基于深度卷积循环神经网络的语种识别方法的流程图
[0016] 图2是本发明实施例中模型训练过程的流程图;以及
[0017] 图3是本发明实施例中卷积循环神经网络模型的结构示意图。

具体实施方式

[0018] 为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的基于深度卷积循环神经网络的语种识别方法作具体阐述。
[0019] <实施例>
[0020] 本实施例以采用维语数据集、中文数据集以及英文数据集为例,通过这些数据集对卷积循环神经网络模型进行训练以及测试。
[0021] 其中,维语数据集为THUYG-20维吾尔语音数据集。该数据集包含在办公室环境下使用IBM-联想台式机的外置麦克录制的约20h的训练数据和1h的测试数据。说话人是348名高校在校本科生及研究生,均为维吾尔族说话人,来自新疆30多个地州。录音内容包括小说、报纸和各类书籍等常规话题。采样格式为16kHz,16位,单声道,wav格式。中文和英文数据集是YouTube新闻数据集,英语频道是CNN频道,中文是VOAchina频道。这些录音的质量非常高,在线可以使用数百小时,但是为了保持数据的均衡性,训练时使用了和维语数据集相同时长的训练数据。
[0022] 这些新闻节目通常以客人或远程通讯员为特色,从而使不同的发言者有很好的组合。此外,新闻节目具有现实世界情况中的噪音:包括音乐混音,来自视频剪辑的非语音音频以及说话之间的转换。同时,为了提高本实施例中模型的鲁棒性,还将一些音频信号分别与随机生成的白噪声、裂纹噪声以及咖啡馆噪声混合在一起。这些噪声模拟了现实生活中可能存在的场景,具有强烈的可听性的存在,但仍然保留了语种的可识别性。除此之外,添加噪声还能够获取到更多的音频数据,实现数据扩充从而让从待测音频序列中获取的数据量更为丰富,进而增加迭代的epoch。另外,在其他实施例中也可以不对音频信号添加这些噪声,或者采用其他的现有技术中的数据扩充方式(例如高斯噪声、脉冲噪声等)。
[0023] 图1是本发明实施例中基于深度卷积循环神经网络的语种识别方法的流程图。
[0024] 如图1所示,基于深度卷积循环神经网络的语种识别方法包括如下步骤:
[0025] 步骤S1,将待测音频序列(即音频的各个帧的时间顺序)分成多个时间长度为2s的音频段。
[0026] 本实施例的步骤S1中,在划分音频段时,以未压缩的无损WAVE格式对所有的音频文件进行编码,从而方便以此格式进行后续操作并且不会降低信号质量。同时,在步骤S1中,对于分割剩余的时长低于2s的音频段将被直接丢弃。
[0027] 步骤S2,依次将步骤S1中分割出的各个音频段进行短时傅里叶变换转化(STFT)为对应的频谱图。
[0028] 本实施例的步骤S2中,将音频段通过短时傅里叶变换(STFT)转换成频谱图以进行模型的训练或是音频序列的识别,短时傅里叶变换的过程使用的是Hanning窗。由于大多数英语语音在对话语音中不超过3kHz,因此在频谱图中仅包括高达5kHz的频率。时间轴(x轴)以每秒250个像素的速度渲染。最终转化得到的频谱图的尺寸为500*129*1。
[0029] 步骤S3,依次将频谱图输入预先训练的卷积循环神经网络模型从而获取对应每个音频段的音频类别判断概率。
[0030] 本实施例中,音频类别判断概率用于表示相应音频段属于各个语种类别的概率。卷积循环神经网络模型分为两个模,一是VGG卷积神经网络,一是Bi-LSTM循环神经网络。
其中,VGG卷积神经网络用于提取频谱图的卷积特征,Bi-LSTM循环神经网络用于捕捉序列的时序特征。在步骤S3中,在频谱图通过卷积神经网络得到对应的特征向量后,将这些特征向量堆叠起来再进行切片,再通过循环神经网络捕捉音频序列的时序特征,最后通过softmax分类得到音频序列所对应的语种类别的概率(即音频类别判断概率)。
[0031] 步骤S4,根据每个待测音频序列的相应所有音频段的音频类别判断概率得出各个对应待测音频序列的语种类别,本实施例中,步骤S4具体包括如下子步骤:
[0032] 步骤S4-1,将每个待测音频序列的所有对应的音频类别判断概率进行平均取值得到每个待测音频序列的平均判断概率;
[0033] 步骤S4-2,根据平均判断概率中概率表示最大的类别作为相应待测音频序列的语种类别。
[0034] 图2是本发明实施例中模型训练过程的流程图。
[0035] 如图2所示,卷积循环神经网络模型的训练过程包括如下步骤:
[0036] 步骤T1,构建初始卷积循环神经网络模型,该初始卷积循环神经网络模型包含的模型参数为随机设置。
[0037] 本实施例中,利用现有的深度学习框架keras,搭建初始卷积循环神经网络模型。本实施例的(初始)卷积循环神经网络模型中:VGG架构的卷积神经网络包含有五个卷积层,其中每一个卷积层之后使用的都是ReLU激活函数,都做批量归一化(Batch Normalization)操作以及2×2,步长为2的最大池化(Max Pooling)操作;Bi-LSTM循环神经网络由两个单独的LSTM组成,每个LSTM具有256个输出单元。这两个LSTM的输出被连接成
512维的向量,并馈送到一个完全连接的层(例如softmax层)进行分类。
[0038] 步骤T2,将训练集中的音频序列经过步骤S1至步骤S2生成频谱图并依次输入初始卷积循环神经网络模型并进行一次迭代。
[0039] 本实施例中,采用THUYG-20维吾尔语数据集和YouTube新闻音频数据集作为训练集,同时还将这些音频数据集中的音频信号添加随机生成的白噪声、裂纹噪声与咖啡馆噪声中的一种或几种以实现数据增强。对于数据集的各个音频数据,采用与步骤S1至步骤S2相同的方法,从中获得了普通话,英语和维语各200936张频谱图,将这些图片按照70%、20%、10%的比例分成训练集、验证集和测试集。
[0040] 上述训练集中的图像分批次进入网络模型进行训练,每次进入网络模型的训练图像批次大小为128,一共迭代训练12万次。
[0041] 步骤T3,迭代后,采用初始卷积循环神经网络模型的最后一层的模型参数分别计算出损失误差。
[0042] 步骤T4,将损失误差反向传播更新模型参数。
[0043] 本实施例的步骤T3中,每次迭代(即训练集图像通过模型后)后,采用交叉熵损失函数,计算输出结果和真实样本间的损失误差。然后通过步骤T4将计算得到的损失误差反向传播,从而更新模型参数。
[0044] 步骤T5,重复步骤T2至步骤T4直至达到训练完成条件,得到训练后的卷积循环神经网络模型。
[0045] 本实施例中,模型训练的训练完成条件与常规的卷积神经网络模型相同,即,各层的模型参数收敛后就完成训练。
[0046] 经过上述迭代训练并在迭代过程中进行误差计算和反向传播的过程,即可获得训练完成的卷积循环神经网络模型。本实施例用该训练完成的卷积循环神经网络模型在日常场景下执行语种识别方法。
[0047] 图3是本发明实施例中卷积循环神经网络模型的结构示意图。
[0048] 如图3所示,本发明的卷积循环神经网络模型包括依次设置的输入层、卷积神经网络作为特征提取器、然后将提取到的特征进行堆叠和切片操作,将切片后的每个特征在每个时间步输入到Bi-LSTM循环神经网络中,最后设置一个全连接层进行分类。其中,卷积神经网络包含有五个卷积层,每个卷积层后均做最大池化操作。Bi-LSTM循环神经网络由两个单独的LSTM网络组成,每个LSTM有256个输出单元。
[0049] 具体地,如图3所示,卷积循环神经网络模型具体包括如下结构:
[0050] (1)输入层I,用于输入各个经过预处理的频谱图,其大小为500×129×1;
[0051] (2)VGG卷积神经网络包含五个卷积层,其中每一个卷积层之后使用的都是ReLU激活函数,都做批量归一化(Batch Normalization)操作以及2×2,步长为2的最大池化(Max Pooling)操作,分别是卷积层FC1(卷积核大小为7×7,个数为16,滑动步长为1,填充为0,卷积后的输出为494×123×16,最大池化后的输出为247×61×16)、卷积层FC2(卷积核大小为5×5,个数为32,滑动步长为1,填充为0,卷积后的输出为243×57×32,最大池化后的输出为121×28×32)、卷积层FC3(卷积核大小为3×3,个数为64,滑动步长为1,填充为0,卷积后的输出为119×26×64,最大池化后的输出为59×13×64)、卷积层FC4(卷积核大小为3×3,个数为128,滑动步长为1,填充为0,卷积后的输出为57×11×128,最大池化后的输出为
28×5×128)、卷积层FC5(卷积核大小为3×3,个数为256,滑动步长为1,填充为0,卷积后的输出为26×3×256,最大池化后的输出为13×1×256);
[0052] (3)接下来将卷积神经网络最终的输出特征,沿着x轴方向进行切片操作,得到13个大小为1×1×256的特征。其中每个特征在每个时间步,作为Bi-LSTM网络的输入。
[0053] (4)Bi-LSTM由两个单独的LSTM组成,用于捕捉双向的时序信息。每个LSTM具有256个输出单元,将这两个LSTM网络的输出连接成512维的向量,并将其馈送到一个完全连接的softmax分类层。
[0054] 本实施例采用数据集中10%的数据作为待测音频来对训练完成的卷积循环神经网络模型进行测试。
[0055] 具体过程为:将测试集依次输入训练好的卷积循环神经网络模型完成步骤S3至步骤S4从而得到语种类别,并根据该识别出的语种类别与测试集中的各个音频序列的语种类别进行比对得出检测准确率。
[0056] 本实施例中,训练好的卷积循环神经网络模型对该测试集的语种识别检测精度(即检测准确率)为93.53%。另外,还整理除了普通话、英语、维语三种语言上模型判断的准确率,结果如下表1所示。
[0057] 表1本发明的方法在不同类别上该模型判断的准确率
[0058]   precision recall F1-score supportEnglish 0.90 0.93 0.91 40192
Mandarin 0.95 0.91 0.93 40192
Uygur 0.97 0.96 0.96 40192
average 0.94 0.93 0.93 120576
[0059] 表1中,English、Chinese、Uygur分别表示不同的语种类别(即English指英语,Mandarin指普通话,Uygur指维吾尔语)。另外,average代表平均程度,precision、recall、F1-score分别表示准确率、召回率和F1分数,F1分数是分类问题的一个衡量指标。Support指的是English、Mandarin和Uygur在训练时分别使用了40192张频谱图。可以看到,该模型在这三个语种类别上的识别准确率都达到了90%以上,尤其是维吾尔语的识别准确率达到了97%,可以很好地应用在少数民族语言的检测方面。
[0060] 上述测试过程表明,本实施例的基于卷积循环神经网络模型的语种识别方法能够在THUYG-20数据集以及YouTube新闻数据集上取得很高的准确率。
[0061] 本实施例中,基于深度卷积循环神经网络的语种识别方法通过语种识别装置实现,该语种识别装置为一台装有NVIDIA GTX 1080显卡(用于进行GPU加速)的计算机,计算机中存储有与基于深度卷积循环神经网络的语种识别方法对应设定的计算机程序。该语种识别装置包括预处理部、语种识别部以及控制上述各部的控制部。
[0062] 预处理部所执行的功能对应语种识别方法中步骤S1至步骤S2,即、将输入的待测音频序列分成多个时间长度为2s的音频段并进行短时傅里叶变换转化为对应的频谱图。
[0063] 语种识别部中存储有一个打包好的训练完成的卷积循环神经网络模型,其所执行的功能对应语种识别方法中步骤S3至步骤S4,即、将频谱图输入预先训练的卷积循环神经网络模型从而获取对应每个音频段的音频类别判断概率。
[0064] 本实施例中,当计算机用户输入待测音频序列并确认进行识别后,预处理部以及语种识别部就先后对待测音频序列进行相应处理从而输出各个待测音频序列以及对应的语种类别。
[0065] 实施例作用与效果
[0066] 根据本实施例提供的基于深度卷积循环神经网络的语种识别方法,因为将待测音频序列分成音频段,同时通过短时傅里叶变换将各个音频段转化为频谱图,再通过一种结合卷积神经网络和循环神经网络的卷积循环神经网络模型来识别频谱图,实现了通过神经网络模型对频谱图提取特征而不是直接提取声学特征,即通过图像识别方法实现了声学识别功能,解决了原声音识别中底层的声学特征难以直接得到带有语种区分性的信息、而高层的声学特征额外需要音频领域专业知识的问题。进一步,本发明还采用Bi-LSTM循环神经网络来捕捉时序特征,它能够捕捉双向的时序信息并且在处理长时间的信息和序列信息时可以自动选择遗忘不重要的节点并记忆重要的节点,一定程度上还能够解决传统的循环神经网络梯度爆炸和梯度消失的问题。因此本发明能够适用于一系列日常、嘈杂的场景中的语种识别任务,并具有较高的语种识别的精度。
[0067] 另外,本实施例所采用的卷积循环神经网络模型结构简单,不需要使用模型混合、多任务训练以及度量学习等方法,因此,与现有的高精度模型相比,本实施例的模型构建快速方便,且不需要音频领域的专家知识,训练集也不需要过多数据就能够实现训练,因此训练过程可以快速完成,且训练消耗的计算资源也较少。
[0068] 上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
[0069] 例如,实施例中,卷积循环神经网络模型训练的语言以普通话、英语和维语为例,在其他实施例中,可使用其他的语言数据集,在训练时设置一下语言种类的个数及语言的标签,即可进行其他语言的相应进行训练和识别。
[0070] 在例如,实施例中,卷积神经网络采用的是VGG架构的网络模型,但在本发明中,也可以采用Inception-v3等其他的卷积神经网络模型。这种卷积神经网络模型提取特征的能更强,但是它的层数更深,参数是原来VGG架构网络的六倍,模型结构更复杂,消耗较多计算资源,但精度会较实施例进一步提高。考虑到实际应用,我们还是选择VGG架构的卷积神经网络作为特征提取器,模型简单且能够达到较高的准确率。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈