一种基于深度学习的车载语音控制方法及其系统专利检索-词串n元语法模型语言建模人工智能专利检索查询-专利查询网

一种基于 深度学习的车载语音控制方法及其系统

阅读：474发布：2020-05-12

专利汇可以提供一种基于深度学习的车载语音控制方法及其系统专利检索，专利查询，专利分析的服务。并且本发明公开一种基于深度学习的车载语音控制方法及其系统，包括以下步骤，信号采集模块，采集车辆内用户的实时音频信号；信号增大电路，接收多个所述信号采集模块产生的电信号加总放大后提供音频输入信号；语音识别模块，所述音频输入信号输入至所述语音识别模块生成识别结果；控制模块，接收匹配的所述指令信号进行指令的执行。本发明的有益效果：基于深度学习的语音识别在一定程度上提高语音识别的精度，能够更好的理解车辆内用户所表达的语言意图，从而更加准确的语音控制车辆的行动。，下面是一种基于深度学习的车载语音控制方法及其系统专利的具体信息内容。

权利要求

1.一种基于深度学习的车载语音控制方法，其特征在于：包括以下步骤，信号采集模块(100)，采集车辆内用户的实时音频信号；
信号增大电路(200)，接收多个所述信号采集模块(100)产生的电信号加总放大后提供音频输入信号；
语音识别模块(300)，所述音频输入信号输入至所述语音识别模块(300)生成识别结果，根据所述识别结果匹配指令库内与所述识别结果相似度高于设定阈值的指令信号；
控制模块(400)，接收匹配的所述指令信号进行指令的执行。
2.如权利要求1所述的基于深度学习的车载语音控制方法，其特征在于：还包括所述音频输入信号转化为文本信号或直接将文本信号输入至所述语音识别模块(300)中，根据所述文本信号与所述指令库的指令完成匹配后输出指令信号。
3.如权利要求1或2所述的基于深度学习的车载语音控制方法，其特征在于：还包括所述语音识别模块(300)的训练步骤，
训练语音输入至录制模块(301)录制为粗音频信号；
所述粗音频信号输入至加工模块(302)内进行处理加工得到较为纯净的精音频信号；
特征提取模块(303)对所述精音频信号进行特征提取并得到特性向量；
构建深度学习模型模块(304)，将提取的所述特性向量和文本语料分别作为模型的输入，对所述深度学习模型模块(304)进行训练；
待识别语音输入解码模块(305)搜索输出分数最高的词序列作为识别结果。
4.如权利要求3所述的基于深度学习的车载语音控制方法，其特征在于：所述深度学习模型模块(304)还包括声学模型和语言模型；
所述声学模型将声学和发音学结合，通过对大量语音文件进行训练得到声学模型，识别时对提取的特征进行打分，生成声学模型分数；
所述语言模型通过对文本语料作为模型输入进行训练生成，且训练好的所述声学模型能够估计假设词序列的可能性，给出输入语音的词序列的语言模型打分；
所述解码模块(305)解码搜索输出分数最高的词序列作为识别结果。
5.如权利要求4任一所述的基于深度学习的车载语音控制方法，其特征在于：所述录制模块(301)通过收集文字素材，根据收集到的素材，用麦克风组件录制成音频，录制时语速正常和吐字清晰，同时生成与音频对应的文本作为当下录制音频的标签。
6.如权利要求4或5所述的基于深度学习的车载语音控制方法，其特征在于：所述加工模块(302)包括以下加工步骤，
采用一阶高通数字滤波器：H(z)＝1-μz-1，其中μ表示系数，取值范围在0.9～1之间；
语音信号具有短时平稳特性，对输入的所述粗音频信号进行重叠分段，设窗函数为w(n)、语音信号为s(n)，则加窗后的语音信号为：sw(n)＝w(n)·s(n)；
当窗函数为矩形窗时，增大阶数就会导致通带最大的上冲越来越接近间断点，采用边瓣较小的窗函数：
。
7.如权利要求6所述的基于深度学习的车载语音控制方法，其特征在于：所述特征提取模块(303)包括以下提取步骤，
输入所述粗音频信号进行加工处理后，得到时域的所述精音频信号；
对所述精音频信号做短时傅里叶变换，得到其线性频谱；
获得的所述线性频谱的线性频率转换为人耳频率的能量谱；
将所述能量谱通过滤波器对频谱信号进行卷积滤波并求取对数能量；
每组滤波器的对数能量做离散余弦变换后输出结果进行计算，得到提取的特征。
8.如权利要求7所述的基于深度学习的车载语音控制方法，其特征在于：所述解码模块(305)还包括以下步骤，
给定待识别特征序列；
由声学模型、语言模型和发音词典共同构建的搜索空间；
在搜索空间中查找到能够以最大概率输出待识别特征序列对应的词串；
搜索输出分数最高的词序列作为识别结果。
9.如权利要求8所述的基于深度学习的车载语音控制方法，其特征在于：还包括以下识别步骤，
任意一段待识别语音的特征观测序列O＝{o1，o2，...，on}，利用统计方法计算得到最大概率表示观测序列的词序列，如下式：
其中，W＝{w1，w2，...，wn}表示O对应的全部词序列，P(W|O)表示O对应全部词序列W的概率,W*表示识别解码得到的词集合中最大条件概率对应的词序列，即最终的识别结果。
10.一种基于深度学习的车载语音控制系统，其特征在于：包括信号采集模块(100)、信号增大电路(200)和语音识别模块(300)；
信号采集模块(100)，所述信号采集模块(100)分布设置于车辆内，用于实时采集用户的音频信号；
信号增大电路(200)，与所述信号采集模块(100)连接，用于接收多个所述信号采集模块(100)产生的电信号加总放大后提供音频输入信号；
语音识别模块(300)，与所述信号增大电路(200)连接，所述音频输入信号输入至所述语音识别模块(300)生成识别结果，且能够根据所述识别结果匹配指令库内与所述识别结果相似度高于设定阈值的指令信号；
控制模块(400)，与所述语音识别模块(300)连接，用于接收匹配的所述指令信号进行指令的执行控制车辆的状态。

说明书全文

一种基于深度学习的车载语音控制方法及其系统

技术领域

[0001] 本发明涉及语音识别的技术领域，尤其涉及一种基于深度学习的车载语音控制系统及其控制方法。

背景技术

[0002] 近年来，伴随着深度学习的发展，语音识别领域也基于深度学习取得新的突破和进展。出现了很多新的语音识别模型，显著提升了识别效果，同时伴随移动设备、智能家居设备和车载信息系统等的普及，语音识别正在越来越多地出现在人们的日常生活中。

[0003] 传统语音识别方法主要是采用模板匹配的方法，这种方法在孤立词的识别可以取得一定的效果，但面对连续大量的语音表达上，识别效果大打折扣。基于深度学习的语音识别方法相对于传统方法，它具有更好的特征提取和推理等能力。将基于深度学习的语音识别技术应用于车载控制系统中，有利于系统更好的从车主的语言中理解车主的意图，从而达到控制车辆的目的。

发明内容

[0004] 本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

[0005] 鉴于上述现有存在的问题，提出了本发明。

[0006] 因此，本发明解决的一个技术问题是：为了解决传统语音识别对连续大量语音识别精度较低，从而对车主表达意图理解不够的缺陷。

[0007] 为解决上述技术问题，本发明提供如下技术方案：一种基于深度学习的车载语音控制方法，包括以下步骤，信号采集模块，采集车辆内用户的实时音频信号；信号增大电路，接收多个所述信号采集模块产生的电信号加总放大后提供音频输入信号；语音识别模块，所述音频输入信号输入至所述语音识别模块生成识别结果，根据所述识别结果匹配指令库内与所述识别结果相似度高于设定阈值的指令信号；控制模块，接收匹配的所述指令信号进行指令的执行。

[0008] 作为本发明所述的基于深度学习的车载语音控制方法的一种优选方案，其中：还包括所述音频输入信号转化为文本信号或直接将文本信号输入至所述语音识别模块中，根据所述文本信号与所述指令库的指令完成匹配后输出指令信号。

[0009] 作为本发明所述的基于深度学习的车载语音控制方法的一种优选方案，其中：还包括所述语音识别模块的训练步骤，训练语音输入至录制模块录制为粗音频信号；所述粗音频信号输入至加工模块内进行处理加工得到较为纯净的精音频信号；特征提取模块对所述精音频信号进行特征提取并得到特性向量；构建深度学习模型模块，将提取的所述特性向量和文本语料分别作为模型的输入，对所述深度学习模型模块进行训练；待识别语音输入解码模块搜索输出分数最高的词序列作为识别结果。

[0010] 作为本发明所述的基于深度学习的车载语音控制方法的一种优选方案，其中：所述深度学习模型模块还包括声学模型和语言模型；所述声学模型将声学和发音学结合，通过对大量语音文件进行训练得到声学模型，识别时对提取的特征进行打分，生成声学模型分数；所述语言模型通过对文本语料作为模型输入进行训练生成，且训练好的所述声学模型能够估计假设词序列的可能性，给出输入语音的词序列的语言模型打分；所述解码模块解码搜索输出分数最高的词序列作为识别结果。

[0011] 作为本发明所述的基于深度学习的车载语音控制方法的一种优选方案，其中：所述录制模块通过收集文字素材，根据收集到的素材，用麦克风组件录制成音频，录制时语速正常和吐字清晰，同时生成与音频对应的文本作为当下录制音频的标签。

[0012] 作为本发明所述的基于深度学习的车载语音控制方法的一种优选方案，其中：所述加工模块包括以下加工步骤，采用一阶高通数字滤波器：H(z)＝1-μz-1，其中μ表示系数，取值范围在0.9～1之间；语音信号具有短时平稳特性，对输入的所述粗音频信号进行重叠分段，设窗函数为w(n)、语音信号为s(n)，则加窗后的语音信号为：sw(n)＝w(n)·s(n)；当窗函数为矩形窗时，增大阶数就会导致通带最大的上冲越来越接近间断点，采用边瓣较小的窗函数：

[0013]

[0014] 作为本发明所述的基于深度学习的车载语音控制方法的一种优选方案，其中：所述特征提取模块包括以下提取步骤，输入所述粗音频信号进行加工处理后，得到时域的所述精音频信号；对所述精音频信号做短时傅里叶变换，得到其线性频谱；获得的所述线性频谱的线性频率转换为人耳频率的能量谱；将所述能量谱通过滤波器对频谱信号进行卷积滤波并求取对数能量；每组滤波器的对数能量做离散余弦变换后输出结果进行计算，得到提取的特征。

[0015] 作为本发明所述的基于深度学习的车载语音控制方法的一种优选方案，其中：所述解码模块还包括以下步骤，给定待识别特征序列；由声学模型、语言模型和发音词典共同构建的搜索空间；在搜索空间中查找到能够以最大概率输出待识别特征序列对应的词串；搜索输出分数最高的词序列作为识别结果。

[0016] 作为本发明所述的基于深度学习的车载语音控制方法的一种优选方案，其中：还包括以下识别步骤，任意一段待识别语音的特征观测序列O＝{o1，o2，...，on}，利用统计方法计算得到最大概率表示观测序列的词序列，如下式：

[0017]

[0018] 其中，W＝{w1，w2，...，wn}表示O对应的全部词序列，P表示O对应全部词序列W的概率,W*表示识别解码得到的词集合中最大条件概率对应的词序列，即最终的识别结果。

[0019] 本发明解决的另一个技术问题是：提供一种基于深度学习的车载语音控制系统，上述控制方法依托于本系统实现。

[0020] 为解决上述技术问题，本发明提供如下技术方案：一种基于深度学习的车载语音控制系统，其特征在于：包括信号采集模块、信号增大电路和语音识别模块；信号采集模块，所述信号采集模块分布设置于车辆内，用于实时采集用户的音频信号；信号增大电路，与所述信号采集模块连接，用于接收多个所述信号采集模块产生的电信号加总放大后提供音频输入信号；语音识别模块，与所述信号增大电路连接，所述音频输入信号输入至所述语音识别模块生成识别结果，且能够根据所述识别结果匹配指令库内与所述识别结果相似度高于设定阈值的指令信号；控制模块，与所述语音识别模块连接，用于接收匹配的所述指令信号进行指令的执行控制车辆的状态。

[0021] 本发明的有益效果：基于深度学习的语音识别在一定程度上提高语音识别的精度，能够更好的理解车辆内用户所表达的语言意图，从而更加准确的语音控制车辆的行动。附图说明

[0022] 为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

[0023] 图1为本发明第一种实施例所述基于深度学习的车载语音控制方法的整体结构示意图；

[0024] 图2为本发明第一种实施例所述声学模型结构示意图；

[0025] 图3为本发明第一种实施例所述基于深度学习网络的声学模型结构示意图；

[0026] 图4为本发明第二种实施例所述基于深度学习的车载语音控制系统的整体结构示意图。

具体实施方式

[0027] 为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

[0028] 在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

[0029] 其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

[0030] 本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

[0031] 同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

[0032] 本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

[0033] 实施例1

[0034] 参照图1～3的示意，本实施例中示意为一种基于深度学习的车载语音控制方法的整体流程图，语音作为语言符号的载体，在传递过程中承载着一定的语言意义和丰富的内在感受。因而，语音是人与人之间思想传递和情感表达最直接高效的途径。随着智能信息技术的不断发展，与传统的通过硬件设备跟计算机进行人机交互相比，人类更希望直接通过语音跟计算机等智能设备进行交互。因此，研究将人类日常交流中最便捷的语音交流方式引申到人与硬件设备的智能语音互动方式始终都是研究者们密切关注且极具挑战的研究课题。实现人机语音智能交互的几项核心技术包含语音识别和语言理解等。其中，语音识别要解决的问题是让硬件设备以人类的语音信号作为输入，并输出对应的文本的过程。具体的，该方法包括以下步骤，

[0035] 信号采集模块100，采集车辆内用户的实时音频信号；

[0036] 信号增大电路200，接收多个信号采集模块100产生的电信号加总放大后提供音频输入信号；

[0037] 语音识别模块300，音频输入信号输入至语音识别模块300生成识别结果，根据识别结果匹配指令库内与识别结果相似度高于设定阈值的指令信号；

[0038] 控制模块400，接收匹配的指令信号进行指令的执行。

[0039] 本实施例除了以上采集语音信号输入至语音识别模块300进行识别之外，还包括将上述音频输入信号转化为文本信号或直接将文本信号输入至语音识别模块300中，根据文本信号与指令库的指令完成匹配后输出指令信号。

[0040] 还包括语音识别模块300的训练步骤，训练语音输入至录制模块301录制为粗音频信号；粗音频信号输入至加工模块302内进行处理加工得到较为纯净的精音频信号；特征提取模块303对精音频信号进行特征提取并得到特性向量；构建深度学习模型模块304，将提取的特性向量和文本语料分别作为模型的输入，对深度学习模型模块304进行训练；待识别语音输入解码模块305搜索输出分数最高的词序列作为识别结果。其中，

[0041] 录制模块301通过收集文字素材，根据收集到的素材，用麦克风组件录制成音频，录制时语速正常和吐字清晰，同时生成与音频对应的文本作为当下录制音频的标签。

[0042] 加工模块302包括以下加工步骤，采用一阶高通数字滤波器：H(z)＝1-μz-1，其中μ表示系数，取值范围在0.9～1之间；语音信号具有短时平稳特性，对输入的粗音频信号进行重叠分段，设窗函数为wn、语音信号为sn，则加窗后的语音信号为：sw(n)＝w(n)·s(n)；当窗函数为矩形窗时，增大阶数就会导致通带最大的上冲越来越接近间断点，采用边瓣较小的窗函数：

[0043]

[0044] 特征提取模块303包括以下提取步骤，输入粗音频信号进行加工处理后，得到时域的精音频信号；对精音频信号做短时傅里叶变换，得到其线性频谱；获得的线性频谱的线性频率转换为人耳频率的能量谱；将能量谱通过滤波器对频谱信号进行卷积滤波并求取对数能量；每组滤波器的对数能量做离散余弦变换后输出结果进行计算，得到提取的特征。

[0045] 解码模块305还包括以下步骤，给定待识别特征序列；由声学模型、语言模型和发音词典共同构建的搜索空间；在搜索空间中查找到能够以最大概率输出待识别特征序列对应的词串；搜索输出分数最高的词序列作为识别结果。

[0046] 进一步的，深度学习模型模块304还包括声学模型和语言模型；声学模型将声学和发音学结合，通过对大量语音文件进行训练得到声学模型，识别时对提取的特征进行打分，生成声学模型分数；语言模型通过对文本语料作为模型输入进行训练生成，且训练好的声学模型能够估计假设词序列的可能性，给出输入语音的词序列的语言模型打分；解码模块305解码搜索输出分数最高的词序列作为识别结果。

[0047] 本实施例还包括以下识别步骤，

[0048] 任意一段待识别语音的特征观测序列O＝{o1，o2，...，on}，利用统计方法计算得到最大概率表示观测序列的词序列，如下式：

[0049]

[0050] 其中，W＝{w1，w2，...，wn}表示O对应的全部词序列，PW|O表示O对应全部词序列W的概率,W*表示识别解码得到的词集合中最大条件概率对应的词序列，即最终的识别结果。

[0051] 再进一步的，本实施例中深度学习模型模块304中包括声学模型和语言模型，其中声学模型例如可以采用包括如下的建立步骤：

[0052] 设参数λ可描述为λ＝(N，M，π，A，B)、S为集合状态S＝{s1，s2，...，sN}，N为状态数，O代表全部观测序列集合O＝{o1，o2，...，oM}，M为可观察序列数，Q为序列集合Q＝(q1，q2，...，qT)，V＝(v1，v2，...，vT)表示各个状态输出与观测序列之间的对应关系。因此初始状态概率分布表示为π，则π＝(πi)，其中πi＝P(q1＝si)，i＝1，2...N。

[0053] 状态转移概率分布所构成的矩阵表示为A，则A＝[aij]N×N；

[0054] 其中aij＝P(qt+1＝sj|qt＝si)，i＝1，2...N，j＝1，2...N，aij≥0，bj(k)≥0，表示在时刻t时刻下状态Sj生产观测Ok的概率。

[0055] 声学建模采用自左向右的且每个状态带自环的结构形式，Oi表示原始语音信号提取的声学特征参数的观测序列值，Pij代表从第i个状态转移到第j个状态的概率值bi(o)为状态i对应的语音的输出特征分布值。其中，

[0056] 概率分布bj(o)由混合模型拟合，即如下式：

[0057]

[0058] 其中K表示在j状态的输出特征分布包含的高斯个数，wjk表示在j状态的输出特征分布中第k个高斯分量的权重，∑jk表示在j状态的输出特征分布中第k个高斯分量的协方差矩阵，μjk表示在j状态的输出特征分布中第k个高斯分量的均值向量j状态的输出特征分布中第k个概率密度函数表示为：

[0059]

[0060] 其中，D为特征向量o的维数，|∑jk|为∑jk的绝对值，(o-μjk)T为(o-μjk)的转置，wjk的权重系数应满足

[0061] 随着深度学习方法在机器学习领域的不断创新应用，基于深度神经网络的建模方法逐步被引入到声学模型研究过程。因此，深度神经网络将每一时刻的观测，即声学特征参数作为输入，对输入信号的后验概率进行建模，将得到的后验概率和先验概率相结合，进而得到状态的观测概率。通过计算序列的概率进行语音或者文本的识别。具体的，本实施例中结合深度学习网络包括如下步骤，

[0062] 给定某一时刻的观测，即输入样本为x,其对应的输出状态为s，则神经网络得到的后验概率输出为p(s|x)，有下式：其中p(s)为状态s在所有的状态序列集合中发生的概率，即每个建模单位对应的先验概率。p(x)为观测样本x在全部观测集中发生的概率，即观测样本的先验概率，通常认为x出现概率是相等的，在以上公式中可以将该项移除。

[0063] 进一步的，本实施例中语言模型包括如下的构建过程：

[0064] 一个包含N个单词并由一定规律组成的句子W＝{w1，w2，...，wn}，其形成的概率P(W)可以表示为P(W)＝P(w1，w2，...，wn)，其统计先验概率表示为：

[0065]

[0066] 当计算句子中第n个词条件概率P(wn|w1w2...wn-1)，需要前n-1个词按顺序出现，在实际文本语料中，这种词间存在着较长约束关系出现的概率非常小。因此，词序列中第n个词的出现只依赖于它前n-1个词，概率公示为：

[0067] P(wn|w1w2...wn-1)≈P(wn)P(wn-2|wn-1)

[0068] 因此，完整句子在文本语料中的概率值可近似由句子中包含的单词序列出现的概率相乘得到的值表示。例如实际应用中，本实施例的句子出现的概率用公示可表示为：

[0069] P(W)＝P(w1)P(w2|w1)P(w3|w1w2)...P(wn|wn-2wn-1)

[0070] 当出现某些词出现的概率很低甚至统计概率为零的情况，这将对识别结果产生巨大影响，重新对模型概率计算方式进行改进，对已经出现的词的概率减小进而使概率为零的词的概率增加，经过数据平滑操作，所有词出现的概率的和为1。

[0071] 场景一：

[0072] 本实施例将部署本方法的测试车辆和未部署本方法的车辆进行对比测试，并运用MATLB 软件编程实现本方法进行仿真测试，并运用MATLB软件编程实现本方法和传统方法的仿真测试，根据实验结果得到仿真数据，实验中传统方法采用(例如目前做的较好长安in-Call、上汽斑马智行、奇瑞雄狮智云系统)，测试对象为语音指令包括(“开窗、打开收音机等”)，对最后多次控制结果的准确率进行统计，对各个语音控制方式和算法进行性能比较，在每次控制实验中进行30次，实验采用上述几种传统方法和本方法进行对比测试，其测试结果如下表1的示意。

[0073] 表1：传统方法与本方法的测试对比。

[0074]

[0075] 由上测试结果可知，车辆中部署的长安in-Call、上汽斑马智行、奇瑞雄狮智云系统分别识别驾驶员的语音控制指令，从车主的语言中理解车主的意图，从而达到控制车辆的目的，不难发现，其在难度更精细、更大的情况下，本方法明显具有优势，且测试指令全部达到100％的成功率。

[0076] 实施例2

[0077] 参照图4的示意，本实施例中提出一种基于深度学习的车载语音控制系统，包括信号采集模块100、信号增大电路200、语音识别模块300和控制模块400。具体的，信号采集模块100，信号采集模块100分布设置于车辆内，用于实时采集用户的音频信号；信号增大电路200，与信号采集模块100连接，用于接收多个信号采集模块100产生的电信号加总放大后提供音频输入信号；语音识别模块300，与信号增大电路200连接，音频输入信号输入至语音识别模块300生成识别结果，且能够根据识别结果匹配指令库内与识别结果相似度高于设定阈值的指令信号；控制模块400，与语音识别模块300连接，用于接收匹配的指令信号进行指令的执行控制车辆的状态。

[0078] 需要说明的是，信号采集模块100为分布设置于车辆内的麦克风、话筒或者音频传感器的语音采集设备，在车辆内布置了多个麦克风以用于采集用户的语音输入，这些麦克风分散地分布在车内的四周以便能从尽可能多的角度采集到用户的语音输入。所采集到的语音输入可以是例如电信号的形式，这些电信号可由信号增大电路200加总以获得音频输入信号。例如，多个麦克风可分布于车内每个汽车座椅的近旁，每个麦克风101采集到的接收到的语音音量是明显不同的，也可以根据语音音量的大小判断出位于车辆内什么位置发出的声音，从而判断是否为驾驶位的声音。

[0079] 信号增大电路200为放大电路，亦称为放大器，它是使用最为广泛的电子电路之一、也是构成其他电子电路的基础单元电路。所谓放大，就是将输入的微弱信号放大到所需要的幅度值且与原输入信号变化规律一致的信号，即进行不失真的放大。只有在不失真的情况下放大才有意义。放大电路的本质是能量的控制和转换，根据输入回路和输出回路的公共端不同，放大电路有三种基本形式：共射放大电路、共集放大电路和共基放大电路。本实施例为电流信号求和并放大。例如由信号源、晶体三极管构成的放大器及负载组成。不难理解的是，其可以通过集成电路的方式集成与线路板上。

[0080] 语音识别模块300为将识别算法，算法可以理解为有基本运算及规定的运算顺序所构成的完整的解题步骤。或者看成按照要求设计好的有限的确切的计算序列，并且这样的步骤和序列可以解决一类问题，算法是若干指令的有穷序列，程序是计算机指令的有序集合，是算法用某种程序设计语言的表述，是算法在计算机上的具体实现，算法在描述上一般使用半形式化的语言，而程序是用形式化的计算机语言描述的程序是计算机指令的有序集合，算法是解决问题的步骤；程序是算法的代码实现，且一个算法可以用不同的编程语言编写出不同的程序。而将程序嵌入芯片内构成嵌入式的芯片，是移植到芯片硬件进行实现，因此本实施例中将上述实施了的算法进行编程移植到芯片上，将该植入算法的芯片与信号增大电路200的电路板进行集成形成电路板。同理，控制模块400为具有数据处理的微处理器，本实施例在车载中的应用，例如为ECU单元，电子控制单元，又称“行车电脑”、“车载电脑”等。从用途上讲则是汽车专用微机控制器，它和普通的电脑一样,由微处理器(MCU)、存储器(ROM、RAM)、输入/输出接口(I/O)、模数转换器(A/D)以及整形、驱动等大规模集成电路组成。用一句简单的话来形容就是“ECU就是汽车的大脑”。在ECU中CPU是核心部分，它具有运算与控制的功能，发动机在运行时，它采集各传感器的信号，进行运算，并将运算的结果转变为控制信号，控制被控对象的工作。它还实行对存储器(ROM/FLASH/EEPROM、RAM)、输入/输出接口(I/O)和其它外部电路的控制；存储器ROM中存放的程序是经过精确计算和大量实验取得的数据为基础编写出来的，这个固有程序在发动机工作时，不断地与采集来的各传感器的信号进行比较和计算。并且改装ECU，就是通过改变处理问题的方法(原先设定好的ECU程序)，来达到改变发动机运行的目的。所谓的“ECU程序”，其实就是一套运算法则，它存放在储存器内，对从输入设备经控制器转化而来的信号，处理生成对应的指令信号，从输出设备传输出去，从而实现对车辆更多行驶状态下的控制。

[0081] 本实施例中将信号增大电路200、语音识别模块300和控制模块400共同集成于同电路板上设置于车载电脑内，车载电脑是专门针对汽车特殊运行环境及电器电路特点开发的具有抗高温、抗尘、抗震功能并能与汽车电子电路相融合的专用汽车信息化产品，一种高度集成化的车用多媒体信息中心。将该车载电脑与信号采集模块100进行连接，因此不难理解的是，本实施例中可以通过车载电脑显示器上进行输入文本的方式进行识别后下达控制模块204指令实现车辆的文本输入控制，同时也可以将语音识别的结果匹配相应的文本在车载电脑显示器上显示，供用户进行查阅或者选择是否执行语音指令，从而进行完整的语音信号采集、识别到发送指令控制车辆的整个过程。

[0082] 应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

标题	发布/更新时间	阅读量
交易保障平台的数据库建立方法及装置	2020-05-08	633
对地理地址进行标准化的方法和装置	2020-05-15	631
文字信息处理方法、装置及终端	2020-05-12	861
用于语音识别的训练文本数据的筛选方法及系统	2020-05-13	201
规则驱动下基于特征的文本关系抽取方法	2020-05-14	166
一种领域新词发现的方法及装置	2020-05-16	76
一种基于自然语言处理技术进行呼叫中心智能质检系统	2020-05-16	698
信息识别方法、信息推荐方法、模板构建方法及计算设备	2020-05-17	931
问答语料生成方法、装置和计算机可读存储介质	2020-05-12	833
文字信息处理方法、装置及终端	2020-05-13	820

一种基于深度学习的车载语音控制方法及其系统

一种基于深度学习的车载语音控制方法及其系统

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：