首页 / 专利库 / 人工智能 / 声学模型 / 一种语音控制方法、装置、电子设备及存储介质

一种语音控制方法、装置、电子设备及存储介质

阅读:862发布:2020-05-11

专利汇可以提供一种语音控制方法、装置、电子设备及存储介质专利检索,专利查询,专利分析的服务。并且本 申请 公开了一种语音控制方法、装置、 电子 设备及存储介质,其中,所述方法包括:运行目标应用的情况下,在所述目标应用的展示界面中展示能够由用户操控的M个可控对象,以及用户不可操控的L个可视对象;其中,M、L均为整数;采集用户的第一语音信息,对所述用户的第一语音信息进行处理得到控制指令;基于所述控制指令,对所述目标应用的展示界面中M个可控对象的N个目标对象进行控制;其中,N为小于等于M的整数。,下面是一种语音控制方法、装置、电子设备及存储介质专利的具体信息内容。

1.一种语音控制方法,其特征在于,所述方法包括:
运行目标应用的情况下,在所述目标应用的展示界面中展示能够由用户操控的M个可控对象,以及用户不可操控的L个可视对象;其中,M、L均为整数;
采集用户的第一语音信息,对所述用户的第一语音信息进行处理得到控制指令;
基于所述控制指令,对所述目标应用的展示界面中M个可控对象的N个目标对象进行控制;其中,N为小于等于M的整数。
2.根据权利要求1所述的方法,其特征在于,对所述用户的第一语音信息进行处理得到控制指令,包括:
基于预设的声学模型对所述用户的第一语音信息进行解析,得到所述用户的第一语音信息所对应的至少一个文字;
基于预设的语言模型对所述至少一个文字进行处理,得到对应的控制指令。
3.根据权利要求1所述的方法,其特征在于,对所述用户的第一语音信息进行处理得到控制指令,包括:
将所述第一语音信息上传至服务器
接收所述云端服务器反馈的所述第一语音信息的识别结果,所述识别结果中包含有对所述用户的第一语音信息所对应的控制指令。
4.根据权利要求1所述的方法,其特征在于,所述基于所述控制指令,对所述目标应用的展示界面中M个可控对象的N个目标对象进行控制之后,所述方法还包括:
得到对所述N个目标对象的控制结果;其中,所述控制结果中包含显示内容,以及音频内容;
播放所述控制结果中的音频内容,以及通过所述目标应用的所述展示界面中展示所述控制结果中的显示内容。
5.根据权利要求1所述的方法,其特征在于,所述基于所述控制指令,对所述目标应用的展示界面中M个可控对象的N个目标对象进行控制,所述方法包括:
采集用户的第二语音信息,对所述用户的第二语音信息进行识别得到对应的文本信息;
当所述文本信息表征所述用户确认控制指令时,基于所述控制指令,对所述目标应用的展示界面中M个可控对象的N个目标对象进行控制。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在采集到音频信息时,判断所述音频信息是否为用户的语音信息,若是,则确定采集到用户的语音信息;
当确定采集到用户的语音信息时,判断采集到的用户的语音信息是否为第一语音信息的语音开始点。
7.一种语音控制装置,其特征在于,所述装置包括:
显示模,用于运行目标应用的情况下,在所述目标应用的展示界面中展示能够由用户操控的M个可控对象,以及用户不可操控的L个可视对象;其中,M、L均为整数;
音频采集模块,用于采集用户的第一语音信息;
识别模块,用于对所述用户的第一语音信息进行处理得到控制指令;
后台控制模块,用于基于所述控制指令,对所述目标应用的展示界面中M个可控对象的N个目标对象进行控制;其中,N为小于等于M的整数。
8.根据权利要求7所述的装置,其特征在于,所述识别模块包括:
声学模型子模块,用于基于预设的声学模型对所述用户的第一语音信息进行解析,得到所述用户的第一语音信息所对应的至少一个文字;
语音模型子模块,用于基于预设的语言模型对所述至少一个文字进行处理,得到对应的控制指令。
9.根据权利要求7所述的装置,其特征在于,所述装置,还包括:
通信模块,用于将所述第一语音信息上传至云端服务器;以及接收所述云端服务器反馈的所述第一语音信息的识别结果,所述识别结果中包含有对所述用户的第一语音信息所对应的控制指令;
相应的,所述识别模块,还用于通过通信模块上传第一语音信息,以及通过所述通信模块获取所述第一语音信息的识别结果。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
音频输出模块,用于播放所述控制结果中的音频内容;
相应的,所述后台控制模块,还用于得到对所述N个目标对象的控制结果;其中,所述控制结果中包含显示内容,以及音频内容;
所述显示模块,还用于通过所述目标应用的所述展示界面中展示所述控制结果中的显示内容。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
信号处理模块,用于对采集的第一语音信息进行语音增强;其中,所述语音增强的处理包括消除干扰噪声。
12.一种电子设备,其特征在于,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
13.一种存储介质,其特征在于,所述存储介质用于存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。

说明书全文

一种语音控制方法、装置、电子设备及存储介质

技术领域

[0001] 本申请涉及信息处理领域,尤其涉及一种语音控制方法、装置、电子设备及存储介质。

背景技术

[0002] 随着生活智能化平的提高,电子设备,尤其是智能终端能够为用户提供的应用所适用的场景越来越多,除了基础的通信功能之外,还能够为用户提供更多的娱乐类的应用,这其中就包括一些卡牌类的游戏应用。相关技术中,针对这类卡牌游戏类的应用的操作,通常为用户通过触控对某一个或多个目标对象(比如卡牌游戏中的一个或多个卡牌)进行控制。但是,这样的操控处理可能会出现用户选错目标对象的问题,这样就无法保证用户的使用体验。发明内容
[0003] 本申请提供一种语音控制方法、装置、电子设备及存储介质,以解决现有技术中存在的上述问题。
[0004] 本发明一方面提供一种语音控制方法,所述方法包括:
[0005] 运行目标应用的情况下,在所述目标应用的展示界面中展示能够由用户操控的M个可控对象,以及用户不可操控的L个可视对象;其中,M、L均为整数;
[0006] 采集用户的第一语音信息,对所述用户的第一语音信息进行处理得到控制指令;
[0007] 基于所述控制指令,对所述目标应用的展示界面中M个可控对象的N个目标对象进行控制;其中,N为小于等于M的整数。
[0008] 本发明一方面提供一种语音控制装置,所述装置包括:
[0009] 显示模,用于运行目标应用的情况下,在所述目标应用的展示界面中展示能够由用户操控的M个可控对象,以及用户不可操控的L个可视对象;其中,M、L均为整数;
[0010] 音频采集模块,用于采集用户的第一语音信息;
[0011] 识别模块,用于对所述用户的第一语音信息进行处理得到控制指令;
[0012] 后台控制模块,用于基于所述控制指令,对所述目标应用的展示界面中M个可控对象的N个目标对象进行控制;其中,N为小于等于M的整数。
[0013] 本发明另一方面提供一种电子设备,其特征在于,包括:
[0014] 至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够前述方法。
[0015] 本发明另一方面还提供一种存储介质,所述存储介质用于存储计算机指令,所述计算机指令用于使所述计算机执行前述方法。
[0016] 通过采用上述方案,就能够在针对目标应用中的目标对象进行控制的时候,通过检测用户发出的第一语音信息,并对第一语音信息进行处理得到相应的控制指令就能够实现。从而,避免了现有技术中需要通过用户手动触控对目标对象进行控制所带来的误操作的问题,如此能够提升用户的控制准确度,提升用户的使用体验。附图说明
[0017] 图1为本发明实施例提供的一种语音控制方法流程示意图;
[0018] 图2为本发明实施例提供的一种语音控制方法处理架构示意图;
[0019] 图3为本发明实施例提供的一种确定语音信息开始点的处理流程示意图;
[0020] 图4为本发明实施例提供的一种语音控制装置的组成结构示意图一;
[0021] 图5为本发明实施例提供的一种语音控制装置的组成结构示意图二;
[0022] 图6为本发明实施例提供的一种语音控制装置的组成结构示意图三;
[0023] 图7为本发明实施例提供的一种语音控制装置的组成结构示意图四;
[0024] 图8为本发明实施例提供的一种电子设备组成结构示意图。

具体实施方式

[0025] 为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0026] 在相关技术中,对卡牌类游戏进行操作,是基于双指控制移动卡牌,这种基于双指控制移动的卡牌的应用(或系统),主要是用户通过将双指在触摸屏上的两点坐标,映射到对应的两张卡牌的横坐标。进而确定卡牌移动后的横坐标、卡牌之间的距离、及卡牌与其邻近边缘的卡牌的横坐标距离,通过卡牌移动后的距离水平排列所述移动后的两张卡牌之间的所有的卡牌;同时根据移动后的两张卡牌的横坐标分别与其邻近边缘卡牌的横坐标之间的距离,水平排列移动后的所述的两张卡牌分别与其邻近卡牌之间的所有卡牌。
[0027] 然而,随着移动互联网的到来,智能手机的功能越来越强大。但是由于智能终端,尤其是智能手机的触控显示屏幕的操作空间有限,在智能手机上玩游戏时,用户常常遇到操作困难的情况,这其中对于卡牌较多的情况,问题尤为突出。比如,经典的卡牌游戏:斗地主。一副牌的情况下,每位用户也有至少17张的卡牌。屏幕上排列比较密集,用户有时很难精准的选中卡牌,进而可能导致出错卡牌而导致整局游戏的失败。用户的体验感就不是很强烈。基于双指控制移动的卡牌系统虽然能一定程度上缓解这个问题,但并没有从根本上解放出双手。有时仍不免出现卡牌命中错误的情况。并且,有时,用户的双手不方便来操控游戏,这个时候往往只能选择游戏托管,这在某种程度上相当于放弃了游戏的胜利可能。
[0028] 可以看出,在相关技术中,这些问题主要是由于游戏仍以触摸屏为媒体,利用有限的屏幕空间来控制卡牌,即便再精心设计的算法有时仍难以避免卡牌的命中错误。基于前述问题,本发明实施例提供一种语音控制方法,如图1所示,包括:
[0029] S11:运行目标应用的情况下,在所述目标应用的展示界面中展示能够由用户操控的M个可控对象,以及用户不可操控的L个可视对象;其中,M、L均为整数;
[0030] S12:采集用户的第一语音信息,对所述用户的第一语音信息进行处理得到控制指令;
[0031] S13:基于所述控制指令,对所述目标应用的展示界面中M个可控对象的N个目标对象进行控制;其中,N为小于等于M的整数。
[0032] 本实施例可以应用与电子设备,尤其是智能终端,至少具备显示单元、音频采集、音频处理、CPU等功能单元的终端均在本申请实施例的保护范围内,比如,智能手机、平板电脑等等。
[0033] 这里,所述目标应用可以为卡牌类游戏应用,目标应用的展示界面可以理解为进行卡牌类游戏的界面,比如,以扑克类游戏为例,可以在所述展示界面中展示有3或4个用户的标识和/或图像,其中有一个用户的标识和/或图像为当前用户的,另外2、3个用户为其他用户的标识和/或图像。
[0034] 再进一步地,能够由用户操控的M个可控对象可以为用户可以操作的麻将或扑克牌,也就是说,在所述展示界面中,还可以展示当前用户未出的扑克牌或麻将牌的样式;
[0035] 另外,用户不可操控的L个可视对象为在所述展示界面中展示的当前用户以及其他用户的已出扑克牌或麻将牌的样式。
[0036] 还需要指出的是,所述可视对象还需要具备的一个属性为位置不可移动的对象。也就是说,在卡牌游戏中的用户已出的扑克牌或麻将牌为任何用户均不可再进行操控的对象。以此区分于其他游戏,比如搏斗类游戏,虽然也存在用户不可操作的对象,但是这些对象均可以移动位置,比如,由其他联网的用户控制或者可以为游戏自定义控制进行移动,这类对象不在本实施例中的可视对象的保护范围中。
[0037] 当然,展示界面中还可以展示有背景等内容,只是这里不再详述。
[0038] 前述S11可以理解为在运行目标应用的情况下,当前在目标应用的展示界面中展示的M个可控对象以及L个可视对象,在不同的时刻或者不同的时段内,M、L可以相同也可以不同。比如,用户进行扑克牌类的游戏应用操作时,本次操作的时候,可以有17张扑克牌可以操作,而其他用户未出牌,也就是M=17,L=0的情况;用户完成本次操作之后,在下一次操作的时候,其目标应用的展示界面中展示的M个可控对象可以为剩余的16张扑克牌,而可视对象可以为3张,也就是下一次操作时再次执行S11的情况下,M=16,L=3;当然,M和L还可以有其他的数值,只是这里不再进行穷举。
[0039] 前述步骤S12中,采集用户的第一语音信息的处理中,可以包括有:基于至少一个音频采集单元进行音频信息的采集,对采集到的音频信息进行编码;然后通过波束成形(BF,Beam Forming)模块的处理对所述音频信息的特定方向的音频进行增强,屏蔽其他方向的语音,从而得到增强的单通道音频信息作为第一语音信息。
[0040] 其中,所述至少一个音频采集单元可以为至少一个麦克(MIC)。进而进行BF的处理可以理解为对采集到的音频信息进行降噪处理,并且可以对预设的特定方向,或者将音频最强的一个方向作为所述特定方向进行音频增强,最终得到单通道的第一语音信息。
[0041] 也就是说,当采集到第一语音信息之后,需要对采集的第一语音信息进行语音增强;得到增强的第一语音信息,然后再对增强的第一语音信息进行识别。其中,所述语音增强的处理包括消除干扰噪声。
[0042] 再进一步地,前述对第一语音信息进行信号处理,可以为进行语音增强处理,其具体采用的处理方式可以包括:BF模块或者AEC模块对第一语音信息进行处理,其功能可以为降噪,从而能够得到更加清晰、干净的第一语音信息,可以理解为增强的第一语音信息。进而,识别第一语音信息可以采用音频识别模块,其中可以包括有声学模型以及语言模型等等。
[0043] 对所述用户的第一语音信息进行处理得到控制指令,可以存在以下两种处理方式:
[0044] 处理方式1、
[0045] 基于预设的声学模型对所述用户的第一语音信息进行解析,得到所述用户的第一语音信息所对应的至少一个文字;基于预设的语言模型对所述至少一个文字进行处理,得到对应的控制指令。
[0046] 具体来说,所述预设的声学模型(AM)会得到所述第一语音信息与预先训练的命令词对应的最大概率,得到至少一个文字;也就是说,将第一语音信息输入到AM之后,基于预设的训练好的命令词,将所述第一语音信息转换为至少一个文字。
[0047] 然后,语言模型(LM)根据上下文,对AM输出的结果(也就是前述指示一个文字)进行解码,得出得分最高的命令语句。至此完成了一段语音到文本序列的解码,也就是最终得到所述第一语音信息所对应的控制指令。
[0048] 这种处理方式为电子设备或终端设备自身预设有声学模型以及语言模型的情况,通过声学模型以及语言模型在本地就可以进行语音信息的识别处理,最终得到对应的控制指令。这种处理方式的优势在于,不需要电子设备(或终端设备)连接网络,就能够完成语音信息的识别处理,从而提升处理效率。
[0049] 处理方式2、
[0050] 将所述第一语音信息上传至服务器;接收所述云端服务器反馈的所述第一语音信息的识别结果,所述识别结果中包含有对所述用户的第一语音信息所对应的控制指令。
[0051] 本处理方式中,云端服务器可以预置训练好的声学模型以及语言模型,由云端服务器采用声学模型以及语言模型对所述第一语音信息进行识别,得到最终的识别结果。
[0052] 这种处理方式,即终端设备不需要进行语音信息的分析以及识别,这种方式尤其适用于本地(也就是电子设备或终端设备)的系统资源不充沛的情况下,其中,系统资源可以为CPU计算能、处理能力以及存储空间等等。
[0053] 处理方式3、
[0054] 可以将前两种处理方式结合使用,也就是说可以先对终端设备进行一级唤醒,终端设备唤醒之后,将第一语音信息上传至云端服务器,然后由云端服务器对所述云端服务器进行识别,反馈对应的控制指令给终端设备。
[0055] 其中,终端设备预先进行的以及唤醒可以理解为终端设备预先对采集到的音频信息进行简单识别,如果识别结果表征音频信息匹配预设的关键字(或关键词),则满足一级唤醒条件,执行后续处理,否则,不进行后续处理。
[0056] 举例来说,有些卡牌游戏的处理会稍微复杂一些,如果增加训练的AM和LM那么可能会使得这类游戏的处理数据变得较大,不方便部署在本机移动端。可以考虑在电子设备本地部署一级模型,如果第一语音信息通过一级模型的阈值后,将缓存的音频通过通信模块送入云端识别,云端返回识别的结果至移动端。
[0057] 前述处理可以完成对第一语音信息的识别得到最终的控制指令,进而本实施例执行所述控制指令可以存在两种方式:
[0058] 方式1、即前述S13的处理,基于所述控制指令,对所述目标应用的展示界面中M个可控对象的N个目标对象进行控制。
[0059] 也就是说,直接根据控制指令所指示的M个可控对象中的N个目标对象进行控制。比如,所述控制指令指示为“打红桃2”,那么可以直接根据该指令从剩余的M个可控对象中确定“红桃2”作为目标对象,将“红桃2”打出。
[0060] 方式2、
[0061] 采集用户的第二语音信息,对所述用户的第二语音信息进行识别得到对应的文本信息;当所述文本信息表征所述用户确认控制指令时,基于所述控制指令,对所述目标应用的展示界面中M个可控对象的N个目标对象进行控制。
[0062] 与方式1不同之处在于,本方式增加了让用户再次确认的处理流程。
[0063] 具体来说,在前述采集第二语音信息之前,还可以包括输出所述控制指令;所述输出控制指令,可以包括:通过音频输出单元输出所述控制指令,和/或,通过显示单元展示所述控制指令。
[0064] 其中,音频输出单元可以为喇叭,比如电子设备(或智能终端)上设置的Speaker。也就是说,可以通过播放的方式为用户输出控制指令,可以在此基础上指示用户确认,比如,通过音频输出的方式输出“打出方块3”;或者,通过音频输出的方式输出“打出方块3”之后,提示用户进行确认的音频,比如为“是否确认”,当然,这里仅为示例,实际处理中可以设置其他话术,本示例中不进行穷举。
[0065] 所述显示单元可以为电子设备的显示屏;相应的,所述展示所述控制指令,可以为在电子设备的显示屏上,在图形用户界面(Graphical User Interface,GUI)中展示所述控制指令。这里,通过GUI展示所述控制指令,可以为通过文字展示所述控制指令“打黑桃5”或者“打出对A”等等;进一步地,还可以通过文字展示提示信息以提示用户对控制指令进行确认,比如,输出控制指令的同时展示“是否确认”的字样。
[0066] 进一步地,用户在听到和/或看到控制指令的时候,可以发出第二语音信息,该第二语音信息用于确认是否同意执行控制指令,此时,用户可以发出“确认”的反馈信息,又或者,如果控制指令有误,那么可以发出“错了,重新输入”等指令。
[0067] 对第二语音信息进行识别的处理与前述对第一语音信息进行识别的相关处理相同,这里不再赘述。
[0068] 当对用户的第二语音信息进行识别得到的文本信息表征确认控制指令的时候,可以执行该控制指令,具体的执行方式与前述方式1相同,不再赘述。
[0069] 当用户的第二语音信息对应的文本信息表征为不确认控制指令的时候,不执行该控制指令,此时,可以再返回至S11重新指令前述处理步骤。
[0070] 所述基于所述控制指令,对所述目标应用的展示界面中M个可控对象的N个目标对象进行控制之后,所述方法还包括:
[0071] 得到对所述N个目标对象的控制结果;其中,所述控制结果中包含显示内容,以及音频内容;
[0072] 播放所述控制结果中的音频内容,以及通过所述目标应用的所述展示界面中展示所述控制结果中的显示内容。
[0073] 也就是说,在电子设备(或智能终端)根据控制结果对目标对象进行控制得到相应的控制结果,所述控制结果中包含显示内容,以及音频内容。
[0074] 其中,所述显示内容可以包括有目标对象的位置、展示方式等,还可以包括有目标对象的移动动画效果等等,只要跟显示相关的参数、效果等均包含在内,这里不做赘述。比如,根据控制指令进行处理之后,目标对象的位置可能需要发生改变,并且其展示方式可能也会发生改变,另外改变后的展示方式对应的参数可以由仅当前用户可见可能变成全部参与本次游戏的用户均可见等等,这里不进行穷举。由于这些改变主要通过视觉观察得到,因此在展示界面中需要有显示上的样式的改变,需要通过展示界面进行控制结果的展示。
[0075] 另外,还可以通过音频输出单元播放该控制结果的音频内容。比如,用户的控制指令为“打红桃2”,那么得到的控制结果可能为打出该选中的目标对象,那么控制结果对应的音频信息可以为“已将红桃2打出”。
[0076] 下面结合图2对前述处理的一种具体示例进行说明:该系统由麦克(Mic)阵列、波束成形(BF,Beamform)模块(可以称为BF语音增强算法模块)、声学模型、语言模型、后台中枢控制、及与用户交互的扬声器(Speaker)、GUI游戏页面等模块组成。
[0077] 其中,Mic采用线性阵列构成,能够采集用户的语音命令语音,同时对其编码。BF模块对采集的多路Mic语音(比如图中所示为两路原始音频)进行语音增强,增强特定方向的语音,而屏蔽其他方向的语音,得到单通道语音。其中,BF模块还可以为AEC模块,实际处理时不仅限于这些模块,只要能够用户降噪的模块均可以在本实施例的保护范围内。
[0078] 将增强的单通道语音送入AM,AM会给出语音对应预先训练的命令词的最大概率,语言模型根据上下文对AM输出的结果解码出得分最高的命令语句。到这里,就完成了一段语音到文本序列的解码。把LM输出的文本序列送入后台来达到卡牌的控制。把控制的结果从Speaker和/或GUI页面反馈给用户。
[0079] 其中,LM的命令词本文(也就是控制指令)也会实时反馈给用户,等待用户的命令确认(比如前述第二语音信息)之后再根据控制指令执行卡牌的控制,最终把控制结果反馈给用户。
[0080] 在前述处理的基础上,本实施例还进一步提供语音信息的语音开始点的判断的处理,具体包括:
[0081] 在采集到音频信息时,判断所述音频信息是否为用户的语音信息,若是,则确定采集到用户的语音信息;
[0082] 当确定采集到用户的语音信息时,判断采集到的用户的语音信息是否为第一语音信息的语音开始点。
[0083] 前述判断的处理可以在执行S11之前执行,也就是说首先需要确认是否为用户发出的语音信息,在确定是用户发出的语音信息之后,进一步判断是否为用户发出的语音信息的开始点,如果是,那么可以认为后续的语音均为用户本次发出的第一语音信息。
[0084] 再进一步地,判断用户的语音信息是否为第一语音信息的语音开始点的方式,可以包括有:通过唇动检测器进行检测。比如,开始进行音频检测的同时需要开启唇动检测器,如果通过唇动检测器判定用户当前有唇动,那么可以认为是用户此时发出的语音信息为第一语音信息的语音开始点,或者,可以理解为第一语音信息的开始时刻。
[0085] 又或者,判断用户的语音信息是否为第一语音信息的语音开始点的方式,可以包括有:可以通过KWD进行检测。也就是说,检测到关键词的时候,可以确定当前采集到的用户的语音信息为第一语音信息的语音开始点。
[0086] 结合图3,对前述通过唇动检测器的方式来确定第一语音信息的语音开始点的方法进行说明:
[0087] 步骤1-2,首先检测到音频信号,然后判断音频信号是否为语音信号,如果不是,则返回重新执行步骤1,如果是,则执行步骤3;
[0088] 步骤3,语音检测器的状态是否为0,如果是,则执行步骤4,否则执行步骤8;这里,设置语音检测器状态为0指的是语音检测器处于开启状态,或者检测状态,也就是说,当前语音检测器开始,那么可以进一步进行后续唇动检测。
[0089] 步骤4-5,向唇动检测器发信号1,状态设置为2;其中,信号1可以用于指示唇动检测器进行判断的处理;进而唇动检测器检测用户唇动,如果有唇动则执行步骤6,否则执行步骤7;
[0090] 步骤6,发送信号1到语音检测器,执行步骤8;
[0091] 步骤7,发送信号0到语音检测器,执行步骤8;
[0092] 步骤8,语音检测器判断是否接收到信号1,如果是,则执行步骤9,否则,执行步骤10;
[0093] 步骤9,确定当前语音信号为语音开始点,然后开始执行后续处理,其中,语音开始点可以理解为前述S11的第一语音信息的语音开始点,相应的,所述后续处理可以理解为前述步骤S11~S13;
[0094] 步骤10,设置语音检测器状态为0,返回执行步骤1。
[0095] 可见,通过采用上述方案,就能够在针对目标应用中的目标对象进行控制的时候,通过检测用户发出的第一语音信息,并对第一语音信息进行处理得到相应的控制指令就能够实现。从而,避免了现有技术中需要通过用户手动触控对目标对象进行控制所带来的误操作的问题,如此能够提升用户的控制准确度,提升用户的使用体验。
[0096] 本发明实施例提供一种语音控制装置,如图4所示,包括:
[0097] 显示模块401,用于运行目标应用的情况下,在所述目标应用的展示界面中展示能够由用户操控的M个可控对象,以及用户不可操控的L个可视对象;其中,M、L均为整数;
[0098] 音频采集模块402,用于采集用户的第一语音信息;
[0099] 识别模块403,用于对所述用户的第一语音信息进行处理得到控制指令;
[0100] 后台控制模块404,用于基于所述控制指令,对所述目标应用的展示界面中M个可控对象的N个目标对象进行控制;其中,N为小于等于M的整数。
[0101] 本实施例可以应用与电子设备,尤其是智能终端,前述显示模块可以为电子设备的显示屏,所述音频采集模块可以为电子设备的麦克(MIC)或者MIC阵列,所述处理模块以及后台控制模块均可以由CPU实现。
[0102] 所述装置还可以包括:信号处理模块407,用于对采集的第一语音信息进行语音增强;其中,所述语音增强的处理包括消除干扰噪声。也就是说当采集到第一语音信息之后,需要对采集的第一语音信息进行语音增强;得到增强的第一语音信息,然后由识别模块再对增强的第一语音信息进行识别。其中,所述语音增强的处理包括消除干扰噪声。
[0103] 对所述用户的第一语音信息进行处理得到控制指令,可以存在以下两种处理方式:
[0104] 处理方式1、
[0105] 在图4的基础上,如图5所示,所述识别模块403包括:
[0106] 声学模型子模块4031,用于基于预设的声学模型对所述用户的第一语音信息进行解析,得到所述用户的第一语音信息所对应的至少一个文字;
[0107] 语音模型子模块4032,用于基于预设的语言模型对所述至少一个文字进行处理,得到对应的控制指令。
[0108] 处理方式2、
[0109] 在图4的基础上,如图6所示,所述装置,还包括:
[0110] 通信模块405,用于将所述第一语音信息上传至云端服务器;以及接收所述云端服务器反馈的所述第一语音信息的识别结果,所述识别结果中包含有对所述用户的第一语音信息所对应的控制指令;
[0111] 相应的,所述识别模块403,还用于通过通信模块上传第一语音信息,以及通过所述通信模块获取所述第一语音信息的识别结果。
[0112] 处理方式3、
[0113] 可以将前两种处理方式结合使用,也就是说识别模块403可以先进行一级唤醒,唤醒终端设备之后,将第一语音信息上传至云端服务器,然后由云端服务器对所述云端服务器进行识别,识别模块403接收云端服务器反馈的控制指令。
[0114] 前述处理可以完成对第一语音信息的识别得到最终的控制指令,进而本实施例执行所述控制指令可以存在两种方式:
[0115] 方式1、后台控制模块,基于所述控制指令,对所述目标应用的展示界面中M个可控对象的N个目标对象进行控制。
[0116] 方式2、
[0117] 音频采集模块,采集用户的第二语音信息;处理模块对所述用户的第二语音信息进行识别得到对应的文本信息;后台控制模块,当所述文本信息表征所述用户确认控制指令时,基于所述控制指令,对所述目标应用的展示界面中M个可控对象的N个目标对象进行控制。
[0118] 在图5的基础上,如图7所示,所述装置还包括:
[0119] 音频输出模块406,用于播放所述控制结果中的音频内容;
[0120] 相应的,所述后台控制模块404,还用于得到对所述N个目标对象的控制结果;其中,所述控制结果中包含显示内容,以及音频内容;
[0121] 所述显示模块401,还用于通过所述目标应用的所述展示界面中展示所述控制结果中的显示内容。
[0122] 需要理解的是,本示例中虽然在图5的基础上进行的说明,实际上,还可以在图6的基础上增加前述音频输出模块,虽然未通过附图示意,但是该结构也在本实施例的保护范围内。
[0123] 在前述处理的基础上,本实施例还进一步提供语音信息的语音开始点的判断的处理,具体包括:
[0124] 处理模块,用于在采集到音频信息时,判断所述音频信息是否为用户的语音信息,若是,则确定采集到用户的语音信息;
[0125] 当确定采集到用户的语音信息时,判断采集到的用户的语音信息是否为第一语音信息的语音开始点。
[0126] 可见,通过采用上述方案,就能够在针对目标应用中的目标对象进行控制的时候,通过检测用户发出的第一语音信息,并对第一语音信息进行处理得到相应的控制指令就能够实现。从而,避免了现有技术中需要通过用户手动触控对目标对象进行控制所带来的误操作的问题,如此能够提升用户的控制准确度,提升用户的使用体验。
[0127] 基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供了一种电子设备。图8为本发明实施例电子设备的硬件组成结构示意图,包括:
[0128] 通信接口91,能够与其它设备比如网络设备等进行信息交互;
[0129] 处理器92,与所述通信接口91连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述信息处理装置的一个或多个技术方案提供的方法。而所述计算机程序存储在存储器93上。
[0130] 当然,实际应用时,信息处理装置中的各个组件通过总线系统94耦合在一起。
[0131] 可理解,总线系统94用于实现这些组件之间的连接通信。总线系统94除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统94。
[0132] 本发明实施例中的存储器93用于存储各种类型的数据以支持信息处理装置的操作。这些数据的示例包括:用于在信息处理装置上操作的任何计算机程序。
[0133] 可以理解,存储器93可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。
[0134] 上述本发明实施例揭示的方法可以应用于处理器92中,或者由处理器92实现。
[0135] 在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器93,上述计算机程序可由终端的处理器92执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
[0136] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0137] 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0138] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈