一种向语音识别系统发送语音信号的方法和装置专利检索-语音信号音频信号广播专利检索查询-专利查询网

一种向语音识别系统发送语音 信号的方法和装置

阅读：187发布：2020-05-08

专利汇可以提供一种向语音识别系统发送语音信号的方法和装置专利检索，专利查询，专利分析的服务。并且本发明提供了一种向语音识别系统发送语音信号的方法和装置，属于语音处理技术领域。所述方法包括：接收至少三个语音接收部件分别发送的同一时间段的语音信号；若未检测到所述语音信号中存在端点，则检测所述语音信号的声波传输时延的排序是否发生改变；若所述语音信号的声波传输时延的排序发生改变，将所述声波传输时延的排序发生改变的时间点之前的所述语音信号中的一路语音信号，发送给语音识别系统，以使所述语音识别系统对所述时间点之前的语音信号进行语音识别。采用本发明，可以提高语音信号的识别率。，下面是一种向语音识别系统发送语音信号的方法和装置专利的具体信息内容。

权利要求

1.一种向语音识别系统发送语音信号的方法，其特征在于，所述方法包括：
接收至少三个语音接收部件分别发送的同一时间段的语音信号；
若未检测到所述语音信号中存在端点，则在接收到的至少三路语音信号中，检测相似波形组，所述相似波形组由每路语音信号中的一个波形段组成，所述相似波形组中各波形段两两之间满足预设相似度；
按照检测到的一个相似波形组中各波形段的时间先后顺序，确定所述至少三路语音信号在当前时间点的声波传输时延的排序；
若当前检测到的相似波形组对应的声波传输时延的排序与前一个检测到的相似波形组对应的声波传输时延的排序不同，则确定所述至少三路语音信号在当前时间点的声波传输时延的排序发生改变；
若当前检测到的相似波形组对应的声波传输时延的排序与前一个检测到的相似波形组对应的声波传输时延的排序相同，则确定所述至少三路语音信号在当前时间点的声波传输时延的排序未发生改变；
若所述语音信号的声波传输时延的排序发生改变，将所述声波传输时延的排序发生改变的时间点之前的所述语音信号中的一路语音信号，发送给语音识别系统，以使所述语音识别系统对所述时间点之前的语音信号进行语音识别。
2.根据权利要求1所述的方法，其特征在于，所述接收至少三个语音接收部件分别发送的同一时间段的语音信号之前，还包括：
接收所述至少三个语音接收部件分别发送的同一声源的语音信号，所述语音信号包括预设内容；
确定同一声源的语音信号中语音识别率最高的一路语音信号；
在所述至少三个语音接收部件中，将所述语音识别率最高的一路语音信号对应的语音接收部件设置为主语音接收部件。
3.根据权利要求2所述的方法，其特征在于，所述若所述语音信号的声波传输时延的排序发生改变，将所述声波传输时延的排序发生改变的时间点之前的所述语音信号中的一路语音信号，发送给语音识别系统，包括：
若所述语音信号的声波传输时延的排序发生改变，确定所述声波传输时延的排序发生改变的时间点；
将所述时间点之前的主语音接收部件发送的所述语音信号，发送给语音识别系统。
4.一种向语音识别系统发送语音信号的装置，其特征在于，所述装置包括：
接收模块，用于接收至少三个语音接收部件分别发送的同一时间段的语音信号；
检测模块，包括检测子模块和第一确定子模块，所述检测子模块，用于若未检测到所述语音信号中存在端点，则在接收到的至少三路语音信号中，检测相似波形组，所述相似波形组由每路语音信号中的一个波形段组成，所述相似波形组中各波形段两两之间满足预设相似度；
所述第一确定子模块，用于按照检测到的一个相似波形组中各波形段的时间先后顺序，确定所述至少三路语音信号在当前时间点的声波传输时延的排序；
所述第一确定子模块，用于若当前检测到的相似波形组对应的声波传输时延的排序与前一个检测到的相似波形组对应的声波传输时延的排序不同，则确定所述至少三路语音信号在当前时间点的声波传输时延的排序发生改变；
所述第一确定子模块，用于若当前检测到的相似波形组对应的声波传输时延的排序与前一个检测到的相似波形组对应的声波传输时延的排序相同，则确定所述至少三路语音信号在当前时间点的声波传输时延的排序未发生改变；
发送模块，用于若所述语音信号的声波传输时延的排序发生改变，将所述声波传输时延的排序发生改变的时间点之前的所述语音信号中的一路语音信号，发送给语音识别系统，以使所述语音识别系统对所述时间点之前的语音信号进行语音识别。
5.根据权利要求4所述的装置，其特征在于，所述接收模块，还用于：
接收所述至少三个语音接收部件分别发送的同一声源的语音信号，所述语音信号包括预设内容；
所述装置还包括：
确定模块，用于确定同一声源的语音信号中语音识别率最高的一路语音信号；
设置模块，用于在所述至少三个语音接收部件中，将所述语音识别率最高的一路语音信号对应的语音接收部件设置为主语音接收部件。
6.根据权利要求5所述的装置，其特征在于，所述发送模块包括第二确定子模块和发送子模块，其中：
所述第二确定子模块，用于若所述语音信号的声波传输时延的排序发生改变，确定所述声波传输时延的排序发生改变的时间点；
所述发送子模块，用于将所述时间点之前的主语音接收部件发送的所述语音信号，发送给语音识别系统。

说明书全文

一种向语音识别系统发送语音 信号的方法和装置

技术领域

[0001] 本发明涉及语音处理技术领域，特别涉及一种向语音识别系统发送语音信号的方法和装置。

背景技术

[0002] 随着计算机技术和网络技术的发展，智能设备逐渐进入人们的生活中，如智能空调、智能电视和智能灯等。在使用智能设备的过程中，用户可以通过语音控制智能设备，如用户可以通过语音“打开电视”来控制智能电视的开启。

[0003] 现有技术中，通过语音控制智能设备的方法一般为：智能设备上的语音接收部件接收到语音信号时，将语音信号转发给智能设备上设置的语音识别模块。语音识别模块对语音信号进行识别，然后智能设备基于识别结果，确定对应的控制指令，然后执行相应的操作。

[0004] 在实现本发明的过程中，发现现有技术至少存在以下问题：

[0005] 如果当前房间内不仅仅有用户，还有其他人，当用户讲完用于控制智能设备的语音时，其他人接着讲话，语音接收部件会一直接收到语音信号，并且将语音信号发送至语音识别模块。语音识别模块接收到的语音信号不仅包括用户用于控制智能设备的语音，还有可能包括别人讲话的语音，这样，语音识别模块无法区分用户与别人的语音信号，导致识别结果不准确。

发明内容

[0006] 为了解决现有技术的问题，本发明实施例提供了一种向语音识别系统发送语音信号的方法和装置。所述技术方案如下：

[0007] 第一方面，提供了一种向语音识别系统发送语音信号的方法，所述方法包括：

[0008] 接收至少三个语音接收部件分别发送的同一时间段的语音信号；

[0009] 若未检测到所述语音信号中存在端点，则检测所述语音信号的声波传输时延的排序是否发生改变；

[0010] 若所述语音信号的声波传输时延的排序发生改变，将所述声波传输时延的排序发生改变的时间点之前的所述语音信号中的一路语音信号，发送给语音识别系统，以使所述语音识别系统对所述时间点之前的语音信号进行语音识别。

[0011] 可选的，所述若未检测到所述语音信号中存在端点，则检测所述语音信号的声波传输时延的排序是否发生改变，包括：

[0012] 若未检测到所述语音信号中存在端点，则基于对接收到的至少三路语音信号中的相似波形段的时间先后顺序的检测，确定所述语音信号的声波传输时延的排序是否发生改变。

[0013] 可选的，所述基于对接收到的至少三路语音信号中的相似波形段的时间先后顺序的检测，确定所述语音信号的声波传输时延的排序是否发生改变，包括：

[0014] 在接收到的至少三路语音信号中，检测相似波形组，所述相似波形组由每路语音信号中的一个波形段组成，所述相似波形组中各波形段两两之间满足预设相似度；

[0015] 按照检测到的一个相似波形组中各波形段的时间先后顺序，确定所述至少三路语音信号在当前时间点的声波传输时延的排序；

[0016] 若当前检测到的相似波形组对应的声波传输时延的排序与前一个检测到的相似波形组对应的声波传输时延的排序不同，则确定所述至少三路语音信号在当前时间点的声波传输时延的排序发生改变；

[0017] 若当前检测到的相似波形组对应的声波传输时延的排序与前一个检测到的相似波形组对应的声波传输时延的排序相同，则确定所述至少三路语音信号在当前时间点的声波传输时延的排序未发生改变。

[0018] 这样，可以更准确的确定声波传输时延的排序是否发生改变。

[0019] 可选的，所述接收至少三个语音接收部件分别发送的同一时间段的语音信号之前，还包括：

[0020] 接收所述至少三个语音接收部件分别发送的同一声源的语音信号，所述语音信号包括预设内容；

[0021] 确定同一声源的语音信号中语音识别率最高的一路语音信号；

[0022] 在所述至少三个语音接收部件中，将所述语音识别率最高的一路语音信号对应的语音接收部件设置为主语音接收部件。

[0023] 可选的，所述若所述语音信号的声波传输时延的排序发生改变，将所述声波传输时延的排序发生改变的时间点之前的所述语音信号中的一路语音信号，发送给语音识别系统，包括：

[0024] 若所述语音信号的声波传输时延的排序发生改变，确定所述声波传输时延的排序发生改变的时间点；

[0025] 将所述时间点之前的主语音接收部件发送的所述语音信号，发送给语音识别系统。

[0026] 这样，可以使语音识别系统接收到的语音信号的信号质量最高。

[0027] 第二方面，提供了一种向语音识别系统发送语音信号的装置，所述装置包括：

[0028] 接收模块，用于接收至少三个语音接收部件分别发送的同一时间段的语音信号；

[0029] 检测模块，用于若未检测到所述语音信号中存在端点，则检测所述语音信号的声波传输时延的排序是否发生改变；

[0030] 发送模块，用于若所述语音信号的声波传输时延的排序发生改变，将所述声波传输时延的排序发生改变的时间点之前的所述语音信号中的一路语音信号，发送给语音识别系统，以使所述语音识别系统对所述时间点之前的语音信号进行语音识别。

[0031] 可选的，所述检测模块，用于：

[0032] 若未检测到所述语音信号中存在端点，则基于对接收到的至少三路语音信号中的相似波形段的时间先后顺序的检测，确定所述语音信号的声波传输时延的排序是否发生改变。

[0033] 可选的，所述检测模块包括检测子模块和第一确定子模块，其中：

[0034] 所述检测子模块，用于在接收到的至少三路语音信号中，检测相似波形组，所述相似波形组由每路语音信号中的一个波形段组成，所述相似波形组中各波形段两两之间满足预设相似度；

[0035] 所述第一确定子模块，用于按照检测到的一个相似波形组中各波形段的时间先后顺序，确定所述至少三路语音信号在当前时间点的声波传输时延的排序；

[0036] 所述第一确定子模块，用于若当前检测到的相似波形组对应的声波传输时延的排序与前一个检测到的相似波形组对应的声波传输时延的排序不同，则确定所述至少三路语音信号在当前时间点的声波传输时延的排序发生改变；

[0037] 所述第一确定子模块，用于若当前检测到的相似波形组对应的声波传输时延的排序与前一个检测到的相似波形组对应的声波传输时延的排序相同，则确定所述至少三路语音信号在当前时间点的声波传输时延的排序未发生改变。

[0038] 可选的，所述接收模块，还用于：

[0039] 接收所述至少三个语音接收部件分别发送的同一声源的语音信号，所述语音信号包括预设内容；

[0040] 所述装置还包括：

[0041] 确定模块，用于确定同一声源的语音信号中语音识别率最高的一路语音信号；

[0042] 设置模块，用于在所述至少三个语音接收部件中，将所述语音识别率最高的一路语音信号对应的语音接收部件设置为主语音接收部件。

[0043] 可选的，所述发送模块包括第二确定子模块和发送子模块，其中：

[0044] 所述第二确定子模块，用于若所述语音信号的声波传输时延的排序发生改变，确定所述声波传输时延的排序发生改变的时间点；

[0045] 所述发送子模块，用于将所述时间点之前的主语音接收部件发送的所述语音信号，发送给语音识别系统。

[0046] 本发明实施例提供的技术方案带来的有益效果是：

[0047] 本发明实施例中，在向语音识别系统发送语音信号的过程中，管理设备可以接收至少三个语音接收部件分别发送的同一时间段的语音信号，若未检测到语音信号中存在端点，则检测语音信号的声波传输时延的排序是否发生改变，若语音信号的声波传输时延的排序发生改变，将声波传输时延的排序发生改变的时间点之前的语音信号中的一路语音信号，发送给语音识别系统，以使语音识别系统对时间点之前的语音信号进行语音识别。因为，不同用户的语音的发出位置不同，所以在向语音识别系统发送语音信号的过程中，当说话的用户发生转变时，会导致各路语音信号对应的声波传输时延的排序发生改变，所以，上述确定出的时间点之前的语音信号，不包含其他人讲话的语音，从而可以提高语音识别结果的准确率。附图说明

[0048] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0049] 图1是本发明实施例提供的一种向语音识别系统发送语音信号的系统框架图；

[0050] 图2是本发明实施例提供的一种向语音识别系统发送语音信号的方法流程图；

[0051] 图3是本发明实施例提供的一种语音信号的波形图；

[0052] 图4是本发明实施例提供的一种语音信号的波形图；

[0053] 图5是本发明实施例提供的一种向语音识别系统发送语音信号的方法流程图；

[0054] 图6是本发明实施例提供的一种向语音识别系统发送语音信号的装置的结构示意图；

[0055] 图7是本发明实施例提供的一种向语音识别系统发送语音信号的装置的结构示意图；

[0056] 图8是本发明实施例提供的一种向语音识别系统发送语音信号的装置的结构示意图；

[0057] 图9是本发明实施例提供的一种向语音识别系统发送语音信号的装置的结构示意图；

[0058] 图10是本发明实施例提供的一种管理设备的结构示意图。

具体实施方式

[0059] 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

[0060] 本发明实施例提供了一种向语音识别系统发送语音信号的方法，该方法的执行主体可以是管理设备。其中，管理设备可以是手机、麦克风、路由器等，该管理设备中可以设置有处理器、存储器、收发器、语音识别器等，处理器可以用于向语音识别系统发送语音信号的处理，存储器可以用于向语音识别系统发送语音信号的过程中需要的数据以及产生的数据，收发器可以用于接收以及发送语音信号等，语音识别器可以用于对语音信号进行识别等。本发明实施例中以管理设备为路由器为例，进行方案的详细描述，其它情况与之类似，本实施例不再累述。

[0061] 需要说明的是，语音识别系统用于对用户输入的语音进行识别，得到其对应的文本，其中，语音识别系统可以是设置在云端的语音识别器，也可以是设置在管理设备内的语音识别器，本发明实施例对此不做具体限定。

[0062] 在对本发明实施例进行详细描述前，首先对应用场景进行描述，如图1所示，为本发明实施例提供的系统框架图，其中包括服务器、智能设备和路由器，智能设备中安装有语音接收部件。用户想要对家里的智能设备进行语音控制，可以在各智能设备上安装语音接收部件，语音接收部件可以用于检测声音信号，如包括两个麦克风的麦克风阵列等。用户可以在自己所用的移动终端中安装语音控制应用程序，然后开启语音控制应用程序，移动终端则会显示主界面，主界面中显示有所连接的路由器的名称，并对应该路由器的名称显示有语音接收部件的管理选项，用户可以点击该管理选项，移动终端则会发射蓝牙信号，房间内的语音接收部件接收到蓝牙信号后，则会向移动终端发送响应信号，移动终端接收到响应信号后，则会显示发送响应信号的语音接收部件的名称，用户可以点击确认按键，移动终端则会记录为路由器绑定的语音接收部件。这样，可以为路由器与语音接收部件建立绑定关系，本发明实施例中路由器至少绑定了三个语音接收部件。另外，移动终端还可以将自己所连接的无线网络的账户和密码发送至语音接收部件，语音接收部件则会连接到无线网络，并向移动终端反馈连接成功的通知。

[0063] 如图2所示，该方法的处理流程可以包括如下的步骤：

[0064] 步骤201，接收至少三个语音接收部件分别发送的同一时间段的语音信号。

[0065] 在实施中，用户要对房间内某个设备进行语音控制时，可以说相应的控制语音，如用户要控制电视开启，可以讲语音“打开电视”，该房间内的至少三个语音接收部件中的VAD(Voice Activity Detection，语音活动检测)算法可以确定人讲话的语音信号，每当确定语音信号时，可以分别向路由器发送接收到的语音信号，路由器则会接收到至少三个语音接收部件发送的语音信号。

[0066] 另外，为了减少误检测的情况，用户需要先说出预设的唤醒词，如“海信管家”等，然后再讲出控制语音。

[0067] 步骤202，若未检测到语音信号中存在端点，则检测语音信号的声波传输时延的排序是否发生改变。

[0068] 在实施中，路由器可以检测接收到的三路语音信号中是否有连续的音频帧的幅值小于预设阈值，如果三路语音信号中不存在连续的音频帧的幅值小于预设阈值，则检测语音信号的声波传输时延的排序是否发生变化。检测语音信号的声波传输时延的排序是否发生变化的方法可以是：一般距离用户(即声源)越近的语音接收部件，由于声波传输距离最短，最早接收到语音信号，距离用户越远的语音接收部件，由于声波传输距离最长，最迟接收到语音信号，所以路由器可以确定每次接收到三路语音信号的早晚顺序，如果接收单三路语音信号的早晚顺序发生改变，则确定语音信号的声波传输时延的排序发生改变，如果接收单三路语音信号的早晚顺序未发生改变，则确定语音信号的声波传输时延的排序未发生改变。例如，如图3所示，至少三路语音信号为A、B、C三路语音信号，直角坐标系中A路语音信号的开始时间点t1为10点20分35.7秒，B路语音信号的开始时间点t2为10点20分35秒，C路语音信号的开始时间点t3为10点20分36.1秒，至少三路语音信号的对应的声波传输时延的排序为B-A-C。

[0069] 另外，路由器也可以不检测接收到的三路语音信号中是否存在连续的音频帧的幅值小于预设阈值，只要接收到三路语音信号，就检测三路语音信号的声波传输时延的排序是否发生改变。

[0070] 可选的，可以基于相似波形段的时间先后顺序的检测，确定声波传输时延的排序是否发生改变，相应的步骤202的处理可以如下：

[0071] 若未检测到语音信号中存在端点，则基于对接收到的至少三路语音信号中的相似波形段的时间先后顺序的检测，确定语音信号的声波传输时延的排序是否发生改变。

[0072] 在实施中，路由器可以检测接收到的三路语音信号中是否有连续的音频帧的幅值小于预设阈值，如果三路语音信号中不存在连续的音频帧的幅值小于预设阈值，路由器可以确定三路语音信号中存在的相似波形段，然后确定相似波形段的开始时间点，基于相似波形段的开始时间点，确定相似波形段的时间先后顺序，如果相似波形段的时间先后顺序发生改变，则确定语音信号的声波传输时延的顺序发生改变，如果相似波形段的时间先后顺序未发生改变，则确定语音信号的声波传输时延的顺序未发生改变。

[0073] 可选的，可以基于相似波形段的时间先后顺序的检测，确定声波传输时延的排序是否发生改变的处理详细过程可以如下：

[0074] 在接收到的至少三路语音信号中，检测相似波形组，相似波形组由每路语音信号中的一个波形段组成，相似波形组中各波形段两两之间满足预设相似度；按照检测到的一个相似波形组中各波形段的时间先后顺序，确定至少三路语音信号在当前时间点的声波传输时延的排序；若当前检测到的相似波形组对应的声波传输时延的排序与前一个检测到的相似波形组对应的声波传输时延的排序不同，则确定至少三路语音信号在当前时间点的声波传输时延的排序发生改变；若当前检测到的相似波形组对应的声波传输时延的排序与前一个检测到的相似波形组对应的声波传输时延的排序相同，则确定至少三路语音信号在当前时间点的声波传输时延的排序未发生改变。

[0075] 其中，预设相似度可以由技术人员设置，并且存储至路由器中，如90％等。以两路语音信号，如第一路语音信号和第二路语音信号，举例说明相似波形组，第一路语音信号中10点20分39秒至10点20分42秒的波形段中的每一时间点的信号幅值与第二路语音信号中
10点20分40秒至10点20分43秒的波形段中的每一时间点的信号幅值的比值相等，这两个波形段构成一个相似波形组，或者第一路语音信号中10点20分39秒至10点20分42秒的波形段中的每一时间点的信号幅值与第二路语音信号中10点20分40秒至10点20分43秒的波形段中的每一时间点的信号幅值的比值中有90％相等，这两个波形段构成一个相似波形组，以上为两种检测相似波形组的方法，本发明实施例不做限定。

[0076] 在实施中，路由器接收到至少三路语音信号后，可以使用预设的移动时间窗口，如0.1秒的移动时间窗口等，在至少三路语音信号的波形图的波形开始位置处开始沿着波形滑动，检测至少三路语音信号中的相似波形组，每个相似波形组中各波形段两两之间满足预设相似度，如各波形段的形状两两之间的相似度大于或等于预设数值等。然后确定每个相似波形组中各波形段的开始时间点，基于各波形段的开始时间点的排序，确定至少三路语音信号的声波传输时延的排序，具体处理过程可以是：由于波形段的开始时间点越小，语音接收部件距离用户(声源)越近，波形段的开始时间点越大，语音接收部件距离用户越远，各波形段的开始时间点的排序，即为至少三路语音信号的声波传输时延的排序。

[0077] 当路由器确定当前检测到的相似波形组的声波传输时延的排序与前一个检测到的相似波形组的声波传输时延的排序不同时，可以确定至少三路语音信号在当前时间点的声波传输时延的排序发生改变，当路由器确定当前检测到的相似波形组的声波传输时延的排序与前一个检测到的相似波形组的声波传输时延的排序相同时，可以确定至少三路语音信号在当前时间点的声波传输时延的排序未发生改变。例如，如图4所示，三路语音信号A、B、C中分别存在波形段A1、A2、B1、B2、C1、C2，A1、B1和C1为相似波形组1，A2、B2和C2为相似波形组1，相似波形组1与相似波形组2为相邻的两个相似波形组，相似波形组1中A1、B1和C1的开始时间点分别为t4、t5和t6，由于t4＜t5＜t6，相似波形组1的声波传输时延的排序为A-B-C。相似波形组2中A2、B2和C2的开始时间点分别为t7、t8和t9，由于t8＜t7＜t9，相似波形组2的声波传输时延的排序为B-A-C，说明相似波形组2的声波传输时延的排序与相似波形组1的声波传输时延的排序不相同，则可以确定语音信号在时间点t8的声波传输时延的顺序发生改变。

[0078] 步骤203，若语音信号的声波传输时延的排序发生改变，将声波传输时延的排序发生改变的时间点之前的语音信号中的一路语音信号，发送给语音识别系统，以使语音识别系统对时间点之前的语音信号进行语音识别。

[0079] 在实施中，路由器如果确定语音信号的声波传输时延的排序发生改变，可以确定声波传输时延的排序发生改变的时间点。例如，相似波形组1与相似波形组2的声波传输时延的排序不相同，相似波形组1与相似波形组2相邻，且为相似组2之前的相似波形组，相似波形组2中B路语音信号的开始时间点最小，该开始时间点为声波传输时延的排序发生改变的时间点。

[0080] 然后在至少三路语音信号中的一路语音信号中，获取声波传输时延的排序发生改变的时间点之前的语音信号，向语音识别系统发送该语音信号。语音识别系统接收到路由器发送的语音信号后，可以对接收到的语音信号进行语音识别，得到语音识别结果。

[0081] 另外，上述提到的在至少三路语音信号中，获取的一路语音信号可以是信号平均幅值最大的一路语音信号。

[0082] 另外，语音识别系统可以从预先存储的语音识别结果与控制指令的对应关系中，匹配语音识别结果对应的控制指令，然后向该控制指令对应的设备发送该控制指令，该设备接收到控制指令后，可以执行该控制指令。例如，语音识别结果为“我要打开电视”，语音识别结果与控制指令的对应关系中“开电视”与“电视开启的控制指令”相对应，则确定控制指令为“电视开启的控制指令”，然后语音识别系统可以将“电视开启的控制指令”发送至电视，电视则会进行开启。由于不同用户的语音的发出位置不同，所以在语音信号检测过程中，当说话的用户发生转变时，会导致各路语音信号对应的声波传输时延的排序发生改变，所以，上述确定出的时间点之前的语音信号，不包含其他人讲话的语音，确定出的控制指令比较准确，可以提高对设备进行语音控制的准确率。

[0083] 另外，用户使用即时通讯应用程序聊天的过程中，使用语音输入，终端接收到语音信号后，终端可以将语音信号转发至路由器，路由器可以将语音信号发送至语音识别系统，语音识别系统将语音信号识别为文字之后，返回至终端，终端显示语音识别后的文本信息，用户可以查看是否需要修改输入的内容。

[0084] 可选的，本发明实施例中还提供了在至少三个语音接收部件中确定主语音接收部件的方法，相应的处理可以如下：

[0085] 接收至少三个语音接收部件分别发送的同一声源的语音信号，语音信号包括预设内容，确定同一声源的语音信号中语音识别率最高的一路语音信号，在至少三个语音接收部件中，将语音识别率最高的一路语音信号对应的语音接收部件设置为主语音接收部件。

[0086] 在实施中，用户在确定主语音接收部件时，可以讲预设内容的语音，用户对应至少三个语音接收部件为同一声源，该预设内容的语音可以是语音接收部件的唤醒词，如“设备启动”，至少三路语音接收部件则会接收到预设内容的语音信号，然后分别向路由器发送预设内容的语音信号。路由器接收到预设内容的语音信号后，可以对语音信号进行识别，确定至少三路预设内容的语音信号中语音识别率最高的一路语音信号，一般语音接收部件距离预设内容语音信号的声源的距离越小，该语音接收部件接收到的语音信号的语音识别率越高，语音识别率最高的一路语音信号对应的语音接收部件，为主语音接收部件。例如，A路语音信号语音识别率为百分之九十八，B路语音信号语音识别率为百分之八十八，C路语音信号语音识别率为百分之九十五，A路语音信号为语音识别率最高的一路语音信号，则A路语音信号对应的语音接收部件为主语音接收部件。

[0087] 可选的，方案中存在主语音接收部件时，步骤203的处理可以如下：

[0088] 若语音信号的声波传输时延的排序发生改变，确定声波传输时延的排序发生改变的时间点；将时间点之前的主语音接收部件发送的语音信号，发送给语音识别系统。

[0089] 在实施中，如果至少三路语音信号的声波传输时延的排序发生改变，确定声波传输时延的排序发生改变的时间点(确定声波传输时延的排序发生改变的时间点在前面已详细叙述，此处不再赘述)，路由器可以获取声波传输时延的排序发生改变的时间点之前主语音接收部件发送的语音信号，然后将该语音信号发送至语音识别系统，语音识别系统接收到路由器发送的语音信号后，可以对该语音信号进行识别。

[0090] 另外，本发明实施例中，主语音接收部件接收到语音信号后，确定接收到的语音信号的持续时长未达到预设数值时已结束，主语音接收部件可以将接收到的语音信号发送至语音识别系统，语音识别系统接收到语音信号后，可以进行语音识别，得到语音识别结构。主语音接收部件接收到语音信号后，确定接收到的语音信号的持续时长已达到预设数值时还未结束，则向路由器发送语音确定请求，路由器可以执行上述步骤202至步骤203。

[0091] 如图5所示，本发明另一实施例提供了向语音识别系统发送语音信号的系统流程图，相应的步骤处理可以如下：

[0092] a1、至少三个语音接收部件接收预设内容的语音信号，分别向管理设备发送预设内容的语音信号。

[0093] a2、管理设备接收至三个语音接收部件分别发送的预设内容的语音信号，确定识别率最高的一路语音信号对应的语音接收部件为主语音接收部件。

[0094] a3、至少三个语音接收部件中的VAD算法确定检测到人讲话的语音信号时，分别持续向管理设备发送语音信号，当至少三个语音接收部件中的VAD算法确定未检测到人讲话的语音信号时，停止向管理设备发送语音信号。

[0095] a4、管理设备持续接收至少三个语音接收部件分别发送的语音信号。

[0096] a5、若未检测到语音信号中存在端点，则检测语音信号的声波传输时延的排序是否发生改变。

[0097] a6、若语音信号的声波传输时延的排序发生改变，确定声波传输时延的排序发生改变的时间点。

[0098] a7、管理设备将时间点之前的主语音接收部件发送的语音信号，发送给语音识别系统。

[0099] a8、语音识别系统接收管理设备发送的时间点之前的语音信号。

[0100] a9、语音识别系统对接收到的语音信号，进行识别。

[0101] 步骤a1-a9的详细处理过程已经在前面叙述，此处不再赘述。

[0102] 本发明实施例中，在向语音识别系统发送语音信号的过程中，管理设备可以接收至少三个语音接收部件分别发送的同一时间段的语音信号，若未检测到语音信号中存在端点，则检测语音信号的声波传输时延的排序是否发生改变，若语音信号的声波传输时延的排序发生改变，将声波传输时延的排序发生改变的时间点之前的语音信号中的一路语音信号，发送给语音识别系统，以使语音识别系统对时间点之前的语音信号进行语音识别。因为，不同用户的语音的发出位置不同，所以在向语音识别系统发送语音信号的过程中，当说话的用户发生转变时，会导致各路语音信号对应的声波传输时延的排序发生改变，所以，上述确定出的时间点之前的语音信号，不包含其他人讲话的语音，从而可以提高语音识别结果的准确率。

[0103] 基于相同的技术构思，本发明实施例还提供了一种向语音识别系统发送语音信号的装置，如图6所示，该装置包括：

[0104] 接收模块610，用于接收至少三个语音接收部件分别发送的同一时间段的语音信号；

[0105] 检测模块620，用于若未检测到所述语音信号中存在端点，则检测所述语音信号的声波传输时延的排序是否发生改变；

[0106] 发送模块630，用于若所述语音信号的声波传输时延的排序发生改变，将所述声波传输时延的排序发生改变的时间点之前的所述语音信号中的一路语音信号，发送给语音识别系统，以使所述语音识别系统对所述时间点之前的语音信号进行语音识别。

[0107] 可选的，所述检测模块620，用于：

[0108] 若未检测到所述语音信号中存在端点，则基于对接收到的至少三路语音信号中的相似波形段的时间先后顺序的检测，确定所述语音信号的声波传输时延的排序是否发生改变。

[0109] 可选的，如图7所示，所述检测模块620包括检测子模块621和第一确定子模块622，其中：

[0110] 所述检测子模块621，用于在接收到的至少三路语音信号中，检测相似波形组，所述相似波形组由每路语音信号中的一个波形段组成，所述相似波形组中各波形段两两之间满足预设相似度；

[0111] 所述第一确定子模块622，用于按照检测到的一个相似波形组中各波形段的时间先后顺序，确定所述至少三路语音信号在当前时间点的声波传输时延的排序；

[0112] 所述第一确定子模块622，用于若当前检测到的相似波形组对应的声波传输时延的排序与前一个检测到的相似波形组对应的声波传输时延的排序不同，则确定所述至少三路语音信号在当前时间点的声波传输时延的排序发生改变；

[0113] 所述第一确定子模块622，用于若当前检测到的相似波形组对应的声波传输时延的排序与前一个检测到的相似波形组对应的声波传输时延的排序相同，则确定所述至少三路语音信号在当前时间点的声波传输时延的排序未发生改变。

[0114] 可选的，所述接收模块610，还用于：

[0115] 接收所述至少三个语音接收部件分别发送的同一声源的语音信号，所述语音信号包括预设内容；

[0116] 如图8所示，所述装置还包括：

[0117] 确定模块640，用于确定同一声源的语音信号中语音识别率最高的一路语音信号；

[0118] 设置模块650，用于在所述至少三个语音接收部件中，将所述语音识别率最高的一路语音信号对应的语音接收部件设置为主语音接收部件。

[0119] 可选的，如图9所示，所述发送模块630包括第二确定子模块631和发送子模块632，其中：

[0120] 所述第二确定子模块631，用于若所述语音信号的声波传输时延的排序发生改变，确定所述声波传输时延的排序发生改变的时间点；

[0121] 所述发送子模块632，用于将所述时间点之前的主语音接收部件发送的所述语音信号，发送给语音识别系统。

[0122] 本发明实施例中，在向语音识别系统发送语音信号的过程中，管理设备可以接收至少三个语音接收部件分别发送的同一时间段的语音信号，若未检测到语音信号中存在端点，则检测语音信号的声波传输时延的排序是否发生改变，若语音信号的声波传输时延的排序发生改变，将声波传输时延的排序发生改变的时间点之前的语音信号中的一路语音信号，发送给语音识别系统，以使语音识别系统对时间点之前的语音信号进行语音识别。因为，不同用户的语音的发出位置不同，所以在向语音识别系统发送语音信号的过程中，当说话的用户发生转变时，会导致各路语音信号对应的声波传输时延的排序发生改变，所以，上述确定出的时间点之前的语音信号，不包含其他人讲话的语音，从而可以提高语音识别结果的准确率。

[0123] 需要说明的是：上述实施例提供的向语音识别系统发送语音信号的装置在向语音识别系统发送语音信号时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的向语音识别系统发送语音信号的装置与向语音识别系统发送语音信号的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

[0124] 请参考图10，其示出了本发明实施例所涉及的管理设备的结构示意图，该管理设备可以用于实施上述实施例中提供的拾音的方法。具体来讲：

[0125] 管理设备1000可以包括RF(Radio Frequency，射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(wireless fidelity，无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图10中示出的管理设备结构并不构成对管理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

[0126] RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器180处理；另外，将涉及上行的数据发送给基站。通常，RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

[0127] 存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据管理设备1000的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

[0128] 输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

[0129] 显示单元140可用于显示由用户输入的信息或提供给用户的信息以及管理设备1000的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图10中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

[0130] 管理设备1000还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在管理设备1000移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于管理设备1000还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

[0131] 音频电路160、扬声器161，传声器162可提供用户与管理设备1000之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一管理设备，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与管理设备1000的通信。

[0132] WiFi属于短距离无线传输技术，管理设备1000通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块170，但是可以理解的是，其并不属于管理设备1000的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

[0133] 处理器180是管理设备1000的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行管理设备1000的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

[0134] 管理设备1000还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

[0135] 尽管未示出，管理设备1000还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，管理设备1000的显示单元是触摸屏显示器，管理设备1000还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于进行以下操作的指令：

[0136] 接收至少三个语音接收部件分别发送的同一时间段的语音信号；

[0137] 若未检测到所述语音信号中存在端点，则检测所述语音信号的声波传输时延的排序是否发生改变；

[0138] 若所述语音信号的声波传输时延的排序发生改变，将所述声波传输时延的排序发生改变的时间点之前的所述语音信号中的一路语音信号，发送给语音识别系统，以使所述语音识别系统对所述时间点之前的语音信号进行语音识别。

[0139] 可选的，所述若未检测到所述语音信号中存在端点，则检测所述语音信号的声波传输时延的排序是否发生改变，包括：

[0140] 若未检测到所述语音信号中存在端点，则基于对接收到的至少三路语音信号中的相似波形段的时间先后顺序的检测，确定所述语音信号的声波传输时延的排序是否发生改变。

[0141] 可选的，所述基于对接收到的至少三路语音信号中的相似波形段的时间先后顺序的检测，确定所述语音信号的声波传输时延的排序是否发生改变，包括：

[0142] 在接收到的至少三路语音信号中，检测相似波形组，所述相似波形组由每路语音信号中的一个波形段组成，所述相似波形组中各波形段两两之间满足预设相似度；

[0143] 按照检测到的一个相似波形组中各波形段的时间先后顺序，确定所述至少三路语音信号在当前时间点的声波传输时延的排序；

[0144] 若当前检测到的相似波形组对应的声波传输时延的排序与前一个检测到的相似波形组对应的声波传输时延的排序不同，则确定所述至少三路语音信号在当前时间点的声波传输时延的排序发生改变；

[0145] 若当前检测到的相似波形组对应的声波传输时延的排序与前一个检测到的相似波形组对应的声波传输时延的排序相同，则确定所述至少三路语音信号在当前时间点的声波传输时延的排序未发生改变。

[0146] 可选的，所述接收至少三个语音接收部件分别发送的同一时间段的语音信号之前，还包括：

[0147] 接收所述至少三个语音接收部件分别发送的同一声源的语音信号，所述语音信号包括预设内容；

[0148] 确定同一声源的语音信号中语音识别率最高的一路语音信号；

[0149] 在所述至少三个语音接收部件中，将所述语音识别率最高的一路语音信号对应的语音接收部件设置为主语音接收部件。

[0150] 可选的，所述若所述语音信号的声波传输时延的排序发生改变，将所述声波传输时延的排序发生改变的时间点之前的所述语音信号中的一路语音信号，发送给语音识别系统，包括：

[0151] 若所述语音信号的声波传输时延的排序发生改变，确定所述声波传输时延的排序发生改变的时间点；

[0152] 将所述时间点之前的主语音接收部件发送的所述语音信号，发送给语音识别系统。

[0153] 本发明实施例中，在向语音识别系统发送语音信号的过程中，管理设备可以接收至少三个语音接收部件分别发送的同一时间段的语音信号，若未检测到语音信号中存在端点，则检测语音信号的声波传输时延的排序是否发生改变，若语音信号的声波传输时延的排序发生改变，将声波传输时延的排序发生改变的时间点之前的语音信号中的一路语音信号，发送给语音识别系统，以使语音识别系统对时间点之前的语音信号进行语音识别。因为，不同用户的语音的发出位置不同，所以在向语音识别系统发送语音信号的过程中，当说话的用户发生转变时，会导致各路语音信号对应的声波传输时延的排序发生改变，所以，上述确定出的时间点之前的语音信号，不包含其他人讲话的语音，从而可以提高语音识别结果的准确率。

[0154] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

[0155] 以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

标题	发布/更新时间	阅读量
语音识别方法和设备	2020-05-08	119
家用电器及其控制方法	2020-05-11	192
一种训练生成对抗网络、语音增强方法及系统	2020-05-08	199
一种向语音识别系统发送语音信号的方法和装置	2020-05-08	187
一种适用于医药产品的交易系统	2020-05-08	998
一种语音识别方法、装置、设备和存储介质	2020-05-08	90
多音频识别方法、装置、设备及可读存储介质	2020-05-11	563
一种参量阵交通声音安全提示系统	2020-05-08	307
一种快递投放装置	2020-05-11	609
通过智能手表控制智能家居的系统	2020-05-08	810

一种向语音识别系统发送语音信号的方法和装置

一种向语音识别系统发送语音信号的方法和装置

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：