一种语音交互式装置、语音交互方法及电子设备专利检索-乐器声学专利检索查询-专利查询网

一种语音交互式装置、语音交互方法及电子设备
申请号	CN202410025820.X	申请日	2024-01-08	公开(公告)号	CN117935799A	公开(公告)日	2024-04-26
申请人	心镜之力健康科技(广州)有限公司;			发明人	张岸宏; 李业纯; 刘钰;
摘要	本申请公开了一种语音交互式装置、语音交互方法及电子设备，涉及智能交互技术领域。该语音交互装置包括拾音模块、识别模块、鉴别模块和交互模块。本申请公开的语音交互方法与该语音交互装置相对应，公开的电子设备与该语音交互方法相对应。采用本申请，通过识别模块对语音信号进行识别以确认语音交互需求，同时，在存在不同用户发出的语音内容时，通过对语音信号的聚类处置实现语音数据的精准识别，从而明确是否有语音交互需求，然后再根据该语音交互需求对应的语音数据中是否存在交互内容需求来明确后续交互模块的执行内容，解决了现有技术中无法为用户提供舒适的使用体验的问题。
权利要求	1.一种语音交互式装置，其特征在于，包括拾音模块、识别模块、鉴别模块和交互模块；所述拾音模块配置为：对应用场景中的语音信号进行拾取；所述识别模块配置为：对拾取到的语音信号进行识别，确认语音交互需求，并在语音信号中存在语音交互需求时，执行需求鉴别；其中，当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，所述识别模块还配置为：基于预设的识别规则将多个语音内容进行聚类处置，得到若干条对应于不同用户的语音数据，并分别对每一条语音数据进行识别，确认语音交互需求；所述鉴别模块配置为：在语音信号中存在语音交互需求时对拾取到的语音信号进行需求鉴别，确认交互内容需求；所述交互模块配置为：基于所述交互内容需求进行交互内容的调取和执行。 2.根据权利要求1所述的语音交互式装置，其特征在于，所述的识别规则包括：基于不同的声纹特征将语音信号中来自于同一用户的语音内容进行提取融合。 3.根据权利要求2所述的语音交互式装置，其特征在于，所述的识别规则还包括：基于采集到的图像分析用户唇语将语音信号中来自于同一用户的语音内容进行提取融合。 4.根据权利要求1所述的语音交互式装置，其特征在于，所述的鉴别模块还配置为：当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，基于所述语音交互需求对应的用户的权限等级进行识别，并按照大权限等级优先的规则分析其中一条语音数据对应的交互内容需求；所述权限等级与用户对应的识别规则绑定。 5.根据权利要求4所述的语音交互式装置，其特征在于，所述的鉴别模块还配置为：当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，且所述语音交互需求对应的用户均不具有权限时，选择任意一个语音交互需求对应的语音数据进行需求鉴别并确认交互内容需求。 6.根据权利要求1所述的语音交互式装置，其特征在于，该种语音交互式装置，还包括离线运行模块；所述离线运行模块配置为：在联网状态下，采集预设的时间段一内的若干个交互内容需求，对所述交互内容需求进行聚合分析，并将聚合分析结果满足预设条件的至少一个交互内容需求对应的交互内容下载存储于离线库中，并将交互内容需求和对应的交互内容进行绑定；在未联网状态下，当用户的语音交互需求能够在所述离线库中被匹配到时，向所述交互模块发送提取和执行指令。 7.根据权利要求6所述的语音交互式装置，其特征在于，所述离线运行模块还配置为：在联网状态下，采集预设的时间段二内的若干个语音交互需求，所有的语音交互需求进行出现频次分析，获取出现频次大于N的至少一个语音交互需求，分析该至少一个语音交互需求对应的语音信号，将该语音信号、语音交互需求和下载后的交互内容进行绑定并存储于离线库中；在未联网状态下，当用户的语音信号对应的语音交互需求能够在所述离线库中被匹配到时，向所述交互模块发送提取和执行指令。 8.根据权利要求6或7所述的语音交互式装置，其特征在于，所述离心运行模块还配置为：当在未联网状态下，在所述交互模块执行的一个交互内容得到了用户的负反馈的次数达到预设阈值时，将该交互内容在离线库中进行删除。 9.一种语音交互式方法，适用于如权利要求1‑8任意一项所述的语音交互式装置，其特征在于，该方法包括以下步骤：对应用场景中的语音信号进行拾取；对拾取到的语音信号进行识别，确认语音交互需求，并在语音信号中存在语音交互需求时，执行需求鉴别；其中，当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，所述识别模块还配置为：基于预设的识别规则将多个语音内容进行聚类处置，得到若干条对应于不同用户的语音数据，并分别对每一条语音数据进行识别，确认语音交互需求；在语音信号中存在语音交互需求时对拾取到的语音信号进行需求鉴别，确认交互内容需求；基于所述交互内容需求进行交互内容的调取和执行。 10.一种电子设备，其特征在于，包括至少一个处理器和至少一个存储器，所述存储器与所述处理器信号连接，所述存储器上存储有能够被处理器执行的计算机程序，当所述计算机程序被所述处理器执行时，实现如权利要求9任意一项所述的语音交互式方法。
说明书全文	一种语音交互式装置、语音交互方法及电子设备技术领域 [0001] 本申请涉及语音交互技术领域，具体是一种语音交互式装置、语音交互方法及电子设备。背景技术 [0002] 随着人机交互技术的持续创新，人们的交互方式在不断改变，从鼠标、键盘、遥控器再到触屏，交互方式越来越简单。而人工智能技术的兴起，为更加自然的交互方式提供了可能——自然语言会话，使用者可通过自然语言的方式与机器交互、获取信息，并以对话式交互为核心，将语音技术、图像技术、人脸识别技术、增强显示技术相结合，使技术存在于无处不在的设备中。在一些现有的智能语音交互装置的实际应用中，较多用户反馈该类交互装置无法在嘈杂的环境中识别到所需求执行的交互内容，特别是在有多个人员发出语音信号时，交互装置无法准确地识别到用户的真实交互需求，用户使用体验很差。虽然现有技术中为解决这一问题采用了如通过摄像头采集用户数据来确认是哪位用户在发出交互指令，但是，实现的前提是用户在发出指令时处于设置的摄像头采集区域中，且是面向摄像头的姿态下，对用户的使用限制很大，实用性差。发明内容 [0003] 本申请的目的在于提供一种语音交互式装置、语音交互方法及电子设备，以解决上述背景技术中提出的技术问题。 [0004] 为实现上述目的，本申请公开了以下技术方案： [0005] 第一方面，本申请提供了一种语音交互式装置，包括拾音模块、识别模块、鉴别模块和交互模块； [0006] 所述拾音模块配置为：对应用场景中的语音信号进行拾取； [0007] 所述识别模块配置为：对拾取到的语音信号进行识别，确认语音交互需求，并在语音信号中存在语音交互需求时，执行需求鉴别；其中，当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，所述识别模块还配置为：基于预设的识别规则将多个语音内容进行聚类处置，得到若干条对应于不同用户的语音数据，并分别对每一条语音数据进行识别，确认语音交互需求； [0008] 所述鉴别模块配置为：在语音信号中存在语音交互需求时对拾取到的语音信号进行需求鉴别，确认交互内容需求； [0009] 所述交互模块配置为：基于所述交互内容需求进行交互内容的调取和执行。 [0010] 作为优选，所述的识别规则包括：基于不同的声纹特征将语音信号中来自于同一用户的语音内容进行提取融合。 [0011] 作为优选，所述的识别规则还包括：基于采集到的图像分析用户唇语将语音信号中来自于同一用户的语音内容进行提取融合。 [0012] 作为优选，所述的鉴别模块还配置为：当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，基于所述语音交互需求对应的用户的权限等级进行识别，并按照大权限等级优先的规则分析其中一条语音数据对应的交互内容需求；所述权限等级与用户对应的识别规则绑定。 [0013] 作为优选，所述的鉴别模块还配置为：当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，且所述语音交互需求对应的用户均不具有权限时，选择任意一个语音交互需求对应的语音数据进行需求鉴别并确认交互内容需求。 [0014] 作为优选，该种语音交互式装置，还包括离线运行模块； [0015] 所述离线运行模块配置为：在联网状态下，采集预设的时间段一内的若干个交互内容需求，对所述交互内容需求进行聚合分析，并将聚合分析结果满足预设条件的至少一个交互内容需求对应的交互内容下载存储于离线库中，并将交互内容需求和对应的交互内容进行绑定；在未联网状态下，当用户的语音交互需求能够在所述离线库中被匹配到时，向所述交互模块发送提取和执行指令。 [0016] 作为优选，所述离线运行模块还配置为：在联网状态下，采集预设的时间段二内的若干个语音交互需求，所有的语音交互需求进行出现频次分析，获取出现频次大于N的至少一个语音交互需求，分析该至少一个语音交互需求对应的语音信号，将该语音信号、语音交互需求和下载后的交互内容进行绑定并存储于离线库中；在未联网状态下，当用户的语音信号对应的语音交互需求能够在所述离线库中被匹配到时，向所述交互模块发送提取和执行指令。 [0017] 作为优选，所述离心运行模块还配置为：当在未联网状态下，在所述交互模块执行的一个交互内容得到了用户的负反馈的次数达到预设阈值时，将该交互内容在离线库中进行删除。 [0018] 第二方面，本申请公开了一种语音交互式方法，适用于如上所述的语音交互式装置，其特征在于，该方法包括以下步骤： [0019] 对应用场景中的语音信号进行拾取； [0020] 对拾取到的语音信号进行识别，确认语音交互需求，并在语音信号中存在语音交互需求时，执行需求鉴别；其中，当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，所述识别模块还配置为：基于预设的识别规则将多个语音内容进行聚类处置，得到若干条对应于不同用户的语音数据，并分别对每一条语音数据进行识别，确认语音交互需求； [0021] 在语音信号中存在语音交互需求时对拾取到的语音信号进行需求鉴别，确认交互内容需求； [0022] 基于所述交互内容需求进行交互内容的调取和执行。 [0023] 第三方面，本申请公开了一种电子设备，包括至少一个处理器和至少一个存储器，所述存储器与所述处理器信号连接，所述存储器上存储有能够被处理器执行的计算机程序，当所述计算机程序被所述处理器执行时，实现如上所述的语音交互式方法。 [0024] 有益效果：本申请，通过识别模块对语音信号进行识别以确认语音交互需求，同时，在存在不同用户发出的语音内容时，通过对语音信号的聚类处置实现语音数据的精准识别，从而明确是否有语音交互需求，然后再根据该语音交互需求对应的语音数据中是否存在交互内容需求来明确后续交互模块的执行内容，解决了现有技术中无法为用户提供舒适的使用体验的问题。进一步地，本申请通过离线运行模块的设置，实现了在离线状态下为用户提供语音交互的功能，提高了用户的使用体验。附图说明 [0025] 为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。 [0026] 图1为本申请实施例提供的语音交互式方法的结构框图； [0027] 图2为本申请实施例提供的语音交互式装置的流程框图。具体实施方式 [0028] 下面将对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。 [0029] 在本文中，术语“包括”意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。 [0030] 本实施例在第一方面公开了一种如图1所示的语音交互式装置，包括拾音模块、识别模块、鉴别模块和交互模块。 [0031] 具体的：所述拾音模块配置为：对应用场景中的语音信号进行拾取；所述识别模块配置为：对拾取到的语音信号进行识别，确认语音交互需求，并在语音信号中存在语音交互需求时，执行需求鉴别；其中，当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，所述识别模块还配置为：基于预设的识别规则将多个语音内容进行聚类处置，得到若干条对应于不同用户的语音数据，并分别对每一条语音数据进行识别，确认语音交互需求；所述鉴别模块配置为：在语音信号中存在语音交互需求时对拾取到的语音信号进行需求鉴别，确认交互内容需求；所述交互模块配置为：基于所述交互内容需求进行交互内容的调取和执行。 [0032] 基于上述，本实施例的语音交互式装置，通过识别模块对语音信号进行识别以确认语音交互需求，同时，在存在不同用户发出的语音内容时，通过对语音信号的聚类处置实现语音数据的精准识别，从而明确是否有语音交互需求，然后再根据该语音交互需求对应的语音数据中是否存在交互内容需求来明确后续交互模块的执行内容，解决了现有技术中无法为用户提供舒适的使用体验的问题。 [0033] 在本实施例中，所述的识别规则包括：基于不同的声纹特征将语音信号中来自于同一用户的语音内容进行提取融合。 [0034] 进一步地，可行的是，为了提高多用户语音信号杂乱时的识别效率，所述的识别规则还包括：基于采集到的图像分析用户唇语将语音信号中来自于同一用户的语音内容进行提取融合。 [0035] 作为本实施例的一种优选地实施方式，所述的鉴别模块还配置为：当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，基于所述语音交互需求对应的用户的权限等级进行识别，并按照大权限等级优先的规则分析其中一条语音数据对应的交互内容需求；所述权限等级与用户对应的识别规则绑定。 [0036] 其中，所述的鉴别模块还配置为：当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，且所述语音交互需求对应的用户均不具有权限时，选择任意一个语音交互需求对应的语音数据进行需求鉴别并确认交互内容需求。 [0037] 这样设置的好处是，通过权限等级的设置，能够明确用户交互内容需求的对应性，确保保证权限等级越大的用户的优先相应权利，从而提高用户的使用体验。应当理解的，用户的权限等级可以基于识别规则来设置，例如：将用户的权限等级与对应的声纹特征进行绑定，和/或将用户的权限等级与对应的面容数据进行绑定。 [0038] 作为本实施例的一种优选地实施方式，该种语音交互式装置，还包括离线运行模块； [0039] 所述离线运行模块配置为：在联网状态下，采集预设的时间段一内的若干个交互内容需求，对所述交互内容需求进行聚合分析，并将聚合分析结果满足预设条件的至少一个交互内容需求对应的交互内容下载存储于离线库中，并将交互内容需求和对应的交互内容进行绑定；在未联网状态下，当用户的语音交互需求能够在所述离线库中被匹配到时，向所述交互模块发送提取和执行指令。其中，聚合分析的目的是分析交互内容对应的类型和具体内容之间的关联，从而获取用户的使用习惯/喜欢的内容，这样，能够确保离线库中存储的交互内容与用户的匹配度提高。 [0040] 同时，可行的是，述离线运行模块还配置为：在联网状态下，采集预设的时间段二内的若干个语音交互需求，所有的语音交互需求进行出现频次分析，获取出现频次大于N的至少一个语音交互需求，分析该至少一个语音交互需求对应的语音信号，将该语音信号、语音交互需求和下载后的交互内容进行绑定并存储于离线库中；在未联网状态下，当用户的语音信号对应的语音交互需求能够在所述离线库中被匹配到时，向所述交互模块发送提取和执行指令。通过语音交互西求进行出现频次分析，能够获取到用户日常的使用需求和兴趣，然后再对对应的交互内容进行离线存储，使用户在离线使用时，也能够准确地得到想要的交互内容。 [0041] 进一步地，在离线使用过程中，当用户的交互内容需求对应的交互内容无法被匹配到时，通过预设的语音指令为用户提供已经离线存储的交互内容，语音指令可以但不限于如“可以给您播放张三的歌么”、“没找到与XX相关的内容哦，想不想和我一起玩个问答游戏呢”等等。 [0042] 基于上述，所述离心运行模块还配置为：当在未联网状态下，在所述交互模块执行的一个交互内容得到了用户的负反馈的次数达到预设阈值时，将该交互内容在离线库中进行删除。 [0043] 本实施例的语音交互式装置，通过离线运行模块的设置，实现了在离线状态下为用户提供语音交互的功能，提高了用户的使用体验。 [0044] 本实施例在第二方面还公开了如图2所示的一种语音交互式方法，适用于如上所述的语音交互式装置，该方法包括以下步骤： [0045] 对应用场景中的语音信号进行拾取； [0046] 对拾取到的语音信号进行识别，确认语音交互需求，并在语音信号中存在语音交互需求时，执行需求鉴别；其中，当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，所述识别模块还配置为：基于预设的识别规则将多个语音内容进行聚类处置，得到若干条对应于不同用户的语音数据，并分别对每一条语音数据进行识别，确认语音交互需求； [0047] 在语音信号中存在语音交互需求时对拾取到的语音信号进行需求鉴别，确认交互内容需求； [0048] 基于所述交互内容需求进行交互内容的调取和执行。 [0049] 需要说明的是，本实施例的语音交互式方法与前述的语音交互式装置相对应，因此，记载的语音交互式方法中未作进一步具体公开的内容，可以参考前述的语音交互式装置中的记载，同时，语音交互式方法对应技术效果，也可以参考前述的语音交互式装置中的描述，本文本在此不做赘述。 [0050] 本实施例在第三方面还公开了一种电子设备，包括至少一个处理器和至少一个存储器，所述存储器与所述处理器信号连接，所述存储器上存储有能够被处理器执行的计算机程序，当所述计算机程序被所述处理器执行时，实现如上所述的语音交互式方法。 [0051] 需要说明的是，本实施例的电子设备与前述的语音交互式方法相对应，因此，记载的语音交互式方法中未作进一步具体公开的内容，可以参考前述的语音交互式装置中的记载，同时，本实施例中电子设备对应技术效果，也可以参考前述的语音交互式装置中的描述，本文本在此不做赘述。 [0052] 在本申请所提供的实施例中，应该理解到，可以以硬件、软件、固件、中间件、代码或其任何恰当组合来实现这里描述的实施例。对于硬件实现，处理器可以在一个或多个下列单元中实现：专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计用于实现这里所描述功能的其他电子单元或其组合。对于软件实现，实施例的部分或全部流程可以通过计算机程序来指令相关的硬件来完成。实现时，可以将上述程序存储在计算机可读存储介质中或作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。计算机可读存储介质可以包括但不限于RAM、ROM、EEPROM、CD‑ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。 [0053] 最后应说明的是：以上所述仅为本申请的优选实施例而已，并不用于限制本申请，尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

意见反馈