一种语音交互方法、装置及系统专利检索-表演者版权及相关权专利检索查询-专利查询网

一种语音交互方法、装置及系统

阅读：612发布：2020-12-08

专利汇可以提供一种语音交互方法、装置及系统专利检索，专利查询，专利分析的服务。并且本申请提供一种语音交互方法、装置及系统，涉及终端技术领域，当语音交互过程中掺杂其他交互方式时，可提高电子设备响应语音指令的准确性和用户的使用体验。该方法包括：服务器接收第一播放消息，第一播放消息中包括与第一非语音指令对应的第一音频内容的标识；服务器确定与第一非语音指令对应的第一意图和第一槽位信息；响应于第一播放消息，服务器指示播放设备播放第一音频内容；服务器接收用户对播放设备输入的第一语音指令，第一语音指令中的第二意图和/或第二槽位信息不完整；服务器结合第一意图和第一槽位信息，确定与第一语音指令对应的第二意图和第二槽位信息；服务器根据第二意图和第二槽位信息指示播放设备播放第二音频内容。，下面是一种语音交互方法、装置及系统专利的具体信息内容。

权利要求

1.一种语音交互方法，其特征在于，包括：
服务器接收第一播放消息，所述第一播放消息中包括第一音频内容的标识，所述第一播放消息为响应用户对播放设备输入的第一非语音指令生成的；
所述服务器根据所述第一音频内容的标识，确定与所述第一非语音指令对应的第一意图和第一槽位信息；
响应于所述第一播放消息，所述服务器指示所述播放设备播放所述第一音频内容；
在所述播放设备播放所述第一音频内容之后，所述服务器接收用户对所述播放设备输入的第一语音指令，所述第一语音指令中的第二意图和/或第二槽位信息不完整；
所述服务器结合所述第一意图和所述第一槽位信息，确定与所述第一语音指令对应的第二意图和第二槽位信息；
所述服务器根据所述第二意图和所述第二槽位信息指示所述播放设备播放第二音频内容。
2.根据权利要求1所述的方法，其特征在于，所述服务器根据所述第一音频内容的标识，确定与所述第一非语音指令对应的第一意图和第一槽位信息，包括：
所述服务器根据所述第一音频内容的标识，从与所述第一音频内容对应的意图字段中提取所述第一意图；
所述服务器根据所述第一音频内容的标识，从与所述第一音频内容对应的槽位字段中提取所述第一槽位信息。
3.根据权利要求1或2所述的方法，其特征在于，在所述服务器根据所述第一音频内容的标识，确定与所述第一非语音指令对应的第一意图和第一槽位信息之后，还包括：
所述服务器将所述第一意图和所述第一槽位信息保存为上下文；
其中，所述服务器结合所述第一意图和所述第一槽位信息，确定与所述第一语音指令对应的所述第二意图和所述第二槽位信息，包括：
所述服务器根据所述上下文中存储的意图和槽位信息，确定与所述第一语音指令对应的所述第二意图和所述第二槽位信息。
4.根据权利要求3所述的方法，其特征在于，在所述服务器结合所述第一意图和所述第一槽位信息，确定与所述第一语音指令对应的所述第二意图和所述第二槽位信息之后，还包括：
所述服务器将所述第二意图和所述第二槽位信息保存为所述上下文。
5.根据权利要求3所述的方法，其特征在于，所述服务器将所述第一意图和所述第一槽位信息保存为上下文，包括：
若所述第一播放消息中携带预设标识，则所述服务器将所述第一意图和所述第一槽位信息保存为第一上下文；
若所述第一播放消息中未携带所述预设标识，则所述服务器将所述第一意图和所述第一槽位信息保存为第二上下文，所述第二上下文的优先级低于所述第一上下文的优先级。
6.根据权利要求5所述的方法，其特征在于，所述服务器中存储有所述第一上下文和所述第二上下文；
其中，所述服务器根据所述上下文中存储的意图和槽位信息，确定与所述第一语音指令对应的所述第二意图和所述第二槽位信息，包括：
若所述第二上下文的生效时长小于第一预设值，则所述服务器根据所述第一上下文中的意图和槽位信息，确定与所述第一语音指令对应的所述第二意图和所述第二槽位信息；
若所述第二上下文的生效时长大于第二预设值，则所述服务器根据所述第二上下文中的意图和槽位信息，确定与所述第一语音指令对应的所述第二意图和所述第二槽位信息，所述第二预设值大于或等于所述第一预设值。
7.根据权利要求1-6中任一项所述的方法，其特征在于，所述第一语音指令中包括所述第二槽位信息，不包括所述第二意图；
其中，所述服务器结合所述第一意图和所述第一槽位信息，确定与所述第一语音指令对应的所述第二意图和所述第二槽位信息，包括：
若所述第一意图为预设的可继承的意图，则所述服务器确定所述第二意图与所述第一意图相同。
8.根据权利要求1-6中任一项所述的方法，其特征在于，所述第一语音指令中包括所述第二意图，不包括所述第二槽位信息；
其中，所述服务器结合所述第一意图和所述第一槽位信息，确定与所述第一语音指令对应的所述第二意图和所述第二槽位信息，包括：
若所述第一槽位信息为预设的可继承的槽位信息，则所述服务器确定所述第二槽位信息与所述第一槽位信息相同。
9.根据权利要求1-8中任一项所述的方法，其特征在于，所述服务器根据所述第二意图和所述第二槽位信息指示所述播放设备播放第二音频内容，包括：
所述服务器向所述播放设备发送第二播放指令，所述第二播放指令中包括与所述第二意图和所述第二槽位信息对应的第二音频内容的音频资源。
10.根据权利要求1-9中任一项所述的方法，其特征在于，所述第一非语音指令包括：用户在所述播放设备中输入的非语音指令，所述播放设备自动切换音频内容的指令，用户在其他电子设备中输入的非语音指令或所述其他电子设备自动切换所述播放设备中音频内容的指令。
11.一种服务器，其特征在于，包括：处理器、存储器和通信模块；所述存储器存储有一个或多个计算机程序，所述一个或多个计算机程序包括指令，当所述指令被所述处理器执行时，使得所述服务器执行以下步骤：
接收第一播放消息，所述第一播放消息中包括第一音频内容的标识，所述第一播放消息为响应用户对播放设备输入的第一非语音指令生成的；
根据所述第一音频内容的标识，确定与所述第一非语音指令对应的第一意图和第一槽位信息；
响应于所述第一播放消息，指示所述播放设备播放所述第一音频内容；
在播放所述第一音频内容之后，接收用户对所述播放设备输入的第一语音指令，所述第一语音指令中的第二意图和/或第二槽位信息不完整；
结合所述第一意图和所述第一槽位信息，确定与所述第一语音指令对应的第二意图和第二槽位信息；
根据所述第二意图和所述第二槽位信息指示所述播放设备播放第二音频内容。
12.根据权利要求11所述的服务器，其特征在于，所述服务器根据所述第一音频内容的标识，确定与所述第一非语音指令对应的第一意图和第一槽位信息，具体包括：
根据所述第一音频内容的标识，从与所述第一音频内容对应的意图字段中提取所述第一意图；
根据所述第一音频内容的标识，从与所述第一音频内容对应的槽位字段中提取所述第一槽位信息。
13.根据权利要求11或12所述的服务器，其特征在于，在所述服务器根据所述第一音频内容的标识，确定与所述第一非语音指令对应的第一意图和第一槽位信息之后，所述服务器还用于执行：
将所述第一意图和所述第一槽位信息保存为上下文；
其中，所述服务器结合所述第一意图和所述第一槽位信息，确定与所述第一语音指令对应的所述第二意图和所述第二槽位信息，具体包括：
根据所述上下文中存储的意图和槽位信息，确定与所述第一语音指令对应的所述第二意图和所述第二槽位信息。
14.根据权利要求13所述的服务器，其特征在于，在所述服务器结合所述第一意图和所述第一槽位信息，确定与所述第一语音指令对应的所述第二意图和所述第二槽位信息之后，所述服务器还用于执行：
将所述第二意图和所述第二槽位信息保存为所述上下文。
15.根据权利要求13所述的服务器，其特征在于，所述服务器将所述第一意图和所述第一槽位信息保存为上下文，具体包括：
若所述第一播放消息中携带预设标识，则将所述第一意图和所述第一槽位信息保存为第一上下文；
若所述第一播放消息中未携带所述预设标识，则将所述第一意图和所述第一槽位信息保存为第二上下文，所述第二上下文的优先级低于所述第一上下文的优先级。
16.根据权利要求15所述的服务器，其特征在于，所述服务器中存储有所述第一上下文和所述第二上下文；
其中，所述服务器根据所述上下文中存储的意图和槽位信息，确定与所述第一语音指令对应的所述第二意图和所述第二槽位信息，具体包括：
若所述第二上下文的生效时长小于第一预设值，则根据所述第一上下文中的意图和槽位信息，确定与所述第一语音指令对应的所述第二意图和所述第二槽位信息；
若所述第二上下文的生效时长大于第二预设值，则根据所述第二上下文中的意图和槽位信息，确定与所述第一语音指令对应的所述第二意图和所述第二槽位信息，所述第二预设值大于或等于所述第一预设值。
17.根据权利要求11-16中任一项所述的服务器，其特征在于，所述第一语音指令中包括所述第二槽位信息，不包括所述第二意图；
其中，所述服务器结合所述第一意图和所述第一槽位信息，确定与所述第一语音指令对应的所述第二意图和所述第二槽位信息，具体包括：
若所述第一意图为预设的可继承的意图，则确定所述第二意图与所述第一意图相同。
18.根据权利要求11-16中任一项所述的服务器，其特征在于，所述第一语音指令中包括所述第二意图，不包括所述第二槽位信息；
其中，所述服务器结合所述第一意图和所述第一槽位信息，确定与所述第一语音指令对应的所述第二意图和所述第二槽位信息，具体包括：
若所述第一槽位信息为预设的可继承的槽位信息，则确定所述第二槽位信息与所述第一槽位信息相同。
19.根据权利要求11-18中任一项所述的服务器，其特征在于，所述服务器根据所述第二意图和所述第二槽位信息指示所述播放设备播放第二音频内容，具体包括：
向所述播放设备发送第二播放指令，所述第二播放指令中包括与所述第二意图和所述第二槽位信息对应的第二音频内容的音频资源。
20.一种语音交互系统，其特征在于，所述系统包括如权利要求11-19中任一项所述的服务器，以及播放设备；
其中，所述服务器用于接收第一播放消息，所述第一播放消息中包括第一音频内容的标识，所述第一播放消息为响应用户对所述播放设备输入的第一非语音指令生成的。
21.根据权利要求20所述的系统，其特征在于，所述第一播放消息中还包括第一音频内容的详情信息，所述详情信息包括表演者、名称、音频类型或版本类型中的一项或多项。
22.根据权利要求20或21所述的系统，其特征在于，所述系统中还包括安装有预设应用的终端，所述预设应用用于控制所述播放设备；其中，
所述终端用于：向所述服务器发送所述第一播放消息；或者，
所述终端用于：通过所述播放设备向所述服务器发送所述第一播放消息。
23.根据权利要求20-22中任一项所述的系统，其特征在于，
所述服务器用于：在接收到所述第一播放消息后，确定与所述第一非语音指令对应的第一意图和第一槽位信息；或者，在接收到用户对所述播放设备输入的第一语音指令后，确定与所述第一非语音指令对应的第一意图和第一槽位信息。
24.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令在服务器上运行时，使得所述服务器执行如权利要求1-10中任一项所述的语音交互方法。
25.一种包含指令的计算机程序产品，其特征在于，当所述计算机程序产品在服务器上运行时，使得所述服务器执行如权利要求1-10中任一项所述的语音交互方法。

说明书全文

一种语音交互方法、装置及系统

技术领域

[0001] 本申请涉及终端技术领域，尤其涉及一种语音交互方法、装置及系统。

背景技术

[0002] 随着语音识别技术的发展，许多电子设备中添加了语音助手(例如Siri、小爱同学、小E等)来帮助用户完成与电子设备的人机交互过程。以Siri作为语音助手举例，用户在手机或音箱中唤醒Siri后，Siri可与用户可进行语音交流。在进行语音交流时，Siri可回答或执行用户发出的每一条语音指令。

[0003] 一般，语音助手在与用户进行语音交互时具有语音接续的功能。例如，用户唤醒音箱中的语音助手后，可向语音助手输入第一语音指令：“播放周杰伦的双节棍”。语音助手通过与服务器交互后可提取到上述第一语音指令中的意图(intent)和槽位(slot)。例如，第一语音指令中的意图为播放歌曲，第一语音指令中包括表演者和歌曲名这两个槽位。其中，表演者为周杰伦，歌曲名为双节棍。进而，语音助手可从服务器获取与上述意图和槽位对应的音频资源在音箱中播放。

[0004] 在播放过程中，如果语音助手接收到用户输入第二语音指令：“现场版的”，则语音助手可请求服务器结合最近一条语音指令(即上述第一语音指令)的意图和槽位，提取本次第二语音指令的意图和槽位。例如，服务器结合第一语音指令的意图和槽位，可确定在第二语音指令中用户追加了版本信息这一槽位，那么，服务器可确定第二语音指令中的意图仍为播放歌曲，第二语音指令中的表演者和歌曲名这两个槽位与第一语音指令相同，并且，第二语音指令中的第三槽位(即版本信息)为现场版。进而，服务器可将与第二语音指令中意图和槽位对应的音频资源发送给音箱进行播放。

[0005] 但在一些场景中，用户除了可以通过语音指令的方式与音箱交互外，还可以使用其他方式与音箱交互。例如，用户可在手机中安装用于控制音箱的APP。当用户使用该APP控制音箱播放周杰伦的双节棍时，如果音箱接收到用户输入上述第二语音指令：“现场版的”，由于服务器中没有存储与上述第一语音指令类似的意图和槽位，因此音箱无法准确识别出上述第二语音指令的具体意图和槽位，导致音箱无法响应用户输入的第二语音指令，降低了用户与设备在语音交互时的使用体验。发明内容

[0006] 本申请提供一种语音交互方法、装置及系统，当用户与电子设备的语音交互过程中掺杂其他交互方式时，电子设备仍可提取到语音指令中的意图和槽位，提高电子设备响应语音指令的准确性和用户的使用体验。

[0007] 为达到上述目的，本申请采用如下技术方案：

[0008] 第一方面，本申请提供一种语音交互方法，包括：服务器接收第一播放消息，第一播放消息中包括第一音频内容的标识，一般，第一播放消息是响应用户对播放设备(例如音箱)输入的第一非语音指令生成的；服务器根据第一音频内容的标识，可确定与第一非语音指令对应的第一意图和第一槽位信息；并且，响应于第一播放消息，服务器可指示播放设备开始播放第一音频内容；在播放设备开始播放第一音频内容之后，服务器可接收用户对播放设备输入的第一语音指令，当第一语音指令中的第二意图和/或第二槽位信息不完整时，服务器可结合上述第一意图和第一槽位信息，确定与第一语音指令对应的第二意图和第二槽位信息；进而，服务器可根据第二意图和第二槽位信息指示该播放设备播放第二音频内容。

[0009] 也就是说，当用户使用非语音指令的方式向播放设备输入第一非语音指令时，服务器仍然可以提取到与第一非语音指令对应的第一意图和第一槽位信息。这样，当后续服务器接收到意图或槽位信息不完整的第一语音指令时，服务器可结合上下文中的第一意图和第一槽位信息，较为准确的确定出与第一语音指令对应的第二意图和第二槽位信息，使得播放设备在掺杂其他交互方式的语音交互场景下仍然能够较为准确的响应用户的语音指令，使用户获得较好的语音交互体验。

[0010] 在一种可能的实现方式中，服务器可预先将音频内容的详情信息中的一项或多项设置为槽位字段，并将详情信息中的一项或多项设置为意图字段。那么，服务器根据第一音频内容的标识，确定与第一非语音指令对应的第一意图和第一槽位信息，包括：服务器根据第一音频内容的标识，从与第一音频内容对应的意图字段中提取第一意图；服务器根据第一音频内容的标识，从与第一音频内容对应的槽位字段中提取第一槽位信息。

[0011] 在一种可能的实现方式中，在服务器根据第一音频内容的标识，确定与第一非语音指令对应的第一意图和第一槽位信息之后，还包括：服务器将第一意图和第一槽位信息保存为上下文；此时，服务器结合第一意图和第一槽位信息，确定与第一语音指令对应的第二意图和第二槽位信息，包括：服务器根据上述上下文中存储的意图和槽位信息，确定与第一语音指令对应的第二意图和第二槽位信息。

[0012] 在一种可能的实现方式中，在服务器结合第一意图和第一槽位信息，确定与第一语音指令对应的第二意图和第二槽位信息之后，还包括：服务器将第二意图和第二槽位信息保存为该上下文。也就是说，服务器中一直存储有最近一次提取到的意图和槽位信息，以便为确定后续语音指令中的意图和槽位信息提供依据。

[0013] 在一种可能的实现方式中，服务器将第一意图和第一槽位信息保存为上下文，包括：若第一播放消息中携带预设标识，说明上述第一非语音指令为用户主动触发的，则服务器将第一意图和第一槽位信息保存为第一上下文；若第一播放消息中未携带该预设标识，说明上述第一非语音指令不是用户主动触发的，则服务器将第一意图和第一槽位信息保存为第二上下文，第二上下文的优先级低于第一上下文的优先级。当第一播放消息中未携带该预设标识时，第一播放消息中还可以携带预设的其它标识用于指示第一非语音指令不是用户主动触发的。

[0014] 另外，在保存第一上下文时，服务器还可以设置第一上下文的生效时间；同样，在保存第二上下文时，服务器还可以设置第二上下文的生效时间。

[0015] 在一种可能的实现方式中，服务器中存储有第一上下文和第二上下文；其中，服务器根据该上下文中存储的意图和槽位信息，确定与第一语音指令对应的第二意图和第二槽位信息，包括：若第二上下文的生效时长小于第一预设值，说明用户的第一语音指令很可能是针对与第一上下文对应的音频内容，则服务器根据第一上下文中的意图和槽位信息，确定与第一语音指令对应的第二意图和第二槽位信息；若第二上下文的生效时长大于第二预设值，说明用户的第一语音指令很可能是针对与第二上下文对应的音频内容，则服务器根据第二上下文中的意图和槽位信息，确定与第一语音指令对应的第二意图和第二槽位信息，第二预设值大于或等于第一预设值。

[0016] 或者，如果第二上下文的生效时长在上述第一预设值和第二预设值组成的区间内时，服务器可按照结合第一上下文生成第一语音指令的意图和槽位信息，并结合第二上下文生成第一语音指令的意图和槽位信息，进而，服务器可按照预设策略对上述两个意图和槽位信息的置信度进行打分。如果结合第一上下文生成的意图和槽位信息的打分更高，则服务器可根据第一上下文中的意图和槽位信息，确定第一语音指令的第二意图和第二槽位信息；如果结合第二上下文生成的意图和槽位信息的打分更高，则服务器可根据第二上下文中的意图和槽位信息，确定第一语音指令的第二意图和第二槽位信息。

[0017] 在一种可能的实现方式中，第一语音指令中包括第二槽位信息，不包括第二意图；其中，服务器结合第一意图和第一槽位信息，确定与第一语音指令对应的第二意图和第二槽位信息，包括：若第一意图为预设的可继承的意图，则服务器确定第二意图与第一意图相同。

[0018] 在一种可能的实现方式中，第一语音指令中包括第二意图，不包括第二槽位信息；其中，服务器结合第一意图和第一槽位信息，确定与第一语音指令对应的第二意图和第二槽位信息，包括：若第一槽位信息为预设的可继承的槽位信息，则服务器确定第二槽位信息与第一槽位信息相同。

[0019] 在一种可能的实现方式中，服务器根据第二意图和第二槽位信息指示该播放设备播放第二音频内容，包括：服务器向该播放设备发送第二播放指令，第二播放指令中包括与第二意图和第二槽位信息对应的第二音频内容的音频资源，例如第二音频内容的URL。

[0020] 在一种可能的实现方式中，上述第一非语音指令可以为：用户在播放设备中输入的非语音指令(例如在音箱触摸屏中的操作)，播放设备自动切换音频内容的指令(例如音箱自动切换下一首歌曲的指令)，用户在其他电子设备中输入的非语音指令(例如用户使用手机中音箱类APP输入的点播操作)或其他电子设备自动切换该播放设备中音频内容的指令(例如音箱类APP自动控制音箱播放下一首歌曲的指令)。

[0021] 第二方面，本申请提供一种语音交互系统，包括上述服务器和播放设备；其中，服务器用于接收第一播放消息，第一播放消息中包括第一音频内容的标识，第一播放消息为响应用户对播放设备输入的第一非语音指令生成的。

[0022] 在一种可能的实现方式中，上述第一播放消息中还包括第一音频内容的详情信息，该详情信息包括表演者、名称、音频类型或版本类型中的一项或多项。

[0023] 在一种可能的实现方式中，上述系统中还包括安装有预设应用的终端，该预设应用用于控制该播放设备，例如，该预设应用可以为音箱类APP；其中，终端可用于：向服务器发送第一播放消息；或者，终端可用于：通过播放设备向服务器发送第一播放消息。也就是说，用户在音箱类APP中对音响输入了第一非语音指令后，可以由终端向服务器发送该第一播放消息，或者，可以由终端将第一播放消息现发给音箱，再由音箱向服务器发送该第一播放消息。

[0024] 在一种可能的实现方式中，服务器用于：在接收到第一播放消息后，确定与第一非语音指令对应的第一意图和第一槽位信息；或者，在接收到用户对该播放设备输入的第一语音指令后，确定与第一非语音指令对应的第一意图和第一槽位信息。也就是说，服务器可以在接收到第一播放消息后便提取与第一非语音指令对应的第一意图和第一槽位信息，将其保存为上下文；或者，服务器也可以在接收到意图或槽位不完整的第一语音指令后，再提取与第一非语音指令对应的第一意图和第一槽位信息，将其保存为上下文。

[0025] 第三方面，本申请提供一种服务器，包括：处理器、存储器、通信模块以及一个或多个计算机程序；其中，处理器与通信模块和存储器均耦合，上述一个或多个计算机程序被存储在存储器中，当服务器运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使服务器执行上述任一项所述的语音交互方法。

[0026] 第四方面，本申请提供一种计算机存储介质，包括计算机指令，当计算机指令在服务器上运行时，使得服务器执行如第一方面中任一项所述的语音交互方法。

[0027] 第五方面，本申请提供一种计算机程序产品，当计算机程序产品在服务器上运行时，使得服务器执行如第一方面中任一项所述的语音交互方法。

[0028] 可以理解地，上述提供的第三方面所述的电子设备、第四方面所述的计算机存储介质，以及第五方面所述的计算机程序产品均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。附图说明

[0029] 图1为本申请实施例提供的一种语音交互系统的结构示意图一；

[0030] 图2为本申请实施例提供的一种语音交互系统的结构示意图二；

[0031] 图3为本申请实施例提供的一种语音交系统的交互原理示意图；

[0032] 图4为本申请实施例提供的一种电子设备的结构示意图；

[0033] 图5为本申请实施例提供的一种语音交互方法的交互示意图；

[0034] 图6为本申请实施例提供的一种语音交互方法的场景示意图一；

[0035] 图7为本申请实施例提供的一种语音交互方法的场景示意图二；

[0036] 图8为本申请实施例提供的一种语音交互方法的场景示意图三；

[0037] 图9为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

[0038] 为了方便清楚地理解下述各实施例，首先给出语音识别技术中相关术语的简要介绍：

[0039] 意图(intent)：用户的每次输入的语音指令都对应着用户的一个意图。意图是一句或多句表达形式的集合，例如“我要看电影”和“我想看2001年刘德华拍摄的动作电影”都可以属于同一个视频播放的意图。

[0040] 槽位信息：槽位信息是指用户输入的语音指令中用来表达意图的关键信息，槽位信息直接决定电子设备(或服务器)能否匹配到正确的意图。一个槽位对应着一类属性的关键词，该槽位中的信息(即槽位信息)可以由同一类型的关键词进行填充。例如，与歌曲播放这一意图对应的查询句式可以为“我想听{singer}的{song}”。其中，{singer}为歌手的槽位，{song}为歌曲的槽位。那么，如果接收到用户输入“我想听王菲的红豆”这一语音指令，则电子设备(或服务器)可从该语音指令中提取到{singer}这一槽位中的槽位信息为：王菲，{song}这一槽位中的槽位信息为：红豆。这样，电子设备(或服务器)可根据这两个槽位信息识别出本次语音输入的用户意图为：播放王菲的歌曲红豆。

[0041] 在用户与电子设备进行语音交互时，电子设备每次接收到用户输入的语音指令后，均可通过与服务器交互提取与本次语音指令对应的意图和槽位信息，进而执行与本次意图和槽位信息对应的操作指令，从而完成对本次用户输入的语音指令的响应。

[0042] 下面将结合附图对本实施例的实施方式进行详细描述。

[0043] 示例性的，本申请实施例提供的一种语音交互方法可应用图1所示的语音交互系统100。语音交互系统100中可包括至少一个电子设备101和至少一个服务器102。

[0044] 电子设备101可以为具有音频播放功能的播放设备。以音箱为电子设备101举例，音箱可接收用户输入的语音指令。例如，用户可通过输入预设的唤醒语(例如“你好小E”、“小艺小艺”、“hi Siri”等)唤醒音箱中的语音助手。语音助手被唤醒后，可接收用户输入的语音指令。进而，音箱可将接收到的语音指令发送给服务器102。例如，音箱可将接收到的语音指令转换为文本信息后发送给服务器102，或者，音箱也可直接将接收到的语音指令发送给服务器102。

[0045] 服务器102接收到音箱发来的语音指令后，可使用预设的自然语言理解(natural language understanding，NLU)算法提取本次语音指令中的意图和槽位信息。进而，服务器102可查找与本次提取到的意图和槽位信息对应的音频资源，并指示音箱开始播放查找到的音频资源，完成对本次用户输入的语音指令的响应。

[0046] 通常，用户与电子设备进行语音交互时输入的语音指令是有连续性的。

[0047] 为了能够准确提取到用户每次输入的语音指令中的意图和槽位信息，服务器102可以保存在最近一次语音指令中提取到的意图和槽位信息。例如，用户输入的第一语音指令为“播放王菲的红豆”。服务器102可从第一语音指令中提取到其意图为：播放音乐，其槽位信息包括歌曲名“红豆”和表演者“王菲”。并且，服务器102可将第一语音指令的意图和槽位信息作为上下文进行保存。

[0048] 后续，如果接收到用户输入的第二语音指令为：“我要听方大同的”，则服务器102可在第二语音指令中提取到“方大同”这一表演者的槽位信息，但此时第二语音指令中的意图和其他槽位信息并不完整，服务器102仅根据第二语音指令中提取到的“方大同”这一槽位信息无法获取到准确的音频资源。那么，服务器102可在已存储的上下文中查询最近一次语音指令(即第一语音指令)中提取到的意图和槽位信息。例如，第一语音指令中提取的意图为：播放音乐，槽位信息包括歌曲名“红豆”和表演者“王菲”。第二语音指令中提取的槽位信息中也包括表演者这一槽位信息，说明用户在第二语音指令中希望更新表演者这一槽位信息。进而，服务器102可确定第二语音指令中的意图也为播放音乐，第二语音指令中的槽位信息包括歌曲名：红豆和表演者：方大同。

[0049] 这样，服务器102可查找与第二语音指令的意图和槽位信息对应的音频资源，并指示音箱开始播放查找到的音频资源，完成对用户输入的第二语音指令的响应。

[0050] 在本申请实施例中，用户除了通过输入语音指令的方式与电子设备101进行交互外，还可以通过其他方式与电子设备101交互。

[0051] 仍以音箱为电子设备101举例，可以在音箱中设置触摸屏，触摸屏可用于向用户输出相关的UI界面，并接收用户输入的触摸操作。例如，用户可以在触摸屏中点播音频内容、设置播放列表、调整播放音量等。也就是说，用户还可以通过向音箱的触摸屏中输入触摸操作与音箱交互。或者，音箱中可以有其它实体键，用户可以通过这些实体键与音箱进行交互。

[0052] 又或者，如图2所示，上述语音交互系统100中还可以包括手机103。用户可以在手机103中安装用于控制音箱的音箱类APP。这样，当音箱与手机103接入同一局域网或广域网后，用户可在手机103上使用音箱类APP控制音箱实现各项功能。

[0053] 例如，用户可以在音箱类APP中点播希望收听的音频内容。手机103检测到用户点播了音频内容1后，可将音频内容1的标识发送给服务器102。进而，服务器102根据音频内容1的标识可查找到音频内容1的音频资源，并指示音箱开始播放查找到的音频资源。这样，用户通过手机103中的音箱类APP也可以与音箱交互。

[0054] 可以看出，用户可以通过语音指令、音箱上的触摸屏或按键以及其他电子设备上的音箱APP等多种方式与音箱进行交互。那么，在多种交互方式掺杂的场景下，为了能够准确理解并提取到用户输入的每一条语音指令中的意图和槽位信息，服务器102可预先存储不同音频内容的详情信息，该详情信息可以包括音频内容的标识、名称、表演者、音频类型等一项或多项。并且，可在上述详情信息中预先设置用于指示槽位信息的槽位字段，以及用于指示意图的意图字段，使得服务器102可以从槽位字段中提取到对应的槽位信息，从意图字段中提取到对应的意图。

[0055] 示例性的，如表1所示，服务器102中分别存储了歌曲《红豆》、评书《三国演义》以及儿童故事《三国演义》这三个音频内容的详情信息。该详情信息包括音频内容、音频类型、名称以及表演者。其中，音频类型为预设的意图字段，名称和表演者为预设的槽位字段。以歌曲《红豆》为例，歌曲《红豆》的标识为001，其音频类型为“歌曲”，其名称为“红豆”，其表演者为“王菲”。由于音频类型为预设的意图字段，因此，当音频类型为“歌曲”时，服务器102可提取出对应的意图为：播放歌曲。相应的，由于名称和表演者为预设的槽位字段，因此，当名称为“红豆”，表演者为“王菲”时，服务器102可提取出对应的槽位信息包括名称“红豆”以及表演者“王菲”。每个音频内容对应的槽位信息可以有一个或多个，本申请实施例对此不做任何限制。

[0056] 表1

[0057]

[0058] 那么，当用户使用非语音指令的形式与音箱交互时，服务器102可根据音箱或其他电子设备(例如手机103)上报的音频内容的标识，从相应的意图字段和槽位字段中确定与用户本次操作对应的意图和槽位信息。例如，如图3所示，手机103检测到用户在音箱类APP上点播了歌曲《红豆》后，手机103可将歌曲《红豆》的标识001发送给服务器102。进而，服务器102根据表1所示的对应关系，可确定出与用户本次点播操作对应的意图为：播放歌曲，对应的槽位信息包括名称“红豆”，以及表演者“王菲”。那么，服务器102可将本次确定出的意图和槽位信息作为上下文进行保存。

[0059] 这样，如果后续服务器102接收到音箱上报的意图不完整或槽位信息不完整的语音指令时，服务器102可结合上下文中已存储的意图和槽位信息确定本次语音指令的意图和槽位信息，从而提高语音交互场景下提取用户语音指令中意图和槽位信息的准确性，进而提高电子设备响应语音指令的准确性，使得用户在掺杂其他交互方式的语音交互场景下，仍可获得较好的语音交互体验。

[0060] 当然，仍如图3所示，服务器102接收到手机103发来的标识001后，还可以根据标识001进一步获取对应的音频资源，例如歌曲《红豆》的统一资源定位符(uniform resource locator，URL)。进而，服务器102可将歌曲《红豆》的URL携带在播放指令中发送给音箱，使得音箱可以根据该URL播放歌曲《红豆》，实现用户通过音箱类APP对音箱的控制过程。当然，除了URL外，服务器102还可以使用其他能够唯一标识该音频内容的标识获取对应的音频资源，本申请实施例对此不做任何限制。

[0061] 示例性的，上述电子设备101具体可以为音箱、手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、手持计算机、上网本、个人数字助理(personal digital assistant，PDA)、可穿戴电子设备、车机、虚拟现实设备等具有语音交互功能的电子设备，本申请实施例对此不做任何限制。

[0062] 示例性的，图4示出了电子设备101的结构示意图。

[0063] 电子设备101可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，麦克风170B，传感器模块180等。

[0064] 处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

[0065] 处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

[0066] 在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

[0067] 移动通信模块150可以提供应用在电子设备101上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括一个或多个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

[0068] 无线通信模块160可以提供应用在电子设备101上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(Bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成一个或多个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

[0069] 外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备101的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

[0070] 内部存储器121可以用于存储一个或多个计算机程序，该一个或多个计算机程序包括指令。处理器110可以通过运行存储在内部存储器121的上述指令，从而使得电子设备101执行本申请一些实施例中所提供的联系人智能推荐的方法，以及各种功能应用和数据处理等。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统；该存储程序区还可以存储一个或多个应用程序(比如图库、联系人等)等。存储数据区可存储电子设备101使用过程中所创建的数据(比如照片，联系人等)等。此外，内部存储器
121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。在另一些实施例中，处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，来使得电子设备101执行本申请实施例中所提供的语音交互方法，以及各种功能应用和数据处理。

[0071] 电子设备101可以通过音频模块170，扬声器170A，麦克风170B，以及应用处理器等实现音频功能。例如音乐播放，录音等。

[0072] 音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

[0073] 扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备101可以通过扬声器170A收听音乐，或收听免提通话。

[0074] 麦克风170B，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170B发声，将声音信号输入到麦克风170B。电子设备101可以设置一个或多个麦克风170B。在另一些实施例中，电子设备101可以设置两个麦克风170B，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备101还可以设置三个，四个或更多麦克风170B，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

[0075] 传感器180可以包括压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，接近光传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器，骨传导传感器等，本申请实施例对此不做任何限制。

[0076] 可以理解的是，本发明实施例示意的结构并不构成对电子设备101的具体限定。在本申请另一些实施例中，电子设备101可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

[0077] 例如，当上述电子设备101为音箱时，电子设备101中还可以包括GPU、显示屏、摄像头以及按键等一项或多项器件，本申请实施例对此不做任何限制。

[0078] 又例如，当上述电子设备101为手机时，电子设备101中还可以包括GPU、显示屏、摄像头、耳机接口、按键、电池、马达、指示器以及SIM卡接口等一项或多项器件，本申请实施例对此不做任何限制。

[0079] 以下，将结合附图对本申请实施例提供的一种语音交互方法进行具体介绍。以下实施例中均以音箱作为上述电子设备101举例说明。

[0080] 图5为本申请实施例提供的一种语音交互方法的流程示意图。如图5所示，该语音交互方法可以包括：

[0081] S501、手机接收用户在音箱类APP中指示音箱播放第一音频内容的第一输入。

[0082] 在一些实施例中，用户可以使用手机中安装的音箱类APP控制音箱播放相应的音频内容。示例性的，用户可打开手机和音箱的蓝牙功能，进而，如图6所示，检测到用户打开手机中的音箱类APP后，手机可搜索当前可连接的蓝牙设备。如果检测到用户选中与“我的音箱”601建立连接，则手机可开始与名称为“我的音箱”对应的音箱建立蓝牙连接。另外，如果手机已经与该音箱建立过蓝牙连接，则用户打开音箱类APP后手机可自动与搜索到的音箱建立蓝牙连接。当然，手机与音箱还可以通过Wi-Fi网络、蜂窝互联网等方式建立通信连接，本申请实施例对此不做任何限制。

[0083] 手机与音箱建立蓝牙连接后，如图7中的(a)所示，手机可显示音箱类APP的主页701。主页701中包含不同类型的音频内容，用户可以在主页701中点播相应的音频内容在音箱中播放。示例性的，如果检测到用户点击主页701中王菲的专辑702，则如图7中的(b)所示，手机可在节目列表界面703中显示专辑702中的节目列表。节目列表界面703中可以包括专辑702中每一个音频内容的名称、专辑名、表演者等信息。如果检测到用户点击节目列表界面703中的某一音频内容(例如《红豆》)，说明用户希望在音箱上播放专辑702中的歌曲《红豆》。此时，用户选中《红豆》的操作可称为第一输入，用户选中的音频内容《红豆》可称为第一音频内容。响应于该第一输入，手机可继续执行下述步骤S502。

[0084] S502、响应于第一输入，手机向服务器发送第一播放消息，第一播放消息中包括第一音频内容的标识。

[0085] 仍以用户选中节目列表界面703中的歌曲《红豆》为第一输入举例，手机和服务器中均存储有专辑702中每个音频内容对应的标识。例如，与歌曲《红豆》对应的标识为001。那么，手机接收到上述第一输入后，可向服务器发送携带歌曲《红豆》的标识001的第一播放消息，即通知服务器需要在音箱上播放与标识001对应的歌曲《红豆》。

[0086] 另外，如果检测到用户点击节目列表界面703中的歌曲《红豆》，则手机还可以默认从歌曲《红豆》开始播放专辑702中的音频内容。也就是说，当歌曲《红豆》播放完之后，手机可自动向服务器发送播放专辑702内歌曲《传奇》的第二播放消息。与第一播放消息类似的，第二播放消息中可以包括第二音频内容(即歌曲《传奇》)的标识。

[0087] 在一些实施例中，如果上述第一输入为用户主动输入的操作产生的，例如用户点击专辑702中的歌曲《红豆》，则手机在发送的第一播放消息中还可以携带预设的第一标识，例如标识A，用于指示播放第一音频内容的操作为用户的主动操作。相应的，当播放完歌曲《红豆》后自动播放专辑702内歌曲《传奇》(即第二音频内容)时，该播放操作是手机自动触发的而非用户手动选择的，因此，手机在发送上述第二播放消息时可在第二播放消息中携带预设的第二标识，例如标识B，用于指示播放第二音频内容的操作不是用户的主动操作。或者，如果播放消息中没有携带预设的第一标识，则服务器也可以确定与该播放消息对应的操作不是用户的主动操作。

[0088] 又或者，如果检测到用户手动选择歌曲《红豆》，则手机可按照第一格式发送上述第一播放消息；如果检测到手机自动切换并播放下一首歌曲《传奇》，则手机可按照第二格式发送上述第二播放消息。这样，服务器每次接收到一条播放消息后，可根据该播放消息的格式确定播放本次音频内容的操作是否为用户主动触发的。

[0089] S503、服务器根据第一音频内容的标识，确定与上述第一输入对应的第一意图和第一槽位信息。

[0090] 示例性的，服务器中可以预先存储不同音频内容的详情信息，该详情信息可以包括音频内容的标识、名称、表演者、音频类型、版本类型等一项或多项。以歌曲《红豆》举例，该音频内容的标识为001，名称为红豆，表演者为王菲，音频类型为歌曲。那么，服务器可预先将详情信息中的一项或多项设置为槽位字段，并将详情信息中的一项或多项设置为意图字段。

[0091] 示例性的，如表2所示，可预先将音频内容的音频类型设置为意图字段，将音频内容的名称、表演者和版本类型这三个字段设置为槽位字段。那么，服务器可以通过预设的意图字段提取到相应音频内容对应的意图为播放歌曲、播放评书或播放儿童故事等，并且，服务器可通过预设的槽位字段提取到相应音频内容对应的槽位信息，例如具体的名称、表演者等。

[0092] 表2

[0093]

[0094] 例如，如果服务器接收到手机发来的第一播放消息中携带有标识001，则服务器可根据表1所示的对应关系，从与标识001对应的意图字段中提取到用户本次第一输入的第一意图为：播放歌曲，并且，服务器可从与标识001对应的槽位字段中提取到与第一输入对应的第一槽位信息包括第一音频内容的名称：红豆以及第一音频内容的表演者：王菲。也就是说，在本申请实施例中，服务器可将用户在音箱类APP中的输入(例如上述第一输入)映射为对应的意图和槽位信息，即用户在手机的音箱类APP中输入的上述第一输入与用户输入“播放王菲的红豆”这一语音指令的效果是相同的。

[0095] 在一些实施例中，服务器还可以预先设置上述意图字段中的某些意图为可继承的。例如，可将播放歌曲这一类型的意图设置为可继承的意图。也就是说，当用户后续输入的操作或语音指令中没有携带明确的意图时，如果最近一次服务器提取到的意图为可继承的意图(例如播放歌曲)时，服务器可确定本次用户输入的操作或语音指令所对应的意图仍为播放歌曲。

[0096] 类似的，服务器还可以预先设置上述槽位字段中的某些槽位为可继承的。例如，可将音频内容的名称设置为可继承的槽位。也就是说，当用户后续输入的操作或语音指令中没有携带明确的音频内容的名称时，如果最近一次服务器提取到的槽位信息中的音频内容的名称为可继承的(例如红豆)，则服务器可确定本次用户输入的操作或语音指令所对应的音频内容的名称仍为红豆。

[0097] S504、服务器将上述第一意图和第一槽位信息保存为第一上下文。

[0098] 仍以上述第一输入的第一意图为播放歌曲，第一输入的第一槽位信息包括名称“红豆”以及表演者“王菲”举例。服务器根据表2所示的对应关系提取到上述第一意图和第一槽位信息后，可将上述第一意图和第一槽位信息保存为上下文，以便后续手机或音箱与服务器交互时，服务器能够根据上下文中的内容确定与下一次用户的输入对应的第二意图和第二槽位信息。

[0099] 也就是说，在本申请实施例中，当用户使用上述第一输入这种非语音指令的方式与音箱交互时，服务器也可确定出与第一输入对应的第一意图和第一槽位信息，并将第一意图和第一槽位信息保存为上下文。这样，如果后续服务器接收到意图不完整或槽位信息不完整的语音指令时，服务器可结合已保存的上下文响应该语音指令，提高音箱响应语音指令的准确性以及用户的使用体验。

[0100] 在一些实施例中，服务器将上述第一意图和第一槽位信息保存为上下文时，还可以记录该上下文的生效时间。例如，服务器可将保存上述第一意图和第一槽位信息时的时间(例如19:58:10)设置为本次上下文的生效时间。

[0101] 在一些实施例中，服务器可预先设置两种类型的上下文，即第一上下文和第二上下文。其中，第一上下文是指响应于用户主动向音箱输入的控制操作而提取到的上下文。例如，用户在音箱类APP中点播歌曲《红豆》后，服务器产生的上下文为第一上下文。又例如，用户输入语音指令“我要听歌曲《红豆》”后，服务器产生的上下文为第一上下文。相应的，第二上下文是指非用户主动向音箱输入的控制操作而产生的上下文。例如，音箱播放完歌曲《红豆》后，自动切换至歌曲《传奇》时，服务器产生的上下文为第二上下文。通常，第一上下文的优先级高于第二上下文的优先级。

[0102] 示例性的，如果手机在步骤S502中向服务器发送第一播放消息内携带第一标识A，则服务器可将步骤S503提取到的第一意图和第一槽位信息保存为第一上下文，并设置本次第一上下文的生效时间。相应的，如果手机在步骤S502中向服务器发送第一播放消息内携带第二标识B，则服务器可将步骤S503提取到的第一意图和第一槽位信息保存为第二上下文，并设置本次第二上下文的生效时间。

[0103] 另外，当第二上下文满足预设条件时服务器可将该第二上下文升级为第一上下文。例如，音箱播放完歌曲《红豆》自动切换至歌曲《传奇》时，音箱可向服务器上报携带第二标识B的播放消息。此时，服务器可将与播放歌曲《传奇》对应的意图和槽位信息保存为第二上下文，并设置本次第二上下文的生效时间为：19:58:10。如果在预设时间(例如30秒)内没有接收到新的播放消息或语音指令，说明用户已经同意播放歌曲《传奇》，则服务器可将第二上下文升级为第一上下文，并删除第二上下文中的内容，此时第一上下文的生效时间被更新为：19:58:40。又或者，当音箱播放歌曲《传奇》的播放时间超过预设值(例如30秒)后，说明用户已经同意播放歌曲《传奇》，则音箱可主动向服务器上报当前的播放进度，以触发服务器将第二上下文升级为第一上下文。

[0104] S505、服务器向音箱发送第一播放指令，第一播放指令中包括第一音频内容的音频资源。

[0105] 仍以上述第一输入的第一意图为播放歌曲，第一输入的第一槽位信息包括名称“红豆”以及表演者“王菲”举例。服务器根据表2所示的对应关系提取到上述第一意图和第一槽位信息后，可获取与第一意图和第一槽位信息对应的音频资源，即第一音频内容的音频资源。

[0106] 例如，服务器可根据歌曲《红豆》的标识001查询歌曲《红豆》的URL，该URL即为歌曲《红豆》的音频资源。进而，服务器可将歌曲《红豆》的URL携带在第一播放指令中发送给音箱。这样，音箱根据第一播放指令中的URL，便可获取到歌曲《红豆》的音频文件。并且，音箱可开始播放歌曲《红豆》的音频文件，以响应用户在音箱类APP中输入的第一输入。

[0107] 需要说明的是，本申请实施例不限制服务器执行步骤S504和S505时的先后顺序，服务器提取到上述第一意图和第一槽位信息后，可先执行步骤S504再执行步骤S505，也可先执行步骤S505再执行步骤S504，也可同时执行步骤S504和步骤S505，本申请实施例对此不做任何限制。

[0108] S506、响应于用户向音箱输入的第一语音指令，音箱向服务器发送第一语音指令。

[0109] 通过上述步骤S501-S505，用户通过向手机中的音箱类APP输入第一输入可控制音箱播放第一音频内容(例如上述歌曲《红豆》)，并且，服务器可将与第一输入对应的第一意图和第一槽位信息作为上下文进行保存。

[0110] 后续，用户可以通过输入语音指令的方式与音箱交互。例如，在步骤S506中，用户可向音箱输入的第一语音指令，音箱接收到用户输入的第一语音指令后，可将第一语音指令发送给服务器，由服务器确定与第一语音指令对应的意图(即第二意图)和槽位信息(即第二槽位信息)。其中，音箱向服务器发送的第一语音指令可以是语音形式的，也可以是文本形式的，本申请实施例对此不做任何限制。

[0111] 示例性的，如图8所示，音箱在播放王菲演唱的歌曲《红豆》时，如果用户希望收听其他表演者(例如方大同)演唱的《红豆》，则用户可向音箱输入第一语音指令：“我要听方大同的”。进而，音箱可将“我要听方大同的”这一第一语音指令发送给服务器。

[0112] S507、服务器结合上述第一上下文，确定上述第一语音指令的第二意图和第二槽位信息。

[0113] 服务器接收到音箱发来的第一语音指令后，可使用预设的NLU算法提取第一语音指令中的第二意图和第二槽位信息。仍以第一语音指令为“我要听方大同的”举例，服务器通过NLU算法可以提取到表演者这一槽位信息为：方大同。但是，服务器仅根据“方大同”这一槽位信息无法确定出用户需要播放的音频内容。也就是说，服务器从第一语音指令中无法提取到完整的第二意图和第二槽位信息，导致服务器无法确定出本次需要响应第一语音指令的音频内容。

[0114] 在本申请实施例中，当第一语音指令中的第二意图和/或第二槽位信息不完整时，服务器可获取上下文(例如上述第一上下文)中存储的最近一次服务器提取到的意图和槽位信息(例如上述第一意图和第一槽位信息)。进而，服务器可结合第一意图和第一槽位信息，确定与上述第一语音指令对应的完整的第二意图和第二槽位信息。

[0115] 示例性的，上述第一上下文中存储的第一意图为：播放歌曲，第一槽位信息中的名称为：红豆，第一槽位信息中的表演者为：王菲。服务器从上述第一语音指令中可提取到第一槽位信息中的表演者为：方大同。由于上述第一意图为可继承的意图，上述第一槽位信息中的名称也是可继承的槽位，那么，服务器可继承上述第一意图将第二意图也确定为：播放歌曲，并且，服务器可继承上述第一槽位信息中的名称将第二槽位信息中的名称也确定为：红豆，同时，服务器可确定第二槽位信息中的表演者为：方大同。

[0116] 又例如，如果用户在步骤S501中输入的第一输入为：在音箱类APP中点播评书《三国演义》，则服务器可提取到与上述第一输入对应的第一意图为：播放评书，第一槽位信息中的名称为：三国演义。并且，服务器可将该第一意图和第一槽位信息存储为第一上下文。后续，如果接收到用户输入的第一语音指令为“听儿童故事的”，则服务器可提取到第一语音指令中的第二意图为：播放儿童故事，但此时第一语音指令中没有明确的槽位信息。进而，服务器可获取第一上下文中的第一槽位信息。由于上述第一槽位信息中的名称也是可继承的槽位，因此，服务器可继承第一槽位信息中的名称将第二槽位信息中的名称也确定为：三国演义。此时，服务器可确定与“听儿童故事的”这一第一语音指令对应的第二意图为：播放儿童故事，对应的第二槽位信息为：三国演义。

[0117] 可以看出，当用户输入的语音指令中的意图或槽位信息不完整时，即使用户在输入该语音指令之前使用音箱类APP等非语音指令的方式与音箱交互，由于服务器中存储有最近一次用户与音箱交互时的上下文，因此，服务器可结合该上下文确定出与本次语音指令对应的意图和槽位信息，从而提高语音交互场景下电子设备响应用户输入的语音指令的准确性，使用户获得较好的使用体验。

[0118] 另外，服务器确定出第一语音指令的第二意图和第二槽位信息后，与步骤S504类似的，服务器此时可将已存储的上下文中的内容删除，并将上述第二意图和第二槽位信息作为新的上下文保存。

[0119] 示例性的，由于用户输入上述第一语音指令为用户主动向音箱输入的控制操作，因此上述第一语音指令中可以携带第一标识A。那么，服务器确定出第一语音指令的第二意图和第二槽位信息后，可删除上述第一上下文中的内容，并将第一语音指令的第二意图和第二槽位信息作为新的第一上下文保存，并且，服务器可记录本次第一上下文的生效时间。

[0120] 在本申请的另一些实施例中，服务器还可以结合上述第二上下文，确定上述第一语音指令的第二意图和第二槽位信息。

[0121] 示例性的，服务器获取到上述第一语音指令后，可查询服务器中已保存的上下文。如果服务器中仅存储有第一上下文，没有存储第二上下文，则服务器可按照上述方法结合第一上下文中的意图和槽位信息，确定一语音指令的第二意图和第二槽位信息。

[0122] 或者，如果服务器中仅存储有第二上下文，没有存储第一上下文，则服务器可结合上述第二上下文，确定上述第一语音指令的第二意图和第二槽位信息。例如，当第一指令中没有第二意图或第二意图不完整时，服务器可将第二上下文中可继承的意图确定为第二意图。又例如，当第一指令中没有第二槽位信息或第二槽位信息不完整时，服务器可将第二上下文中可继承的槽位信息确定为第二槽位信息。

[0123] 又或者，当服务器中既存储有第一上下文，又存储有第二上下文时，服务器可根据第二上下文的生效时间确定结合第一上下文或第二上下文确定第二意图和第二槽位信息。例如，如果当前时间与第二上下文的生效时间之间的时间间隔小于第一预设值(例如3s)，说明音箱刚刚自动切换至下一个音频内容，用户输入的第一语音指令很可能是针对上一个音频内容(即与第一上下文对应的音频内容)，此时，服务器可结合上述第一上下文确定第一语音指令的第二意图和第二槽位信息。又例如，如果当前时间与第二上下文的生效时间之间的时间间隔大于第二预设值(例如15s)，说明音箱切换至下一个音频内容播放已经有一段时间，用户输入的第一语音指令很可能是针对已经切换的音频内容(即与第二上下文对应的音频内容)，此时，服务器可结合上述第二上下文确定第一语音指令的第二意图和第二槽位信息。

[0124] 另外，如果当前时间与第二上下文的生效时间之间的时间间隔在上述第一预设值和第二预设值组成的区间内时，服务器可分别结合上述第一上下文和第二上下文确定第一语音指令的第二意图和第二槽位信息，得到与第一上下文对应的意图A和槽位信息A，以及与第二上下文对应的意图B和槽位信息B。进而，服务器可对意图A和槽位信息A的置信度打分，并且，对意图B和槽位信息B的置信度打分。最终，服务器可将打分较高的意图和槽位信息作为第一语音指令的第二意图和第二槽位信息。

[0125] S508、服务器根据第二意图和第二槽位信息确定第二音频内容的音频资源。

[0126] S509、服务器向音箱发送第二播放指令，第二播放指令中包括第二音频内容的音频资源。

[0127] 仍以上述第二意图为播放歌曲，第二槽位信息包括名称“红豆”以及表演者“方大同”举例。在步骤S508中，服务器可获取与第二意图和第二槽位信息对应的第二音频内容的音频资源，例如第二音频内容的URL。

[0128] 进而，在步骤S509中，服务器可将第二音频内容的URL携带在第二播放指令中发送给音箱。这样，音箱根据第二播放指令中的URL，便可获取到方大同演唱的歌曲《红豆》的音频文件。并且，音箱可以开始播放该音频文件，以响应用户向音箱输入的第一语音指令。

[0129] 上述实施例中是以用户在音箱类APP中输入第一输入后，手机向服务器上报第一音频内容的标识举例说明的。在一些实施例中，还可以在手机中存储各个音频内容的详情信息。那么，以用户点击上述节目列表界面703中的歌曲《红豆》举例，手机可将歌曲《红豆》的标识等详情信息发送给服务器。由服务器根据表2所示的对应关系提取对应的第一意图和第一槽位信息。或者，手机可将歌曲《红豆》的部分详情信息发送给服务器，服务器根据表2所示的对应关系可将与歌曲《红豆》对应的所有详情信息补齐，并提取对应的第一意图和第一槽位信息。

[0130] 在另一些实施例中，仍以用户点击上述节目列表界面703中的歌曲《红豆》举例，手机接收到用户的这一第一输入后，可以将携带歌曲《红豆》标识的第一播放消息先发送给音箱。进而，由音箱将第一播放消息转发给服务器。或者，音箱向服务器发送该第一播放消息时，还可以在第一播放消息中携带本次操作源的标识为音箱类APP，使得服务器根据该标识可以确定出第一播放消息为响应用户在音箱类APP中的第一输入生成的。

[0131] 当然，手机向音箱发送上述第一播放消息时，除了在第一播放消息中携带歌曲《红豆》标识外，还可以在第一播放消息中携带歌曲《红豆》的其他一项或多项详情信息，本申请实施例对此不做任何限制。

[0132] 在另一些实施例中，服务器接收到手机或音箱发来的第一播放消息后，服务器可以先将第一播放消息中音频内容的标识(例如歌曲《红豆》的标识)保存为上下文。当后续服务器接收到意图或槽位信息不完整的语音指令(例如上述第一语音指令)时，服务器可根据上下文中音频内容的标识，在表2所示的对应关系中提取对应的第一意图和第一槽位信息，进而，服务器可结合第一意图和第一槽位信息确定与本次第一语音指令对应的第二意图和第二槽位信息，并向用户提供与第二意图和第二槽位信息对应的第二音频内容。

[0133] 后续，用户仍然可按照上述方式使用音箱类APP、语音指令或其他交互方式与音箱交互，无论是哪种交互方式，服务器均可确定出用户最近一次与音箱交互时对应的意图和槽位信息，并将该意图和槽位信息保存为上下文。这样，当后续接收到意图或槽位信息不完整的语音指令时，服务器可结合上下文中的意图和槽位信息确定与本次语音指令对应的意图和槽位信息，使得音箱在掺杂其他交互方式的语音交互场景下仍然能够较为准确的响应用户的语音指令，使用户获得较好的语音交互体验。

[0134] 可以看出，当用户使用非语音指令的方式向音箱输入第一非语音指令时，服务器仍然可以提取到与第一非语音指令对应的第一意图和第一槽位信息，并将第一意图和第一槽位信息存储为上下文。这样，当后续服务器接收到意图或槽位信息不完整的第一语音指令时，服务器可结合上下文中的第一意图和第一槽位信息，较为准确的确定出与第一语音指令对应的第二意图和第二槽位信息。

[0135] 例如，用户可以先使用音箱类APP点播歌曲《红豆》，此时用户输入的第一非语音指令即为在音箱类APP中点播歌曲《红豆》的操作。进而，服务器按照上述实施例中所述的方法可提取到与第一非语音指令对应的第一意图为：播放歌曲，第一槽位信息中的名称为“红豆”。此时，服务器可将上述第一意图和第一槽位信息存储为上下文。后续，服务器可接收用户对音箱输入的第一语音指令，例如，第一语音指令为“现场版的”。由于在第一语音指令中无法提取到意图和名称，因此，服务器可结合上下文中的第一意图和第一槽位信息，将第一意图“播放歌曲”确定为第二意图，并将第一槽位信息中的名称确定为第二槽位信息中的名称，并且第二槽位信息中的版本类型为“现场版”。进而，服务器可将与第二意图和第二槽位信息对应的音频资源发送给音箱播放。

[0136] 又例如，无论用户使用音箱类APP点播歌曲《红豆》，或使用语音指令点播歌曲《红豆》后，服务器均可提取到对应的第一意图为：播放歌曲，第一槽位信息中的名称为“红豆”。并且，服务器可将上述第一意图和第一槽位信息存储为上下文。当歌曲《红豆》播放结束后，可自动切换为播放列表中的下一音频内容，例如歌曲《传奇》。此时，服务器仍然可以根据歌曲《传奇》的标识提取到对应的第二意图为：播放歌曲，第二槽位信息中的名称为“传奇”。进而，服务器可更新上下文中的内容，将上述第二意图和第二槽位信息存储为上下文。后续，如果服务器接收到意图或槽位信息不完整的语音指令，则服务器可结合此时上下文中存储的第二意图和第二槽位信息，确定与该语音指令对应的第三意图和第三槽位信息。其中，音箱类APP、音箱以及服务器的具体交互过程可参见上述实施例中S501-S509的相关描述，故此处不再赘述。

[0137] 如图9所示，本申请实施例公开了一种服务器，包括：处理器901；存储器902；通信模块903；以及一个或多个计算机程序904。上述各器件可以通过一个或多个通信总线905连接。其中，上述一个或多个计算机程序904被存储在上述存储器902中并被配置为被该一个或多个处理器901执行，该一个或多个计算机程序904包括指令，上述指令可以用于执行上述应实施例步骤S501-S509中服务器执行的各个步骤。

[0138] 通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

[0139] 在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

[0140] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

[0141] 以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何在本申请实施例揭露的技术范围内的变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

标题	发布/更新时间	阅读量
用于舞台表演者的道具支撑背带	2020-05-11	392
基于动态采集的3D动作生成方法及系统	2020-05-17	88
用于舞台表演者的道具支撑背带	2020-05-11	167
一种表演手帕	2020-05-16	291
基于拉普拉斯变换的数据驱动人脸表情合成方法	2020-05-17	388
信息处理装置和方法	2020-05-16	104
一种音频的处理方法及装置	2020-05-17	90
大头舞面具单眨眼的方法	2020-05-19	234
基于UE引擎的无标记表演捕捉系统	2020-05-13	518
智能互动系统	2020-05-16	836

一种语音交互方法、装置及系统

一种语音交互方法、装置及系统

技术领域

背景技术

具体实施方式

该功能需要专业版企业版VIP权限，您可以：