技术领域
[0001] 本
申请涉及
人工智能领域,具体涉及一种智能交互方法。本申请同时涉及一种智能交互装置,一种基于服务方的智能交互方法以及装置,以及两种电子设备。
背景技术
[0002] 随着人工智能的不断普及和发展,智能
语音技术在许多领域得到了广泛应用,智能语音技术是在大规模知识处理
基础上发展起来的,适用大规模知识处理、自然语言理解、知识管理等技术领域。智能语音技术通过自然语言理解识别用户意图,并通过推送配置与用户意图相匹配的信息,从而实现与用户之间的交互。随著智能语音技术的发展,已有多项实际的应用,比如常见的智能语音客服,以及智能语音技术在音乐、导航、
聊天等应用程序上的应用,在交互过程中,由用户通过智能语音客服的客户端发起一段语音,
服务器依据
自然语言处理的结果返回适当的文本答覆;或者是在音乐、导航、聊天等应用程序内的智能语音操作,例如地图应用可根据获取到的用户输入的语音进行导航作业。
[0003] 目前智能语音技术的架构是在智能语音系统的客户端采集用户的语音信息,采集到用户的语音信息后传送到智能语音系统后端的服务器进行处理,并由服务器将用户输入的语音信息的处理结果返回给客户端。然而,这种架构首先面临安全性的限制,要想通过应用程序实现这种架构,必须取得各个应用程序采集用户语音的权限,但考虑到应用程序的安全性,目前应用程序均为开放这一权限;此外,要想通过应用程序实现这种架构,要求应用程序必须具备有能
力进行
语音识别和自然语言处理等技术,这大大提升了应用程序代码复杂度,大幅增加了开发成本。
发明内容
[0004] 本申请提供一种智能交互方法,以解决
现有技术存在的问题。
[0005] 本申请同时涉及一种智能交互装置,一种基于服务方的智能交互方法以及装置,以及两种电子设备。
[0006] 本申请提供一种智能交互方法,包括:
[0007] 向服务方发送用户输入的交互信息;
[0008] 接收所述服务方返回的所述交互信息对应的应用标识和交互目标动作;
[0009] 启动所述应用标识对应的应用程序,并基于所述应用程序执行所述交互目标动作;
[0010] 接收所述服务方针对用户输入的二次交互信息返回的二次应用标识和二次交互目标动作;
[0011] 判断所述二次应用标识与所述应用标识是否一致,若是,基于所述应用程序执行所述二次交互目标动作。
[0012] 可选的,若所述判断所述二次应用标识与所述应用标识是否一致步骤的判断结果为否,关闭所述当前运行的所述应用程序,启动所述二次应用标识对应的应用程序,并基于所述二次应用标识对应的应用程序执行所述二次交互目标动作;
[0013] 或者,启动所述二次应用标识对应的应用程序,并基于所述二次应用标识对应的应用程序执行所述二次交互目标动作。
[0014] 可选的,所述交互信息的类型包括下述至少一项:语音类型、文字类型和视频类型。
[0015] 可选的,若所述交互信息中包含语音类型和/或视频类型的交互信息,所述向服务方发送用户输入的交互信息步骤执行前,执行下述步骤:
[0016] 获取用户输入的语音类型和/或视频类型的交互信息,并对获取到的语音类型和/或视频类型的交互信息进行转码;
[0017] 所述向服务方发送用户输入的交互信息步骤向所述服务方发送的交互信息,包括转码后的交互信息。
[0018] 可选的,所述向服务方发送用户输入的交互信息步骤执行后,且所述接收所述服务方针对用户输入的二次交互信息返回的二次应用标识和二次交互目标动作步骤执行前,执行下述步骤:
[0019] 获取用户输入的所述二次交互信息;
[0020] 通过所述数据通道将所述二次交互信息发送至所述服务方。
[0021] 可选的,若所述二次交互信息中包含语音类型和/或视频类型的二次交互信息,所述获取用户输入的所述二次交互信息步骤执行后,且所述通过所述数据通道将所述二次交互信息发送至所述服务方步骤执行前,执行下述步骤:
[0022] 对语音类型和/或视频类型的二次交互信息进行转码;
[0023] 所述通过所述数据通道将所述二次交互信息发送至所述服务方步骤向所述服务方发送的二次交互信息,包括转码后的二次交互信息。
[0024] 可选的,所述智能交互方法基于预设智能交互平台的客户端实现,所述服务方包括:所述智能交互平台的服务器;
[0025] 相应的,所述智能交互平台的客户端基于浏览器运行,并通过浏览器
访问所述智能交互平台的服务器。
[0026] 可选的,所述应用程序包括:基于浏览器运行和访问的Web应用程序。
[0027] 可选的,所述向服务方发送用户输入的交互信息步骤执行前,执行下述步骤:
[0028] 基于握手协议建立与所述智能交互平台的服务器之间的数据通道;其中,所述握手协议包括:HTML5提供的WebSocket协议。
[0029] 可选的,所述智能交互平台的客户端与所述Web应用程序采用如下方式进行通讯:
[0030] 所述智能交互平台的客户端基于网页地址参数将所述交互目标动作发送至所述Web应用程序,或者,所述智能交互平台的客户端通过调用消息传递函数将所述交互目标动作发送至所述Web应用程序。
[0031] 本申请还提供一种智能交互装置,包括:
[0032] 交互信息发送单元,用于向服务方发送用户输入的交互信息;
[0033] 第一处理结果接收单元,用于接收所述服务方返回的所述交互信息对应的应用标识和交互目标动作;
[0034] 应用程序启动单元,用于启动所述应用标识对应的应用程序,并基于所述应用程序执行所述交互目标动作;
[0035] 第二处理结果接收单元,用于接收所述服务方针对用户输入的二次交互信息返回的二次应用标识和二次交互目标动作;
[0036] 应用标识判断单元,用于判断所述二次应用标识与所述应用标识是否一致,若是,运行二次交互目标动作执行单元;
[0037] 所述二次交互目标动作执行单元,用于基于所述应用程序执行所述二次交互目标动作。
[0038] 本申请还提供一种基于服务方的智能交互方法,包括:
[0039] 接收客户端发送的用户输入的交互信息;
[0040] 对所述交互信息进行分析,并根据分析获得的交互意图确定所述交互信息对应的应用标识和交互目标动作;
[0041] 向所述客户端发送所述交互信息对应的应用标识和交互目标动作;
[0042] 对所述客户端发送的二次交互信息进行分析,根据分析获得的二次交互意图确定所述二次交互信息对应的二次应用标识和二次交互目标动作;
[0043] 向所述客户端发送所述二次交互信息对应的二次应用标识和二次交互目标动作。
[0044] 可选的,所述交互信息的类型包括下述至少一项:语音类型、文字类型和视频类型。
[0045] 可选的,若所述交互信息中包含语音类型和/或视频类型的交互信息,所述接收客户端发送的用户输入的交互信息步骤执行后,且所述对所述交互信息进行分析,并根据分析获得的交互意图确定所述交互信息对应的应用标识和交互目标动作步骤执行前,执行下述步骤:
[0046] 将语音类型和/或视频类型的交互信息转换为文字类型的交互信息;
[0047] 所述对所述交互信息进行分析,并根据分析获得的交互意图确定所述交互信息对应的应用标识和交互目标动作步骤中的交互信息,包括转换后获得的文字类型的交互信息。
[0048] 可选的,所述接收客户端发送的用户输入的交互信息步骤执行后,且所述对所述客户端发送的二次交互信息进行分析,根据分析获得的二次交互意图确定所述二次交互信息对应的二次应用标识和二次交互目标动作步骤执行前,执行下述步骤:
[0049] 接收所述客户端发送的所述二次交互信息。
[0050] 可选的,若所述二次交互信息中包含语音类型和/或视频类型的二次交互信息,所述接收所述客户端发送的所述二次交互信息步骤执行后,且所述对所述客户端发送的二次交互信息进行分析,根据分析获得的二次交互意图确定所述二次交互信息对应的二次应用标识和二次交互目标动作步骤执行前,执行下述步骤:
[0051] 将语音类型和/或视频类型的二次交互信息转换为文字类型的二次交互信息;
[0052] 所述对所述客户端发送的二次交互信息进行分析,根据分析获得的二次交互意图确定所述二次交互信息对应的二次应用标识和二次交互目标动作步骤中的二次交互信息,包括转换后获得的文字类型的二次交互信息。
[0053] 可选的,其特征在于,所述基于服务方的智能交互方法基于预设智能交互平台的服务器实现,所述智能交互平台的客户端基于浏览器运行,并通过浏览器访问所述智能交互平台的服务器。
[0054] 可选的,所述对所述交互信息进行分析,并根据分析获得的交互意图确定所述交互信息对应的应用标识和交互目标动作,采用预设交互信息识别模型实现,所述交互信息识别模型的输入为所述交互信息,输出为所述交互信息对应的应用标识和交互目标动作,所述交互信息识别模型的模型参数在
大数据环境中通过训练获得;
[0055] 和/或,所述对所述客户端发送的二次交互信息进行分析,根据分析获得的二次交互意图确定所述二次交互信息对应的二次应用标识和二次交互目标动作,采用所述交互信息识别模型实现,输入为所述二次交互信息,输出为所述二次交互信息对应的二次应用标识和二次交互目标动作。
[0056] 本申请还提供一种基于服务方的智能交互装置,包括:
[0057] 交互信息接收单元,用于接收客户端发送的用户输入的交互信息;
[0058] 交互意图分析单元,用于对所述交互信息进行分析,并根据分析获得的交互意图确定所述交互信息对应的应用标识和交互目标动作;
[0059] 处理结果发送单元,用于向所述客户端发送所述交互信息对应的应用标识和交互目标动作;
[0060] 二次交互意图分析单元,用于对所述客户端发送的二次交互信息进行分析,根据分析获得的二次交互意图确定所述二次交互信息对应的二次应用标识和二次交互目标动作;
[0061] 二次处理结果发送单元,用于向所述客户端发送所述二次交互信息对应的二次应用标识和二次交互目标动作。
[0062] 本申请还提供一种电子设备,包括:
[0064] 所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
[0065] 向服务方发送用户输入的交互信息;
[0066] 接收所述服务方返回的所述交互信息对应的应用标识和交互目标动作;
[0067] 启动所述应用标识对应的应用程序,并基于所述应用程序执行所述交互目标动作;
[0068] 接收所述服务方针对用户输入的二次交互信息返回的二次应用标识和二次交互目标动作;
[0069] 判断所述二次应用标识与所述应用标识是否一致,若是,基于所述应用程序执行所述二次交互目标动作。
[0070] 本申请另外提供一种电子设备,包括:
[0071] 存储器,以及处理器;
[0072] 所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
[0073] 接收客户端发送的用户输入的交互信息;
[0074] 对所述交互信息进行分析,并根据分析获得的交互意图确定所述交互信息对应的应用标识和交互目标动作;
[0075] 向所述客户端发送所述交互信息对应的应用标识和交互目标动作;
[0076] 对所述客户端发送的二次交互信息进行分析,根据分析获得的二次交互意图确定所述二次交互信息对应的二次应用标识和二次交互目标动作;
[0077] 向所述客户端发送所述二次交互信息对应的二次应用标识和二次交互目标动作。
[0078] 本申请提供的所述智能交互方法,向服务方发送用户输入的交互信息;接收所述服务方返回的所述交互信息对应的应用标识和交互目标动作;启动所述应用标识对应的应用程序,并基于所述应用程序执行所述交互目标动作;接收所述服务方针对用户输入的二次交互信息返回的二次应用标识和二次交互目标动作;判断所述二次应用标识与所述应用标识是否一致,若是,基于所述应用程序执行所述二次交互目标动作。
[0079] 所述智能交互方法,用户对应用程序进行交互控制时,首先将用户输入的交互信息发送至服务方,并根据所述服务方返回的所述交互信息对应的应用标识启动用户进行交互控制的应用程序,并根据所述服务方返回的所述交互信息对应的交互目标动作,在当前启动的所述应用程序上执行所述交互目标动作;此后,当后续用户输入的二次交互信息被发送至所述服务方之后,所述服务方会返回所述二次交互信息对应的二次应用标识和二次交互目标动作,并判断所述二次应用标识与所述应用标识是否一致,即用户两次输入交互信息想要交互控制的对象是否一致,如果一致,在当前启动的所述应用程序上执行所述二次交互目标动作即可。所述智能交互方法,可根据用户输入交互信息对应用程序进行多轮次的交互控制,实现方式简单,应用范围更加广泛。
附图说明
[0080] 附图1是本申请提供的一种智能交互方法
实施例的处理
流程图;
[0081] 附图2是本申请提供的一种交互场景的示意图;
[0082] 附图3是本申请提供的一种智能交互装置实施例的示意图;
[0083] 附图4是本申请提供的一种基于服务方的智能交互方法实施例的处理流程图;
[0084] 附图5是本申请提供的一种基于服务方的智能交互装置实施例的示意图;
[0085] 附图6是本申请提供的一种电子设备实施例的示意图
[0086] 附图7是本申请提供的另一种电子设备实施例的示意图。
具体实施方式
[0087] 在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0088] 本申请提供一种智能交互方法,本申请还提供一种智能交互装置,一种基于服务方的智能交互方法以及装置,以及两种电子设备。以下分别结合本申请提供的实施例的附图逐一进行详细说明,并且对方法的各个步骤进行说明。
[0089] 本申请提供的一种智能交互方法实施例如下:
[0090] 参照附图1,其示出了本申请提供的一种智能交互方法实施例的处理流程图,参照附图2,其示出了本申请提供的一种交互场景的示意图。此外,所述智能交互方法实施例的各个步骤之间的关系,请根据附图1确定。
[0091] 步骤S101,向服务方发送用户输入的交互信息。
[0092] 本申请提供的所述智能交互方法基于预设的智能交互平台实现,比如阿里
云提供的智能语音交互平台,是基于语音识别、语音合成、自然语言理解等技术,在金融、保险、司法、电商等多个领域的企业实现智能
人机交互体验,这种智能语音交互平台可适用于多种应用场景,包括智能客服、智能问答、实时演讲字幕等场景。所述智能语音交互平台包括客户端和服务器,本申请提供的所述智能交互方法是基于所述智能语音交互平台的客户端实现,本申请提供的下述基于服务方的智能交互方法基于所述智能语音交互平台的服务器实现,通过二者的相互配合,用户可通过智能语音交互平台实现与应用程序之间的智能交互控制,并且,通过与所述智能语音交互平台的多轮交互,用户可通过所述智能语音交互平台实现对所述应用程序的智能交互控制。本申请实施例所述应用程序是指基于浏览器运行和访问的Web应用程序,但不限于Web应用程序,还可以通过所述智能语音交互平台实现对Web应用程序之外的其他应用程序的智能交互控制,比如在取得Windows、Linux、Android以及ios等
操作系统内应用程序的操作控制权限之后,还可以通过所述智能语音交互平台实现对如上操作系统内应用程序的智能交互控制。
[0093] 本申请实施例所述交互信息,包括所述用户与智能语音交互平台进行交互的过程中生成的信息,比如,智能语音交互平台的客户端采集到的用户录入的语音信息。在实际当中,所述智能语音交互平台的客户端采集用户的交互信息的信息录入
接口包括语音录入接口,通过所述信息录入接口采集用户输入的语音类型的交互信息;除此之外,所述信息录入接口还包括文字录入接口和/或视频录入接口,相应的,通过所述信息录入接口文字录入接口和/或视频录入接口采集用户输入的文字类型或者视频类型的交互信息。用户输入的所述交互信息的类型并不限于语音类型、文字类型和视频类型当中的一项,还可以是语音类型、文字类型和视频类型三者当中的多项,比如用户在输入所述交互信息时,部分交互信息是通过所述语音录入接口输入的语音类型的交互信息,另一部分交互信息是通过所述文字录入接口或者所述视频录入接口输入的文字类型或者视频类型的交互信息。
[0094] 本申请实施例所述智能语音交互平台的客户端,可以是用户访问所述智能语音交互平台的接口,比如在浏览器展示的智能语音交互平台的网页,用户通过所述智能语音交互平台实现对所述Web应用程序的交互控制时,基于浏览器展示的所述智能语音交互平台的网页与所述智能语音交互平台的服务器进行通信,并进一步通过所述智能语音交互平台实现对所述Web应用程序的交互控制。
[0095] 本步骤中,所述智能语音服务平台的客户端在采集到用户输入的语音类型的交互信息之后,向所述智能语音服务平台的服务器发送所述语音类型的交互信息。例如,用户想要通过智能语音服务平台控制音乐应用程序(Web应用程序)进行音乐播放,输入语音类型的交互信息:“打开音乐应用程序,并播放第一首”,智能语音服务平台的客户端采集到当前输入的语音类型的交互信息之后,向智能语音服务平台的服务器发送采集到的语音类型的交互信息。
[0096] 在具体实施时,本步骤向所述智能语音服务平台的服务器发送用户输入的所述语音类型的交互信息前,还需执行如下操作:基于握手协议建立与所述智能语音交互平台的服务器之间的数据通道。例如,基于HTML5提供的WebSocket协议,建立智能语音服务平台的客户端与服务器之间握手连接,即二者之间的数据通道。基于此,本步骤向所述智能语音服务平台的服务器发送所述语音类型的交互信息,通过二者之间建立的所述数据通道将语音类型的交互信息发送至所述智能语音服务平台的服务器。
[0097] 在实际应用中,语音类型和视频类型的交互信息占用存储空间较大,比如在访问所述智能语音服务平台的用户数量较大的情况下,或者是交互信息繁多复杂的智能客服场景中,用户输入的语音类型的交互信息比较长,将这些交互信息从客户端传送至服务器需要消耗较多的网络资源,花费的传送时间也比较长。针对这种情况,本步骤向所述智能语音服务平台的服务器发送所述语音类型的交互信息之前,还可以执行如下信息转码操作,将所述交互信息中包含的语音类型和/或视频类型的交互信息转换为占用存储空间较小的信息,比如获取到的用户输入的交互信息中包含语音类型和/或视频类型的交互信息,对语音类型和/或视频类型的交互信息进行压缩转码操作。在此基础上,本步骤向所述智能语音服务平台的服务器发送所述交互信息,包括转码后获得的语音类型和/或视频类型的交互信息。
[0098] 步骤S102,接收所述服务方返回的所述交互信息对应的应用标识和交互目标动作。
[0099] 上述步骤S101将所述智能语音交互平台的客户端采集到所述语音类型的交互信息发送至所述智能语音交互平台的服务器,所述语音类型的交互信息发送至所述智能语音交互平台的服务器之后,由智能语音交互平台的服务器对所述语音类型的交互信息进行处理,并将处理结果返回给所述智能语音交互平台的客户端。本步骤中,接收所述智能语音交互平台的服务器返回的所述语音类型的交互信息的处理结果,即所述语音类型的交互信息对应的应用标识和交互目标动作。
[0100] 本申请实施例所述应用标识是指所述Web应用程序的ID标识,用于确定用户想要进行交互控制的Web应用程序,在具体实施时,所述应用标识可以是所述Web应用程序的名称,还可以是所述Web应用程序各自唯一对应的标识码。
[0101] 所述交互目标动作是指用户通过所述智能语音交互平台对所述Web应用程序进行交互控制的类型。例如,交互目标动作为用户通过智能语音服务平台控制音乐应用程序(Web应用程序)进行音乐播放。
[0102] 步骤S103,启动所述应用标识对应的应用程序,并基于所述应用程序执行所述交互目标动作。
[0103] 上述步骤S102接收所述智能语音交互平台的服务器发送的所述语音类型的交互信息对应的应用标识和交互目标动作,本步骤中,根据所述语音类型的交互信息对应的应用标识和交互目标动作,启动所述应用标识对应的Web应用程序,并基于所述Web应用程序执行所述交互目标动作。例如,通过浏览器打开音乐应用程序(Web应用程序),并播放音乐应用程序的播放列表当中的第一首歌曲。
[0104] 在具体实施时,所述智能语音交互平台的客户端与所述Web应用程序可采用如下方式进行通讯:所述智能语音交互平台的客户端基于网页地址参数将所述交互目标动作传递至所述Web应用程序,或者,所述智能语音交互平台的客户端通过调用Javascript postMessage函数将所述交互目标动作传递至所述Web应用程序。
[0105] 步骤S104,接收所述服务方针对用户输入的二次交互信息返回的二次应用标识和二次交互目标动作。
[0106] 本实施例通过与所述智能语音交互平台的多轮交互,用户可通过所述智能语音交互平台实现对所述应用程序多次交互控制。因此,所述二次交互信息与所述交互信息二者并无实质区别,均为用户输入的交互信息,区别在于:所述交互信息为用户前一次输入的交互信息,二次交互信息为用户后续输入的交互信息。所述智能语音交互平台的客户端和服务器对所述交互信息和所述二次交互信息的处理是类似的。
[0107] 类似的,还可以输入三次交互信息、四次交互信息···对所述Web应用程序进行多次的交互控制,具体处理过程与所述二次交互信息的处理过程相类似,本实施例在此不再赘述,参照所述二次交互信息的处理过程即可。
[0108] 在实际应用中,所述交互信息与所述二次交互信息的类型可以相同,也可以不相同,比如用户在通过所述智能语音交互平台对Web应用程序进行交互控制时,前一次输入的所述交互信息为语音类型的交互信息,此后,后续的输入的所述二次交互信息可以是语音类型,还可以语音类型之外的其他类型的交互信息,比如文字类型和/或视频类型,或者,同时输入语音类型和文字类型、语音类型和视频类型、文字类型和视频类型,或者语音类型、文字类型和视频类型。
[0109] 在具体实施时,本步骤接收所述智能语音交互平台的服务器发送的所述二次交互信息的处理结果之前,即接收所述二次交互信息对应的二次应用标识和二次交互目标动作之前,还需执行获取用户输入的所述二次交互信息操作,以及通过所述数据通道将获取到的所述二次交互信息发送至所述智能语音交互平台的服务器的操作。具体的,上述获取用户输入的所述二次交互信息操作,以及通过所述数据通道将获取到的所述二次交互信息发送至所述智能语音交互平台的服务器的操作,在上述步骤S101向所述智能交互平台的服务器发送所述交互信息之后进行。
[0110] 在实际应用中,为了节省网络资源,针对所述二次交互信息中包含的语音类型和/或视频类型的二次交互信息,可在获取到所述二次交互信息后,且向所述智能交互平台的服务器发送所述二次交互信息前,针对所述二次交互信息中包含的语音类型和/或视频类型的二次交互信息执行所述信息转码操作,将其中包含的语音类型和/或视频类型的二次交互信息转换为占用存储空间较小的信息,所述信息转码操作具体实现如下:对所述二次交互信息中包含的语音类型和/或视频类型的二次交互信息进行转码,比如对语音类型和/或视频类型的二次交互信息进行压缩转码操作。在此基础上,通过所述数据通道向所述智能交互平台的服务器发送的所述二次交互信息,包括通过所述信息转码操作转码后获得的二次交互信息。
[0111] 步骤S105,判断所述二次应用标识与所述应用标识是否一致。
[0112] 本步骤中,根据上述步骤S104接收到的所述二次交互信息对应的二次应用标识和二次交互目标动作,判断所述二次应用标识与所述应用标识是否一致,即:判断用户前一次输入所述交互信息想要通过所述智能语音交互平台进行交互控制的Web应用程序,与当前用户输入的所述二次交互信息想要通过所述智能语音交互平台进行交互控制的Web应用程序是否一致,如果一致,表明用户两次想要通过所述智能语音交互平台进行交互控制的Web应用程序为同一Web应用程序,执行下述步骤S106,根据接收到的所述二次交互信息对应的二次应用标识和二次交互目标动作,对所述Web应用程序进行进一步的交互控制;如果不一致,表明用户两次想要通过所述智能语音交互平台进行交互控制的Web应用程序不是同一Web应用程序,用户想要通过所述智能语音交互平台进行交互控制的Web应用程序已经发生转移,可关闭用户前一次输入所述交互信息想要通过所述智能语音交互平台进行交互控制的Web应用程序(即关闭上述步骤S103启动的所述Web应用程序),启动所述二次应用标识对应的Web应用程序,并基于所述二次应用标识对应的Web应用程序执行所述二次交互目标动作。
[0113] 除此之外,如果用户两次想要通过所述智能语音交互平台进行交互控制的Web应用程序不是同一Web应用程序,还可将用户前一次输入所述交互信息想要通过所述智能语音交互平台进行交互控制的Web应用程序(即关闭上述步骤S103启动的所述Web应用程序)转入后台运行,启动所述二次应用标识对应的Web应用程序,并基于所述二次应用标识对应的Web应用程序执行所述二次交互目标动作。
[0114] 例如,用户前一次输入的语音类型的交互信息为:“打开音乐应用程序,播放第一首”,则通过智能语音服务平台打开音乐应用程序(Web应用程序),并播放当前音乐列表中的第一首歌曲;此后,如果用户再次输入的语音类型的交互信息为:“播放下一首”,则通过智能语音服务平台将音乐应用程序当前播放的歌曲切换为下一首;如果用户再次输入的语音类型的交互信息为:“查找附近餐厅”,则通过智能语音服务平台关闭音乐应用程序,并通过智能语音服务平台打开地图应用程序(Web应用程序),根据用户当前所处地理
位置信息查找附件的餐厅,显示查找结果。
[0115] 步骤S106,基于所述应用程序执行所述二次交互目标动作。
[0116] 本步骤得以实施的前提是上述步骤S105判断所述二次应用标识与所述应用标识是否一致的判断结果为是,即用户两次想要通过所述智能语音交互平台进行交互控制的Web应用程序为同一Web应用程序,基于当前运行的所述Web应用程序(S103启动的所述Web应用程序)执行所述二次应用标识对应的二次交互目标动作。
[0117] 综上所述,本申请提供的所述智能交互方法,用户通过所述智能语音交互平台对Web应用程序进行交互控制时,首先将用户输入的交互信息发送至所述智能语音交互平台的服务器,并根据所述智能语音交互平台的服务器返回的所述交互信息对应的应用标识启动用户进行交互控制的Web应用程序,并根据所述智能语音交互平台的服务器返回的所述交互信息对应的交互目标动作,在当前启动的所述Web应用程序上执行所述交互目标动作;此后,当后续用户输入的二次交互信息被发送至所述智能语音交互平台的服务器之后,所述智能语音交互平台的服务器会返回所述二次交互信息对应的二次应用标识和二次交互目标动作,并判断所述二次应用标识与所述应用标识是否一致,即用户两次输入交互信息想要交互控制的对象是否一致,如果一致,在当前启动的所述Web应用程序上执行所述二次交互目标动作;如果不一致,则启动所述二次应用标识对应的Web应用程序,并在当前启动的所述Web应用程序上执行所述二次交互目标动作。所述智能交互方法,可通过智能语音交互平台实现与同一个Web应用程序的多轮对话,即:根据用户输入交互信息对Web应用程序进行多轮次的交互控制,实现方式简单,应用范围更加广泛,同时,用户参与的操作也比较简单,提升了用户服务体验。
[0118] 本申请提供的一种智能交互装置实施例如下:
[0119] 在上述的实施例中,提供了一种智能交互方法,与之相对应的,本申请还提供了一种智能交互装置,下面结合附图进行说明。
[0120] 参照附图3,其示出了本申请提供的一种智能交互装置实施例的示意图。
[0121] 由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
[0122] 本申请提供一种智能交互装置,包括:
[0123] 交互信息发送单元301,用于向服务方发送用户输入的交互信息;
[0124] 第一处理结果接收单元302,用于接收所述服务方返回的所述交互信息对应的应用标识和交互目标动作;
[0125] 应用程序启动单元303,用于启动所述应用标识对应的应用程序,并基于所述应用程序执行所述交互目标动作;
[0126] 第二处理结果接收单元304,用于接收所述服务方针对用户输入的二次交互信息返回的二次应用标识和二次交互目标动作;
[0127] 应用标识判断单元305,用于判断所述二次应用标识与所述应用标识是否一致,若是,运行二次交互目标动作执行单元306;
[0128] 所述二次交互目标动作执行单元306,用于基于所述应用程序执行所述二次交互目标动作。
[0129] 可选的,若所述应用标识判断单元305输出的判断结果为所述二次应用标识与所述应用标识不一致,运行第三交互目标动作执行单元或者第四交互目标动作执行单元;
[0130] 所述第三交互目标动作执行单元,用于关闭所述当前运行的所述应用程序,启动所述二次应用标识对应的应用程序,并基于所述二次应用标识对应的应用程序执行所述二次交互目标动作;
[0131] 所述第四交互目标动作执行单元,用于启动所述二次应用标识对应的应用程序,并基于所述二次应用标识对应的应用程序执行所述二次交互目标动作。
[0132] 可选的,所述交互信息的类型包括下述至少一项:语音类型、文字类型和视频类型。
[0133] 可选的,若所述交互信息中包含语音类型和/或视频类型的交互信息,所述智能交互装置,包括:
[0134] 交互信息获取转码单元,用于获取用户输入的语音类型和/或视频类型的交互信息,并对获取到的语音类型和/或视频类型的交互信息进行转码;
[0135] 所述交互信息发送单元301向所述服务方发送的交互信息,包括转码后的交互信息。
[0136] 可选的,所述智能交互装置,包括:
[0137] 二次交互信息发送单元,用于通过所述数据通道将所述二次交互信息发送至所述服务方。
[0138] 可选的,若所述二次交互信息中包含语音类型和/或视频类型的二次交互信息,所述智能交互装置,包括:
[0139] 二次交互信息转码单元,用于对语音类型和/或视频类型的二次交互信息进行转码;
[0140] 所述二次交互信息发送单元向所述服务方发送的二次交互信息,包括转码后的二次交互信息。
[0141] 可选的,所述智能交互装置基于预设智能交互平台的客户端实现,所述服务方包括:所述智能交互平台的服务器;
[0142] 相应的,所述智能交互平台的客户端基于浏览器运行,并通过浏览器访问所述智能交互平台的服务器。
[0143] 可选的,所述应用程序包括:基于浏览器运行和访问的Web应用程序。
[0144] 可选的,所述智能交互装置,包括:
[0145] 数据通道建立单元,用于基于握手协议建立与所述智能交互平台的服务器之间的数据通道;
[0146] 其中,所述握手协议包括:HTML5提供的WebSocket协议。
[0147] 可选的,所述智能交互平台的客户端与所述Web应用程序采用如下方式进行通讯:
[0148] 所述智能交互平台的客户端基于网页地址参数将所述交互目标动作发送至所述Web应用程序,或者,所述智能交互平台的客户端通过调用消息传递函数将所述交互目标动作发送至所述Web应用程序。
[0149] 本申请提供的一种基于服务方的智能交互方法实施例如下:
[0150] 在上述的实施例中,提供了一种智能交互方法,除此之外,本申请还提供了一种基于服务方的智能交互方法,与所述智能交互方法相互配合,下面结合附图进行说明。
[0151] 参照附图4,其示出了本申请提供的一种基于服务方的智能交互方法实施例的处理流程图,参照附图2,其示出了本申请提供的一种交互场景的示意图。
[0152] 由于所述基于服务方的智能交互方法实施例与本申请提供的智能交互方法实施例相互配合,所以描述得比较简单,阅读本实施例请参见上述提供的智能交互方法实施例的对应说明。
[0153] 本申请提供一种基于服务方的智能交互方法,包括:
[0154] 步骤S401,接收客户端发送的用户输入的交互信息。
[0155] 本申请提供的所述基于服务方的智能交互方法基于所述智能交互平台的服务器实现,比如阿里云提供的智能语音交互平台的服务器。在具体实施时,本步骤接收所述智能语音交互平台的客户端发送的用户输入的所述交互信息之前,所述智能语音交互平台的服务器配合客户端建立二者之间的数据通道,比如智能语音交互平台的服务器配合客户端采用HTML5提供的WebSocket协议建立二者时间的握手连接。基于此,本步骤接收所述智能语音交互平台的客户端发送的用户输入的所述交互信息,通过所述数据通道接收。类似的,所述智能语音交互平台的服务器在接收客户端后续发送的所述二次交互信息时,同样通过所述数据通道接收。
[0156] 本申请实施例所述交互信息,包括所述用户与智能语音交互平台进行交互的过程中生成的信息,比如,智能语音交互平台的客户端采集到的用户输入的语音信息。所述交互信息的类型包括下述至少一项:语音类型、文字类型和视频类型。
[0157] 在具体实施时,若所述交互信息中包含语音类型和/或视频类型的交互信息,本步骤接收所述智能语音交互平台的客户端发送的用户输入的所述交互信息后,还可采用语音识别技术和/或视频识别技术,将其中包含的语音类型和/或视频类型的交互信息转换为文字类型的交互信息,方便后续对所述交互信息的分析识别处理。在此基础上,下述对所述交互信息的分析识别处理,不仅包括对转换后生成的文字类型的交互信息的分析识别处理,还包括对接收到的所述交互信息中包含的文字类型的交互信息的分析识别处理。
[0158] 步骤S402,对所述交互信息进行分析,并根据分析获得的交互意图确定所述交互信息对应的应用标识和交互目标动作。
[0159] 在具体实施时,本步骤对所述交互信息进行分析,并根据分析获得的交互意图确定所述交互信息对应的应用标识和交互目标动作,可采用预设的交互信息识别模型进行分析识别处理,具体的,将接收到的所述交互信息输入所述交互信息识别模型,由所述交互信息识别模型进行分析识别处理,并输出所述交互信息对应的应用标识和交互目标动作。为提升所述交互信息识别模型分析识别的准确性,可将所述交互信息识别模型的模型参数在大数据环境中进行训练,随着所述交互信息识别模型处理的交互信息越来越多,所述交互信息识别模型分析识别的准确度也随之提升。
[0160] 步骤S403,向所述客户端发送所述交互信息对应的应用标识和交互目标动作。
[0161] 上述步骤S402通过将接收到所述交互信息输入至所述交互信息识别模型,由所述交互信息识别模型分析识别获得所述交互信息对应的应用标识和交互目标动作,本步骤将所述交互信息对应的应用标识和交互目标动作向所述智能语音交互平台的客户端发送。
[0162] 步骤S404,对所述客户端发送的二次交互信息进行分析,根据分析获得的二次交互意图确定所述二次交互信息对应的二次应用标识和二次交互目标动作。
[0163] 需要说明的是,本步骤对所述智能语音交互平台的客户端发送的二次交互信息进行分析,根据分析获得的二次交互意图确定所述二次交互信息对应的二次应用标识和二次交互目标动作前,还需接收所述智能语音交互平台的客户端发送的用户输入的所述二次交互信息。需要说明的是,上述接收所述智能语音交互平台的客户端发送的用户输入的所述二次交互信息,在上述步骤S401接收所述交互信息之后进行。
[0164] 在具体实施时,所述智能语音交互平台的服务器对所述交互信息和所述二次交互信息的处理过程向类似,如果所述二次交互信息中包含语音类型和/或视频类型的二次交互信息,则将其中包含的语音类型和/或视频类型的二次交互信息转换为文字类型的二次交互信息。在此基础上,本步骤对所述二次交互信息的进行分析识别处理,不仅包括对转换后获得的所述文字类型的二次交互信息的分析识别处理,还包括对接收到的所述二次交互信息中包含的文字类型的交互信息的分析识别处理。
[0165] 与上述步骤S402对所述交互信息分析的过程类型,在此,本步骤还可以采用所述交互信息识别模型进行分析识别处理具体的,将接收到的所述二次交互信息输入所述交互信息识别模型,由所述交互信息识别模型进行分析识别处理并输入所述二次交互信息对应的二次应用标识和二次交互目标动作。
[0166] 步骤S405,向所述客户端发送所述二次交互信息对应的二次应用标识和二次交互目标动作。
[0167] 上述步骤S404通过将接收到所述二次交互信息输入至所述交互信息识别模型,由所述交互信息识别模型进行分析识别处理并获得所述二次交互信息对应的二次应用标识和二次交互目标动作,本步骤向所述客户端发送将所述二次交互信息对应的二次应用标识和二次交互目标动作。
[0168] 本申请提供的一种基于服务方的智能交互装置实施例如下:
[0169] 在上述的实施例中,提供了一种基于服务方的智能交互方法,与之相对应的,本申请还提供了一种基于服务方的智能交互装置,下面结合附图进行说明。
[0170] 参照附图5,其示出了本申请提供的一种基于服务方的智能交互装置实施例的示意图。
[0171] 由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
[0172] 本申请提供一种基于服务方的智能交互装置,包括:
[0173] 交互信息接收单元501,用于接收客户端发送的用户输入的交互信息;
[0174] 交互意图分析单元502,用于对所述交互信息进行分析,并根据分析获得的交互意图确定所述交互信息对应的应用标识和交互目标动作;
[0175] 处理结果发送单元503,用于向所述客户端发送所述交互信息对应的应用标识和交互目标动作;
[0176] 二次交互意图分析单元504,用于对所述客户端发送的二次交互信息进行分析,根据分析获得的二次交互意图确定所述二次交互信息对应的二次应用标识和二次交互目标动作;
[0177] 二次处理结果发送单元505,用于向所述客户端发送所述二次交互信息对应的二次应用标识和二次交互目标动作。
[0178] 可选的,所述交互信息的类型包括下述至少一项:语音类型、文字类型和视频类型。
[0179] 可选的,若所述交互信息中包含语音类型和/或视频类型的交互信息,所述基于服务方的智能交互装置,包括:
[0180] 类型转换单元,用于将语音类型和/或视频类型的交互信息转换为文字类型的交互信息;
[0181] 所述交互意图分析单元502中的交互信息包括所述类型转换单元输出的交互信息。
[0182] 可选的,所述基于服务方的智能交互装置,包括:
[0183] 二次交互信息接收单元,用于接收所述客户端发送的所述二次交互信息。
[0184] 可选的,若所述二次交互信息中包含语音类型和/或视频类型的二次交互信息,所述基于服务方的智能交互装置,包括:
[0185] 第二类型转换单元,用于将语音类型和/或视频类型的二次交互信息转换为文字类型的二次交互信息;
[0186] 所述二次交互意图分析单元504中的二次交互信息,包括所述第二类型转换单元输出的二次交互信息。
[0187] 可选的,所述基于服务方的智能交互装置基于预设智能交互平台的服务器实现,所述智能交互平台的客户端基于浏览器运行,并通过浏览器访问所述智能交互平台的服务器。
[0188] 可选的,所述交互意图分析单元502采用预设交互信息识别模型实现,所述交互信息识别模型的输入为所述交互信息,输出为所述交互信息对应的应用标识和交互目标动作,所述交互信息识别模型的模型参数在大数据环境中通过训练获得;
[0189] 和/或,所述二次交互意图分析单元504采用所述交互信息识别模型实现,所述交互信息识别模型的输入为所述二次交互信息,输出为所述二次交互信息对应的二次应用标识和二次交互目标动作。
[0190] 本申请提供的一种电子设备实施例如下:
[0191] 在上述的实施例中,提供了一种智能交互方法,此外,本申请还提供了一种用于实现所述智能交互方法的电子设备,下面结合附图进行说明。
[0192] 参照附图6,其示出了本实施例提供的一种电子设备的示意图。
[0193] 本申请提供的所述电子设备实施例描述得比较简单,相关的部分请参见上述提供的所述智能交互方法实施例的对应说明即可。下述描述的实施例仅仅是示意性的。
[0194] 本申请提供一种电子设备,包括:
[0195] 存储器601,以及处理器602;
[0196] 所述存储器601用于存储计算机可执行指令,所述处理器602用于执行所述计算机可执行指令:
[0197] 向服务方发送用户输入的交互信息;
[0198] 接收所述服务方返回的所述交互信息对应的应用标识和交互目标动作;
[0199] 启动所述应用标识对应的应用程序,并基于所述应用程序执行所述交互目标动作;
[0200] 接收所述服务方针对用户输入的二次交互信息返回的二次应用标识和二次交互目标动作;
[0201] 判断所述二次应用标识与所述应用标识是否一致,若是,基于所述应用程序执行所述二次交互目标动作。
[0202] 可选的,若所述判断所述二次应用标识与所述应用标识是否一致指令的执行结果为否,所述处理器602还用于执行下述计算机可执行指令:
[0203] 关闭所述当前运行的所述应用程序,启动所述二次应用标识对应的应用程序,并基于所述二次应用标识对应的应用程序执行所述二次交互目标动作;
[0204] 或者,启动所述二次应用标识对应的应用程序,并基于所述二次应用标识对应的应用程序执行所述二次交互目标动作。
[0205] 可选的,所述交互信息的类型包括下述至少一项:语音类型、文字类型和视频类型。
[0206] 可选的,若所述交互信息中包含语音类型和/或视频类型的交互信息,所述向服务方发送用户输入的交互信息指令执行前,所述处理器602还用于执行下述计算机可执行指令:
[0207] 获取用户输入的语音类型和/或视频类型的交互信息,并对获取到的语音类型和/或视频类型的交互信息进行转码;
[0208] 所述向服务方发送用户输入的交互信息指令向所述服务方发送的交互信息,包括转码后的交互信息。
[0209] 可选的,所述向服务方发送用户输入的交互信息指令执行后,且所述接收所述服务方针对用户输入的二次交互信息返回的二次应用标识和二次交互目标动作指令执行前,所述处理器602还用于执行下述计算机可执行指令:
[0210] 获取用户输入的所述二次交互信息;
[0211] 通过所述数据通道将所述二次交互信息发送至所述服务方。
[0212] 可选的,若所述二次交互信息中包含语音类型和/或视频类型的二次交互信息,所述获取用户输入的所述二次交互信息指令执行后,且所述通过所述数据通道将所述二次交互信息发送至所述服务方指令执行前,所述处理器602还用于执行下述计算机可执行指令:
[0213] 对语音类型和/或视频类型的二次交互信息进行转码;
[0214] 所述通过所述数据通道将所述二次交互信息发送至所述服务方指令向所述服务方发送的二次交互信息,包括转码后的二次交互信息。
[0215] 可选的,所述处理器602基于预设智能交互平台的客户端执行所述计算机可执行指令,所述服务方包括:所述智能交互平台的服务器;
[0216] 相应的,所述智能交互平台的客户端基于浏览器运行,并通过浏览器访问所述智能交互平台的服务器。
[0217] 可选的,所述应用程序包括:基于浏览器运行和访问的Web应用程序。
[0218] 可选的,所述向服务方发送用户输入的交互信息指令执行前,所述处理器602还用于执行下述计算机可执行指令:
[0219] 基于握手协议建立与所述智能交互平台的服务器之间的数据通道;其中,所述握手协议包括:HTML5提供的WebSocket协议。
[0220] 可选的,所述智能交互平台的客户端与所述Web应用程序采用如下方式进行通讯:
[0221] 所述智能交互平台的客户端基于网页地址参数将所述交互目标动作发送至所述Web应用程序,或者,所述智能交互平台的客户端通过调用消息传递函数将所述交互目标动作发送至所述Web应用程序。
[0222] 本申请提供的另一种电子设备实施例如下:
[0223] 在上述的实施例中,提供了一种基于服务方的智能交互方法,此外,本申请还提供了一种用于实现所述基于服务方的智能交互方法的电子设备,下面结合附图进行说明。
[0224] 参照附图7,其示出了本实施例提供的另一种电子设备的示意图。
[0225] 本申请提供的所述电子设备实施例描述得比较简单,相关的部分请参见上述提供的所述基于服务方的智能交互方法实施例的对应说明即可。下述描述的实施例仅仅是示意性的。
[0226] 本申请提供一种电子设备,包括:
[0227] 存储器701,以及处理器702;
[0228] 所述存储器701用于存储计算机可执行指令,所述处理器702用于执行所述计算机可执行指令:
[0229] 接收客户端发送的用户输入的交互信息;
[0230] 对所述交互信息进行分析,并根据分析获得的交互意图确定所述交互信息对应的应用标识和交互目标动作;
[0231] 向所述客户端发送所述交互信息对应的应用标识和交互目标动作;
[0232] 对所述客户端发送的二次交互信息进行分析,根据分析获得的二次交互意图确定所述二次交互信息对应的二次应用标识和二次交互目标动作;
[0233] 向所述客户端发送所述二次交互信息对应的二次应用标识和二次交互目标动作。
[0234] 可选的,所述交互信息的类型包括下述至少一项:语音类型、文字类型和视频类型。
[0235] 可选的,若所述交互信息中包含语音类型和/或视频类型的交互信息,所述接收客户端发送的用户输入的交互信息指令执行后,且所述对所述交互信息进行分析,并根据分析获得的交互意图确定所述交互信息对应的应用标识和交互目标动作指令执行前,所述处理器702还用于执行下述计算机可执行指令:
[0236] 将语音类型和/或视频类型的交互信息转换为文字类型的交互信息;
[0237] 所述对所述交互信息进行分析,并根据分析获得的交互意图确定所述交互信息对应的应用标识和交互目标动作指令中的交互信息,包括转换后获得的文字类型的交互信息。
[0238] 可选的,所述接收客户端发送的用户输入的交互信息指令执行后,且所述对所述客户端发送的二次交互信息进行分析,根据分析获得的二次交互意图确定所述二次交互信息对应的二次应用标识和二次交互目标动作指令执行前,所述处理器702还用于执行下述计算机可执行指令:
[0239] 接收所述客户端发送的所述二次交互信息。
[0240] 可选的,若所述二次交互信息中包含语音类型和/或视频类型的二次交互信息,所述接收所述客户端发送的所述二次交互信息指令执行后,且所述对所述客户端发送的二次交互信息进行分析,根据分析获得的二次交互意图确定所述二次交互信息对应的二次应用标识和二次交互目标动作指令执行前,所述处理器702还用于执行下述计算机可执行指令:
[0241] 将语音类型和/或视频类型的二次交互信息转换为文字类型的二次交互信息;
[0242] 所述对所述客户端发送的二次交互信息进行分析,根据分析获得的二次交互意图确定所述二次交互信息对应的二次应用标识和二次交互目标动作步骤中的二次交互信息,包括转换后获得的文字类型的二次交互信息。
[0243] 可选的,所述处理器702基于预设智能交互平台的服务器执行所述计算机可执行指令,所述智能交互平台的客户端基于浏览器运行,并通过浏览器访问所述智能交互平台的服务器。
[0244] 可选的,所述对所述交互信息进行分析,并根据分析获得的交互意图确定所述交互信息对应的应用标识和交互目标动作,采用预设交互信息识别模型实现,所述交互信息识别模型的输入为所述交互信息,输出为所述交互信息对应的应用标识和交互目标动作,所述交互信息识别模型的模型参数在大数据环境中通过训练获得;
[0245] 和/或,所述对所述客户端发送的二次交互信息进行分析,根据分析获得的二次交互意图确定所述二次交互信息对应的二次应用标识和二次交互目标动作,采用所述交互信息识别模型实现,输入为所述二次交互信息,输出为所述二次交互信息对应的二次应用标识和二次交互目标动作。
[0246] 本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和
修改,因此本申请的保护范围应当以本申请
权利要求所界定的范围为准。
[0247] 在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0248] 内存可能包括计算机可读介质中的非永久性存储器,
随机存取存储器(RAM)和/或非易失性内存等形式,如
只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
[0249] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模
块或其他数据。计算机的存储介质的例子包括,但不限于
相变内存(PRAM)、静态随机存取存储器(SRAM)、
动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、
电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他
磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据
信号和载波。
[0250] 本领域技术人员应明白,本申请的实施例可提供为方法、系统或
计算机程序产品。因此,本申请可采用完全
硬件实施例、完全
软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。