首页 / 专利库 / 电脑零配件 / 计算机系统 / 硬件 / 存储器 / 处理用户话语的电子装置及其控制方法

处理用户话语的电子装置及其控制方法

阅读:632发布:2020-05-08

专利汇可以提供处理用户话语的电子装置及其控制方法专利检索,专利查询,专利分析的服务。并且提供一种处理用户话语的用户终端及其控制方法。根据本公开的各种实施方式的用户终端包括:处理器,配置为用户终端的部分或被配置为与用户终端远程通信;以及 存储器 ,配置为可操作地连接到处理器,其中存储器可被配置为存储指令,指令配置为在执行时使处理器能够:接收用户话语,用户话语包括用于对多个图像进行分类的第一表达;使用通信 电路 将关于接收到的用户话语的信息发送到外部 电子 装置;以及通过接收与用户话语相关联的操作信息来执行根据操作信息的任务,且操作信息可包括提供第一表达和第二表达的操作,第二表达指示关于由第一表达分类的图像的 属性信息 。,下面是处理用户话语的电子装置及其控制方法专利的具体信息内容。

1.一种用户终端,包括:
至少一个处理器;以及
存储器
其中所述存储器配置为存储指令,所述指令配置为在被执行时使所述至少一个处理器能够:
接收用户话语;
使用通信电路将关于所接收的用户话语的信息发送到外部电子装置;以及通过基于所述信息被发送从所述外部电子装置接收与所述用户话语相关联的操作信息,根据接收到的操作信息执行任务,以及
其中所述操作信息包括与提供第一表达和至少一个第二表达的操作相关联的信息,其中所述第一表达用于对多个图像分类,所述第二表达指示关于由所述第一表达分类的多个图像的属性信息
2.根据权利要求1所述的用户终端,其中所述属性信息包括以下中的至少一项:关于拍摄所述多个图像的位置的信息、关于拍摄所述多个图像的时间的信息、关于所述多个图像中的多个人之间的关系的信息、关于与所述多个图像中的至少一个人相关联的情绪的信息、或关于与所述多个图像相关联的事件的信息。
3.根据权利要求1所述的用户终端,其中所述操作信息还包括与所述至少一个处理器的以下操作相关联的信息:在所述用户终端的触摸屏显示器上显示用于根据所述属性信息而对所述多个图像进行分类的至少一个用户界面
4.根据权利要求3所述的用户终端,其中所述操作信息还包括:
与所述至少一个处理器的以下操作相关联的信息:根据通过所述至少一个用户界面的用户输入,响应于通过所述至少一个用户界面的所述用户输入来检测所述多个图像中的至少一个人的面部表情;以及
与所述至少一个处理器的以下操作相关联的信息:将所述至少一个人的指定部分改变成预先指定的图形对象,并在基于检测到的面部表情将所述至少一个人的情绪状态识别为第一情绪状态时在所述触摸屏显示器上显示所述图形对象。
5.根据权利要求3所述的用户终端,其中所述操作信息还包括与所述至少一个处理器的以下操作相关联的信息:识别所述多个图像中的多个人之间的关系、所述多个人的情绪状态、或拍摄所述多个图像的位置中的至少一项的操作,以及根据通过所述至少一个用户界面的用户输入将识别出的一项发送到所述外部电子装置的操作。
6.根据权利要求5所述的用户终端,其中所述操作信息还包括与所述至少一个处理器的以下操作相关联的信息:基于所述多个人之间的关系、所述情绪状态或所述位置中的至少一项来提供由所述外部电子装置生成的第三表达。
7.根据权利要求1所述的用户终端,其中所述操作信息还包括与以下操作相关联的信息:在所述多个图像之中的至少一个图像上,显示与关于所述至少一个图像的属性信息相关联的附加描述。
8.根据权利要求1所述的用户终端,其中所述操作信息还包括与以下操作相关联的信息:提供所述多个图像和关于与所述第一表达相关联的推荐事件的信息。
9.根据权利要求3所述的用户终端,其中所述操作信息还包括与所述至少一个处理器的以下操作相关联的信息:根据通过所述至少一个用户界面的用户输入,在所述多个图像之中选择性地显示包括具有与用户选择的情绪状态对应的面部表情的人的至少一个图像。
10.根据权利要求3所述的用户终端,其中所述操作信息还包括与所述至少一个处理器的以下操作相关联的信息:将所述多个图像之中的包括人的至少一个图像改变为对应于所述人的图像的操作,以及根据通过所述至少一个用户界面的用户输入在所述触摸屏显示器上显示所改变的图像的操作。
11.根据权利要求3所述的用户终端,其中所述操作信息还包括与所述至少一个处理器的以下操作相关联的信息:根据通过所述至少一个用户界面的用户输入删除包括具有对应于指定情绪的面部表情的人的至少一个图像。
12.一种用户终端的控制方法,所述控制方法包括:
接收用户话语;
使用所述用户终端的通信电路将关于所接收的用户话语的信息发送到外部电子装置;
以及
通过基于所述信息被发送而从所述外部电子装置接收与所述用户话语相关联的操作信息,根据所述操作信息来执行任务,
其中所述操作信息包括与提供第一表达和至少一个第二表达的操作相关联的信息,其中所述第一表达用于对多个图像分类,所述第二表达指示关于由所述第一表达分类的多个图像的属性信息。
13.根据权利要求12所述的控制方法,其中所述属性信息包括以下中的至少一项:关于拍摄所述多个图像的位置的信息、关于拍摄所述多个图像的时间的信息、关于所述多个图像中的多个人之间的关系的信息、关于与所述多个图像中的至少一个人相关联的情绪的信息、或关于与所述多个图像相关联的事件的信息。
14.根据权利要求12所述的控制方法,其中所述操作信息还包括与所述用户终端的至少一个处理器的以下操作相关联的信息:在所述用户终端的触摸屏显示器上显示用于根据所述属性信息而对所述多个图像进行分类的至少一个用户界面。
15.根据权利要求14所述的控制方法,其中所述操作信息还包括:
与所述用户终端的至少一个处理器的以下操作相关联的信息:根据通过所述至少一个用户界面的用户输入,响应于通过所述至少一个用户界面的所述用户输入来检测所述多个图像中的至少一个人的面部表情;以及
与所述至少一个处理器的以下操作相关联的信息:将所述至少一个人的指定部分改变成预先指定的图形对象,并在基于检测到的面部表情将所述至少一个人的情绪状态识别为第一情绪状态时在所述触摸屏显示器上显示所述图形对象。

说明书全文

处理用户话语的电子装置及其控制方法

技术领域

[0001] 本公开涉及处理用户话语的电子装置和控制其的方法。

背景技术

[0002] 通过电子装置例如包括智能电话的便携式电子装置,提供了越来越多的各种服务和附加功能。为了提高电子装置的实用性并满足不同用户的需求,通信服务提供者或电子装置制造商正在提供广泛范围的功能,并且正在竞争地开发与其他公司的电子装置不同的电子装置。因此,通过电子装置提供的各种功能也变得更加复杂。
[0003] 上述信息仅作为背景信息呈现以帮助理解本公开。对于上述任何内容是否可以用于相对于本公开的现有技术,没有做出确定,也没有做出断言发明内容
[0004] 本公开的方面旨在至少解决上述问题和/或缺点,并且至少提供下文所描述的优点。因此,本公开的一方面是提供处理用户话语的电子装置和控制处理用户话语的电子装置的方法。
[0005] 电子装置(例如,智能电话)的用户可以输入话语(例如,“向我展示昨天拍摄的照片”)以使用由智能应用程序(例如,三星Bixby)提供的服务。智能应用程序可以根据用户的话语来提供智能服务(例如,布置并显示昨天拍摄的照片)。随着智能服务的多样化,使用智能应用程序的用户希望通过智能服务感受到情绪满足。为了满足此类用户的需求,必须鉴于用户的情绪满足度以及用户所需功能的提供来开发技术。
[0006] 根据本公开的各种实施方式,提供一种电子装置,其能够提供除用户请求的搜索条件以外的附加信息,因此使提供有智能服务的用户即使从情绪方面也能感到满意。
[0007] 根据本公开的各种实施方式,提供一种电子装置的控制方法,其能够提供除用户请求的搜索条件以外的附加信息,因此使提供有智能服务的用户即使从情绪方面也能感到满意。
[0008] 附加方面将部分地在以下的描述中阐述,并且部分地将从描述中显而易见,或者可以通过实践所呈现的实施方式来习得。
[0009] 根据本公开的方面,提供一种电子装置。电子装置包括:至少一个处理器,其被配置为用户装置的部分或被配置为与电子装置远程通信;以及存储器,其被配置为安置于电子装置中或电子装置外部并可操作地连接到至少一个处理器,其中存储器可被配置为存储指令,指令被配置为在被执行时使至少一个处理器能够:接收用户话语,用户话语包括用于对多个图像进行分类的第一表达;使用通信电路将关于接收到的用户话语的信息发送到外部电子装置;以及通过基于发送而从外部电子装置接收与用户话语相关联的操作信息来执行根据操作信息的任务,且操作信息可包括提供至少一个第一表达和至少一个第二表达的操作,第二表达指示关于由至少一个第一表达分类的多个图像的属性信息
[0010] 根据本公开的另一方面,提供一种电子装置的控制方法。该方法包括:接收用户话语,用户话语包括用于对多个图像进行分类的第一表达;使用电子装置的通信电路来将关于接收到的用户话语的信息发送到外部电子装置;以及通过基于发送而从外部电子装置接收与用户话语相关联的操作信息来执行根据操作信息的任务,其中操作信息可包括提供至少一个第一表达和至少一个第二表达的操作,第二表达指示关于由至少一个第一表达分类的多个图像的属性信息。
[0011] 根据本公开的另一方面,提供一种电子装置。该电子装置包括:至少一个处理器,其被配置为用户装置的部分或被配置为与电子装置远程通信;以及存储器,其被配置为安置于电子装置中或电子装置外部并可操作地连接到至少一个处理器,其中存储器可被配置为存储指令,指令被配置为在被执行时使至少一个处理器能够:接收用户话语,用户话语包括用于对多个图像进行分类的第一表达;以及基于接收到话语而执行与用户话语相关联的任务,且任务可包括提供至少一个第一表达和至少一个第二表达的任务,第二表达指示关于由至少一个第一表达分类的多个图像的属性信息。
[0012] 可提供除了用户请求的搜索条件以外的附加信息,由此提供使提供有智能服务的用户即使从情绪方面也能感到满意的智能服务。
[0013] 本领域技术人员将明白,根据各种实施方式的效果不限于前述效果,且在本文中包括各种效果。
[0014] 通过以下结合附图来公开本公开的各种实施方式的详细描述,本公开的其他方面、优点和显著特征对于本领域技术人员将变得显而易见。

附图说明

[0015] 从结合附图的以下详细描述中,本公开的某些实施方式的以上和其他方面、特征和优点将变得更加显而易见,在附图中:
[0016] 图1示出根据本公开的实施方式的集成智能系统;
[0017] 图2A是示出根据本公开的实施方式的集成智能系统的用户终端的框图
[0018] 图2B是示出根据本公开的实施方式的集成智能系统的用户终端的框图;
[0019] 图3示出根据本公开的实施方式的执行用户终端的智能应用程序的操作;
[0020] 图4是示出根据本公开的实施方式的集成智能系统的智能服务器的框图;
[0021] 图5示出根据本公开的实施方式的智能服务模的上下文模块的收集当前状态的操作;
[0022] 图6示出根据本公开的实施方式的路径规划器模块生成路径规则的方法。
[0023] 图7A示出根据本公开的实施方式的提供除包括在用户话语中的搜索条件之外的附加信息的操作;
[0024] 图7B示出根据本公开的实施方式的提供除包括在用户话语中的搜索条件之外的附加信息的操作;
[0025] 图8A示出根据本公开的实施方式的提供除包括在用户话语中的搜索条件之外的附加信息的操作;
[0026] 图8B示出根据本公开的实施方式的提供除包括在用户话语中的搜索条件之外的附加信息的操作;
[0027] 图8C示出根据本公开的实施方式的提供除包括在用户话语中的搜索条件之外的附加信息的操作;
[0028] 图8D示出根据本公开的实施方式的提供除包括在用户话语中的搜索条件之外的附加信息的操作;
[0029] 图8E示出根据本公开的实施方式的提供除包括在用户话语中的搜索条件之外的附加信息的操作;
[0030] 图8F示出根据本公开的实施方式的提供除包括在用户话语中的搜索条件之外的附加信息的操作;
[0031] 图9A示出根据本公开的实施方式的将包括在根据用户话语获得的图像中的对象之中的、具有特定面部表情的人的一部分改变为图形对象并显示图形对象的操作;
[0032] 图9B示出根据本公开的实施方式的将包括在根据用户话语获得的图像中的对象之中的、具有特定面部表情的人的一部分改变为图形对象并显示图形对象的操作;
[0033] 图9C示出根据本公开的实施方式的将包括在根据用户话语获得的图像中的对象之中的、具有特定面部表情的人的一部分改变为图形对象并显示图形对象的操作;
[0034] 图9D示出根据本公开的实施方式的将包括在根据用户话语获得的图像中的对象之中的、具有特定面部表情的人的一部分改变为图形对象并显示图形对象的操作;
[0035] 图10A示出根据本公开的实施方式的基于根据用户话语获得的图像来提供第一附加信息和第二附加信息的操作;
[0036] 图10B示出根据本公开的实施方式的基于根据用户话语获得的图像来提供第一附加信息和第二附加信息的操作;
[0037] 图10C示出根据本公开的实施方式的基于根据用户话语获得的图像来提供第一附加信息和第二附加信息的操作;
[0038] 图11A示出根据本公开的实施方式的在根据用户话语获得的图像上另外显示与图像相关联的附加描述的操作;
[0039] 图11B示出根据本公开的实施方式的在根据用户话语获得的图像上另外显示与图像相关联的附加描述的操作;
[0040] 图11C示出根据本公开的实施方式的在根据用户话语获得的图像上另外显示与图像相关联的附加描述的操作;
[0041] 图11D示出根据本公开的实施方式的在根据用户话语获得的图像上另外显示与图像相关联的附加描述的操作;
[0042] 图11E示出根据本公开的实施方式的在根据用户话语获得的图像上另外显示与图像相关联的附加描述的操作;
[0043] 图12A示出根据本公开的实施方式的通过情绪状态对根据用户话语获得的图像进行分类并显示图像的操作;
[0044] 图12B示出根据本公开的实施方式的通过情绪状态对根据用户话语获得的图像进行分类并显示图像的操作;
[0045] 图12C示出根据本公开的实施方式的通过情绪状态对根据用户话语获得的图像进行分类并显示图像的操作;
[0046] 图12D示出根据本公开的实施方式的通过情绪状态对根据用户话语获得的图像进行分类并显示图像的操作;
[0047] 图13A示出根据本公开的实施方式的取决于指定情绪状态而选择性地显示根据用户话语获得的图像的操作;
[0048] 图13B示出根据本公开的实施方式的取决于指定情绪状态而选择性地显示根据用户话语获得的图像的操作;
[0049] 图13C示出根据本公开的实施方式的取决于指定情绪状态而选择性地显示根据用户话语获得的图像的操作;
[0050] 图13D示出根据本公开的实施方式的取决于指定情绪状态而选择性地显示根据用户话语获得的图像的操作;
[0051] 图14A示出根据本公开的实施方式的通过对图像应用指定视觉效果或通过将获得的图像改变为与其对应的另一图像来显示根据用户话语获得的图像的操作;
[0052] 图14B示出根据本公开的实施方式的通过对图像应用指定视觉效果或通过将获得的图像改变为与其对应的另一图像来显示根据用户话语获得的图像的操作;
[0053] 图14C示出根据本公开的实施方式的通过对图像应用指定视觉效果或通过将获得的图像改变为与其对应的另一图像来显示根据用户话语获得的图像的操作;
[0054] 图14D示出根据本公开的实施方式的通过对图像应用指定视觉效果或通过将获得的图像改变为与其对应的另一图像来显示根据用户话语获得的图像的操作;
[0055] 图15A示出根据本公开的实施方式的从根据用户话语获得的图像之中删除具有指定情绪状态的至少一个图像的操作;
[0056] 图15B示出根据本公开的实施方式的从根据用户话语获得的图像之中删除具有指定情绪状态的至少一个图像的操作;
[0057] 图15C示出根据本公开的实施方式的从根据用户话语获得的图像之中删除具有指定情绪状态的至少一个图像的操作;
[0058] 图16A示出根据本公开的实施方式的通过识别用户对用户终端的接近或凝视来输出指定句子的操作;
[0059] 图16B示出根据本公开的实施方式的通过识别用户对用户终端的接近或凝视来输出指定句子的操作;
[0060] 图16C示出根据本公开的实施方式的通过识别用户对用户终端的接近或凝视来输出指定句子的操作;
[0061] 图17A示出根据本公开的实施方式的维持基于用户的凝视或话语而执行的智能应用程序的执行的操作;
[0062] 图17B示出根据本公开的实施方式的维持基于用户的凝视或话语而执行的智能应用程序的执行的操作;
[0063] 图18A示出根据本公开的实施方式的终止基于用户的凝视或话语而执行的智能应用程序的执行的操作;
[0064] 图18B示出根据本公开的实施方式的终止基于用户的凝视或话语而执行的智能应用程序的执行的操作;
[0065] 图19A示出根据本公开的实施方式的基于任何用户话语而登记用户的语音的操作;
[0066] 图19B示出根据本公开的实施方式的基于任何用户话语而登记用户的语音的操作;
[0067] 图19C示出根据本公开的实施方式的基于任何用户话语而登记用户的语音的操作;
[0068] 图20A示出根据本公开的实施方式在第一用户使用智能应用程序的同时输入第二用户的话语时一起处理第一用户的话语和第二用户的话语的操作;
[0069] 图20B示出根据本公开的实施方式在第一用户使用智能应用程序的同时输入第二用户的话语时一起处理第一用户的话语和第二用户的话语的操作;以及
[0070] 图20C示出根据本公开的实施方式在第一用户使用智能应用程序的同时输入第二用户的话语时一起处理第一用户的话语和第二用户的话语的操作。
[0071] 在整个附图中,相同的附图标记将被理解为指相同的部分、部件和结构。

具体实施方式

[0072] 参考附图提供以下描述以帮助全面理解由权利要求及其等同限定的本公开的各种实施方式。其包括有助于理解的各种具体细节,但这些仅仅是示例性的。因此,本领域普通技术人员将认识到,在不脱离本公开的范围和精神的情况下,可以对本文中所描述的各种实施方式进行各种改变和修改。此外,为了清楚和简明起见,可以省略对众所周知的功能和结构的描述。
[0073] 在以下描述和权利要求中使用的术语和词语不限于文献意义,而是仅由发明人使用,以使得能够清楚和一致地理解本公开。因此,对于本领域技术人员显而易见的是,提供本公开的各种实施方式的以下描述仅仅是为了说明的目的,而不是为了限制由所附权利要求和其等同限定的本公开。
[0074] 应当理解,除非上下文明确地另有说明,否则单数形式“一个(a、an)”和“所述(the)”包括复数指示物。因此,例如,对“部件表面”的提及包括对一个或多个这种表面的提及。
[0075] 图1是示出根据本公开的实施方式的集成智能系统的视图。
[0076] 参考图1,集成智能系统10可以包括用户终端100、智能服务器200、个人信息服务器300或提供服务器400。
[0077] 根据本公开的各种实施方式,用户终端100可以通过存储于用户终端100中的应用程序(app/application)(例如,闹钟应用程序、消息应用程序、照片(图库)应用程序等)为用户提供必要的服务。例如,根据本公开的各种实施方式的用户终端100可以通过存储于用户终端100中的智能应用程序(或语音辨识应用程序)执行并操作应用程序。根据本公开的各种实施方式的用户终端100可通过智能应用程序接收用户输入以执行并操作应用程序。可通过例如物理按钮、触摸板、语音输入、远程输入等来接收根据本公开的各种实施方式的用户输入。根据各种实施方式,用户终端100可以包括能够连接到因特网的各种终端装置(或电子装置),例如移动电话、智能电话、个人数字助理(PDA)或笔记本计算机。
[0078] 根据本公开的各种实施方式,用户终端100可以接收用户话语作为用户输入。根据本公开的各种实施方式的用户终端100可接收用户的话语,并可以基于用户的话语而生成操作应用程序的命令。因此,根据本公开的各种实施方式的用户终端100可以使用命令来操作应用程序。
[0079] 根据本公开的各种实施方式的智能服务器200可以通过通信网络从用户终端100接收用户语音输入,并可以将用户语音输入改变为文本数据。根据本公开的各种实施方式的智能服务器200可基于文本数据生成(或选择)路径规则。根据本公开的各种实施方式的路径规则可以包括关于用于执行应用程序的功能的动作(或操作)的信息或关于执行动作所需的参数的信息。另外,根据本公开的各种实施方式的路径规则可以包括应用程序的动作的顺序。根据本公开的各种实施方式的用户终端100可以接收路径规则,可以根据路径规则选择应用程序,并且可以执行包括在选定应用程序中的路径规则中的动作。
[0080] 在此使用的术语“路径规则”通常可以指电子装置提供用户请求的任务的状态序列,但不限于此。也就是说,根据本公开的各种实施方式的路径规则可以包括关于状态序列的信息。任务可以是例如智能应用程序可以执行的任何动作。任务可以包括生成时间表、将照片发送到期望的对方或提供天气信息。用户终端100可以依序地具有至少一个或多个状态(例如,用户终端100的操作状态),由此提供任务。
[0081] 根据本公开的各种实施方式,路径规则可以由人工智能(AI)系统提供或生成。AI系统可以是基于规则的系统、基于神经网络的系统(例如,前馈神经网络(FNN)或递归神经网络(RNN))。可替换地,AI系统可以是前述系统的组合或不同的AI系统。根据本公开的各种实施方式,可以从路径规则的预定义集合中选择路径规则,或者可以响应于用户请求而实时地生成路径规则。例如,AI系统可以从多个预定义的路径规则之中选择至少一个路径规则,或可以动态地(或实时地)生成路径规则。另外,根据本公开的各种实施方式的用户终端100可以使用混合系统来提供路径规则。
[0082] 根据本公开的各种实施方式,用户终端100可以执行动作,并且可以在显示器上显示对应于执行动作的用户终端100的状态的屏幕。根据本公开的各种实施方式,用户终端100可以执行动作,但可能不在显示器上显示执行动作的结果。例如,用户终端100可以执行多个动作,并且可以在显示器上仅显示执行多个动作中的一些的结果。具体地说,根据本公开的各种实施方式的用户终端100可以在显示器上仅显示执行最后一个动作的结果。在另一示例中,根据本公开的各种实施方式的用户终端100可以在接收到用户输入后即刻在显示器上显示执行所述动作的结果。
[0083] 根据本公开的各种实施方式的个人信息服务器300可以包括存储用户信息的数据库。例如,根据本公开的各种实施方式的个人信息服务器300可以从用户终端100接收用户信息(例如,上下文信息、应用程序执行信息等),并且可以将用户信息存储于数据库中。智能服务器200可以通过通信网络从个人信息服务器300接收用户信息,并且可以使用用户信息来针对用户输入生成路径规则。根据本公开的各种实施方式,用户终端100可以通过通信网络从个人信息服务器300接收用户信息,并且可以将用户信息用作用于管理数据库的信息。
[0084] 根据本公开的各种实施方式的提供服务器400可以包括数据库,所述数据库存储关于终端的功能或将被引入或提供的应用程序的功能的信息。例如,根据本公开的各种实施方式的提供服务器400可以从个人信息服务器300接收用户终端100的用户信息,并且因此可以包括用户可以使用的功能的数据库。用户终端100可以通过通信网络接收关于待从提供服务器400提供的功能的信息,并且可以将接收到的信息提供给用户。
[0085] 图2A是示出根据本公开的实施方式的集成智能系统的用户终端100的框图。
[0086] 图2B是示出根据本公开的实施方式的集成智能系统的用户终端100的框图。
[0087] 参考图2A,根据本公开的各种实施方式的用户终端100可以包括显示器120、存储器140和处理器150中的至少一个。根据本公开的各种实施方式的显示器120可以包括触摸屏显示器。根据本公开的各种实施方式的显示器120可以显示各种用户界面。根据本公开的各种实施方式的存储器140可以存储由用户终端100的至少一个部件(例如,处理器150)使用的各种数据块。根据本公开的各种实施方式的处理器150可以执行软件以控制连接到处理器150的用户终端100的至少一个其他部件(例如,硬件或软件部件),并且可以执行各种类型的数据处理或操作。
[0088] 参考图2B,根据本公开的各种实施方式的用户终端100可以包括输入模块110、显示器120、扬声器130、存储器140或处理器150。用户终端100还可以包括壳体,并且用户终端100的部件可以安置于壳体内部或者可以安置于壳体上。根据本公开的各种实施方式的用户终端100还可以包括安置于壳体内部的通信电路。根据本公开的各种实施方式的用户终端100可以通过通信电路向外部服务器(例如,智能服务器200)发送并从所述外部服务器接收数据(或信息)。
[0089] 根据本公开的各种实施方式,输入模块110可以从用户接收用户输入。例如,根据本公开的各种实施方式的输入模块110可以从连接的外部装置(例如,键盘机)接收用户输入。在另一个示例中,根据本公开的各种实施方式的输入模块110可以包括与显示器120组合的触摸屏(例如,触摸屏显示器)。在又一示例中,输入模块110可以包括安置于用户终端100(或用户终端100的壳体)中的硬件键(或物理键)112。
[0090] 根据本公开的各种实施方式,输入模块110可以包括能够接收用户话语作为音频信号的麦克。例如,根据本公开的各种实施方式的输入模块110可以包括语音输入系统,并且可以通过语音输入系统接收用户的话语作为音频信号。麦克风可以通过例如壳体的一部分(例如,第一部分)暴露。
[0091] 根据本公开的各种实施方式,显示器120可以显示应用程序的图像、视频和/或执行屏幕。例如,显示器120可以显示应用程序的图形用户界面(GUI)。根据各种实施方式,显示器120可以通过壳体的一部分(例如,第二部分)暴露。
[0092] 根据本公开的各种实施方式,扬声器130可以输出音频信号。例如,根据本公开的各种实施方式的扬声器130可以将在用户终端100中生成的音频信号输出到外部。根据各种实施方式,扬声器130可以通过壳体的一部分(例如,第三部分)暴露。
[0093] 根据本公开的各种实施方式,存储器140可以存储多个应用程序141和143。多个应用程序141和143可以是例如用于执行对应于用户输入的功能的程序。根据各种实施方式,存储器140可以包括智能代理145、执行管理器模块147或智能服务模块149。智能代理145、执行管理器模块147和智能服务模块149可以是例如用于处理接收到的用户输入(例如,用户话语)的框架(或应用程序框架)。
[0094] 根据本公开的各种实施方式,存储器140可以包括能够存储辨识用户输入所必需的信息的数据库。例如,存储器140可以包括可存储日志信息的日志数据库。在另一示例中,存储器140可以包括可存储用户信息的用户数据库。
[0095] 根据本公开的各种实施方式,存储器140可以存储多个应用程序141和143,并且可以加载并操作多个应用程序141和143。例如,存储于存储器140中的多个应用程序141和143可以由执行管理器模块147加载并操作。多个应用程序141和143可以包括执行功能的执行服务模块141a和143a。在各种实施方式中,多个应用程序141和143可以通过执行服务模块141a和143a执行多个动作(例如,状态序列)141b和143b,以便执行功能。也就是说,执行服务模块141a和143a可以由执行管理器模块147激活,并且可以执行多个动作141b和143b。
[0096] 根据本公开的各种实施方式,当执行应用程序141和143的动作141b和143b时,可以在显示器120上显示与动作141b和143b的执行对应的执行状态屏幕。根据本公开的各种实施方式的执行状态屏幕可以是例如指示动作141b和143b完成的屏幕。在另一示例中,执行状态屏幕可以是显示动作141b和143b的执行被暂停的状态(例如在未输入动作141b和143b所需的参数时的部分着陆状态)下的屏幕。
[0097] 根据本公开的各种实施方式,执行服务模块141a和143a可以根据路径规则来执行动作141b和143b。例如,根据本公开的各种实施方式的执行服务模块141a和143a可以由执行管理器模块147激活,可以根据路径规则从执行管理器模块147接收执行请求,并且可以根据执行请求来执行动作141b和143b,由此执行应用程序141和143的功能。当动作141b和143b的执行完成时,执行服务模块141a和143a可以将指示完成的信息发送到执行管理器模块147。
[0098] 根据本公开的各种实施方式,当在应用程序141和143中执行多个动作141b和143b时,可以依序执行多个动作141b和143b。当一个动作(例如,第一应用程序141的动作1和第二应用程序143的动作1)的执行完成时,执行服务模块141a和143a然后可以打开下一个动作(例如,第一应用程序141的动作2和第二应用程序143的动作2),并且可以将指示完成的信息发送到执行管理器模块147。打开任何动作可以理解为将任何动作转换为可执行状态或为任何动作准备执行。也就是说,当未打开动作时,无法执行所述动作。在接收到指示完成的信息时,执行管理器模块147可以将针对下一个动作(例如,第一应用程序141的动作2和第二应用程序143的动作2)的执行请求发送到执行服务模块。根据各种实施方式,当执行多个应用程序141和143时,可以依序执行多个应用程序141和143。例如,当第一应用程序141的最后动作(例如,第一应用程序141的动作3)的执行完成并且接收到指示完成的信息时,执行管理器模块147可将针对第二应用程序143的第一动作(例如,第二应用程序143的动作1)的执行请求发送到执行服务模块143a。
[0099] 根据本公开的各种实施方式,当在应用程序141和143中执行多个动作141b和143b时,由于多个已执行动作141b和143b中的每一个的执行而生成的屏幕可以显示于显示器120上。根据各种实施方式,由于多个已执行动作141b和143b中的每一个的执行而生成的多个屏幕中的仅一些可以显示于显示器120上。
[0100] 根据本公开的各种实施方式,存储器140可以存储与智能代理145配合工作的智能应用程序(例如,语音辨识应用程序)。根据本公开的各种实施方式,与智能代理145配合工作的应用程序可以接收并处理用户的话语作为音频信号。根据各种实施方式,与智能代理145配合工作的应用程序可以由通过输入模块110进行的特定输入(例如,通过硬件键的输入、通过触摸屏的输入或特定语音输入)操作。
[0101] 根据本公开的各种实施方式,存储于存储器140中的智能代理145、执行管理器模块147或智能服务模块149可以由处理器150执行。根据本公开的各种实施方式的智能代理145、执行管理器模块147或智能服务模块149的功能可以由处理器150实施。根据本公开的各种实施方式的智能代理145、执行管理器模块147和智能服务模块149的功能将参照处理器150的功能料描述。根据各种实施方式,存储于存储器140中的智能代理145、执行管理器模块147或智能服务模块149不仅可配置为软件而且可配置为硬件。
[0102] 根据本公开的各种实施方式,处理器150可以控制用户终端100的总体操作。例如,处理器150可以控制输入模块110以接收用户输入。根据本公开的各种实施方式的处理器150可以控制显示器120以显示图像。根据本公开的各种实施方式的处理器150可以控制扬声器130以输出音频信号。根据本公开的各种实施方式的处理器150可以控制存储器140以执行程序并调用或存储必要的信息。
[0103] 根据本公开的各种实施方式,处理器150可以执行存储于存储器140中的智能代理145、执行管理器模块147或智能服务模块149。因此,根据本公开的各种实施方式的处理器
150可以实施智能代理145、执行管理器模块147或智能服务模块149的功能。
[0104] 根据本公开的各种实施方式,处理器150可以基于通过用户输入接收到的音频信号而执行智能代理145以生成操作应用程序的命令。根据各种实施方式,处理器150可以使执行管理器模块147执行,以根据所生成的命令来执行存储于存储器140中的应用程序141和143。根据各种实施方式,处理器150可以执行智能服务模块149以管理用户信息并使用用户信息来处理用户输入。
[0105] 根据本公开的各种实施方式的处理器150可以执行智能代理145,以将通过输入模块110接收到的用户输入发送到智能服务器200,并通过智能服务器200处理用户输入。
[0106] 根据本公开的各种实施方式,处理器150可以在将用户输入发送到智能服务器200之前执行智能代理145以预处理用户输入。根据各种实施方式,智能代理145可以包括自适应回声消除器(AEC)模块、噪声抑制(NS)模块、结束点检测(EPD)模块或自动增益控制(AGC)模块,以便预处理用户输入。根据本公开的各种实施方式的自适应回声消除器模块可以消除包括在用户输入中的回声。根据本公开的各种实施方式的噪声抑制模块可以抑制包括在用户输入中的背景噪声。根据本公开的各种实施方式的结束点检测模块可以检测包括在用户输入中的用户语音的端点,并且可以使用检测到的端点来发现包括用户语音的部分。自动增益控制模块可以辨识用户输入并且可以适当地调整用户输入的音量以便处理辨识到的用户输入。根据各种实施方式,处理器150可以执行所有预处理部件以提高性能。但是,在其他实施方式中,处理器150可以执行一些预处理部件以便以低功率进行操作。
[0107] 根据本公开的各种实施方式,智能代理145可以执行存储于存储器140中的唤醒辨识模块,以便辨识来自用户的呼叫。因此,根据本公开的各种实施方式的处理器150可以通过唤醒辨识模块来辨识用户的唤醒命令,并且可以在接收到唤醒命令时执行智能代理145以接收用户输入。根据本公开的各种实施方式的唤醒辨识模块可以被配置为低功率处理器(例如,包括在音频编解码器中的处理器)。根据各种实施方式,处理器150可以在通过硬件键接收到用户输入时执行智能代理145。当执行智能代理145时,可以执行与智能代理145配合工作的智能应用程序(例如,语音辨识应用程序)。
[0108] 根据本公开的各种实施方式,智能代理145可以包括用于执行用户输入的语音辨识模块。处理器150可以通过语音辨识模块辨识用户输入以在应用程序中执行动作。例如,处理器150可以辨识有限的用户(语音)输入(例如,比如“点击”等话语以在相机应用程序的执行期间执行拍摄动作)以通过语音辨识模块执行应用程序141和143中的动作,例如唤醒命令。根据本公开的各种实施方式的处理器150可以辨识并快速处理可以通过语音辨识模块在用户终端100中处理的用户命令,以辅助智能服务器200。根据各种实施方式,可以在应用程序处理器中实施用于执行用户输入的智能代理145的语音辨识模块。
[0109] 根据本公开的各种实施方式,智能代理145的语音辨识模块(包括唤醒模块的语音辨识模块)可以使用用于辨识语音的算法来辨识用户输入。例如,根据本公开的各种实施方式的用以辨识语音的算法可以是隐尔可夫模型(HMM)算法、人工神经网络(ANN)算法或动态时间规整(DTW)算法中的至少一个。
[0110] 根据本公开的各种实施方式,处理器150可以执行智能代理145以将用户的语音输入转换为文本数据。例如,根据本公开的各种实施方式的处理器150可以通过智能代理145将用户的语音发送到智能服务器200,并且可以从智能服务器200接收对应于用户的语音的文本数据。因此,根据本公开的各种实施方式的处理器150可以在显示器120上显示转换后的文本数据。
[0111] 根据本公开的各种实施方式,处理器150可执行智能代理145以从智能服务器200接收路径规则。根据各种实施方式,处理器150可通过智能代理145将路径规则发送到执行管理器模块147。
[0112] 根据本公开的各种实施方式,处理器150可执行智能代理145以将根据从智能服务器200接收到的路径规则的执行结果日志发送到智能服务模块149。可在色模块149b的用户偏好信息中累积并管理所发送的执行结果日志。
[0113] 根据本公开的各种实施方式,处理器150可使执行管理器模块147执行以从智能代理145接收路径规则,因此执行应用程序141和143并使得应用程序141和143能够执行包括在路径规则中的动作141b和143b。例如,处理器150可以通过执行管理器模块147将用于执行动作141b和143b的命令信息(例如,路径规则信息)发送到应用程序141和143,并且可以从应用程序141和143接收指示动作141b和143b的完成的信息。
[0114] 根据本公开的各种实施方式,处理器150可以使执行管理器模块147执行,以在智能代理145与应用程序141和143之间发送用于执行应用程序141和143的动作141b和143b的命令信息(例如,路径规则信息)。处理器150可通过执行管理器模块147根据路径规则而绑定待执行的应用程序141和143,并且可以将包括在路径规则中的关于动作141b和143b的命令信息(例如,路径规则信息)发送到应用程序141和143。例如,处理器150可通过执行管理器模块147依次将包括在路径规则中的动作141b和143b发送到应用程序141和143,并且可以根据路径规则而依次执行应用程序141和143的动作141b和143b。
[0115] 根据本公开的各种实施方式,处理器150可以使执行管理器模块147执行以管理应用程序141和143的动作141b和143b的执行状态。例如,处理器150可通过执行管理器模块147从应用程序141和143接收关于动作141b和143b的执行状态的信息。当动作141b和143b的执行状态例如是非活动状态时(例如在未输入动作141b和143b所需的参数时的部分着陆状态),处理器150可以通过执行管理器模块147将关于非活动状态的信息发送到智能代理
145。处理器150可以请求用户使用通过智能代理145接收到的信息来输入必要的信息(例如,参数信息)。当动作141b与143b的执行状态是不同的状态(例如,活动状态)时,处理器
150可以通过智能代理145从用户接收话语。处理器150可以通过执行管理器模块147将关于正执行的应用程序141和143以及应用程序141和143的执行状态的信息发送到智能代理
145。处理器150可以通过智能代理145将用户的话语发送到智能服务器200。处理器150可以通过智能代理145从智能服务器200接收关于用户话语的参数信息。处理器150可以通过智能代理145将接收到的参数信息发送到执行管理器模块147。执行管理器模块147可以使用接收到的参数信息来将动作141b和143b的参数改变为新参数。
[0116] 根据本公开的各种实施方式,处理器150可使执行管理器模块147执行以将包括在路径规则中的参数信息发送到应用程序141和143。当根据路径规则而依次执行多个应用程序141和143时,执行管理器模块147可以将包括在路径规则中的参数信息从一个应用程序发送到另一应用程序。
[0117] 根据本公开的各种实施方式,处理器150可使执行管理器模块147执行以接收多个路径规则。处理器150可以通过执行管理器模块147基于用户的话语而选择多个路径规则。例如,当用户的话语通过执行管理器模块147指定执行一些动作141b的应用程序141但不指定不同的应用程序143以执行其他动作143b时,处理器150可以接收多个不同的路径规则,来分别执行相同应用程序141(例如,图片库应用程序)以执行动作141b,并执行不同应用程序143(例如,消息应用程序和电报应用程序)以执行其他动作143b。例如,处理器150可以通过执行管理器模块147执行多个路径规则的相同动作141b和143b(例如,连续的相同动作
141b和143b)。在执行相同动作之后,处理器150可以在显示器120上显示用于通过执行管理器模块147选择分别包括在多个路径规则中的不同应用程序141和143的状态屏幕。
[0118] 根据本公开的各种实施方式,智能服务模块149可以包括上下文模块149a、角色模块149b或提议模块149c。
[0119] 根据本公开的各种实施方式的处理器150可以执行上下文模块149a以从应用程序141和143收集关于应用程序141和143的当前状态的信息。例如,处理器150可以执行上下文模块149a以接收指示应用程序141和143的当前状态的上下文信息,并且可以通过接收到的上下文信息收集关于应用程序141和143的当前状态的信息。
[0120] 根据本公开的各种实施方式的处理器150可以执行角色模块149b,以使用用户终端100来管理关于用户的个人信息。例如,处理器150可以执行角色模块149b以收集关于用户终端100和执行结果的使用信息,并且可以使用关于用户终端100和执行结果的收集到的使用信息来管理关于用户的个人信息。
[0121] 根据本公开的各种实施方式的处理器150可以执行提议模块149c以预测用户的意图,并且可以基于用户的意图而向用户推荐命令。例如,处理器150可以执行提议模块149c,以根据用户的当前状态(例如,时间、地点、条件或应用程序)而向用户推荐命令。
[0122] 图3示出根据本公开的实施方式的执行用户终端的智能应用程序的操作。
[0123] 参考图3,用户终端100接收用户输入并执行与智能代理145配合工作的智能应用程序(例如,语音辨识应用程序)。
[0124] 根据本公开的各种实施方式,用户终端100可以执行用于通过硬件键112辨识语音的智能应用程序。例如,在通过硬件键112接收到用户输入后,用户终端100可以在显示器120上显示智能应用程序的用户界面(UI)121。在一个示例中,通过智能应用程序的UI 121显示于显示器120上,用户可以触摸智能应用程序的UI 121上的语音辨识按钮121a以输入语音120b。在另一示例中,用户可以通过连续按下硬件键112以便输入语音120b来输入语音
120b。
[0125] 根据本公开的各种实施方式,用户终端100可以执行用于通过麦克风111辨识语音的智能应用程序。例如,当通过麦克风111输入120a指定话语(例如,“唤醒!”)时,用户终端100可以在显示器120上显示智能应用程序的UI 121。
[0126] 图4是示出根据本公开的实施方式的集成智能系统的智能服务器的框图。
[0127] 参考图4,智能服务器200可以包括自动语音辨识(ASR)模块210、自然语言理解(NLU)模块220、路径规划器模块230、对话管理器(DM)模块240、自然语言生成器(NLG)模块250或文本到语音(TTS)模块260。根据各种实施方式,智能服务器200可以包括通信电路、存储器和处理器。处理器可以执行存储于存储器中的指令,并且可以操作ASR模块210、自然语言理解模块220、路径规划器模块230、DM模块240、NLG模块250和文本语音转换模块260。智能服务器200可以通过通信电路向外部电子装置(例如,用户终端100)发送并从其接收数据(或信息)。
[0128] 智能服务器200的NLU模块220或路径规划器模块230可以生成路径规则。
[0129] 根据本公开的各种实施方式,ASR模块210可以将从用户终端100接收到的用户输入转换为文本数据。
[0130] 根据本公开的各种实施方式,ASR模块210可以将从用户终端100接收到的用户输入转换为文本数据。例如,ASR模块210可以包括话语辨识模块。话语辨识模块可以包括声学模型和语言模型。例如,声学模型可以包括关于发声的信息,且语言模型可以包括音素单元信息和关于音素单元信息的组合的信息。话语辨识模块可以使用关于发声的信息和音素信息来将用户话语转换为文本数据。关于声学模型和语言模型的信息可以例如存储于自动语音辨识数据库(ASR DB)211中。
[0131] 根据本公开的各种实施方式,NLU模块220可以执行语法分析或语义分析,由此确定用户的意图。可以通过将用户输入划分为句法单元(例如,单词、短语、语素等)并确定所划分的单元具有哪些句法元素来执行句法分析。可以使用语义匹配、规则匹配、公式匹配等来执行语义分析。因此,NLU模块220可以从用户输入获得表达意图所必需的域、意图或参数(或时隙)。
[0132] 根据本公开的各种实施方式,NLU模块220可以使用匹配规则来确定用户的意图和参数,所述匹配规则被划分为域、意图和掌握意图所需的参数(或时隙)。例如,一个域(例如,警报)可以包括多个意图(例如,警报设置、警报取消等),并且一个意图可以包括多个参数(例如,时间、迭代次、警报声等)。多个规则可以包括例如一个或多个基本元素参数。匹配规则可以存储于自然语言理解数据库(NLU DB)221中。
[0133] 根据本公开的各种实施方式,NLU模块220可以使用例如词素和短语等语言特征(例如,句法元素)来识别从用户输入中提取的单词的含义,并且可以匹配单词的所识别含义与域和意图,由此确定用户的意图。例如,NLU模块220可以计算从用户输入提取的单词在每个域和每个意图中被包括的频率,由此确定用户的意图。根据各种实施方式,NLU模块220可以使用识别意图所基于的单词来确定用户输入的参数。根据各种实施方式,NLU模块220可以使用自然语言理解数据库221来确定用户的意图,所述自然语言理解数据库存储用于确定用户输入的意图的语言特征。根据其他实施方式,NLU模块220可使用个人语言模型(PLM)来确定用户意图。例如,NLU模块220可以使用个人信息(例如,联系人列表或音乐列表)来确定用户的意图。可以将个人语言模型存储于例如NLU数据库221中。根据各种实施方式,不仅NLU模块220而且ASR模块210均可以参考存储于NLU数据库221中的个人语言模型来辨识用户的语音。
[0134] 根据本公开的各种实施方式,NLU模块220可以基于用户输入的意图和参数而生成路径规则。例如,NLU模块220可以基于用户输入的意图而选择待执行的应用程序,并且可以确定待在选定应用程序中执行的动作。NLU模块220可以确定对应于所确定动作的参数,并且可因此生成路径规则。根据各种实施方式,由NLU模块220生成的路径规则可以包括与待执行的应用程序、待在所述应用程序中执行的动作(例如,至少一个状态)以及执行所述动作所需的参数有关的信息。
[0135] 根据本公开的各种实施方式,NLU模块220可以基于用户输入的意图和参数而生成一个路径规则或多个路径规则。例如,NLU模块220可以从路径规划器模块230接收对应于用户终端100的路径规则集,并且可以将用户输入的意图和参数映射到接收到的路径规则集,由此确定路径规则。
[0136] 根据本公开的各种实施方式,基于用户输入的意图和参数,NLU模块220可以通过确定待执行的应用程序、待在所述应用程序中执行的动作以及执行所述动作所需的参数的信息来生成一个路径规则或多个路径规则。例如,使用关于用户终端100的信息,NLU模块220可以根据用户输入的意图以本体形式或以图形模型的形式,来布置待执行的应用程序和待在所述应用程序中执行的动作,从而生成路径规则。可以通过路径规划器模块230将生成的路径规则存储于例如路径规则数据库(PR DB)231中。所生成的路径规则可以添加到PR DB 231中的路径规则集。
[0137] 根据本公开的各种实施方式,NLU模块220可以从多个生成的路径规则之中选择至少一个路径规则。例如,NLU模块220可以从多个路径规则之中选择最优路径规则。在另一示例中,当仅基于用户话语而指定一些动作时,NLU模块220可以选择多个路径规则。NLU模块220可以通过附加用户输入来确定多个路径规则中的一个路径规则。
[0138] 根据本公开的各种实施方式,NLU模块220可以根据关于用户输入的请求而将路径规则发送到用户终端100。例如,NLU模块220可以将对应于用户输入的一个路径规则发送到用户终端100。在另一示例中,NLU模块220可以将对应于用户输入的多个路径规则发送到用户终端100。例如,当基于用户话语仅指定一些动作时,可以通过自然语言理解模块220生成多个路径规则。
[0139] 根据本公开的各种实施方式,路径规划器模块230可以从多个的路径规则之中选择至少一个路径规则。
[0140] 根据本公开的各种实施方式,路径规划器模块230可以将包括多个路径规则的路径规则集发送到自然语言理解模块220。路径规则集中的多个路径规则可以存储于连接到路径规划器模块230的PR DB 231中的表中。例如,路径规划器模块230可以将对应于从智能代理145接收的关于用户终端100的信息(例如,OS信息或应用程序信息)的路径规则集发送到自然语言理解模块220。可以例如通过域或域版本存储PR DB 231中存储的表。
[0141] 根据本公开的各种实施方式,路径规划器模块230可以从路径规则集之中选择一个路径规则或多个路径规则,并且可以将选定的一或多个路径规则发送到自然语言理解模块220。例如,路径规划器模块230可以匹配用户的意图和参数与对应于用户终端100的路径规则集,可以选择一个路径规则或多个路径规则,并且可以将选定路径规则发送到自然语言理解模块220。
[0142] 根据本公开的各种实施方式,路径规划器模块230可以使用用户的意图和参数来生成一个路径规则或多个路径规则。例如,路径规划器模块230可以基于用户的意图和参数来确定待执行的应用程序和待在所述应用程序中执行的动作,并且可以生成一个路径规则或多个路径规则。根据各种实施方式,路径规划器模块230可以将所生成路径规则存储于PR DB 231中。
[0143] 根据本公开的各种实施方式,路径规划器模块230可以将由NLU模块220生成的路径规则存储于PR DB 231中。所生成的路径规则可以添加到存储于PR DB 231中的路径规则集。
[0144] 根据本公开的各种实施方式,存储于PR DB 231中的表可以包括多个路径规则或多个路径规则集。多个路径规则或多个路径规则集可以反映执行每个路径规则的装置的种类、版本、类型或特性。
[0145] 根据本公开的各种实施方式,对话管理器模块240可以确定由NLU模块220识别的用户的意图是否明确。例如,对话管理器模块240可以基于参数信息是否足够来确定用户的意图是否明确。对话管理器模块240可以确定由NLU模块220识别的参数是否足以执行任务。根据各种实施方式,当用户的意图不明确时,对话管理器模块240可以提供反馈以从用户请求必要的信息。例如,对话管理器模块240可以提供反馈请求参数信息以用于确定用户的意图。
[0146] 根据本公开的各种实施方式,对话管理器模块240可以包括内容提供者模块。当可以基于由自然语言理解模块220识别的意图和参数而执行动作时,内容提供者模块可以生成执行与用户输入对应的任务的结果。根据各种实施方式,对话管理器模块240可以响应于用户输入将由内容提供者模块生成的结果发送到用户终端100。
[0147] 根据本公开的各种实施方式,自然语言生成器模块(NLG)250可以将指定信息改变为文本形式。改变为文本形式的信息可以是自然语言话语形式。指定信息可以是例如关于附加输入的信息、指示对应于用户输入的动作的完成的信息、或指示附加用户输入的信息(例如,关于用户输入的反馈信息)。改变为文本形式的信息可以被发送到用户终端100以在显示器120上显示,或者可以被发送到文本语音转换模块260以被改变为语音形式。
[0148] 根据本公开的各种实施方式,文本语音转换模块260可以将呈文本形式的信息改变为呈语音形式的信息。文本到语音模块260可以从NLG模块250接收呈文本形式的信息,可以将呈文本形式的信息改变为呈语音形式的信息,并且可以将呈语音形式的信息发送到用户终端100。用户终端100可以通过扬声器130输出呈语音形式的信息。
[0149] 根据本公开的各种实施方式,自然语言理解模块220、路径规划器模块230和对话管理器模块240可以被配置为单个模块。例如,自然语言理解模块220、路径规划器模块230和对话管理器模块240可以被配置为单个模块,以确定用户的意图和参数并生成对应于确定的用户意图和参数的响应(例如,路径规则)。可以将所生成的响应发送到用户终端100。
[0150] 图5示出根据本公开的实施方式的智能服务模块的上下文模块的收集当前状态的操作。
[0151] 参考图5,在从智能代理145接收到上下文请求(①)之后,处理器150可以通过上下文模块149a请求(②)指示应用程序141或143的当前状态的上下文信息。根据各种实施方式,处理器150可以通过上下文模块149a从应用程序141或143接收(③)上下文信息,并且可以将上下文信息发送(④)到智能代理145。
[0152] 根据各种实施方式,处理器150可以通过上下文模块149a从应用程序141或143接收多条上下文信息。上下文信息可以是例如关于最近执行的应用程序141或143的信息。上下文信息可以是例如关于应用程序141或143的当前状态的信息(例如,关于在图库中查看照片时的照片的信息)。
[0153] 根据本公开的各种实施方式,处理器150可以通过上下文模块149a从装置平台不仅接收关于应用程序141或143的上下文信息,而且接收指示用户终端100的当前状态的上下文信息。上下文信息可以包括通用上下文信息、用户上下文信息或装置上下文信息。
[0154] 通用上下文信息可以包括关于用户终端100的通用信息。通过装置平台的传感器集线器接收数据,可以通过内部算法识别通用上下文信息。例如,通用上下文信息可以包括关于当前时间和空间的信息。关于当前时间和空间的信息可以包括例如当前时间或关于用户终端100的当前位置的信息。可以基于用户终端100保持的时间来识别当前时间,并且可以通过全球定位系统(GPS)识别关于当前位置的信息。在另一示例中,通用上下文信息可以包括关于物理运动的信息。关于物理运动的信息可以包括例如关于步行、跑步、驾驶等的信息。关于物理运动的信息可以由运动传感器识别。通过检测车辆中的蓝牙连接,不仅可以通过运动传感器相对于驾驶识别关于驾驶的信息,而且还可以关于上车和停车识别关于驾驶的信息。在另一示例中,通用上下文信息可以包括用户活动信息。用户活动信息可以包括例如关于通勤、购物、旅行等的信息。可以使用关于由用户或应用程序在数据库中登记的地点的信息来识别用户活动信息。
[0155] 用户上下文信息可以包括关于用户的信息。例如,用户上下文信息可以包括关于用户的情绪状态的信息。关于情绪状态的信息可以包括例如关于用户的幸福、悲伤、愤怒等的信息。在另一示例中,用户上下文信息可以包括关于用户的当前状态的信息。关于当前状态的信息可以包括例如关于兴趣、意图(例如,购物)等的信息。
[0156] 装置上下文信息可以包括关于用户终端100的状态的信息。例如,装置上下文信息可以包括关于由执行管理器模块147执行的路径规则的信息。在另一示例中,装置上下文信息可以包括关于电池的信息。可以例如通过电池的充电和放电状态识别关于电池的信息。在另一示例中,装置上下文信息可以包括关于连接的装置和网络的信息。可以例如通过装置连接到的通信接口识别关于连接的装置的信息。
[0157] 图6示出根据本公开的实施方式的路径规划器模块生成路径规则的方法。
[0158] 参考图6,根据各种实施方式,NLU模块220可以将应用程序的功能分类为一个动作(例如,状态A到状态F),并且可以将所述动作存储于PR DB 231中。例如,NLU模块220可以将路径规则集存储于PR DB231中,所述路径规则集包括划分成一个动作(例如,状态)的多个路径规则A-B1-C1、A-B1-C2、A-B1-C3-D-F和A-B-C3-D-E-F。
[0159] 根据本公开的各种实施方式,路径规划器模块230的PR DB 231可以存储用于执行应用程序的功能的路径规则集。路径规则集可以包括多个路径规则,所述路径规则包括多个动作(例如,状态序列)。根据多个路径规则,可以依次布置根据针对各个动作输入的参数执行的多个动作。根据各种实施方式,多个动作可以以本体形式或以图形模型形式配置,并且可以存储于PR DB 231中。
[0160] 根据本公开的各种实施方式,NLU模块220可以从多个路径规则A-B1-C1、A-B1-C2、A-B1-C3-D-F和A-B1-C3-D-E-F之中选择对应于用户输入的意图和参数的最优路径规则A-B1-C3-D-F。
[0161] 根据本公开的各种实施方式,当不存在最优地匹配用户输入的路径规则时,NLU模块220可以向用户终端100发送多个规则。例如,NLU模块220可以选择部分地对应于用户输入的路径规则(例如,A-B1)。NLU模块220可以选择包括部分地对应于用户输入的路径规则(例如,A-B1)的一或多个路径规则(例如,A-B1-C1、A-B1-C2、A-B1-C3-D-F和A-B1-C3-D-E-F),并且可以将一或多个路径规则发送到用户终端100。
[0162] 根据本公开的各种实施方式,NLU模块220可以基于用户终端100的附加输入来选择多个路径规则中的一个,并且可以将选定的一个路径规则发送到用户终端100。例如,NLU模块220可以根据由在用户终端100中附加进行的用户输入(例如,到选定C3的输入)来从多个路径规则(例如,A-B1-C1、A-B1-C2、A-B1-C3-D-F和A-B1-C3-D-E-F)之中选择一个路径规则(例如,A-B1-C3-D-F),并可将选定的路径规则发送到用户终端100。
[0163] 根据本公开的各种实施方式,NLU模块220可以确定用户意图以及对应于通过NLU模块220在用户终端100中另外进行的用户输入(例如,选择C3的输入)的参数,并且可以将确定的用户意图和参数发送到用户终端100。基于所发送的意图或参数,用户终端100可以从多个路径规则(例如,A-B1-C1、A-B1-C2、A-B1-C3-D-F以及A-B1-C3-D-E-F)之中选择一个路径规则(例如,A-B1-C3-D-F)。
[0164] 因此,用户终端100可以根据选定的一个路径规则来完成应用程序141或143的动作。
[0165] 根据本公开的各种实施方式,当智能服务器200接收到缺少信息的用户输入时,NLU模块220可以生成部分对应于接收到的用户输入的路径规则。例如,NLU模块220可以将部分对应的路径规则发送到智能代理145。处理器150可以执行智能代理145以接收路径规则,并且可以将部分对应的路径规则发送到执行管理器模块147。通过执行管理器模块147,处理器150可以根据路径规则来执行第一应用程序141。处理器150可以在通过执行管理器模块147执行第一应用程序141的同时将关于缺少参数的信息发送到智能代理145。使用关于缺少参数的信息,处理器150可以通过智能代理145从用户请求附加输入。当通过智能代理145从用户接收到附加输入时,处理器150可以将用户输入发送到智能服务器200以进行处理。NLU模块220可以基于附加用户输入的意图和关于参数的信息而生成附加路径规则,并且可以将附加路径规则发送到智能代理145。处理器150可以通过智能代理145将路径规则发送到执行管理器模块147,并且可以执行第二应用程序143。
[0166] 根据本公开的各种实施方式,当智能服务器200接收到缺少一些信息的用户输入时,NLU模块220可以将用户信息请求发送到个人信息服务器300。个人信息服务器300可以将关于执行用户输入的用户的信息发送到自然语言理解模块220,所述信息存储于角色数据库中。NLU模块220可以使用关于用户的信息来选择对应于缺少一些信息的用户输入的路径规则。因此,即使智能服务器200接收到缺少某些信息的用户输入,NLU模块220也可以通过请求丢失的信息来接收附加输入,或者可以使用用户信息来确定对应于用户输入的路径规则。
[0167] 下文的表1可示出根据各种实施方式的与用户请求的任务有关的路径规则的说明性示例。
[0168] 表1
[0169]
[0170] 参考表1,由智能服务器(图1的智能服务器200)根据用户话语(例如,“共享图片”)生成或选择的路径规则可以包括至少一个状态25、26、27、28、29或30。例如,至少一个状态(例如,终端的任何一个操作状态)可以对应于以下各项中的至少一个:图片应用程序(PictureView)25的执行、图片搜索功能(SearchView)26的执行、搜索结果显示屏(SearchView Result)27的显示 、未选择图片的搜索结果显示 屏(SearchEmptySelectedView)28的显示、至少选择了一张图片的搜索结果显示屏
(SearchSelectedView)29的显示、或共享应用程序选择屏幕(CrossShare)30的显示。
[0171] 根据本公开的各种实施方式,路径规则的参数信息可以对应于至少一个状态。例如,参数信息可以包括在选择了至少一张图片的搜索结果显示屏29的显示状态中。
[0172] 当执行包括状态25、26、27、28和29的序列的路径规则时,可以执行由用户请求的任务(例如,“共享这张图片!”)。
[0173] 图7A示出根据本公开的实施方式的提供除包括在用户话语中的搜索条件之外的附加信息的操作。
[0174] 图7B示出根据本公开的实施方式的提供除包括在用户话语中的搜索条件之外的附加信息的操作。
[0175] 图8A示出根据本公开的实施方式的提供除包括在用户话语中的搜索条件之外的附加信息的操作。
[0176] 图8B示出根据本公开的实施方式的提供除包括在用户话语中的搜索条件之外的附加信息的操作。
[0177] 图8C示出根据本公开的实施方式的提供除包括在用户话语中的搜索条件之外的附加信息的操作。
[0178] 图8D示出根据本公开的实施方式的提供除包括在用户话语中的搜索条件之外的附加信息的操作。
[0179] 图8E示出根据本公开的实施方式的提供除包括在用户话语中的搜索条件之外的附加信息的操作。
[0180] 图8F示出根据本公开的实施方式的提供除包括在用户话语中的搜索条件之外的附加信息的操作。
[0181] 参考图7A,根据本公开的各种实施方式的用户终端100可以在操作700中接收用户话语。在操作705中,根据本公开的各种实施方式的用户终端100可以基于用户话语来获取存储于用户终端100中的图像。在操作710中,根据本公开的各种实施方式的用户终端100可以识别获得的图像的属性。在操作715中,根据本公开的各种实施方式的用户终端100可以基于获得的图像的属性与获得的图像一起来提供包括根据用户话语的搜索条件和附加信息的响应。
[0182] 参考图7B,在操作720中,根据本公开的各种实施方式的用户终端100可以接收用户话语(例如,“向我展示去年拍摄的图片!”或“向我展示在家拍摄的图片!”)。
[0183] 在操作725中,根据本公开的各种实施方式的用户终端100可以将用户话语信息发送到智能服务器200。
[0184] 在操作730中,根据本公开的各种实施方式的智能服务器200可以基于接收到的用户话语信息来生成第一操作信息。根据本公开的各种实施方式的操作信息(例如,路径规则)可以包括关于用户终端100根据用户话语来获取图像的操作(任务)的信息。根据本公开的各种实施方式的第一操作信息可以包括关于用户终端100的以下操作的信息:识别根据用户话语获得的图像的属性(例如,元数据)。根据本公开的各种实施方式的图像的属性可以包括关于拍摄至少一个获得的图像的位置的信息中的至少一个(例如,行政区域,例如“原市永通区”或地标,例如“梦幻乐园”)、关于拍摄多张图像的时间的信息(例如,昨天上午10:35)、关于包括在多张图像中的多个人(例如,家人或妻子)之间的关系的信息、关于包括在多个图像中的至少一个人的情绪信息(例如,愤怒、悲伤、惊奇、尴尬或愉快)、关于与多个图像有关的事件(例如,婚礼或生日)的信息,以及包括在图像中的对象(例如,文档、风景或食物)的属性。根据本公开的各种实施方式的用户终端100可以基于在用户拍摄的图像中拍摄特定人物的频率来识别关于多个人之间的关系的信息。根据本公开的各种实施方式的用户终端100可以分析包括在由用户拍摄的图像中的人的面部表情,从而识别情绪状态(例如,作为具体情绪的概率)。根据本公开的各种实施方式,各种技术可应用为用于识别包括在图像中的多个人之间的关系或人的情绪状态的方法。根据本公开的各种实施方式的用户终端100可以识别至少一个获得的图像820的每个属性的比例,如图8B所示。例如,用户终端100可以分析获得的图像(例如,分析人与人之间的关系或分析人的面部表情),由此确定被识别为“愉快”的图像的70%、包括婴儿的图像的50%以及被识别为“悲伤”的图像的20%。
当分析至少一个获得的图像820时,根据本公开的各种实施方式的用户终端100可以使用每个图像的元数据。
[0185] 在操作735中,根据本公开的各种实施方式的智能服务器200可以将生成的第一操作信息发送到用户终端100。
[0186] 在操作740中,根据本公开的各种实施方式的用户终端100可以根据从智能服务器200接收到的第一操作信息来获取(选择)图像。根据本公开的各种实施方式的用户终端100可以在用户终端100上显示获得的图像。在操作745中,根据本公开的各种实施方式的用户终端100可以根据从智能服务器200接收到的第一操作信息来识别获得的图像的属性。在操作750中,根据本公开的各种实施方式的用户终端100可以将关于所识别的属性的信息发送到智能服务器200。
[0187] 在操作755中,根据本公开的各种实施方式的用户终端100可以基于所识别的属性来生成第二操作信息。根据本公开的各种实施方式的第二操作信息可以包括关于用户终端100的以下操作的信息:基于至少一个获得的图像820的所识别的属性来输出与用户话语中包括的表达基本相同的第一表达(例如,“去年”)以及第二表达(例如,“愉快场合”)。如本文所使用的,术语“第一表达”可以指的是指示用于获取由用户的话语意图的图像的准则的表达。如本文中所使用,术语“第二表达”或“第三表达”可以指由智能服务器200或用户终端
100基于至少一个获得的图像820的属性而生成的表达。如本文所使用的,术语“表达”可以与术语“参数”互换/替代地使用。在操作760中,根据本公开的各种实施方式的智能服务器
200可以将第二操作信息发送到用户终端100。
[0188] 在操作765中,根据本公开的各种实施方式的用户终端100可以基于第二操作信息来提供包括搜索条件(例如,第一表达“去年”)的句子(例如,“你去年一定有很多愉快场合!”)和附加信息(例如,第二表达“愉快场合”)以及至少一个获得的图像820的响应。
[0189] 参考图8A,根据本公开的各种实施方式的用户终端100可以从用户接收文本802中的话语(例如,“向我看去年拍摄的图片!”)。
[0190] 参考图8B,根据本公开的各种实施方式的用户终端100可基于第二操作信息来提供响应。根据本公开的各种实施方式的响应可以包括以下各项中的至少一个:至少包括第一表达和第二表达的指定第一句子810、至少一个获得的图像820、以及用于对至少一个获得的图像820进行重新分类(重新配置)的用户界面830。根据本公开的各种实施方式的第一句子810可以包括包含第一表达(例如,“去年”)和第二表达(例如,“愉快场合”)的句子。根据本公开的各种实施方式,包括在第一句子810中的第一表达可以包括与包括在来自用户的话语中的表达基本相同的表达。例如,当用户输入包括表达“去年”的话语时,用户终端100或智能服务器200不仅可以选择“去年”而且可以选择“一年前”作为第一表达。图8B说明以下情况:由于至少一个获得的图像820之中的具有笑脸的对象(例如,人822)的对象的比例被识别为最高(例如,24张图像中的16张图像),因此智能服务器200选择(生成)“愉快场合”作为第二表达。根据本公开的各种实施方式的用户终端100可以响应于第二操作信息而输出(例如,显示)句子“你去年一定有很多愉快场合!”。如图8E所述,根据本公开的各种实施方式,可以通过用户终端100以话语形式输出第一句子810和第二句子802。根据本公开的各种实施方式的用户界面830可以包括菜单832、834和836,以用于根据指定准则对获得的图像进行重新分类。
[0191] 参考图8C,根据本公开的各种实施方式的用户终端100可以从用户接收话语(例如,“向我看家里拍的图片!”)802。根据本公开的各种实施方式的用户终端100可以显示接收到的话语802的内容。
[0192] 参考图8D,根据本公开的各种实施方式的用户终端100可基于第二操作信息提供响应。图8D示出智能服务器200将“婴儿”选作第二表达的情况,因为在获得的图像之中婴儿图片的比例被识别为最高。根据本公开的各种实施方式的用户终端100可以响应于第二操作信息而输出(例如,显示)消息“有很多在家里拍的婴儿图片”。在图8D中,为了便于解释,以粗体显示包括表达“婴儿”的图像。根据本公开的各种实施方式,为了便于解释而示出粗线,且粗线可能实际上并未显示。
[0193] 参考图8E,根据本公开的各种实施方式的用户终端100可以从用户接收话语(例如,“给我看昨天在梦幻乐园拍的图片!”)。
[0194] 参考图8F,根据本公开的各种实施方式的用户终端100可基于第二操作信息来提供响应。图8F示出智能服务器200将表达“愉快”选作为第二表达的情况,因为包括在至少一个获得的图像中的笑脸的图像的比例被识别为最高(例如,18张图像中的12张图像)。根据本公开的各种实施方式的用户终端100可以响应于第二操作信息来输出(例如,显示)消息“你昨天在梦幻乐园一定有愉快时光”。在图8F中,为了便于解释,以粗线显示包括笑脸的图像。根据本公开的各种实施方式,为了便于解释而示出粗线,且粗线可能实际上并未显示。根据本公开的各种实施方式,用户终端100可以基于关于拍摄图片的位置的信息来识别对应于特定位置(例如,地址)的地标(例如,梦幻乐园)的名称。
[0195] 图9A示出根据本公开的实施方式的将包括在根据用户话语获得的图像中的对象之中的具有特定面部表情的人的一部分改变为图形对象并显示图形对象的操作。
[0196] 图9B示出根据本公开的实施方式的将包括在根据用户话语获得的图像中的对象之中的具有特定面部表情的人的一部分改变为图形对象并显示图形对象的操作。
[0197] 图9C示出根据本公开的实施方式的将包括在根据用户话语获得的图像中的对象之中的具有特定面部表情的人的一部分改变为图形对象并显示图形对象的操作。
[0198] 图9D示出根据本公开的实施方式的将包括在根据用户话语获得的图像中的对象之中的具有特定面部表情的人的一部分改变为图形对象并显示图形对象的操作。
[0199] 图9A中示出的操作900到操作930与图7B中示出的操作720到操作750相同。
[0200] 参考图9A,在操作935中,根据本公开的各种实施方式的智能服务器200可以基于在操作925中识别的属性来生成第二操作信息。根据本公开的各种实施方式的第二操作信息可以包括关于用户终端100的以下操作的信息:将人的根据人的面部表情而被识别为具有指定情绪状态的一部分改变为对象(例如,表情)并显示该对象。根据本公开的各种实施方式的第二操作信息可以包括关于用户终端100的以下操作的信息:提供包括包含被改变的对象的人、搜索条件(例如,话语“向我展示昨天拍摄的图片!”中的“昨天”)和附加信息(例如“我将这张图片改变成了微笑的图片”)的响应。在操作940中,将第二操作信息发送到用户终端100。
[0201] 在操作945中,根据本公开的各种实施方式的用户终端100可以基于第二操作信息将对象(例如,表情)而插入人的具有指定情绪状态的一部分(例如,面部)中。在操作950中,根据本公开的各种实施方式的用户终端100可以提供包括包含在操作945中改变的对象的人、搜索条件(例如,话语“向我展示昨天拍的图片!”中的“昨天”)和附加信息(例如“我将这张图片改变成了微笑的图片”)的响应。
[0202] 根据本公开的各种实施方式,根据第一操作信息,用户终端100可以识别包括在至少一个获得的图像820(例如,响应于“向我展示昨天拍摄的图片!”而显示的至少一个图像)中的人的面部表情。
[0203] 参考图9B,示出根据第一操作信息的至少一个获得的图像820包括没有微笑的人902a的情况。根据本公开的各种实施方式的用户终端100可以从包括在至少一个获得的图像820中的人之中识别没有微笑的人902a。根据本公开的各种实施方式的用户终端100可以将没有微笑的人902a的图片中的笑脸904b插入到至少一个获得的图像820中。
[0204] 参考图9C,示出将具有笑脸904a的图片插入到指定区域904(例如,包括脸的区域)中的实施方式。根据本公开的各种实施方式,基于第二操作信息,用户终端100可以输出(例如,显示)第一句子810“这是昨天拍摄的图片。我将这张图片改变成了微笑的图片”。根据本公开的各种实施方式,智能服务器200可以根据特定图形对象的插入而将表达“微笑图片中”和“我改变”选作至少一个第二表达。根据本公开的各种实施方式的用户终端100可以在图像906的区域908中显示包括所插入图形对象(例如,笑脸904a的图片)的图像906。根据本公开的各种实施方式的用户终端100可以在包括所插入图形对象的图像906下方显示用户界面830。
[0205] 参考图9D,示出将笑脸表情904b插入到至少一个获得的图像820中的实施方式,而不是图9C中示出的笑脸904b的图片。参考图9D,除了插入笑脸表情940b的操作之外的操作与图9C中示出的操作相同。还可根据用户输入来执行图9C和图9D中示出的本公开的各种实施方式。
[0206] 图10A示出根据本公开的实施方式的基于根据用户话语获得的图像来提供第一附加信息和第二附加信息的操作。
[0207] 图10B示出根据本公开的实施方式的基于根据用户话语获得的图像来提供第一附加信息和第二附加信息的操作。
[0208] 图10C示出根据本公开的实施方式的基于根据用户话语获得的图像来提供第一附加信息和第二附加信息的操作。
[0209] 图10A中示出的操作1000到操作1040与图7B中示出的操作720到操作760相同。
[0210] 参考图10A,在操作1045中,基于第二操作信息,根据本公开的各种实施方式的用户终端100可以连同获得图像一起提供包括搜索条件(例如,第一表达“去年”)和第一附加信息(例如,第二表达“愉快”)的响应。
[0211] 在操作1050中,根据本公开的各种实施方式的用户终端100可以接收用户输入以识别第二附加信息。根据本公开的各种实施方式,第二附加信息可以包括基于在至少一个获得的图像820之中具有最高比例的图像的属性(例如,愉快)之后、具有次最高比例的至少一个图像的属性(例如,妻子或悲伤)而选择的至少一个表达(例如,第三表达“妻子”和“尽管经常有争论”)。例如,当获得的图像之中的对应于“愉快”的图像的比例最高且包括“妻子”的图像的比例第二高时,智能服务器200可以将表达“妻子”选作第二附加信息。此外,当在获得的图像之中包括看起来悲伤的人的图像的比例为包括“妻子”的图像的比例之后的次最高时,智能服务器200可以将表达“在有争论时”或“在感到悲伤时”选作第二附加信息。此外,当获得的图像之中包括食物的图像的比例为包括看起来悲伤的人的图像的比例之后的次最高时,智能服务器200可以将表达“做饭”或“美味的菜”选作第二附加信息。在操作
1055中,根据本公开的各种实施方式的用户终端100可以将关于在操作1050中接收到的用户输入的信息发送到智能服务器200。
[0212] 在操作1060中,根据本公开的各种实施方式的智能服务器200可以基于在操作1055中接收到的用户输入来生成第三操作信息。根据本公开的各种实施方式,第三操作信息可以包括关于用户终端100以下操作的信息:输出(例如,显示)包括用户话语中包含的搜索条件(例如,第一表达)、第一附加信息(例如,第二表达)和第二附加信息(例如,第三表达)的句子。根据本公开的各种实施方式,第三操作信息可以包括关于用户终端100的以下操作的信息:根据每个情绪状态而按时间顺序布置并提供至少一个获得的图像820。在操作
1065中,根据本公开的各种实施方式的智能服务器200可以将在操作1060中生成的第三操作信息发送到用户终端100。
[0213] 在操作1070中,根据本公开的各种实施方式的用户终端100可以基于从智能服务器200接收到的第三操作信息来提供包括基于用户话语的搜索条件、第一附加信息和第二附加信息的响应。
[0214] 参考图10B,用户终端100可以在用户界面830上接收用户输入以选择具体菜单项(例如,“产生故事相册”836)。
[0215] 参考图10C,当用户选择具体菜单项(例如,“产生故事相册”836)时,用户终端100可以输出(例如,显示)包括第二附加信息(例如,“妻子”,“尽管经常有争论”、“做饭”或“幸福生活”)的句子912。根据本公开的各种实施方式的第二句子912可包括与根据用户的请求重建的图像一起提供的句子。根据本公开的各种实施方式,当用户选择具体菜单项(例如,“产生故事相册”836)时,用户终端100可以显示通过根据情绪状态对至少一个获得的图像820进行分类而获得的图像1004。图10C示出了其中分别显示对应于愉快情绪的图像1004a和对应于悲伤情绪的图像1004b的实施方式。根据本公开的各种实施方式,可以按照拍摄图像的时间顺序显示分别包括在对应于愉快情绪的图像1004a和对应于悲伤情绪的图像
1004b中的图像。根据本公开的各种实施方式,可以将对应于相应情绪的每个图像与表示所识别的情绪状态(例如,愉快或悲伤)的图形对象一起显示。根据本公开的各种实施方式,用户终端100可以显示用以存储第二句子912和按情绪分类的图像1004的菜单1006以及用以基于第二操作信息而返回先前的操作到菜单1008。
[0216] 图11A示出根据本公开的实施方式的在根据用户话语获得的图像上另外显示与图像相关联的附加描述的操作。
[0217] 图11B示出根据本公开的实施方式的在根据用户话语获得的图像上另外显示与图像相关联的附加描述的操作。
[0218] 图11C示出根据本公开的实施方式的在根据用户话语获得的图像上另外显示与图像相关联的附加描述的操作。
[0219] 图11D示出根据本公开的实施方式的在根据用户话语获得的图像上另外显示与图像相关联的附加描述的操作。
[0220] 图11E示出根据本公开的实施方式的在根据用户话语获得的图像上另外显示与图像相关联的附加描述的操作。
[0221] 图11A中示出的操作1100到操作1145与图7B中示出的操作720到操作765相同。
[0222] 参考图11A,在操作1150中,根据本公开的各种实施方式的用户终端100可以接收用户输入以在获得的图像上显示附加描述。根据本公开的各种实施方式的附加描述可以包括与特定图像中包括的至少一个对象相关联的描述。根据本公开的各种实施方式的附加描述可以以语音气泡形式显示于每个图像的至少一部分上。在操作1155中,根据本公开的各种实施方式的用户终端100可以将关于在操作1150中接收到的用户输入的信息发送到智能服务器200。
[0223] 在接收到关于用户输入的信息后,根据本公开的各种实施方式的智能服务器200可以基于根据操作1125的获得的图像的属性,在操作1160中生成第四操作信息。例如,可以基于图像的属性,例如拍摄图像的位置(例如,“釜山”)、地标(例如,图像中包括的“影岛桥”以及图像中包括的人的姿势(例如,躺着的姿势或摆出同一姿势的多个人),根据本公开的各种实施方式的智能服务器200可选择附加描述。根据本公开的各种实施方式的附加描述的细节可以预先存储于智能服务器200中。根据本公开的各种实施方式的第四操作信息可以包括关于用户终端100的以下操作的信息:显示由智能服务器200选择的附加描述以及至少一个获得的图像820。在操作1165中,根据本公开的各种实施方式的智能服务器200可以将所生成的第四操作信息发送到用户终端100。
[0224] 在操作1170中,根据本公开的各种实施方式的用户终端100可以基于第四操作信息在获得的图像的至少一部分上显示附加描述。
[0225] 参考图11B,根据本公开的各种实施方式的用户终端100可以接收包括搜索条件(例如,“在釜山拍摄的图片”)的用户话语。根据本公开的各种实施方式,可以在用户终端100上显示接收到的用户话语的内容。
[0226] 参考图11C,根据本公开的各种实施方式的用户终端100可以根据用户话语,显示第一句子810、至少一个获得的图像820和用户界面830中的至少一个。
[0227] 参考图11D,根据本公开的各种实施方式的用户终端100可以接收用户输入804(例如,“以卡通形式显示它们!”)以在至少一个获得的图像上显示附加描述。可以口头格式输入根据本公开的各种实施方式的用户输入1103。根据本公开的各种实施方式,用户终端100可以显示用户输入1103(例如,“以卡通形式显示它们!”)以显示附加描述以及第一句子810、至少一个获得的图像820和用户界面830。
[0228] 参考图11E,根据本公开的各种实施方式的用户终端100可以显示对应于用户输入804的第二句子912(例如,“我制作了卡通”)中的至少一个以显示附加描述、具有附加描述
1104a、1104b、1104c、1104d和1104e的图像1104、用以存储带有附加描述的图像的菜单
1113、以及用以返回至上一屏幕的菜单1114。根据本公开的各种实施方式的智能服务器200可以响应于请求在语音气泡中显示附加描述的用户输入来选择表达“卡通”。
[0229] 图12A示出根据本公开的实施方式的通过情绪状态对根据用户话语获得的图像进行分类并显示图像的操作。
[0230] 图12B示出根据本公开的实施方式的通过情绪状态对根据用户话语获得的图像进行分类并显示图像的操作。
[0231] 图12C示出根据本公开的实施方式的通过情绪状态对根据用户话语获得的图像进行分类并显示图像的操作。
[0232] 图12D示出根据本公开的实施方式的通过情绪状态对根据用户话语获得的图像进行分类并显示图像的操作。
[0233] 图12A中示出的操作1200到操作1245与图7B中示出的操作720到操作765相同。
[0234] 参考图12A,在操作1250中,根据本公开的各种实施方式的用户终端100可以接收用户输入以根据情绪状态对至少一个获得的图像820进行分类。在操作1255中,根据本公开的各种实施方式的用户终端100可以将关于接收到的用户输入的信息发送到智能服务器200。
[0235] 根据本公开的各种实施方式,在接收到关于用户输入的信息后,智能服务器200可以生成第五操作信息。根据本公开的各种实施方式的第五操作信息可以包括关于用户终端100的以下操作的信息:以时间顺序布置包括在至少一个所获取图像820中的人的情绪状态,并且在图表中显示所述情绪状态。例如,根据本公开的各种实施方式的第五操作信息可以包括关于用户终端100的以下操作的信息:在包括在用户话语中的具体月(例如,8月)中包括的至少一个日期(例如8月1日、10日、20日和30日)拍摄的图像中,识别在每个日期具有最高比例的情绪状态(即,每个日期的代表性情绪状态),并选择性地显示对应于具有最高比例的情绪状态的至少一个图像。根据本公开的各种实施方式的至少一个日期(例如,8月1日、10日、20日和30日)可以被选作用于在用户指定的时段(例如,8月)中包括的每个日期捕获的图像的数目是预定数目(例如,10个)或更大时,识别代表性情绪的目标日期。在根据本公开的各种实施方式的至少一个日期之中,可以将用户指定的时间段中包括的任何日期选作用于识别代表性情绪的目标日期,而不管所捕获图像的数目如何。根据本公开的各种实施方式的第五操作信息可以进一步包括关于用户终端100的以下操作的信息:提供关于与包括在用户话语中的搜索结果中的搜索条件相关联的事件的信息(例如,关于婴儿博览会的信息和关于音乐会的信息)。在操作1265中,根据本公开的各种实施方式的智能服务器
200可以将在操作1260中生成的第五操作信息发送到用户终端100。
[0236] 在操作1270中,根据本公开的各种实施方式的用户终端100可以根据接收到的第五操作信息,以图表类型布置并提供至少一个获得的图像820。
[0237] 参考图12B,根据本公开的各种实施方式的用户终端100可以显示第一句子810、至少一个获得的图像820和用户界面830。图12B中示出的第一句子810可以包括响应于用户话语(例如,“展示8月拍摄的图片!”)来提供的句子。根据本公开的各种实施方式的用户终端100可以接收用户输入1203(例如,“在日历中显示它们!”)以识别特定月份中的情绪分布。
可以通过用户话语键入根据本公开的各种实施方式的用户输入1203。根据本公开的各种实施方式,用户终端100可以显示接收到的用户输入1203,以及第一句子810、至少一个获得的图像820和用户界面830中的至少一个。根据本公开的各种实施方式的图形类型用于说明,并且可以日历格式显示代表性情绪和对应于每个日期的图像。
[0238] 参考图12C,根据本公开的各种实施方式的用户终端100显示第二句子912(例如,“我制作了情绪日历。8月发生了很多好事”)、指定月份的至少一个日期的代表性情绪、至少一个图像1204、用以提供与用户话语(例如,“向我展示8月拍摄的图片!”)中包括的搜索条件相关联的事件信息的菜单1221、以及用以响应于用户输入1203而返回到上一屏幕来使用至少一个获得的图像820识别特定月份中的情绪分布的菜单1222。图12C示出其中以用于说明的图表类型表达情绪分布的实施方式。在根据本公开的各种实施方式的图表类型中,x轴可以表示时间(例如,月份和日期),且y轴可以表示情绪的概率(例如,具有愉快情绪的概率)。参考根据本公开的各种实施方式的图12C中示出的情绪分布,在8月1日将悲伤选作代表性情绪,在8月7日将快乐选作代表性情绪,并且在8月25日将轻微悲伤选作代表性情绪。根据本公开的各种实施方式的用户终端100还可以显示关于在特定日期(例如,8月7日)存在的事件(例如,生日)的信息。根据本公开的各种实施方式的用户终端100可以显示对应于代表性情绪的至少一个图像1204a、1204b、1204c或1204d。根据本公开的各种实施方式的用户终端100可以基于包括在至少一个获得的图像820中的人的面部表情,识别拍摄时情绪状态的概率。
[0239] 根据本公开的各种实施方式的智能服务器200可以基于每个代表情绪中包括的图像的数量来选择第二表达。例如,如图12C中所示,当最大数目个图像对应于至少一个获得的图像820中的愉快时,智能服务器200可以选择句子或表达“有很多好事”。根据本公开的各种实施方式的智能服务器200可以识别包括最大数目的图像的日期。例如,当被识别为愉快的最大数目的图像对应于8月7日时,根据本公开的各种实施方式的智能服务器200可以选择表达“8月初”。因此,用户终端100可以在包括在用户话语中的特定时段(例如,8月)中短暂地向用户提供情绪。根据本公开的各种实施方式的智能服务器200可以向用户终端100提供输出与选定句子或表达的信息作为第五操作信息有关的信息的操作。
[0240] 根据本公开的各种实施方式,用户终端100可以通过菜单1221接收选择输入,以提供与包括在用户话语(例如,“向我展示8月拍摄的图片!”)中的搜索条件相关联的事件信息。在通过菜单1221接收到选择输入以提供与包括在用户话语(例如,“向我展示8月拍摄的图片!”)中的搜索条件相关联的事件信息时,如图12D中所示,根据本公开的各种实施方式的用户终端100可以提供与用户话语(例如,“向我展示8月拍摄的图片!”)中包括的搜索条件(例如,8月拍摄的图片)相关联的事件信息1290(例如,预定为于9月举行的事件)。
[0241] 参考图12D,示出了以下实施方式,其中基于至少一个响应1213来提供关于“婴儿博览会”事件1292和“儿童中秋节”事件1294的信息作为事件信息1290的示例。
[0242] 图13A示出根据本公开的实施方式的取决于指定情绪状态而选择性地显示根据用户话语获得的图像的操作。
[0243] 图13B示出根据本公开的实施方式的取决于指定情绪状态而选择性地显示根据用户话语获得的图像的操作。
[0244] 图13C示出根据本公开的实施方式的取决于指定情绪状态而选择性地显示根据用户话语获得的图像的操作。
[0245] 图13D示出根据本公开的实施方式的取决于指定情绪状态而选择性地显示根据用户话语获得的图像的操作。
[0246] 图13A中示出的操作1300到操作1345与图7B中示出的操作720到操作765相同。
[0247] 参考图13A,根据本公开的各种实施方式的用户终端100可以接收用户输入以对获得的图像进行重新分类(选择性地显示)。例如,根据本公开的各种实施方式的用户终端100可以根据用户输入而选择性地显示至少一个获得的图像中的具有笑脸的至少一个图像。在操作1355中,根据本公开的各种实施方式的用户终端100可以将关于在操作1350中接收到的用户输入的信息发送到智能服务器200。
[0248] 在操作1360中,根据本公开的各种实施方式的智能服务器200可以根据关于用户输入的接收到的信息来生成第六操作信息。根据本公开的各种实施方式的第六操作信息可以包括关于用户终端100的以下操作的信息:提供用户根据分类准则(例如,仅用于显示微笑图片)而从至少一个获得的图像之中选择的图像。在操作1365中,根据本公开的各种实施方式的智能服务器200可以将所生成的第六操作信息发送到用户终端100。
[0249] 在操作1370中,基于从智能服务器200接收到的第六信息,根据本公开的各种实施方式的用户终端100可以提供根据由用户选择的分类准则从至少一个获得的图像之中选择的图像。
[0250] 参考图13B,根据本公开的各种实施方式的用户终端100可以从用户接收对至少一个获得的图像进行重新分类的输入。例如,根据本公开的各种实施方式的用户终端100可以从用户接收“仅查看愉快的图片”菜单834的选择。根据本公开的各种实施方式,还可以通过用户话语接收用于对至少一个获得的图像进行重新分类的输入。
[0251] 参考图13C,在从用户接收到输入之后,根据本公开的各种实施方式的用户终端100可以显示至少一个获得的图像之中、由用户重新分类的至少一个图像1304(包括微笑者的至少一个图像)。例如,可以显示包括具有笑脸的人的至少一个图像。图13C示出了用户终端100根据用户输入而选择性地仅显示特定用户的微笑图像的实施方式。根据本公开的各种实施方式,用户终端100可以在至少一个获得的图像中选择并显示具有笑脸的所有图像。
根据本公开的各种实施方式的用户终端100可以显示第二句子912(例如,“您在图片中笑得很多。这是仅含有您的笑脸的图片集合。”)以描述至少一个重新分类的图像1304以及由用户重新分类的至少一个图像1304。根据本公开的各种实施方式,智能服务器200可以生成根据用户输入而选择第二句子912以对至少一个获得的图像820进行重新分类的操作以及用户终端100的显示第二句子912的操作作为第六操作信息。根据本公开的各种实施方式的用户终端100可以显示用以存储至少一个重新分类的图像1304的菜单1331和用以返回到上一屏幕的菜单1332。
[0252] 参考图13D,根据本公开的各种实施方式的用户终端100可以接收用户输入以在至少一个获得的图像820之中仅识别包括特定人(例如,婴儿)的图像。在接收到用户输入以仅识别包括特定人(例如,婴儿)的图像后,根据本公开的各种实施方式的用户终端100可以选择性地仅显示包括特定人的图片作为至少一个重新分类的图像1304。在此情况下,根据本公开的各种实施方式的智能服务器200可以生成选择性地显示包括特定人的图片作为第六操作信息的操作。
[0253] 图14A示出根据本公开的实施方式的通过对图像应用指定视觉效果或通过将获得的图像改变为与其对应的另一图像来显示根据用户话语获取的图像的操作。
[0254] 图14B示出根据本公开的实施方式的通过对图像应用指定视觉效果或通过将获得的图像改变为与其对应的另一图像来显示根据用户话语获得的图像的操作。
[0255] 图14C示出根据本公开的实施方式的通过对图像应用指定视觉效果或通过将获得的图像改变为与其对应的另一图像来显示根据用户话语获得的图像的操作。
[0256] 图14D示出根据本公开的实施方式的通过对图像应用指定视觉效果或通过将获得的图像改变为与其对应的另一图像来显示根据用户话语获得的图像的操作。
[0257] 图14A中示出的操作1400到操作1445与图7B中示出的操作720到操作765相同。
[0258] 参考图14A,在操作1450中,根据本公开的各种实施方式的用户终端100可以接收用户输入以将指定视觉效果(例如,水彩效果)应用于至少一个获得的图像。可以通过对特定菜单的触摸输入或通过话语来接收根据本公开的各种实施方式的用户输入。在操作1455中,根据本公开的各种实施方式的用户终端100可以将接收到的用户输入发送到智能服务器200。
[0259] 在操作1460中,根据本公开的各种实施方式的智能服务器200可以根据接收到的用户输入来生成第七操作信息。根据本公开的各种实施方式的第七操作信息可以包括关于用户终端100的以下操作的信息:将指定视觉效果应用于至少一个获得的图像之中的至少一个图像。根据本公开的各种实施方式,被应用指定视觉效果的至少一个图像可以包括包含特定人(即,用户)的图像。根据本公开的各种实施方式,特定人可以由智能服务器200指定或可以被预先指定。在操作1465中,根据本公开的各种实施方式的智能服务器200可以将所生成的第七操作信息发送到用户终端100。
[0260] 在操作1470中,根据本公开的各种实施方式的用户终端100可以根据接收到的第七操作信息将指定视觉效果应用于至少一个图像。
[0261] 参考图14B,用户终端100可以显示将指定视觉效果(例如,水彩效果)应用于包括特定人物的图像820的结果1404a。根据本公开的各种实施方式,用户终端100可以输出(例如,显示)句子“我已将特殊效果应用于A的图片”作为第二响应912以及被应用指定视觉效果的图像。根据本公开的各种实施方式的智能服务器200可以生成待被应用视觉效果的图像以及关于用户终端100的、显示应用视觉效果之前的图像和应用视觉效果之后的图像的操作的信息作为第七操作信息。根据本公开的各种实施方式的用户终端100可以显示用以应用指定视觉效果的菜单1431和用以1432返回到上一屏幕的菜单。根据本公开的各种实施方式,待被应用视觉效果的图像可以是与特定人具有特殊关系的任何人(例如,家庭成员)的图像。
[0262] 参考图14C,示出将指定视觉效果1404b应用于与特定人具有特殊关系的任何人的实施方式。
[0263] 参考图14D,根据本公开的各种实施方式的用户终端100可以获取并显示与特定人类似的人物图像。根据本公开的各种实施方式的用户终端100可以识别包括在至少一个获得的图像820中的人的特征点,并且可以通过网络获取具有与所识别特征点类似的特征点的人物图像1406,或获取存储于用户终端100中的任务。根据本公开的各种实施方式的用户终端100可以显示获得的人物图像。根据本公开的各种实施方式的用户终端100可以输出(例如,显示)句子“我已经用类似卡通人物代替A的图片”作为第二响应912以及获得的任务图像1406。根据本公开的各种实施方式的用户终端100可以显示用以应用指定视觉效果的菜单1431和用以返回到上一屏幕的菜单1432。
[0264] 图15A示出根据本公开的实施方式的从根据用户话语获得的图像之中删除具有指定情绪状态的至少一个图像的操作。
[0265] 图15B示出根据本公开的实施方式的从根据用户话语获得的图像之中删除具有指定情绪状态的至少一个图像的操作。
[0266] 图15C示出根据本公开的实施方式的从根据用户话语获得的图像之中删除具有指定情绪状态的至少一个图像的操作。
[0267] 图15A中示出的操作1500到操作1545与图7B中示出的操作720到操作765相同。
[0268] 参考图15A,在操作1550中,根据本公开的各种实施方式的用户终端100可以接收用户输入以删除具有指定面部表情的图像。在操作1555中,根据本公开的各种实施方式的用户终端100可以将关于接收到的用户输入的信息发送到智能服务器200。在操作1560中,根据本公开的各种实施方式的智能服务器200可以根据关于接收到的用户输入的信息而生成第八操作信息。根据本公开的各种实施方式的第八操作信息可以包括关于用户终端100的在至少一个获得的图像820之中获取并显示具有指定面部表情(例如,皱眉的脸)的图像的操作、以及用户终端100的响应于用户请求删除具有指定面部表情的图像的操作的信息。在操作1565中,根据本公开的各种实施方式的智能服务器200可以将所生成的第八操作信息发送到用户终端100。
[0269] 在操作1570中,根据本公开的各种实施方式的用户终端100可以根据接收到的第八操作信息来而获取并显示至少一个获得的图像中具有指定面部表情的图像。在操作1575中,根据本公开的各种实施方式的用户终端100可以响应于用户请求删除具有指定面部表情的图像。
[0270] 参考图15B,用户终端100可以显示第一句子810、至少一个获得的图像820和用户界面830中的至少一个。根据本公开的各种实施方式的用户终端100可以显示指示器1501以另外地显示至少一个获得的图像820。根据本公开的各种实施方式的用户终端100可以显示用以删除指定面部表情的菜单838(例如,查看NG图像)。根据本公开的各种实施方式的用户终端100可以接收选择用以删除指定面部表情的菜单838的用户输入。
[0271] 参考图15C,根据选择用以删除指定面部表情的菜单838的用户输入,根据本公开的各种实施方式的用户终端100可以显示至少一个获得的图像820之中的具有指定面部表情的至少一个图像1504。根据本公开的各种实施方式,用户终端100可以输出(例如显示)句子“我已经从昨天拍摄的图片之中的找到了包括皱眉的八张图片”作为第二句子912。根据本公开的各种实施方式的智能服务器200可以生成关于用户终端100的以下操作的信息作为第八操作信息:输出句子“我已经从昨天拍摄的图片之中的找到了包括皱眉的八张图片”。根据本公开的各种实施方式的用户终端100可以显示用以存储至少一个重新分类的图像1504的菜单1531和用以返回到上一屏幕的菜单1532。根据本公开的各种实施方式,当选择用以删除具有指定面部表情的至少一个图像1504的菜单1531时,用户终端100可以在每个图像上显示复选框以选择待删除的图像。根据本公开的各种实施方式的用户终端100可以根据用户输入而删除至少一个选定图像,以删除至少一个图像1504之中的具有指定面部表情的至少一个图像。可以通过可与菜单1531的选择替换/互换的用户话语(例如,“删除皱眉的图片!”)来输入根据本公开的各种实施方式的删除请求。
[0272] 图16A示出根据本公开的实施方式的通过识别用户对用户终端100的接近或凝视来输出指定句子的操作。
[0273] 图16B示出根据本公开的实施方式的通过识别用户对用户终端100的接近或凝视来输出指定句子的操作。
[0274] 图16C示出根据本公开的实施方式的通过识别用户对用户终端100的接近或凝视来输出指定句子的操作。
[0275] 参考图16A,在操作1600中,根据本公开的各种实施方式的用户终端100可以识别用户的接近度和用户的凝视。根据本公开的各种实施方式的用户终端100可以使用用户终端100的传感器模块(例如,相机模块)来识别用户的接近度和用户的凝视。
[0276] 在操作1610中,当检测到用户在指定范围内且用户凝视被识别为指向用户终端100时,根据本公开的各种实施方式的用户终端100可以说出指定句子。
[0277] 参考图16B,示出用户1640位于距用户终端100的指定范围1630内且用户1640的凝视指向用户终端100的情况。在此情况下,根据本公开的各种实施方式的用户终端100可以输出指定句子1620(例如,“你需要我吗?”)。根据本公开的各种实施方式的输出指定话语的操作可以由智能服务器200控制(例如,根据从智能服务器200接收到的操作信息来执行)。可替换地,根据本公开的各种实施方式的输出指定话语的操作也可以由用户终端100的处理器150控制。根据本公开的各种实施方式的用户终端100可以在输出指定句子1620(例如,“你需要我吗?”)的同时输出具有指定颜色并以指定速度闪烁的指示符。
[0278] 参考图16C,示出使用指定单音节表达来唤醒用户终端的实施方式。根据本公开的各种实施方式,当接收到包括一个音节表达(例如,“A”)的用户话语时,用户终端100可以从睡眠状态切换到唤醒状态(例如,执行智能应用程序的条件)。根据本公开的各种实施方式,当切换到唤醒状态时,用户终端100可以在用户终端100切换到唤醒状态时输出指定句子1620(例如,“你需要我吗?”)。
[0279] 图17A示出根据本公开的实施方式的维持基于用户的凝视或话语而执行的智能应用程序的执行的操作。
[0280] 图17B示出根据本公开的实施方式的维持基于用户的凝视或话语而执行的智能应用程序的执行的操作。
[0281] 参考图17A,在操作1700中,根据本公开的各种实施方式的用户终端100可检测用户的凝视。在操作1710中,根据本公开的各种实施方式的用户终端100可以确定是否在指定时间或更长时间内连续地检测到用户的凝视。当确定在指定时间或更长时间内连续检测到用户的凝视时(操作1710中的是),根据本公开的各种实施方式的用户终端100可以在操作1720中维持智能应用程序的执行。当确定在指定时间或更长时间内连续检测到用户的凝视时(操作1710中的否),根据本公开的各种实施方式的用户终端100可以在操作1730中终止智能应用程序的执行。根据本公开的各种实施方式的图17A中示出的操作可以由用户终端(例如,处理器150)或智能服务器200控制。
[0282] 参考图17B,在操作1740中,根据本公开的各种实施方式的用户终端100可识别指定表达是否包括在用户话语中。根据本公开的各种实施方式的指定表达可以包括在用户讲话时无意识地说出的表达,例如“呃”或“所以”。当识别出指定表达包括在用户话语中时,在操作1750中,根据本公开的各个实施方式的用户终端100可以维持智能应用程序的执行。根据本公开的各种实施方式的图17B中示出的操作可以由用户终端(例如,处理器150)或智能服务器200控制。
[0283] 图18A示出根据本公开的实施方式的终止基于用户的凝视或话语而执行的智能应用程序的执行的操作。
[0284] 图18B示出根据本公开的实施方式的终止持基于用户的凝视或话语而执行的智能应用程序的执行的操作。
[0285] 参考图18A,在操作1800中,根据本公开的各种实施方式的用户终端100可识别用户的移动。在操作1810中,根据本公开的各种实施方式的用户终端100可以识别是否检测到用户的移动。当未检测到用户的移动时(操作1810中的否),根据本公开的各种实施方式的用户终端100可以在操作1820中终止智能应用程序的执行。当检测到用户的移动时(操作1810中的是),根据本公开的各种实施方式的用户终端100可以在操作1830中维持智能应用程序的执行。根据本公开的各种实施方式的图18A中示出的操作可以由用户终端(例如,处理器150)或智能服务器200控制。
[0286] 参考图18B,在操作1840中,根据本公开的各种实施方式的用户终端100可接收用户话语。在操作1850中,根据本公开的各种实施方式的用户终端100可确定指定表达是否包括在用户话语中。例如,根据本公开的各种实施方式的指定表达可以包括例如“告诉我”的命令性表达或例如“这是什么?”的疑问性表达。当未包括指定表达时(操作1850中的否),根据本公开的各种实施方式的用户终端100可以在操作1860中终止智能应用程序的执行。当包括指定表达时(操作1850中的是),根据本公开的各种实施方式的用户终端100可以在操作1870中维持智能应用程序的执行。根据本公开的各种实施方式的图18B中示出的操作可以由用户终端(例如,处理器150)或智能服务器200控制。根据本公开的各种实施方式的用户终端100可以在执行智能应用程序的同时输出具有指定颜色并根据指定时间间隔而闪烁的指示符。
[0287] 图19A示出根据本公开的实施方式的基于任何用户话语而登记用户的语音的操作。
[0288] 图19B示出根据本公开的实施方式的基于任何用户话语而登记用户的语音的操作。
[0289] 图19C示出根据本公开的实施方式的基于任何用户话语而登记用户的语音的操作。
[0290] 参考图19A,在操作1900中,根据本公开的各种实施方式的用户终端100可获取关于用户的语音信息。根据本公开的各种实施方式,在操作1900中获取的关于用户的语音信息可以是基于任何用户话语的语音信息,而不是基于预先指定以登记关于用户的语音信息的句子的语音信息。在操作1910中,根据本公开的各种实施方式的用户终端100可以使用获得的语音信息来登记用户以提供智能服务。
[0291] 图19B和图19C示出在用户终端100或智能服务器200中存储用于基于任何用户话语而不是预先指定的句子来识别用户的用户语音的实施方式。
[0292] 参考图19B,根据本公开的各种实施方式的用户终端100可以向用户输出对话类型(例如,“你好,我的名字是Bixby。你叫什么名字?”)的第一问题1930以便登记用户的语音。根据本公开的各种实施方式的用户终端100可以显示输出为声音的第一问题1930。根据本公开的各种实施方式的用户终端100可以响应于第一问题1930而从用户接收第一句子1940(例如,“我的名字是三星Kim”)。根据本公开的各种实施方式的用户终端100可以使用接收到的第一响应1940来登记用户。
[0293] 参考图19C,根据本公开的各种实施方式的用户终端100可以向用户输出测验类型(例如,“考查!填空。”)的第二问题1950以便登记用户的语音。根据本公开的各种实施方式的用户终端100可以将第二问题1950输出显示为声音。根据本公开的各种实施方式的用户终端100可以响应于第二问题1950而从用户接收第二句子1960(例如,“冻结!”)。根据本公开的各种实施方式的用户终端100可以使用接收到的第二句子1960来登记用户。
[0294] 图20A示出根据本公开的实施方式的在第一用户使用智能应用程序的同时输入第二用户的话语时一起处理第一用户的话语和第二用户的话语的操作。
[0295] 图20B示出根据本公开的实施方式的在第一用户使用智能应用程序的同时输入第二用户的话语时一起处理第一用户的话语和第二用户的话语的操作。
[0296] 图20C示出根据本公开的实施方式的在第一用户使用智能应用程序的同时输入第二用户的话语时一起处理第一用户的话语和第二用户的话语的操作。
[0297] 参考图20A,在操作2000中,根据本公开的各种实施方式的用户终端100可接收第一用户的话语。在操作2010中,根据本公开的各种实施方式的用户终端100可以接收第二用户的话语。在操作2020中,根据本公开的各种实施方式的用户终端100可以执行分别对应于第一用户的话语和第二用户的话语的任务。
[0298] 参考图20B,根据本公开的各种实施方式的用户终端100可以通过区分第一用户(例如,说话者A)2030的语音的波形与第二用户(例如,说话者B)2040的语音的波形来区分不同用户的话语。
[0299] 参考图20C,当在输入第一用户(例如,Kim)的话语之后的预定时间内输入第二用户(例如,Lee)的话语时,根据本公开的各种实施方式的用户终端100可以执行对应于用户的相应话语的任务,并且可以输出执行任务的结果2050。
[0300] 由本文中描述的智能服务器200执行的各种操作也可以由用户终端100的处理器150执行。
[0301] 根据本公开的各种实施方式的用户终端100可以包括各种类型的装置。根据本公开的各种实施方式的用户终端100可以包括例如便携式通信装置(例如,智能电话)、计算机、便携式多媒质装置、便携式医疗装置、相机、可佩戴装置或家用电器。根据本公开的各种实施方式的用户终端100不限于前述装置。
[0302] 应了解,本公开的各种实施方式以及本文所使用的术语无意将本文所陈述的技术特征限于特定实施方式,并包括对应实施方式的各种改变、等同或替代。关于附图的描述,可使用类似的参考标号来指类似或有关的元件。将理解,对应于项目的名词的单数形式可包括事物中的一或多个,除非相关上下文另有清楚指示。如本文所使用,例如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”以及“A、B或C中的至少一个”的短语中的每一个可包括所述短语中的对应一个中一起枚举的项目的所有可能组合。如本文所使用,例如“第1”和“第2”或“第一”和“第二”的术语可用来简单地区别对应部件与另一部件,且不在其他方面(例如,重要性或次序)方面限制所述部件。将理解,如果在存在或不存在术语“操作地”或“通信地”的情况下,元件(例如,第一元件)被称作“与......耦接”或“与......连接”,那么这意味着所述元件可直接(例如,有线地)、无线地或经由第三元件与所述另一元件耦接。
[0303] 如本文所使用,术语“模块”可包括以硬件、软件或固件实施的单元,并且可与其他术语互换使用,例如“逻辑”、“逻辑块”、“部件”或“电路系统”。模块可为适于执行一个或多个功能的单个一体部件,或其最小单元或零件。例如,根据实施方式,可以以专用集成电路(ASIC)的形式实施模块。
[0304] 本公开的各种实施方式可以被配置为包括存储于可由机器(例如,用户终端100)读取的存储媒质中的一个或多个指令的软件。例如,机器的处理器可以从存储媒质调用一个或多个存储的指令中的至少一个,并且可以执行所述指令。这允许操作机器来根据所调用的至少一个指令来执行至少一个功能。一个或多个指令可包括由编译器生成的代码或可由翻译程序执行的代码。可以以非暂时性存储媒质的形式提供机器可读存储媒质。其中,术语“非暂时性”仅仅意味着存储媒质是有形装置并且不包括信号(例如,电磁波),但此术语不区分数据半永久地存储于存储媒质中的位置与数据临时地存储于存储媒质中的位置。
[0305] 根据本文中公开的各种实施方式的方法可包括且提供于计算机程序产品中。计算机程序产品可作为产品在卖家与买家之间交易。计算机程序产品可以机器可读存储媒质(例如,压缩光盘只读存储器(CD-ROM))的形式分布,或通过应用程序商店(例如,Play StoreTM)在线分布(例如,下载或上载),或在两个用户装置(例如,智能电话)之间直接分布。如果在线分布,那么计算机程序产品的至少一部分可临时生成或至少临时存储于机器可读存储媒质中,例如制造商的服务器、应用程序商店的服务器或中继服务器的存储器中。
[0306] 根据各种实施方式,上述部件中的每一部件(例如,模块或程序)可包括单个实体或多个实体。根据各种实施方式,可省略上文所述的部件或操作中的一个或多个,或可添加一个或多个其他部件或操作。可替换地或另外,可将多个部件(例如,模块或程序)集成到单个部件中。在此情况下,根据各种实施方式,集成部件可仍以与在集成之前由多个部件中的对应一个执行相同或相似的方式执行所述多个部件中的每一个的一个或多个功能。根据各种实施方式,模块、程序或另一部件所执行的操作可循序地、并行地、重复地或启发式地进行,或所述操作中的一个或多个可以不同次序执行或省略,或可添加一个或多个其他操作。
[0307] 虽然已参考本公开的各种实施方式示出并描述本公开,但是本领域技术人员将理解,在不脱离如由所附权利要求和其等同所限定的本公开的精神和范围的情况下,可以在其中对形式和细节进行各种改变。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈