首页 / 专利库 / 空中管制 / 许可 / 具有多个同时语音识别器的系统

具有多个同时语音识别器的系统

阅读:192发布:2020-05-08

专利汇可以提供具有多个同时语音识别器的系统专利检索,专利查询,专利分析的服务。并且语音识别 系统解释说出的系统命令以及应用命令两者。用户可以向计算设备的开放式话筒说出可由同时操作的至少两个语音识别器解释的命令。第一语音识别器解释 操作系统 命令,而第二语音识别器解释应用命令。系统命令可至少包括打开和关闭应用,而应用命令可至少包括游戏命令或菜单内导航。可使用保留词来标识命令是针对操作系统还是应用的。用户的节奏也可指示语音是全局命令还是应用命令。语音识别器可包括位于远程计算设备中(诸如在所谓的 云 中)的自然语言 软件 组件。,下面是具有多个同时语音识别器的系统专利的具体信息内容。

1.一种操作包括至少一个处理器可读存储器的计算设备的方法,所述至少一个处理器可读存储器存储具有包括第一语音识别器和第二语音识别器的处理器可读指令的操作系统,所述至少一个处理器可读存储器存储具有处理器可读指令的一个或多个应用,所述方法包括:
由被配置成解释操作系统命令的所述第一语音识别器从话筒接收表示操作系统命令的信息;
由被配置成解释应用命令的所述第二语音识别器从所述话筒接收表示应用命令的信息,所述第二语音识别器与所述第一语音识别器同时操作;
确定所述第一语音识别器是否已经接收到操作系统命令,如果是,则所述一个或多个应用不再接收语音输入直到用户与所述操作系统的对话完成;
确定所述第二语音识别器是否已经接收到有效应用命令;以及
由所述计算设备响应于所述操作系统命令和所述应用命令之一来执行计算操作。
2.如权利要求1所述的方法,其特征在于,所述计算设备包括智能代理,并且其中所述方法还包括由所述智能代理响应于表示所述操作系统命令的信息和表示所述应用命令的信息之一来提供语音输出。
3.如权利要求1所述的方法,其特征在于,所述操作系统命令包括以下命令中的至少一个:启动另一应用、关闭另一应用、在正在运行的应用之间切换、社交命令、所述应用内的搜索、跨系统搜索、控制所述应用的设置、控制所述系统的设置、暂停后台音乐、以及控制语音呼叫和控制视频播放。
4.如权利要求1所述的方法,其特征在于,所述应用命令包括游戏命令、菜单内导航、走带控制以及浏览所述应用以获取可用内容。
5.如权利要求1所述的方法,其特征在于,所述执行包括响应于保留词来确定提供所述操作系统命令还是所述应用命令。
6.如权利要求5所述的方法,其特征在于,使用单个保留词。
7.如权利要求5所述的方法,其特征在于,执行确定提供所述操作系统命令还是所述应用命令包括是否在用户的节奏中使用保留词。
8.如权利要求1所述的方法,其特征在于,至少所述第二语音识别器包括解释所述应用命令的自然语言软件组件。
9.一种具有多个同时语音识别器的装置,包括:
接收至少第一和第二音频信号的至少一个话筒;
至少一个处理器;以及
存储具有包括第一语音识别器和第二语音识别器的处理器可读指令的操作系统的至少一个处理器可读存储器,所述至少一个处理器可读存储器存储具有处理器可读指令的应用,
其中所述至少一个处理器执行所述操作系统和应用的处理器可读指令以便:
响应于所述第一语音识别器接收到所述第一音频信号而从所述第一语音识别器提供对所述操作系统的第一命令,其中所述应用不再接收语音输入直到用户与所述操作系统的对话完成,
响应于所述第二语音识别器接收到所述第二音频信号来从所述第二语音识别器提供对所述应用的第二命令,其中所述第一语音识别器与所述第二语音识别器在至少一部分时间内同时操作。
10.如权利要求9所述的装置,其特征在于,所述第一音频信号包括至少一个保留词,且所述第二音频信号不包括所述至少一个保留词。
11.如权利要求9所述的装置,其特征在于,所述至少一个处理器响应于所述第二命令而执行所述应用的处理器可读指令的至少一部分。
12.如权利要求9所述的装置,其特征在于,所述装置被包括在游戏控制台中,并且所述应用是交互式电子游戏。
13.一种包括用于执行如权利要求1-8中的任一项所述的方法的装置的计算机系统
14.一种具有指令的计算机可读存储介质,所述指令在被执行时使机器执行如权利要求1-8中的任一项所述的方法。

说明书全文

具有多个同时语音识别器的系统

[0001] 背景
[0002] 包括一个或多个计算设备的系统可理解用户语音,用户语音可包括用以执行特定计算任务的指令。计算设备中所包括的话筒可接收用户语音并且可由多个用户访问
[0003] 一些系统依靠按键通话按钮来发起对用户语音的解释。另一些系统只可识别关于系统的特定指令,而其它系统只可识别涉及特定应用的指令。
[0004] 概述
[0005] 本技术包括解释诸如操作系统命令等全局命令以及针对一个或多个应用的由一个或多个用户对开放式话筒说出的命令的启用语音的系统。在该系统中,用户能够容易地在任何时间对焦点应用或操作系统说话,而不管操作系统的状态或者哪一个应用在前台。
[0006] 两个语音识别器可以在系统中同时操作以支持对操作系统命令和应用命令的解释。这两个语音识别器可被存储在第一处理器可读存储器中并且由处理器在计算设备上同时执行。或者,第一语音识别器可被存储在第一处理器可读存储器中且由第一处理器在第一计算设备上执行,而第二语音识别器可被存储在第二处理器可读存储器中且由第二处理器在远程(诸如在或因特网中)的第二计算设备上执行。在一实施例中,第二语音识别器包括用以解释来自用户的自然语言或语音的自然语言软件组件。
[0007] 在各实施例中,操作系统命令至少包括:1)启动或关闭应用;2)多任务命令,诸如在正在运行的应用之间切换;3)社交命令,诸如评级、共享、邀请等;4)在处于焦点的当前应用内或者跨整个系统搜索;5)控制应用设置;6)控制系统设置;7)操纵后台任务的命令,诸如暂停后台音乐或控制语音呼叫或者播放与处于焦点的主应用同时运行的语音聊天
[0008] 除了操作系统命令之外,用户还可说出涉及焦点应用的命令。可用的局部或应用命令的集合取决于焦点应用且由应用预定。例如,交互式电子游戏应用中的应用命令可包括玩游戏动作或者游戏菜单系统内的导航。类似地,媒体应用中的命令可包括走带控制(例如,快进)或者用于浏览应用的可用内容的命令。
[0009] 在各实施例中,操作系统和应用两者都可使用不受限的语音语法并且可随时间修改并改进这些语法。在各实施例中,语音命令被假定为涉及焦点应用,且系统保留的词或词组可被用来标识之后的操作系统命令。或者,用户的串连或更改的节奏也可被用来标识操作系统命令和/或应用命令。例如,说出的保留词以及一个和或多个操作系统命令后的长暂停指示用户已完成说出操作系统命令,并且系统可以默认返回到假定下一语音命令是应用命令(除非另一保留词被说出)。在一实施例中,串连允许使用单个保留词。在一替代实施例中,系统可默认接受操作系统命令。
[0010] 在一实施例中,包括诸如数字电子智能代理等智能代理以使得用户可具有多轮对话或谈话。操作系统保留词或词组可以是代理的名称,或另选地可使用词组,诸如“show me the shortcuts(向我显示快捷方式)”或“system(系统)”。操作系统语音识别器与同一个或多个应用相关联的一个或多个应用语音识别器并行地持续监听保留词或词组。一旦用户已经针对操作系统,一个或多个应用就不再接收语音输入,直到用户与智能代理(或操作系统)的对话完成。结果,与智能代理的交互可涉及多轮谈话。
[0011] 一旦交互完成-因为用户明确解散智能代理、因为谈话自然地完成(即,执行所请求的命令无需来自用户的附加信息)、或者由于非活动超时-输入焦点就自动返回到焦点应用。
[0012] 操作计算设备的方法实施例包括由第一语音识别器接收表示来自话筒的全局命令的信息。表示来自话筒的应用命令的信息可由第二语音识别器接收。第二语音识别器与第一语音识别器同时操作。计算设备响应于表示全局命令的信息和表示应用命令的信息之一来执行计算操作。
[0013] 一装置实施例包括用于接收至少第一和第二音频信号的至少一个话筒以及至少一个处理器。该装置还包括至少一个处理器可读存储器,该至少一个处理器可读存储器存储具有包括第一语音识别器和第二语音识别器的处理器可读指令的操作系统以及具有处理器可读指令的应用。该至少一个处理器执行操作系统的处理器可读指令以便:1)响应于第一语音识别器接收到第一音频信号而从第一语音识别器提供对操作系统的第一命令以及2)响应于第二语音识别器接收到第二音频信号而从第二语音识别器提供对应用的第二命令。
[0014] 在另一实施例中,一个或多个处理器可读存储器包括在被执行时使得一个或多个处理器执行一种用于处理语音的方法的指令。该方法包括接收音频信号以及确定音频信号是否表示对操作系统的指令。该方法还在确定音频信号是否表示对操作系统的指令时同时确定音频信号是否表示对应用的指令。操作系统命令响应于确定音频信号表示对操作系统的指令而输出。应用命令响应于确定音频信号表示对应用的指令而输出。
[0015] 提供本概述以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。该概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在被用来帮助确定所要求保护的主题的范围。
[0016] 附图简述
[0017] 图1是示例性系统架构的高级框图
[0018] 图2是在至少两个语音识别器处操作的软件架构的高级框图。
[0019] 图3A是具有两个语音识别器的示例性操作系统的高级框图。
[0020] 图3B是具有两个语音识别器的示例性操作系统和交互式电子游戏操作系统的高级框图。
[0021] 图3C是具有两个语音识别器的系统的高级框图,这些语音识别器中的至少一个位于远程计算设备上。
[0022] 图4-5A-C是识别应用命令和操作系统命令的示例性方法的流程图
[0023] 图6是示例性游戏和媒体系统的立体图。
[0024] 图7是图7中所示的游戏和媒体系统的组件的示例性功能框图。
[0025] 图8是示例性计算设备。
[0026] 详细描述
[0027] 在系统、计算设备、方法和处理器可读存储器中包括解释诸如操作系统命令等说出的全局命令以及应用命令两者的语音识别。一个或多个用户可以向计算设备的开放式话筒说出可由同时操作的至少两个语音识别器解释的命令。第一语音识别器解释操作系统命令,而第二语音识别器解释应用命令。系统命令可至少包括打开和关闭应用,而应用命令可至少包括游戏命令或菜单内导航。可使用保留词来标识命令是针对操作系统还是应用的。用户的节奏也可指示语音是全局命令还是应用命令。语音识别器可包括解释来自用户的自然语言或语音的自然语言软件组件。在一实施例中,具有自然语言软件组件的语音识别器位于远程计算设备中,在所谓的云中。
[0028] 以用户友好的方式实现这一系统出于至少多个原因而是有挑战性的。操作系统命令和应用命令可能完全互相冲突(例如,应用和操作系统两者都可包括语音命令“go home(去往主页)”,但具有不同的含义)。
[0029] 而且,对操作系统命令和应用命令的解释可能互相冲突,特别是在一个或这两个语音识别器支持自然语言理解(例如,自然语言词组(如“please continue(请继续)”)可以在这两个上下文中都具有含义)时。
[0030] 甚至当操作系统命令和应用命令本身不冲突时,每一上下文中的不同命令之间也可能存在音素相似性,这导致识别出的事件中的歧义(例如,“accept this one(接受这个)”和“except this one(排除这个)”)。
[0031] 只要出现冲突就在用户接口(UI)处显示消歧使系统感觉上是缓慢且麻烦的,特别是在此类冲突频繁地出现时。
[0032] 当操作系统和应用使用不兼容的语音技术(并因此系统中没有一部分理解这两个语法的语义)时,在UI处显示消歧甚至可能在技术上是不可能的。
[0033] 图1是具有同时操作的多个语音识别器102a-c的系统或装置100的高级框图。在一实施例中,计算设备107包括同时操作的语音识别器102a-b。语音识别器102a用于解释诸如操作系统命令之类的由用户向话筒111说出的全局命令。语音识别器102b用于解释由用户向话筒111说出的焦点应用命令,如在本文详细描述的。在一替代实施例中,可以使用多个话筒。在另一实施例中,计算设备101包括由计算设备107通过网络105访问的语音识别器102c(也可以与语音识别器102a和/或102b同时操作)。
[0034] 在各实施例中,诸如操作系统命令等全局命令至少包括:1)启动或关闭应用;2)多任务命令,诸如在正在运行的应用之间切换;3)社交命令,诸如评级、共享、邀请等;4)在处于焦点的当前应用内或者跨整个系统搜索;5)控制应用设置;6)控制系统设置;7)操纵后台任务的命令,诸如暂停后台音乐或控制语音呼叫或者播放与处于焦点的主应用同时运行的语音聊天。
[0035] 除了操作系统命令之外,用户还可说出涉及焦点应用的命令。可用的应用命令的集合取决于焦点应用且由应用确定。例如,交互式电子游戏应用中的命令可包括玩游戏动作或者游戏菜单系统内的导航。类似地,媒体应用中的命令可包括走带控制(例如,快进)或者浏览应用的可用内容的命令。
[0036] 在一实施例中,用户说出的所有单词或词组被假定为默认涉及焦点应用。保留词或词组可用于指示之后说出的单词或词组涉及操作系统(例如,“shortcuts(快捷方式)”、“system(系统)”、“computer(计算机)”)。用户的节奏(或串连)也可用于标识涉及操作系统和/或应用的单词或词组,如本文详细描述的。
[0037] 在一替代实施例中,操作系统可以是默认的,其中用户说出的所有单词或词组都被假定为默认涉及操作系统。类似地,在默认使用焦点应用时,可使用保留词(或用户的节奏)来针对应用而不是默认的操作系统。
[0038] 在另一实施例中,全局命令(或操作系统命令)可将焦点切换到作为该全局命令的副作用的应用,而不依靠单独的保留词或节奏区分。例如,全局命令“Computer go to web browser(计算机去往web浏览器)”可启动web浏览器应用并且还自动地将输入焦点定向到web浏览器应用以用于后续语音命令。
[0039] 在一实施例中,计算设备107包括可以与用户通信的智能代理210,如图2所示。在一实施例中,智能代理是数字电子智能代理。在一实施例中,保留词或词组可是智能代理210的名称。语音识别器102a与负责应用命令的语音识别器102b和/或102c并行地持续监听保留词或词组。一旦用户已经针对智能代理210(或操作系统),应用就不再接收语音输入,直到用户与操作系统的对话完成。结果,与智能代理210的交互可涉及多轮谈话。一旦交互完成-因为用户明确解散智能代理210、因为谈话自然完成(即,执行所请求的命令无需来自用户的附加信息)、或者由于非活动超时-输入焦点就自动返回到焦点应用。
[0040] 在一实施例中,系统100在开放式话筒环境(例如,避免按键通话交互的实况房间语音识别系统)中,且保留词(例如,“computer”)被用来启用对操作系统命令的语音识别。为了避免需要用户说出第二保留词来在应用命令与操作系统命令之间消歧,系统100可基于用户语音的节奏来消歧。具体而言,系统100将串连在保留词之后的单词解释为操作系统命令,同时允许将相同的保留词用于非串连的应用命令。例如:
[0041] “Computer go home(计算机去往主页)”是完全串连的全局命令并且由语音识别器102a识别。
[0042] “Computer…”“…show map(显示地图)”通过使用语音识别器102a来将第一个“computer”识别为保留词并且然后语音识别器102b识别出应用命令“…show map”来识别。
[0043] “Computer…”“…shortcuts…”“…go home”是由语音识别器102a识别的、依靠明确的第二保留词“shortcuts”来从默认的应用命令切换到操作系统命令的非串连的操作系统命令。
[0044] 在系统100中,用户能够容易地在任何时间对应用或操作系统说话,而不管操作系统的状态或者哪一个应用在前台。应用和操作系统两者都可使用不受限的语音语法/命令并且可随时间修改并改进这些语法。在一实施例中,应用不使用由操作系统使用的保留词或词组(以上示例中的“Computer”和“shortcuts”)。
[0045] 在一实施例中,计算设备101在距计算设备107的远程位置处并且可被包括在所谓的云中。在一替代实施例中,计算设备107不通过网络105通信,且具体而言不与计算设备101中的语音识别器102c通信。计算设备101和107可通过诸如因特网等网络105来通信,如本文描述的。在其它实施例中,计算设备110通过网络105与计算设备101和107通信。
[0046] 在一实施例中,计算设备107被包括在本文描述且在图8和9中示出的视频游戏控制台和/或媒体控制台中。在一替代实施例中,计算设备101和/或107是如图8所示且在本文描述的计算设备。在替代实施例中,计算设备107至少可以被包括在蜂窝电话、移动设备、嵌入式系统、膝上型计算机、台式计算机、服务器和/或数据中心中。在一实施例中,计算设备101是服务器和/或数据中心。
[0047] 在一实施例中,计算设备101响应于来自计算设备107的音频、上下文和查看请求104来向计算设备107提供语音输出和查看结果103。在一实施例中,计算设备107可以是计算设备101的客户机。
[0048] 类似地,计算设备110可以向计算设备107提供类似信息。在一实施例中,计算设备110和107是对等体,并且传送音频、上下文和查看请求104,如同在一实施例中那样。在计算设备101、107和110的对等(P2P)实施例中,每一计算设备可担当另一计算设备的客户机或服务器。
[0049] 在替代实施例中,系统100包括多得多或少得多的计算设备和/或服务器来提供并接收信息。在各实施例中,计算设备101、计算设备110和/或计算设备107对应于计算设备1800,该计算设备1800具有图8所示并在本文中描述的特定硬件组件。
[0050] 在各实施例中,计算设备101、107和110包括存储具有如本文描述的处理器可读指令的软件组件的一个或多个处理器可读存储器。在各实施例中,计算设备101、107和110包括执行处理器可读指令的一个或多个处理器。
[0051] 在一实施例中,网络105可以是单独或组合的因特网、广域网(WAN)或局域网。在各实施例中,计算设备107被包括在另一网络中。信息可以在网络105中通过导线和/或无线地传输。
[0052] 图2是同时操作至少两个语音识别器102a-b的示例性软件架构200的高级框图。操作系统(OS)205包括用于处理系统命令的语音识别器102a以及用于处理焦点应用命令的语音识别器102b。在一实施例中,OS 205包括与用户通信的智能代理210。智能代理210可使用自然语言来与用户通信,其中使用多轮谈话或对话。在各实施例中,语音识别器102b可以与一个或多个应用211-213联用。在一实施例中,可使用更多语音识别器。在一实施例中,应用211-213可包括一个或多个交互式电子游戏。
[0053] OS 205和应用211-213可使用不同的技术来开发,包括在远程计算设备上(诸如在所谓的云中)或本地计算设备上运行的语音识别技术,并且可包括自然语言理解软件组件和/或更简单的命令和控制语法软件组件的组合。在各实施例中,应用211-213可使用各种语音中间件技术来实现或者可利用OS 205提供的语音识别技术。
[0054] 在一实施例中,OS 205和应用211-213包括软件组件中的一个或多个。在一个实施例中,软件组件可包括软件程序、软件对象、软件功能、软件子例程、软件方法、软件实例、脚本和/或代码片段,单独地或组合地。例如,OS 205包括以下各项中的一个或多个:用户接口(UI)206、进程管理201、存储器管理202、输入/输出(I/O)设备管理203、文件管理204、网络管理208和保护207。以下描述了可由各种OS软件组件来执行的一个或多个示例功能。在替换实施例中,可使用以下描述的更多或更少软件组件和/或软件组件的功能。
[0055] 在各实施例中,OS 205的至少部分被存储在处理器可读存储器中。在一实施例中,OS 205的至少各部分被存储在图1所示的计算设备107的存储器中。
[0056] 进程管理201负责创建并删除用户和系统进程。进程管理201还可负责进程的挂起和恢复。进程管理201还可负责进程的同步和通信。进程管理201还可负责死处理。
[0057] 存储器管理202负责跟踪各种类型的存储器中的哪个部分存储器当前被特定软件组件或应用使用。存储器管理202还决定在存储器空间变得可用时,哪些进程被加载到存储器中。存储器管理还按需分配存储器空间和解除存储器空间的分配。
[0058] I/O设备管理203负责管理I/O设备。在一个实施例中,特定硬件的特点向用户隐藏。在一个实施例中,设备驱动器知道特定设备的特点。例如,I/O设备管理203可负责盘管理功能,诸如空闲空间管理、存储器分配、碎片、移除和头部调度。
[0059] 文件管理204负责创建并删除文件和目录。文件管理204可支持分层文件系统。文件管理204还可将文件备份到次级存储器上。
[0060] 网络管理208负责与网络通信,包括提供连接/路由方法。网络管理208还可负责数据/进程迁移到其他计算设备。
[0061] 保护207负责控制软件组件、进程,和/或用户的对计算设备的资源的访问。例如,保护207负责控制对诸如中央处理单元(CPU)、周期、存储器、文件,和/或I/O设备等资源的访问。保护207还负责用户认证和通信。
[0062] 用户接口206向用户提供语音、自然语言、特征和/或图形用户接口,并负责接收输入并向用户提供输出。
[0063] 在一个实施例中,用户可以通过姿势、触摸或声音向控制台1002(如本文详细描述的)录入输入。在一个实施例中,光学I/O接口1135接收并转换用户的姿势。在一实施例中,控制台1002包括自然用户接口(NUI)作为接收并转换来自用户的语音和姿势输入的用户接口206。在一实施例中,前面板子部件1142包括触摸表面和话筒以用于接收并转换用户的触摸或语音(诸如语音命令),如本文详细描述的。在一实施例中,用户接口206包括如本文描述的语音识别器102a-b和/或智能代理210,用于转换从一个或多个用户提供给控制器1002的话筒的说出的操作系统命令和应用命令。
[0064] 图3A是具有两个语音识别器(诸如系统SR 301和应用SR 302)的示例性OS 300的高级框图。在各实施例中,系统音频310和应用音频311由如图3A-C所示的缓冲器305和306接收。在一实施例中,系统音频310和应用音频311是表示从如图1所示的话筒111接收到的用户语音的信号。在一替代实施例中,系统和应用音频流311和312是表示从如图6所示的多个话筒1011接收到的用户语音的信号。在一替代实施例中,单个音频信号由缓冲器305和306从单个话筒接收。
[0065] 缓冲器305和306向系统SR 301和应用SR 302输出音频流312和313。音频流312和313是系统音频310(或用户语音)和应用音频311(或用户语音)的数字多位波表示。
[0066] 系统SR 301接收音频流312并将音频流312解释或转换为文本并且然后搜索最接近地匹配该音频流的文本。系统SR 301然后向系统UI 303输出所推荐的操作系统命令文本或置信平或置信百分比来作为结果314。
[0067] 在一实施例中,系统SR 301包括应用编程接口(API)301a、语音识别引擎301b和声学模型301c。
[0068] API 301a是指定软件组件如何彼此交互的应用编程接口。在一实施例中,API 301a以及本文描述的其它API是通常包括用于例程、数据结构、对象类和变量的规范的库。
在一实施例中,API 301a包括允许使用系统SR 301内的语音识别和语音合成的语音API。
[0069] 具有声学模型301c的语音识别引擎301b分析用户语音的声音并将其转换成音素,即语音的基本元素。英语包含大约50个音素。
[0070] 在一实施例中,声学模型301c移除噪声和不需要的信息,诸如音量变化。然后,使用数学计算,声学模型301c将音频数据精简为频谱(声音的音调),分析音频数据,并将单词转换成音素的数字表示。
[0071] 在一实施例中,语音识别引擎301b包括语言模型。语言模型分析用户语音的内容。它将音素组合与其数字词典(英语中的最常见单词的巨大数据库)中的单词进行比较。在一实施例中,词典包含大约150000个单词。语言模型快速决定用户说出了哪些单词。
[0072] 在一实施例中,语言模型中的三元语法被用来分析上下文并在发音相同的单词(诸如“there”、“their”和“they're”)之间进行区分。在许多情况下,语音识别引擎301b可通过查看一单词之前的两个单词来识别该单词。例如,当用户说例如“let's go there”时,“let's go”帮助软件决定使用“there”而不是“their”。
[0073] 应用SR 302具有与系统SR 301类似的组件。应用SR 302接收音频流313并将音频流313解释或转换为文本并且然后搜索最接近地匹配该音频流的文本。应用SR 302然后向应用304输出所推荐的应用命令文本或置信水平或置信百分比来作为结果315。
[0074] 在一实施例中,应用SR 302包括应用编程接口(API)302a、语音识别引擎302b和声学模型302c。
[0075] API 302a是指定软件组件如何彼此交互的应用编程接口。在一实施例中,API 302a是通常包括用于例程、数据结构、对象类和变量的规范的库。在一实施例中,API 302a包括允许使用用于SR 302内的语音识别和语音合成的语音API。
[0076] 具有声学模型302c的语音识别引擎302b分析用户语音的声音并将其转换成音素,如本文描述的。
[0077] 在一实施例中,声学模型302c移除噪声和不需要的信息,诸如音量变化。然后,使用数学计算,声学模型302c将音频数据精简为频谱(声音的音调),分析音频数据,并将单词转换成音素的数字表示。
[0078] 在一实施例中,语音识别引擎302b包括如本文描述的语言模型。
[0079] 系统UI 303确定系统命令是否已被说出并输出相关联的系统命令。在一实施例中,系统UI 303包括API 303a、共享命令中介303b和系统命令303c。
[0080] 在一实施例中,API 303a是如本文描述的应用编程接口。
[0081] 共享命令中介303b将结果314中的所推荐的操作系统命令与系统命令303c中的多个保留词和预定操作系统命令或其列表进行比较。当所推荐的操作系统命令中的保留词匹配系统命令303c中的保留词时,共享命令中介303b尝试将该保留词之后的一个或多个所推荐的操作系统命令与系统命令303c中的操作系统命令进行匹配。当出现匹配时,在各实施例中系统UI 303提供相关联的操作系统命令作为cmnd 316和318。
[0082] 在一实施例中,共享命令中介303b还负责确定应用SR 302何时脱离和再结合。例如,当操作系统命令由计算设备提供和处理时,应用SR 302脱离直到操作系统命令已被处理。共享命令中介303b还负责确定用户语音的节奏或者单词或词组之间的时间段(或静默),以使得可以串连一系列操作系统命令,如本文描述的。
[0083] 语音304包括API 304a、应用代码304b和应用命令304c。API 304a是如本文描述的应用程序接口。应用代码304b是用于执行诸如交互式电子游戏等应用的处理器可读指令。应用命令304c包括多个预定应用命令或其列表。
[0084] 在一实施例中,应用代码304b将被输出为结果315的应用文本与应用命令304c中的应用命令进行比较。当标识出有效的应用命令时,应用304(具体而言是应用代码304b)执行该应用命令。在一实施例中,应用304还可向其它软件组件输出应用命令,诸如向如图3A-C所示的应用SR 302输出的命令(cmnd)317。
[0085] 图3B是具有两个语音识别器的示例性操作系统和交互式电子游戏操作系统的高级框图。在图3B所示的实施例中,OS 300如本文描述且在图3A中示出的那样类似地操作。在图3B所示的实施例中,应用304在诸如交互式电子游戏操作系统等应用OS 350内执行。
[0086] 图3C是具有两个语音识别器的系统的高级框图,这些语音识别器中的至少一个位于远程计算设备101上(在所谓的云中)。图3C类似于图3A,具有缓冲器305-306、系统SR 301、应用SR 302、系统UI 302和应用304。另外,OS 300包括与NL SR服务460通信的自然语言单元(NLU)客户机461和主页462。在一实施例中,NL SR服务460包括存储在计算设备107上并在该计算设备上执行的处理器可读指令。在一实施例中,NL SR服务460包括用于解释来自用户的自然语言语音的语音识别器,该语音识别器至少在至少系统SR 301操作以解释来自用户的操作系统命令的时间中的一部分处执行。
[0087] 在一实施例中,应用SR 302将表示用户语音的音频流313传递至NLU客户机461。在一实施例中,用户语音可以是自然语言的形式,诸如查询“Find funny movies(查找有趣的电影)”。在一实施例中,NL SR服务460将在搜索后返回有趣电影的列表并且在来自音频语音输出的文本版本和/或朗读版本中提供有趣电影的列表。NL SR服务460可包括诸如对话(代理)460d等将允许用户与智能代理进行多轮谈话的数字电子智能代理。例如,智能代理可响应于该查询来询问:“During what time period are you interested?90s?(您对在什么时间段期间感兴趣?90年代?)”。在一替代实施例中,数字电子智能代理可以是主页462中的代理462c。
[0088] 在一实施例中,NLU客户机461担当NL SR服务460的客户机。NLU客户机461包括API 461a、音频终点指向461b、编码461c和上传/下载(Up/Dn)461d。
[0089] API 461a是如本文描述的应用可编程接口。
[0090] 音频终点指向461b负责标识音频流313的终点,诸如问题的终点。
[0091] 编码461c对从音频终点指向461b输出的音频流31(诸如问题)的一部分进行编码,并且上传/下载使得音频流313的这部分准备好被发送到主页462并最终发送到NL SR服务460。
[0092] 主页462包括API 462a、上下文中介462b、代理462c以及搜索462d。家庭462负责与NL SR服务460通信。
[0093] API 462a是如本文描述的应用程序接口。
[0094] 内容中介462b负责将音频流313的这部分的上下文信息提供给NL SR服务460,如音频/上下文471所示。在一实施例中,音频/上下文471包括音频流313的一部分、音频流313的这部分的上下文以及查看请求。在一实施例中,查看请求指示用户是否想要来自NL SR服务460的输出472被显示为朗读输出。
[0095] 在一实施例中,代理462c是使用户能够具有多轮自然语言谈话的数字电子智能代理。
[0096] 搜索462d负责在诸如远程计算设备110等远程计算设备处完成搜索。例如,当用户询问“Find funny movies”并且NL SR服务460的输出472包括结果的朗读版本(有趣电影的朗读列表)以及所显示的文本(有趣电影的文本列表)时,搜索462d可以向在远程计算设备处的数据库搜索所得电影以使得名称或电影可被提供给具有查询的用户。
[0097] NL SR服务460是具有存储在处理器可读存储器中的处理器可读指令的自然语言软件组件,这些指令由处理器在计算设备101上执行以使得音频流服务的自然语言解释被提供给客户机,诸如主页462和NL客户机461。响应于从客户机接收到音频/上下文471,NL SR服务460提供包括查看结果和语音输出的输出472。
[0098] NL SR服务460包括API 460a、语音识别引擎460b、声学模型460c、对话(代理)460d和语音输出460e。
[0099] API 460是如本文描述的应用可编程接口。
[0100] 在一实施例中,语音识别引擎460b是自然语言语音识别引擎。
[0101] 声学模型460c是与语音识别引擎460b联用的声学模型。
[0102] 对话(代理)460d负责向用户提供对话。在一实施例中,对话(代理)460d是向用户提供多轮谈话的数字电子智能代理。
[0103] 语音输出460c响应于接收到音频、上下文和查看请求音频/上下文471而提供包括查看结果和语音输出的输出472。例如,语音输出460e响应于用户说出查询:“Find funny movies”而以文本和朗读版本两者提供有趣电影的列表作为输出472。
[0104] 图4-5C是示出在至少两个语音识别器处操作以解释包括操作系统命令和应用命令的用户语音的示例性方法的流程图。在各实施例中,图4-5C中所示的步骤表示硬件(例如,处理器、存储器、电路)、软件(例如,OS、应用、驱动器、机器/处理器可执行指令)或用户的操作个体或其组合。如本领域普通技术人员将理解的,各实施例可以包括比示出的更多或更少的步骤。
[0105] 图5A是识别用户说出的应用命令和全局命令的示例性方法500的流程图。在一实施例中,方法500由图1所示的计算设备107(具体而言由语音识别器102a-b)执行。
[0106] 步骤501示出由诸如语音识别器102a等第一语音识别器接收表示来自诸如图1所示的话筒111等话筒的全局命令的信息。在一实施例中,全局命令可以是操作系统命令。在一实施例中,该信息包括表示用户的全局命令的音频信号。
[0107] 步骤502示出由诸如语音识别器102b等语音识别器接收表示来自诸如话筒111等话筒的应用命令的信息。第二语音识别器与第一语音识别器同时操作。在一实施例中,第二语音识别器可位于远程计算设备处,诸如图1所示的计算设备101中的语音识别器102c。远程计算设备可被认为处在所谓的云中。例如,语音识别器102c可包括自然语言软件组件,该组件解释来自用户的自然语言并通过自然输出或语音来通信。
[0108] 步骤503示出由诸如计算设备107等计算设备响应于表示全局命令的信息和表示应用命令的信息之一来执行操作。应用命令和全局命令(诸如操作系统命令)至少包括本文描述的命令。在各实施例中,应用可以在系统操作系统或应用操作系统中运行或执行,如图3A-B所示。
[0109] 在其它实施例中,步骤501-503由至少图2-3C和6-8所示的示例性软件组件和硬件执行。例如,方法500可由图6-7所示的控制台1002或者图8中所示的计算设备1800执行。
[0110] 图5B是识别对操作系统的第一命令以及对诸如交互式电子游戏等应用的第二命令的示例性方法510的流程图。在一实施例中,方法510由图1所示的计算设备107(具体而言由语音识别器102a-b)执行。
[0111] 步骤511示出响应于第一语音识别器接收到第一音频信号而从第一语音识别器提供对操作系统的第一命令。在一实施例中,第一语音识别器是图3A-C所示的系统SR 301。在一实施例中,音频信号是在图3A-C中示出的音频流312。在一实施例中,第一命令包括如至少在本文描述的操作系统命令。
[0112] 步骤512示出响应于第二语音识别器接收到第二音频信号而从第二语音识别器提供对应用的第二命令。第一语音识别器与第二语音识别器在至少一部分时间内同时操作。在一实施例中,第二语音识别器是图3A-C所示的应用SR 302。在一替代实施例中,第二语音识别器可位于远程计算设备处,诸如图1所示的计算设备101中的语音识别器102c或NL SR服务460。远程计算设备可被认为处在所谓的云中。在一实施例中,音频信号是在图3A-C中示出的音频流313。在一实施例中,第二命令包括如至少在本文描述的应用命令。
[0113] 在其它实施例中,步骤511-512由至少图2-3C和6-8所示的示例性软件组件和硬件执行。例如,方法510可由图6-7所示的控制台1002或者图8所示的计算设备1800执行。
[0114] 图5C是至少通过存储在处理器可读存储器上的指令来输出操作系统命令和/或应用命令的示例性方法520的流程图,这些指令由至少一个处理器响应于用户的语音来执行。在一实施例中,方法520由图1所示的具有执行存储在存储器上的处理器可读指令的处理器的计算设备107执行,具体而言由语音识别器102a-b执行。
[0115] 步骤521示出接收音频信号。在各实施例中,系统音频310和应用音频311由如图3A-C所示的那样接收。在一实施例中,系统和应用音频信号表示从如图1所示的话筒111接收到的用户语音。在一替代实施例中,接收单个音频信号。
[0116] 步骤522示出确定音频信号是否表示对操作系统的指令。在一实施例中,语音识别器102a和系统UI 303执行该功能。
[0117] 步骤523示出确定音频信号是否表示对应用的指令。在一实施例中,该确定在确定音频信号是否表示对操作系统的指令时同时执行。在一实施例中,语音识别器102b和应用304执行该功能。在替代实施例中,NL SR服务460和应用304执行该功能。在一实施例中,NL SR服务460可位于图1和3C所示的远程计算设备101。远程计算设备可被认为处在所谓的云中。
[0118] 步骤524示出响应于确定音频信号表示对操作系统的指令而输出操作系统命令。在一个实施例中,系统UI 303执行该功能。在一实施例中,操作系统命令至少在本文详细描述。
[0119] 步骤525示出响应于确定音频信号表示对应用的指令而输出应用命令。在一实施例中,应用304执行该功能。在一实施例中,应用命令至少在本文详细描述。
[0120] 在其它实施例中,步骤521-525由至少图2-3C和6-8所示的示例性软件组件和硬件执行。例如,方法520可由图6-7所示的控制台1002或者图8所示的计算设备1800执行。
[0121] 图4是提供操作系统命令和/或应用命令的示例性方法400的流程图。在一实施例中,方法400由如图3A所示的执行具有处理器可读指令的OS 300的计算设备107执行,具体而言由语音识别器102a-b执行。在以替代实施例中,应用OS 350也由如图3B所示的计算设备107执行。在又一实施例中,具有处理器可读指令的NL SR服务460由计算设备101执行。
[0122] 步骤401和402示出接收针对操作系统的音频信号以及针对应用的音频信号。在各实施例中,系统音频310和应用音频311由如图3A-C所示的那样接收。在一实施例中,系统和应用音频信号表示从如图1所示的话筒111接收到的用户语音。在一替代实施例中,接收单个音频信号。
[0123] 步骤403示出将针对操作系统的音频转换成文本。在一实施例中,如图3A-C所示的系统SR 301执行该功能。
[0124] 步骤404示出将针对应用的音频转换成文本。在一实施例中,如图3A-B所示的应用SR 302执行该功能。在一实施例中,NL SR服务460在应用音频信号311通过网络105传递至在计算设备101上执行的NL SR服务460时执行该功能。
[0125] 步骤405示出基于声学模型来输出针对操作系统的所得文本。在一实施例中,包括API 301a、语音识别引擎301b和声学模型301c在内的系统SR 301执行该功能,如图3A-C所示。具体而言,所推荐的操作系统命令文本和置信水平或置信百分比作为结果314被输出到系统UI 303。
[0126] 步骤406示出基于声学模型来输出针对应用的所得文本。在一实施例中,包括API 302a、语音识别引擎302b和声学模型302c在内的系统SR 302执行该功能,如图3A-B所示。在其中转换自然语言且将结果传递回到用户的实施例中,在计算设备101上执行的NL SR服务
460执行该功能。在一实施例中,所推荐的应用命令文本和置信水平或置信百分比作为结果
314被输出到在OS 300中执行的应用304。在一替代实施例中,所推荐的应用命令文本和置信水平或置信百分比作为结果314被输出到在应用OS 350中执行的应用304。
[0127] 步骤407示出确定作为结果314输出的操作系统文本是否包括保留词或者用户节奏中是否暗示附加操作系统命令。在一实施例中,系统UI 303将作为结果314输出的操作系统文本与包括多个保留词或其列表的系统命令303c中的诸如“computer”等保留词进行比较。当标识出保留词时,确定操作系统文本包括保留词之后的操作系统命令。默认地,来自音频流所解释的所有命令都被假定为是应用命令,除非检测到保留词。当检测到保留词时,系统UI 303输出使应用SR 302脱离分析和输出结果的命令。
[0128] 系统UI 303(具体而言是共享命令中介303b)还确定保留词之后的单词是否是系统命令或者串连的一系列系统命令-每一单词之间的时间段相对较短的一系列单词。共享命令中介303b还确定单词或词组之间的时间量或时间段以确定是多个系统命令被串连还是在自从最近说出的操作系统命令以来出现预定时间或静默量后应用命令可以跟随在操作系统命令之后。在各实施例中,共享命令中介303b还标识在操作系统命令完成或者与数字谈话智能代理的谈话完成后是否出现到应用命令默认设置的返回。
[0129] 步骤408示出向操作系统提供操作系统命令。在一实施例中,系统UI 303确定一个或多个操作系统命令是否已被说出,并输出相关联的操作系统命令,如图3A-C中示出的命令316和318所示。
[0130] 步骤409示出向应用提供应用命令。在一实施例中,应用304(具体而言是应用代码304b)将作为结果315输出的应用文本与包括多个预定应用命令或其列表的应用命令304c中的应用命令进行比较。当标识出有效的应用命令时,应用304(具体而言是应用代码304b)执行该应用命令。在一实施例中,应用304还可向其它软件组件输出应用命令,诸如向如图
3A-3C所示的应用SR 302输出的命令(cmnd)317。
[0131] 在一替代实施例中,在计算设备101和主页462上执行的NL SR服务460以及NLU客户机461同样可以向应用提供应用命令。
[0132] 在其它实施例中,步骤401-409由至少图2-3C和6-8所示的示例性软件组件和硬件执行。例如,方法400可由图6-7所示的控制台1002或者图8所示的计算设备1800执行。
[0133] 在一个实施例中,计算设备107可以是但不限于是视频游戏和/或媒体控制台。图6现在将被用来描述示例性视频游戏和媒体控制台,或者更一般而言,将被用来描述包括游戏和媒体控制台的示例性游戏和媒体系统。对图6的以下讨论旨在提供对可以实现本文中所提出的概念的合适计算设备的简要概括描述。可以理解,图6的系统仅仅作为示例。在其他示例中,本文中所述的各实施例可以经由驻留在客户机计算设备上并由客户机计算设备执行的浏览器应用或软件应用使用各种客户机计算设备来实现。如图6所示,游戏和媒体系统1000包括游戏和媒体控制台(此后被称为“控制台”)1002。一般而言,控制台1002是一种类型的客户机计算设备。控制台1002被配置成适配一个或多个无线控制器,如由控制器10041和控制器10042所表示的。控制台1002配备有内部硬盘驱动器和支持如光学存储盘
1008所表示的各种形式的便携式存储介质的便携式介质驱动器1006。合适的便携式存储介质的示例包括DVD、CD-ROM、游戏盘等。控制台1002还包括用于容纳可移动闪存型存储器单元1040的两个存储器单元卡插槽10251和10252。控制台1002上的命令按钮1035启用和禁用无线外围支持。
[0134] 如图6所描绘的,控制台1002还包括用于与一个或多个设备进行无线通信的光学端口1030和支持针对附加控制器或其他外围设备的有线连接的两个USB端口10101和10102。在某些实现中,可修改附加端口的数量和安排。电源按钮1012和弹出按钮1014也位于控制台1002的正面。电源按钮1012被选择来对游戏控制台供电,且还可以提供对其它特征和控件的访问,而弹出按钮1014交替地打开和关闭便携介质驱动器1006的托盘以允许光学存储盘1008的插入和取出。
[0135] 控制台1002经由A/V接口电缆1020连接到电视机或其他显示器(如监视器1050)。在一个实现中,控制台1002配备有被配置成用于使用A/V电缆1020(例如,适用于耦合到高清晰度显示器1050或其它显示设备上的高清晰度多媒体接口“HDMI”端口的A/V电缆)来进行内容受保护的数字通信的专用A/V端口。电源电缆1022向游戏控制台供电。控制台1002可进一步被配置成具有如电缆或调制解调器连接器1024所表示的宽带能以便于访问诸如因特网等网络。还可通过诸如无线保真(Wi-Fi)网络等宽带网络来无线地提供宽带能力。
[0136] 每一控制器1004经由有线或无线的接口耦合到控制台1002。在示出的实现中,控制器1004是USB兼容的并且经由无线或USB端口1010耦合到控制台1002。控制台1002可配备各种用户交互机制中的任何一种。在图6中示出的示例中,每个控制器1004都配备有两个拇指摇杆(thumb stick)10321和10322、D垫1034、按钮1036以及两个触发器1038。这些控制器仅为代表性的,且其他已知游戏控制器可替换或被添加到图6中示出的那些控制器。
[0137] 在一个实施例中,用户可以通过姿势、触摸或声音向控制台1002键入输入。在一个实施例中,光学I/O接口1135接收并转换用户的姿势。在另一个实施例中,控制台1002包括自然用户接口(NUI)以接收并转换来自用户的声音和姿势输入。在一个替换的实施例中,前面板子部件1142包括触摸表面和话筒以用于接收并转换用户的触摸或声音(诸如声音命令)。
[0138] 在一实施例中,多个话筒1011可以插入USB 1010端口以便向控制台1002提供表示诸如操作系统命令和/或应用命令等用户语音的四通道信号。在一替代实施例中,可以使用单个话筒。在一实施例中,四个16kHz 24位音频信号从多个话筒1011提供至USB端口1010以及至少一个音频流水线。在一实施例中,该至少一个音频流水线包括用于处理至少一个音频信号的集成电路和/或处理器可读指令。在一实施例中,该至少一个音频流水线减少与至少一个音频信号相关联的噪声,诸如其它用户说话或者来自交互式电子游戏应用的音频。在一实施例中,一个音频流水线用于表示操作系统命令的音频信号,单独的第二音频流水线用于表示应用命令的音频信号。在一实施例中,来自四个话筒的四个音频信号被输入到这两个音频流水线。每一音频流水线然后向如图3所示的OS 300输出单通道音频信号作为系统音频310和应用音频311。在一实施例中,音频流水线至少包括如图7所示的音频处理单元224。
[0139] 在一个实现中,还可以将存储器单元(MU)1040插入到控制器1004中以提供附加和便携的存储。便携MU允许用户存储游戏参数以供在其它控制台上玩时使用。在此实现中,每一控制器被配置成适应两个MU 1040,但是也可采用多于或少于两个MU。
[0140] 游戏和媒体系统1000通常被配置成玩存储在存储器介质上的游戏,以及被配置成下载并玩游戏、和被配置成从电子和硬介质来源再现预先录制的音乐和视频。使用不同的存储供应,可从硬盘驱动器、从光存储盘介质(例如,1008)、从在线源、或从MU 1040播放项。游戏和媒体系统1000能够播放的媒体的类型的示例包括:
[0141] 从CD、DVD或高容量盘、从硬盘驱动器、或从在线来源播放的游戏项或应用。
[0142] 从便携介质驱动器1006中的CD、从硬盘驱动器或固态盘上的文件(例如,媒体格式的音乐)或从在线流送来源播放数字音乐。
[0143] 从便携介质驱动器1006中的DVD盘、从硬盘驱动器上的文件(例如,活动流送格式(Active Streaming Format))或从在线流传送来源播放的数字音频/视频。
[0144] 在操作期间,控制台1002被配置成接收来自控制器1004的输入并在显示器1050上显示信息。例如,控制台1002可在显示器1050上显示用户接口以便允许用户使用控制器1004来选择交互式电子游戏并且显示状态可解性信息,如以下将描述的。
[0145] 图7是游戏与媒体系统1000的功能框图并且更详细地示出游戏与媒体系统1000的各功能组件。控制台1002具有CPU 1100以及促成处理器访问各种类型存储器的存储器控制器1102,各种类型存储器包括闪存ROM 1104、RAM 1106、硬盘驱动器或固态驱动器1108,以及便携式媒体驱动器1006。在替代实施例中,可使用其它类型的易失性和非易失性存储器技术。在一种实现中,CPU 1100包括1级高速缓存1110和2级高速缓存1112,这些高速缓存临时存储数据并因此减少对硬盘驱动器1108进行的存储器访问周期的数量,从而提高了处理速度和吞吐量。
[0146] CPU 1100、存储器控制器1102以及各种存储器经由一个或多个总线互连。在此实现中所使用的总线的细节对理解此处所讨论的关注主题不是特别相关。然而,应该理解,这样的总线可以包括串行和并行总线、存储器总线、外围总线、使用各种总线体系结构中的任何一种的处理器或局部总线中的一个或多个。作为示例,这样的架构可以包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线、以及也称为夹层总线的外围部件互连(PCI)总线。
[0147] 在一个实现中,CPU 1100、存储器控制器1102、ROM 1104以及RAM 1106被集成到公用模1114上。在此实现中,ROM 1104被配置为经由PCI总线和ROM总线(两者都没有示出)连接到存储器控制器1102的闪存ROM。RAM 1106被配置为多个双倍数据速率同步动态RAM(DDR SDRAM)或更快数据速率DRAM模块,它们被存储器控制器1102经由分开的总线被独立地控制。硬盘驱动器1108和便携式媒体驱动器1006被示为通过PCI总线和AT附加(ATA)总线1116连接到存储器控制器1102。然而,在其他实现中,也可以备选地应用不同类型的专用数据总线结构。
[0148] 在另一实施例中,至少CPU 1100、1级高速缓存1110、2级高速缓存1112、存储器控制器1102和RAM存储器1106被包括在片上系统(SoC)中在一实施例中,CPU 1100被多个处理器核替代。在一实施例中,RAM存储器1106被诸如宽I/O DRAM的高性能存储器替代,并且存储器控制器1102的功能由处理器核执行。在一实施例中,作为非高性能存储器的另一类型的存储器(诸如LPDDR3DRAM)可以耦合到SoC。
[0149] SoC(也称为SOC)是将计算设备或其他电子系统的电子组件和/或子系统集成到安置在单个封装内的单个半导体基板和/或单个芯片中的集成电路(IC)。例如,先前在个人计算机(PC)中的存储器模块子系统中的存储器现在可被包括在SoC中。类似地,存储器控制逻辑可被包括在SoC的处理器中而不是包括在分开地封装的存储器控制器中。
[0150] 如本领域普通技术人员将理解的,其他电子组件可以被包括在SoC中。SoC可以包括数字的、模拟的、混合信号的,和/或射频电路——在单个半导体基板上的一个或多个。SoC可以包括振荡器锁相环、计数器-计时器、实时计时器、加电复位发电机、外部接口(例如,通用串行总线(USB)、IEEE 1394接口(火线)、以太网、通用异步接收机/发射机(USART)和串行外围总线(SPI))、模拟接口、电压调节器和/或电源管理电路。
[0151] 在替换的实施例中,SoC可以被系统级封装(SiP)或层叠封装(PoP)替换。在SiP中,多个芯片或半导体基板被安置在单个封装中。在SiP实施例中,(诸)处理器核将可以在一个半导体基板上,而高性能存储器将可以在第二半导体基板上,二者都被安置在单个封装中。在一个实施例中,第一半导体基板通过线结合耦合至第二半导体基板。
[0152] 在PoP实施例中,(诸)处理器核将可以在布置在第一封装中的一个半导体管芯上,而高性能存储器将可以在布置在第二不同封装中的第二半导体管芯上。第一封装和第二封装随后将通过标准接口被堆叠以在各封装(具体而言在各半导体管芯)间路由信号。在一个实施例中,所堆叠的封装接着可被耦合到将附加存储器作为组件的印刷线路板。
[0153] 在各实施例中,(诸)处理器核包括执行(或读取)存储在处理器可读存储器中的处理器(或机器)可读指令的多个处理器。处理器可读指令的示例可包括计算设备107的OS和/或应用软件程序(应用)(诸如图2所示的OS 205和应用211-213)。响应于执行OS和应用的处理器可读指令,处理器核可使用高性能存储器和附加存储器。在一个实施例中,处理器核可包括处理器和存储器控制器,或替换地,也执行与存储器控制器执行的类似的存储器管理功能的处理器。处理器核还可以包括控制器、图形处理单元(GPU)、数字信号处理器(DSP)和/或现场可编程阵列(FPGA)。在一实施例中,高性能存储器位于处理器核之上。
[0154] 在各实施例中,高性能存储器和附加存储器可以包括设置在分开的半导体基板上的IC中的存储器单元的一个或多个阵列。在一个实施例中,高性能存储器和附加存储器被包括在容纳在分开封装的设备中的各自的集成的整体电路。在各实施例中,高性能存储器和附加存储器可以包括易失性和/或非易失性存储器。
[0155] 易失性存储器的类型包括但不限于动态随机存取存储器(DRAM)、基于分子电荷的(ZettaCore)DRAM、浮体DRAM和静态随机存取存储器(“SRAM”)。DRAM的特定类型包括双倍数据速率SDRAM(“DDR”),或晚一代SDRAM(例如,“DDRn”)。
[0156] 非易失性存储器的类型包括但不限于以下类型:电可擦除可编程只读存储器(“EEPROM”)、闪存(包括NAND和NOR闪存)、ONO闪存、磁阻或磁性RAM(“MRAM”)、电RAM(“FRAM”)、全息介质、奥弗辛斯基效应的/相变纳米晶体、纳米管RAM(NRAM-Nantero)、MEMS扫描探针系统、MEMS悬臂式开关聚合物、分子、纳米浮栅和单电子。
[0157] 三维图形处理单元1120和视频编码器1122构成了视频处理流水线,用于进行高速度和高分辨率(例如,高清晰度)图形处理。数据经由数字视频总线从图形处理单元1120传输到视频编码器1122。音频处理单元1124和音频编解码器(编码器/解码器)1126构成了对应的音频处理流水线,用于对各种数字音频格式进行多通道音频处理。音频数据经由通信链路在音频处理单元1124与音频编解码器1126之间传输。视频和音频处理流水线向A/V(音频/视频)端口1128输出数据,以便传输到电视机或其它显示器。
[0158] 图7示出了包括USB主控制器1130和网络接口1132的模块1114。USB主控制器1130被示为经由总线(例如,PCI总线)与CPU 1100和存储器控制器1102进行通信,并充当外围控制器10041-10044的主机。网络接口1132提供对网络(例如因特网、家庭网络等)的访问,并且可以是包括以太网卡、调制解调器、无线接入卡、蓝牙模块、电缆调制解调器等各种有线或无线接口组件中的任一种。
[0159] 在图7中描绘的实现中,控制台1002包括用于支持四个控制器10041-10044的控制器支持子部件1140。控制器支持子部件1140包括支持与诸如,例如,媒体和游戏控制器之类的外部控制设备的有线和无线操作的任何硬件和软件组件。前面板I/O子部件1142支持电源按钮1012、弹出按钮1014,以及任何LED(发光二极管)或暴露在控制台1002的外表面上的其它指示器等多个功能。子部件1140和1142通过一个或多个电缆组件1144与模块1114进行通信。在其他实现中,控制台1002可以包括另外的控制器子部件。所示出的实现还示出了被配置成发送和接收可以传递到模块1114的信号的光学I/O接口1135。
[0160] 在一实施例中,控制台1002的外表面包括可指示说出的操作系统命令和/或应用命令已被理解并且控制台1002正在处理该命令的指示灯。另选地或另外地,指示灯可指示所请求的说出命令未被理解并且控制台1002未采取动作。在替代实施例中,对用户的说出的命令或话语的识别或缺少理解可由来自控制台1002的扬声器的来自智能代理210或另一源的语音输出来指示。在其它实施例中,对说出的命令或话语的识别或缺少理解的这一指示可由显示器1050来指示。
[0161] MU 10401和10402被示为能够分别连接到MU端口“A”10301和“B”10302。附加MU(例如,MU 10403-10406)被示为能够连接到控制器10041和10043,即,每一控制器两个MU。控制器10042和10044还可以被配置成接收MU。每一个MU 1040都提供附加存储,在其上面可以存储交互式电子游戏、游戏参数、及其它数据。在一些实现中,其它数据可以包括数字游戏组件、可执行的游戏应用,用于扩展游戏应用的指令集、以及媒体文件中的任何一种。当被插入到控制台1002或控制器中时,MU 1040可以被存储器控制器1102访问。
[0162] 系统供电模块1150向游戏系统1000的组件供电。扇1152冷却控制台1002内的电路。
[0163] 包括处理器可读指令的应用1160被存储在硬盘驱动器1108上。当控制台1002被接通电源时,应用1160的各个部分被加载到RAM 1106和/或高速缓存1110以及1112中以在CPU 1100上执行,其中应用1160是一个这样的示例。各种应用可以存储在硬盘驱动器1108上以用于在CPU 1100上执行。在一实施例中,应用1160对应于图2所示的应用211-213之一,如本文描述的。
[0164] 控制台1002还被示为包括通信子系统1170,其被配置成将控制台1002与一个或多个其他计算设备(例如,其他控制台)在通信上耦合。通信子系统1170可以包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例,通信子系统1170可被配置成用于经由无线电话网络或者有线或无线局域网或广域网来进行通信。在某些实施例中,通信子系统1170可允许控制台1002经由网络(诸如因特网)向其他设备发送消息和/或从其他设备接收消息。在特定的实施例中,通信系统1170可以被用来与协调器和/或其他计算设备通信,以供发送下载请求和实现对数字内容的下载与上传。更一般而言,通信子系统1170可以使控制台1002能够参与对等通信。
[0165] 可以通过简单地将系统连接到显示器1050(图6)、电视机、视频投影仪或其他显示设备来将游戏与媒体系统1000作为独立系统来操作。在此独立模式下,游戏和媒体系统1000允许一个或多个玩家玩交互式电子游戏或欣赏数字媒体,例如观看电影或欣赏音乐。
然而,随着通过网络接口1132(或者更一般地通信子系统1170)使宽带连接的集成成为可能,游戏和媒体系统1000还可以作为更大的网络游戏社区(诸如对等网络)的参与者来操作。
[0166] 上述控制台1002仅仅是参考图1及各其他附图所讨论的计算设备107的一个示例。如上所解释的,存在本文中所述的各实施例可以使用的各种其他类型的计算设备。
[0167] 图8是可托管图1和2中解说的软件组件中的至少一些的计算设备107的一个实施例的框图。在大多数基本配置中,计算设备1800通常包括一个或多个处理单元/核1802,其包括一个或多个CPU和一个或多个GPU。计算设备1800还包括系统存储器1804。取决于计算设备的确切配置和类型,系统存储器1804可包括易失性存储器1805(如RAM)、非易失性存储器1807(如ROM、闪存等)或是两者的某种组合。该最基本配置在图8中由虚线1806来例示出。另外,设备1800还可具有附加特征/功能。例如,设备1800还可包含附加存储(可移动和/或不可移动),其包括但不限于磁盘、光盘或磁带。这样的附加存储在图8中由可移动存储1808和不可移动存储1810来例示出。
[0168] 设备1800还可包含允许该设备与其他设备通信的通信连接1812,如一个或多个网络接口和收发机。设备1800也可具有(诸)输入设备1814,诸如键盘鼠标、笔、语音输入设备、触摸输入设备、姿势输入设备等。还可包括(一个或多个)输出设备1816,诸如显示器、扬声器、打印机等。这些设备在本领域是公知的,因此不在此详细讨论。
[0169] 在各实施例中,所示出和所描述的信号路径是传输信号的介质,诸如互连、传导元件、触头、引脚、半导体基板中的区域、引线、金属迹线/信号线或光电导体个体或其组合。在一个实施例中,多个信号路径可以替代图中所示的单个信号路径,并且单个信号路径可以替代图中所示的多个信号路径。在各实施例中,信号路径可以包括总线和/或点到点连接。在一实施例中,信号路径包括控制和数据信号线。在又一些其他实施例中,信号路径是单向的(信号在一个方向上传播)或双向的(信号在两个方向上传播)或者是单向信号线和双向信号线两者的组合。
[0170] 本发明系统的前述详细描述是出于说明和描述的目的而提供的。这并不旨在穷举本发明系统或将本发明系统限于所公开的精确形式。鉴于上述教导,许多修改和变型都是可能的。选择所述实施例以最好地解释本发明系统的原理及其实践应用,从而允许本领域技术人员能够在各种实施例中并采用各种适于所构想的特定用途的修改来最好地利用本发明系统。本发明系统的范围旨在由所附权利要求书来定义。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈