对话互动式多媒体娱乐系统专利检索-机上娱乐系统飞行器飞机类型专利检索查询-专利查询网

对话互动式多媒体娱乐系统

阅读：773发布：2020-07-24

专利汇可以提供对话互动式多媒体娱乐系统专利检索，专利查询，专利分析的服务。并且本发明提供一种对话互动式多媒体娱乐系统(Interactive EntertainmentCenter)。该对话互动式多媒体娱乐系统包含：一多媒体系统，用以提供各种多媒体服务；一伺服器系统，用以提供该对话互动式多媒体娱乐系统所需的各项服务；一语音对话系统，用以作为一使用者利用语音控制该对话互动式多媒体娱乐系统的界面；以及一网络系统，用以将该多媒体系统、该伺服器系统及该语音对话系统串接在一起，其中该语音对话系统是使该对话互动式多媒体娱乐系统与该使用者之间具备互动式语音对话功能。，下面是对话互动式多媒体娱乐系统专利的具体信息内容。

权利要求

1.一种对话互动式多媒体娱乐系统，其包含：
一多媒体系统，用以提供各种多媒体服务；
一伺服器系统，用以提供该对话互动式多媒体娱乐系统所需的各项服务；
一语音对话系统，用以作为一使用者利用语音控制该对话互动式多媒体娱乐系统的界面；以及
一网络系统，用以将该多媒体系统、该伺服器系统及该语音对话系统串接在一起；
其中该语音对话系统是使该对话互动式多媒体娱乐系统与该使用者之间具备互动式语音对话功能。
2.如权利要求1所述的对话互动式多媒体娱乐系统，其特征在于该多媒体系统还包含：
一音讯系统，用以提供该使用者音讯相关服务；
一视讯系统，用以提供该使用者视讯相关服务；以及
一整合装置，其是用以整合该音讯系统及该视讯系统，并连结至该网络系统，其中：
该音讯系统是为一音响装置、一喇叭、一录放影机、一电视或一投影机；及/或
该整合系统为一机上盒(。
3.如权利要求1所述的对话互动式多媒体娱乐系统，其特征在于该网络系统还包含：
一数据机，其连结至该伺服器系统；以及
一路由器，其连结该数据机及该多媒体系统，其中该数据机为ADSL或缆线数据机。
4.如权利要求1所述的对话互动式多媒体娱乐系统，其特征在于该伺服器系统还包含：
一全球内容伺服器；以及
一本地伺服器。
5.如权利要求1所述的对话互动式多媒体娱乐系统，其特征在于该语音对话系统还包含：
一语音/语者辨识器，用以辨识所输入的语音指令/语者；
一文法辨识器，用以解析该语音指令的语义；
一对话控制器，其可根据辨识和解析结果判断给予适当回应；以及
一语音合成器，用以响应该回应而输出一合成语音，其中：
该语音/语者辨识器还包含：
一辨识字汇数据库；
一语言模型；
一语者模型；以及
一语者独立模型；及/或
该文法辨识器还包含一指令语法数据库。
6.如权利要求1所述的对话互动式多媒体娱乐系统，其特征在于还包含一多型态控制界面，其包含：
复数个输入装置；以及
复数个输出装置，其中：
该输入装置为麦克风、遥控器、键盘、鼠标及手持装置其中之一；及/或
该输出装置为电视、投影机、喇叭、音响、录放影机及电脑其中之一。
7.一种建立辨识字汇数据库的方法，该辨识字汇数据库是用于一对话互动式多媒体娱乐系统的一语音对话系统，该方法包含：
(a)撷取一节目的名称字汇并归类该节目的型态；
(b)统一该节目名称字汇成为一统一名称字汇；
(c)简化该统一名称字汇成为一简化名称字汇；以及
(d)根据该简化名称字汇，撷取至少一关键字作为辨识字汇。
8.如权利要求7所述的方法，其特征在于该节目的名称字汇为歌曲、专辑、歌手及其相关信息其中之一，其中该歌曲、专辑、歌手及其相关信息，是利用音乐光碟的识别数据经网络查询所获得或是利用音乐文件的表头档、档名及文件名其中之一所获得。
9.如权利要求7所述的方法，其特征在于：
该节目的名称字汇为有线电视节目名称；及/或
该有线电视节目名称是经由网络撷取有线电视节目表所获得。
10.如权利要求7所述的方法，其特征在于步骤(d)是利用最大熵原理完成，或是根据词频方式完成。
11.一种动态更新一语音对话系统的数据库的方法，该语音对话系统是用于一对话互动式多媒体娱乐系统，该方法包含：
(a)通过一多型态控制界面输入一指令至该对话互动式多媒体娱乐系统；
(b)该语音对话系统根据该指令，于一特定状态下自动搜寻并分析可能需要的辨识字汇；以及
(c)根据步骤(b)更新该语音对话系统的数据库。
12.如权利要求11所述的方法，其特征在于该语音对话系统的数据库为一辨识字汇数据库、一指令语法数据库或一语言模型。
13.如权利要求11所述的方法，其特征在于该多型态控制界面包含：
复数个输入装置；以及
复数个输出装置，其中：
该输入装置为麦克风、遥控器、键盘、鼠标及手持装置其中之一；及/或
该输出装置为电视、投影机、喇叭、音响、录放影机及电脑其中之一。
14.如权利要求11所述的方法，其特征在于该特定状态为连线至网际网络或为查询特定数据库。
15.一种多级辨识运算方法，其是适用于一互动式多媒体娱乐系统，其包含一多型态控制界面、一整合装置以及一伺服器系统，该方法包含：
(a)提供一辨识字汇；
(b)根据该辨识字汇长度作分级；
(c)当该辨识字汇长度小于一第一门槛值，或是该多型态控制界面具有一对应该辨识字汇的数据库时，由该多型态控制界面进行运算辨识；
(d)当该辨识字汇长度大于该第一门槛值且小于一第二门槛值时，由该整合装置进行运算辨识；以及
(e)当该辨识字汇长度大于该第二门槛值时，由该伺服器系统进行运算辨识。
16.如权利要求15所述的方法，其特征在于：
该第一门槛值为1000字；及/或
该第二门槛值为100000字。
17.如权利要求15所述的方法，其特征在于该多型态控制界面还包含：
复数个输入装置；以及
复数个输出装置，其中：
该输入装置为麦克风、遥控器、键盘、鼠标及手持装置其中之一；
该手持装置为一手机或为一个人数字助理；及/或
该输出装置为电视、投影机、喇叭、音响、录放影机及电脑其中之一。
18.如权利要求15所述的方法，其特征在于：
该整合装置为一机上盒；及/或
该伺服器系统为一远端伺服器。

说明书全文

技术领域

本发明是与一种多媒体娱乐系统有关，尤其是与一种对话互动式多媒体娱乐系统有关。

背景技术

现今多数家庭都具备许多种视听娱乐家电装置，像是电视、录影机、DVD、投影机、音响、手机以及具备网络功能的个人电脑等，由于这些装置都各有其特殊功能，因此整合各式各样的娱乐家电产品(尤其是客厅中所有的家电)成为所谓的多媒体娱乐系统(Entertainment Center)便成为未来视听界(Audio-Visual)的一种发展趋势。
请参阅图1，其是习知的多媒体娱乐系统的架构示意图。目前多媒体娱乐系统大致可区分为几个部分，包括多媒体系统100、伺服器系统101、网络系统102 以及控制界面103。多媒体系统100中包含音响1001、电视1002、录影机1003、投影机1004以及机上盒(Set-top Box)1005等设备，伺服器系统101则包含全球内容伺服器(global content server)1011以及本地伺服器(local seryer) 1012，网络系统102则包含路由器1021、数据机1022、个人电脑1023等网络通讯设备，控制界面103则包含各种控制装置，例如PDA 1031、遥控器1032等等。一般来说，机上盒1005负责整合多媒体系统100中的装置，并通过网络系统102 与伺服器系统101相连，当使用者经由控制界面103输入指令时，会视所需状况使用全球内容伺服器1011或是本地伺服器1012所提供的服务，例如从数据库中搜寻并撷取所需的数据。
最初，多媒体娱乐系统仅允许使用者做单向操作，使用者输入受限制的指令，多媒体系统则依据该指令做出适当的回应。为了响应机器人性化的趋势，互动式技术终于也成功地应用在多媒体娱乐系统上，让使用者在输入指令后，尚有阶层式循序诱导的选单帮助使用者做更进一步的操作。此外，由于通讯科技的蓬勃发展，经由网络所能提供的服务越来越多，更将互动式系统的优点发挥的淋漓尽致。
即便如此，使用按键等方式操作仍然离人性化操作还有一段不小的距离。然而，随着语音/语者辨识技术的成熟，让使用者利用声音对机器下指令已经不是梦想，上述的多媒体娱乐系统在整合支援语音/语者辨识技术的界面后，使用者可以通过输入语音命令操作多媒体娱乐系统的装置。可惜的是，现有的语音界面虽然可以借由一些语法做到多方/阶层的查询/命令，但是该类多媒体娱乐系统依然不具备人与机器对话功能。

发明内容

本发明的主要目的在于提供一种搭配语音对话系统的对话互动式多媒体娱乐系统，其能结合先前的对话信息以及查询结果，以使用者和多媒体娱乐系统对话的方式，引导使用者用语音输入更精细的查询内容，来查询或操作所要执行的工作。
本发明提供一种对话互动式多媒体娱乐系统(Interactive Entertainment Center)，其包含：一多媒体系统，用以提供各种多媒体服务；一伺服器系统，用以提供该对话互动式多媒体娱乐系统所需的各项服务；一语音对话系统，用以作为一使用者利用语音控制该对话互动式多媒体娱乐系统的界面；以及一网络系统，用以将该多媒体系统、该伺服器系统及该语音对话系统串接在一起，其中该语音对话系统是使该对话互动式多媒体娱乐系统与该使用者之间具备互动式语音对话功能。
根据上述构想，其中该多媒体系统还包含：一音讯系统，用以提供该使用者音讯相关服务；一视讯系统，用以提供该使用者视讯相关服务；以及一整合装置，其是用以整合该音讯系统及该视讯系统，并连结至该网络系统。
根据上述构想，其中该音讯系统为一音响装置。
根据上述构想，其中该该音讯系统为一喇叭。
根据上述构想，其中该视讯系统为一录放影机。
根据上述构想，其中该视讯系统为一电视。
根据上述构想，其中该视讯系统为一投影机。
根据上述构想，其中该整合系统为一机上盒(Set-top Box)。
根据上述构想，其中该网络系统还包含：一数据机，其连结至该伺服器系统；以及一路由器，其连结该数据机及该多媒体系统。
根据上述构想，其中该数据机为ADSL。
根据上述构想，其中该数据机是缆线数据机(cable modem)。
根据上述构想，其中该伺服器系统还包含：一全球内容伺服器(global content server)；以及一本地伺服器(local server)。
根据上述构想，其中该语音对话系统还包含：一语音/语者辨识器，用以辨识所输入的语音指令/语者；一文法辨识器，用以解析该语音指令的语义；一对话控制器，其可根据辨识和解析结果判断给予适当回应；以及一语音合成器，用以响应该回应而输出一合成语音。
根据上述构想，其中该语音/语者辨识器还包含：一辨识字汇数据库；一语言模型；以及一语者独立模型(如为语者辨识则还需要个别语者模型)。
根据上述构想，其中该文法辨识器还包含一指令语法数据库。
根据上述构想，其中还包含一多型态(multi-modal)控制界面，其包含：复数个输入装置；以及复数个输出装置。
根据上述构想，其中该输入装置为麦克风、遥控器、键盘、鼠标及手持(hand held)装置其中之一。
根据上述构想，其中该输出装置为电视、投影机、喇叭、音响、录放影机及电脑其中之一。
本发明的另一构想在于提供一种建立辨识字汇数据库的方法，该辨识字汇数据库是用于一对话互动式多媒体娱乐系统(Interactive Entertainment Center)的一语音对话系统，该方法包含：(a)撷取一节目的名称字汇并自动归类该节目的型态；(b)统一该节目名称字汇成为一统一名称字汇；(c)简化该统一名称字汇成为一简化名称字汇；以及(d)根据该简化名称字汇，撷取一或多个关键字作为辨识字汇。
根据上述构想，其中该节目的名称字汇为歌曲、专辑、歌手及其相关信息其中之一。
根据上述构想，其中该歌曲、专辑、歌手及其相关信息，是利用音乐光碟的识别数据(DISCID)经网络查询所获得。
根据上述构想，其中该歌曲、专辑、歌手及其相关信息，是利用音乐文件的表头档(header)、档名及文件名其中之一所获得。
根据上述构想，其中该节目的名称字汇为有线电视节目名称。
根据上述构想，其中该有线电视节目名称是经由网络撷取有线电视节目表所获得。
根据上述构想，其中步骤(d)是利用最大熵原理(Maximum Entropy Principle)完成。
根据上述构想，其中步骤(d)是根据词频方式完成。
本发明的又一构想在于提供一种动态更新一语音对话系统的数据库的方法，该语音对话系统是用于一对话互动式多媒体娱乐系统(Interactive Entertainment Center)，该方法包含：(a)通过一多型态(multi-modal)控制界面输入一指令至该对话互动式多媒体娱乐系统；(b)该语音对话系统根据该指令，于一特定状态下自动搜寻并分析可能需要的辨识字汇；以及(c)根据步骤(b)更新该语音对话系统的数据库。
根据上述构想，其中该语音对话系统的数据库为一辨识字汇数据库。
根据上述构想，其中该语音对话系统的数据库为一指令语法数据库。
根据上述构想，其中该语音对话系统的数据库为一语言模型。
根据上述构想，其中该多型态控制界面是包含：复数个输入装置；以及复数个输出装置。
根据上述构想，其中该输入装置为麦克风、遥控器、键盘、鼠标及手持(hand held)装置其中之一。
根据上述构想，其中该该输出装置为电视、投影机、喇叭、音响、录放影机及电脑其中之一。
根据上述构想，其中该特定状态为连线至网际网络。
根据上述构想，其中该特定状态为查询特定数据库。
本发明的再一构想在于提供一种多级辨识运算方法，其适用于一对话互动式多媒体娱乐系统(Interactive Entertainment Center)，其包含一多型态(multi-modal)控制界面、一整合装置以及一伺服器系统，该方法包含：(a) 提供一辨识字汇；(b)根据该辨识字汇长度作分级；(c)当该辨识字汇大小少于一第一门槛值，或是只有该多型态控制界面具有对应该辨识字汇的数据库时，由该多型态控制界面进行运算辨识；(d)当该辨识字汇长度大于该第一门槛值且小于一第二门槛值时，由该整合装置进行运算辨识；以及(e)当该辨识字汇长度大于该第二门槛值时，由该伺服器系统进行运算辨识。
根据上述构想，其中该第一门槛值为1000字。
根据上述构想，其中该第二门槛值为100000字。
根据上述构想，其中该多型态控制界面还包含：复数个输入装置；以及复数个输出装置。
根据上述构想，其中该输入装置为麦克风、遥控器、键盘、鼠标及手持(hand held)装置其中之一。
根据上述构想，其中该手持装置为一手机。
根据上述构想，其中该手持装置为一个人数字助理(PDA)。
根据上述构想，其中该输出装置为电视、投影机、喇叭、音响、录放影机及电脑其中之一。
根据上述构想，其中该整合装置为一机上盒(Set-top Box)。
根据上述构想，其中该伺服器系统为一远端伺服器(remote server)。
下面将结合附图对本发明的较佳实施例进行详细说明，以更清楚连接本发明的目的、特点和优点。

附图说明

图1所示为习知的多媒体娱乐系统的架构示意图；以及
图2所示为本案的对话互动式多媒体娱乐系统的语音对话系统的方块图；

具体实施方式

本发明将可由以下的实施例说明而得到充分了解，使得熟悉本技术的人士可以据以完成之，然而本发明的实施并非可由下列实施例而被限制其实施型态。
请参阅图2，其为本发明的对话互动式多媒体娱乐系统的语音对话系统的方块图，在图1所提供的多媒体娱乐系统架构上搭载此语音对话系统，即可成为本发明的对话互动式多媒体娱乐系统。语音对话系统20包含语音/语者辨识器201、文法辨识器202、对话控制器203以及语音合成器204。该语音/ 语者辨识器201可包含一个或一个以上的辨识字汇数据库2011，语言模型 2012，使用者输入语音之后，该语音/语者辨识器201便可依据辨识字汇数据库2011和语言模型2012，将该语音辨识为n个最高分字串(nbest list)，语音/语者辨识器201还可包含语者独立模型2013，用以辨识语音或加上个别语者模型2014，以作为辨识语者之用。文法辨识器202可包含一个或一个以上的指令语法数据库2021，其是用以解析最高分字串的语义，并可结合之前对话的语义找出使用者最有可能要表达的语义，将其建成语义讯框(semantic frame)，随后再把语义讯框送到对话控制器203。对话控制器203根据的前的查询结果，结合新输入查询节目或个人数据库205，或由新输入的信息对的前查询的结果做缩减(narrow down)，如有必要，对话控制器203亦可针对查询结果作分析，引导使用者做更进一步的查询或操作。之后对话控制器203便将所要输出的信息送至语音合成器204合成语音输出。
在实际应用上，对话互动式多媒体娱乐系统可以是以网络所结合的分散式系统搭载上述的语音对话系统20，包含视讯装置(例如电视、录放影机、投影机)、音讯装置(例如音响、喇叭)，借由整合装置(例如机上盒)与网络系统将多媒体与通讯结合，并串连至伺服器系统。在操作方面，对话互动式多媒体娱乐系统可包含多型态(multi-modal)控制界面配合手动操作或语音操作，手动操作可利用遥控器、键盘、鼠标等输入，语音操作则可使用麦克风或是PDA、手机等手持装置(hand-held)输入。在伺服器系统方面，包含有全球内容伺服器(global content server)和本地伺服器(local server)，本地伺服器定期可接收由全球内容伺服器通过网络传来的节目表、最新文法、字汇或是程式更新，而使用者则通过网络由本地伺服器获得所需信息，或是任何其他由本地伺服器所提供的服务。
此外，语音对话系统20所包含的语音/语者辨识器201使得应用上更为广泛，每个使用者可以手动或自动建立个别的专属使用者设定，例如：「我的最爱」，可包含常看的频道/节目、常听的歌、常联络的人等等，通过语者辨识，系统可分辨目前的使用者，并呼叫出其专属设定。对话互动式多媒体娱乐系统亦可定时自动帮使用者更新「我的最爱」中每个项目的最新状态(例如节目时间异动、文件文件更新、网络连载小说的最新章节等)，如此，使用者便可跳过查询动作，直接找到最常用的项目。各使用者的专属使用者设定还可以包含设定使用权限的功能，不需要额外输入密码，系统只要依据使用者的声音便能检查该使用者是否有权限执行该指令，例如是否有权限切换至锁码频道或购物频道等。
由于对话互动式多媒体娱乐系统具备多型态(multi-modal)控制界面的关系，因此语音对话系统20也必须随着其他控制界面所输入的指令，让对话控制器203在特定状态下动态且同步更新数据库。因此，当对话控制器203在上网或查询特定数据库时，动态地把与该指令相关所可能需要辨识的字汇搜寻出来并加以分析，借此更新辨识字汇数据库2011、语言模型2012和指令语法数据库2021，使语音/语者辨识器201可随时搭配对话互动式多媒体娱乐系统的行为，达到具有无限制数量的辨识字汇适应使用者的操作。
本发明亦提供一种建立对话互动式多媒体娱乐系统所常用的辨识字汇的方法。首先，由系统撷取及/或使用者输入节目的名称字汇，并对该节目进行归类动作。举例来说，歌曲的名称字汇来源有以下几种：(1)若是音乐光碟，则可利用光碟的识别数据(DISCID)至网络(http：//www.freedb.org)上查询，可以搜寻到该音乐光碟的专辑名称、歌手、歌名、长度等信息可作为名称字汇；(2)若是mp3等音乐文件，则可从音乐文件的表头档(header)获得该文件的专辑名称、歌手、歌名等信息可作为名称字汇；(3)若音乐文件不具表头档(header)，则档名亦可作为名称字汇；而在电视节目方面，可如前文所述，由全球内容伺服器或本地伺服器提供。由于名称字汇通常很繁杂，因此为了节省许多可能辨识的字汇量，且减少混淆造成辨识错误的机会，接着就必须统一名称字汇。举例来说，光是华视新闻就有「早安您好华视新闻」、「华视整点新闻」、「华视午间新闻」等等，若全部依照节目表建成辨识字汇，便有混淆的可能，使用者也不可能记得这么多节目名称，因此，依据本发明的方法，一律将华视所有的新闻节目统一为「华视新闻」，对使用者来说输入的语法简单易记，而对辨识系统来说，也不容易出错。在统一名称之后，名称字汇中可能还存在着一些与分类有关但和节目名称无关的字，由于在一开始就已经对节目作归类动作，因此这些字词便可去掉。举例来说，「卡通：航海王2第37集(重)【普】」中代表类型的「卡通」、代表重播的「(重)」和代表分级的「【普】」便可以从名称字汇中去掉。最后，再以最大熵原理 (Maximum Entropy Principle)或是根据词频方式，撷取该名称字汇中的关键字。举例来说，上例中的辨识字汇就可能展开为「航海王」、「航海王2」、「航海王2第37集」三个供使用者查询的关键词。利用本发明所提供的方法建立辨识字汇，即使使用者可能因为节目名称太长或忘记节目名称，而仅输入部分的节目名称，使用者依然可以利用关键字查询的方式，找到类似使用者所要查询的节目或歌曲名称。
由于本发明的对话互动式多媒体娱乐系统是以网络所结合的分散式系统搭载语音对话系统20，因此辨识的能力和效率便在系统整体效能中成为一个关键的环节。一般辨识系统的运算架构是将录下来的语音一律送到远端伺服器(remote server)去做辨识，而本发明的对话互动式多媒体娱乐系统则提供一种多级辨识的运算架构，也就是说，语音不仅能送至远端伺服器执行辨识运算，在使用者输入装置、或是整合装置亦可执行辨识运算。举例来说，可以根据辨识字汇长度做分级，若辨识字汇长度较短，或是辨识字汇所对应的数据就存于使用者输入装置时，例如PDA、手机储存的个人通讯录，或是前文中所提及的「我的最爱」这种约几百字汇以内，便可以在输入装置做辨识；比较复杂一点的对话互动式多媒体娱乐系统的操作命令、或是节目查询等约数千字的辨识工作，便交给例如机上盒这种整合装置执行辨识；若是需要执行约几十万字的辨识工作，像是查询电话簿等，便交给远端伺服器进行辨识。如此一来，便可提升整体辨识时间，增进对话互动式多媒体娱乐系统的整体效能。

标题	发布/更新时间	阅读量
测试交通工具的舱室的乘客服务单元的方法、装置和系统	2020-05-13	548
一种播放器的播放控制方法及系统	2020-05-18	134
全民健身洁能发电馈礼系统	2020-05-19	990
一种智能托管自助设备	2020-05-11	694
乘客座椅娱乐系统	2020-05-14	158
具有虚拟现实眼镜的手持装置	2020-05-23	319
可动表面电力输送系统	2020-05-11	685
一种情绪感测系统及可穿戴设备	2020-05-17	146
飞机客舱数据发射系统	2020-05-26	802
A PASSENGER SUPPLY UNIT FOR AN AIRCRAFT CABIN	2020-05-24	744