用于自动生成语音XML文件的方法和系统 |
|||||||
申请号 | CN01103368.1 | 申请日 | 2001-02-02 | 公开(公告)号 | CN1368719A | 公开(公告)日 | 2002-09-11 |
申请人 | 国际商业机器公司; | 发明人 | 詹姆斯·耶赫; 苏辉; 王茜莺; | ||||
摘要 | 本 发明 提供一种用于自动生成VoiceXML文件的系统,包括:图形用户 接口 ,定义多个图标,每一图标对应于VoiceXML中的一个或多个属性;VoiceXML标记生成器,基于VoiceXML标记库解释系统记录的用户动作流,产生相应的VoiceXML标记;以及VoiceXML文件生成器,根据VoiceXML语法,将需要播放的内容与VoiceXML标记生成器产生的标记相组合,生成VoiceXML文件。该系统可以为TTS流和实时录制的 音频流 自动生成VoiceXML文件。 | ||||||
权利要求 | 1.一种用于自动生成VoiceXML文件的方法,包括步骤: |
||||||
说明书全文 | 本发明一般涉及如何为网络用户自动生成可以在万维网上发布消 息的超文件置标语言文件,具体地说,涉及如何为网络用户自动生成 可以在万维网上发布语音消息的VoiceXML(语音XML)文件。目前流行的各种浏览器(例如Netscape Navigator)成为网 络用户访问万维网的有效工具之一。这些浏览器是有助于网络用户请 求和显示来自WWW的文件信息或图形信息的用户接口。由浏览器显示 的信息除文件、图形之外,还包括声音和超链接等,因此人们通常将 浏览器显示的文件称为超文本。在计算机中表达文字信息时,若采用 超文本方式,则既保留了信息的线性组织结构,又增加了链接结构。 它使文件信息的阅读可以跳跃进行,给阅读者带来许多方便。 随着PvC设备的普及和流行,人们已不再满足仅仅通过阅读来浏 览网络信息,音频广播正在成为移动用户浏览网络信息的主要方式之 一。但是,浏览音频文件不如浏览文本文件那么方便。其主要障碍是 缺少交互方法。在这种情况下,用户仅能被动地收听广播信息。当用 户听到感兴趣的话题时,无法象在网络上浏览HTML文件那样选择信 息或获得进一步详细的信息。基于语音识别技术,通过对话/会话来选 择信息或获得详细信息的技术正日趋成熟。VoiceXML就是用于此用 途的。但是对于普通网络用户来说,编写VoiceXML文件不是一件容 易的事情,需要用户掌握和熟记大量规则、语法和标记的定义。为此, 本发明提供了一种用于自动生成VoiceXML文件的方法和系统。 根据本发明的一个方面的用于自动生成VoiceXML文件的方法, 包括步骤:提供图形用户界面,在所述图形用户界面中定义多个图标, 每一图标对应于VoiceXML中的一个或多个属性;记录用户调用所述 图形用户界面中的图标的动作流;以及,基于VoiceXML标记库对所 述动作流进行解释,生成VoiceXML文件。 根据本发明的另一个方面的用于自动生成VoiceXML文件的系 统,包括:图形用户接口,定义多个图标,每一图标对应于VoiceXML 中的一个或多个属性;VoiceXML标记生成器,基于VoiceXML标记 库解释系统记录的用户动作流,产生相应的VoiceXML标记;以及, VoiceXML文件生成器,根据VoiceXML语法,将需要播放的内容与 VoiceXML标记生成器产生的标记相组合,生成VoiceXML文件。 通过以下结合附图的说明,将使本发明的优点、特点更加清楚和 明确。 图1示出如何为一段音频加上超链接以及用户如何与该超链接进 行交互; 图2示出根据本发明一优选实施例的用于自动生成VoiceXML文 件的系统的方框图; 图3示出根据本发明一优选实施例的图形用户接口; 图4示出根据本发明另一优选实施例的图形用户接口; 图5和图6示出根据本发明一优选实施例,使用图2所示系统自 动生成VoiceXML文件的动作流; 图7是一流程图,示出了根据本发明一优选实施例为TTS VoiceXML流加入超链接的工作过程;以及 图8是一流程图,示出了根据本发明一优选实施例为实时录制的 音频VoiceXML流加入超链接的工作过程。 图1描述了如何为一段音频加上超链接以及用户如何与该超链接 进行交互。如图1所示,对于要播放的“IBM is the biggest IT company in the world”这样一段文字,既可以组织成传统的TTS (文件-语音)流,也可以是实时录制的音频流。为了便于用户得到 有关“IBM”的进一步信息,可以为其加上一些属性,如语音再现属 性、链接属性等。这样在播放以上文字时,语音浏览器能以不同的语 调(或其他属性)强调“IBM”,以引起用户注意。在播放过程中, 当用户以DTMF音或其他方式选择了“IBM”,语音浏览器则检索与 超链接相关的地址处的文档,将有关“IBM”的进一步信息播放给用 户。这样,用户就不仅仅是被动地收听广播信息。当用户听到感兴趣 的话题时,可以象在网络上浏览HTML文件那样选择信息或获得进一 步详细的信息。随着语音识别技术的发展,用户不但可以通过DTMF 音选择超文本,并且对嵌入了语音识别器引擎的语音浏览器,用户可 以口授要选择的超文本。 尽管VoiceXML具有以上种种优点,但是对于普通网络用户来说, 编写VoiceXML文件不是一件容易的事情,需要用户掌握和熟记大量 规则、语法和标记的定义。为此,本发明提供了一种用于自动生成 VoiceXML文件的方法和系统。 图2示出了根据本发明一优选实施例的用于自动生成VoiceXML 文件的系统的方框图。如图2所示,该系统包括定义多个图标,每一 图标对应于VoiceXML中的一个或多个属性的图形用户接口101;基 于VoiceXML标记库解释系统记录的用户动作流,产生相应的 VoiceXML标记的VoiceXML标记生成器102;以及根据VoiceXML 语法将需要播放的内容和VoiceXML标记生成器产生的标记相组合生 成VoiceXML文件的VoiceXML文件生成器103。根据本发明一优选 实施例,该系统还可以包括用于存储播放内容的存储器104;记录用 户动作流的记录器105;语音识别器106;VoiceXML标记库107; 以及VoiceXML语法库108。当使用该系统为一段TTS语音生成 VoiceXML文件时,用户首先与系统的图形用户接口进行交互。对于 一段TTS流,用户可以在图形用户接口提供的编辑区中编辑TTS语 音流,标记或键入需要加上VoiceXML属性的部分,调用相应的图标。 图3示出了根据本发明一优选实施例的图形用户接口,并示出了一些 用于说明本发明的图标。这些图标可以对应VoiceXML的一个或多个 属性,例如: ·语音再现属性:包括播音员的性别、语气、速度等; ·由增强的Barge-in功能实现的“指向”功能; ·超链接等。 系统的动作流记录器105记录用户的动作流,即用户对图形用户 接口中的图标的调用过程。然后,系统的VoiceXML标记生成器102 基于VoiceXML标记库107对用户的动作流进行解释,产生相应的 VoiceXML标记。系统的VoiceXML文件生成器根据VoiceXML语法将 产生的VoiceXML标记与要播放的内容相组合,生成VoiceXML文件。 当使用该系统为一段实时录制的音频流生成VoiceXML时,同样, 用户也是首先与系统的图形用户接口进行交互。在图形用户接口提供 的编辑区中编辑实时录制的音频流,标记或键入需要加入VoiceXML 属性的部分,调用相应的图标。对于实时录制的音频流,当用户在编 辑区内键入需要加入VoiceXML属性的部分时,系统的VoiceXML标 记生成器102在对用户的动作流进行解释时要激活语音识别器106, 寻找实时录制的音频流中与用户键入部分相匹配的部分,以便在实时 录制的音频流的相应部分上加入VoiceXML属性。以下分别是对于 TTS语音流和实时录制的音频流使用该系统自动生成的VoiceXML文 件的例子。 例1: <VoiceXML> …… <prompt bargein="true"><render.echo>IBM</render.echo>is the biggest IT company in the world</prompt> <link next="http://www.ibm.com/vxml/mail.vxml"> <grammer>IBM</grammer> <dtmf>1</dtmf> </link> …… </VXML> 例2 <VXML> …… <prompt bargein="true"><audio src="ibmwelcome.wav"></prompt> 此外,当用在图形用户界面的编辑区中多次标记或键入相同的需 要加入VoiceXML属性的部分时,并且指定的VoiceXML属性相同时, 或者当用户在图形用户界面的编辑区中标记或键入了需要加入 VoiceXML属性的部分,并且指定了VoiceXML属性之后,在编辑区 内选择了批处理方式之后,系统的VoiceXML文件生成器对整个存储 的TTS流或整个实时录制的音频流进行处理,在与键入或标记的需要 加入VoiceXML属性的部分相匹配的各个部分上分别加入标记生成器 根据用户对图标的调用所指定的VoiceXML属性,这样将大大提高系 统自动生成VoiceXML文件的效率。 以上介绍了如何运用图2所示的系统自动生成VoiceXML文件, 简要地说,即如何为TTS流和实时录制的音频流加上各种VoiceXML 属性。在VoiceXML的各种属性中,有一种非常重要的属性:超链接。 正如前文所述,在计算机中表达文字信息时,若采用超文本(超链接) 方式,则既保留了信息的线性组织结构,又增加了链接结构。它使文 件信息的阅读可以跳跃进行,给阅读者带来许多方便。同样,对于TTS 流或实时录制的音频流来说,加上超链接之后,网络用户可以向浏览 HTML文件那样,在收听VoiceXML文件过程中选择信息或获得进一 步的详细信息。为此,根据本发明一优选实施例的自动生成VoiceXML 文件的系统,在图形用户接口中,提供了一个为VoiceXML文件自动 加入超链接的图形用户接口,如图4所示,其中在该图形用户接口中, 用户通过标记或键入相应的需要加入超链接部分并键入相应的超链接 地址,则系统自动为TTS流或实时录制的音频流加上超链接。 图5和图6示出了根据本发明一优选实施例使用图2所示系统自 动生成VoiceXML文件的动作流。如图5所示,在第一步要生成 VoiceXML文件头,所以用户在图形用户接口中调用与文件头属性相 对应的图标(例如图3中左边第一个图标301)。然后用户调用图标 302,系统则播放存储在存储器104中的内容。例如是主菜单,0: 天气预报、1:股票、2:订票、3:其他。用户进入图4所示的图形 用户接口键入或标记出“0:天气预报”,并且键入链接地址。在此之 后按照图6所示进行以下工作。首先仍然是在图形用户接口中调用与 文件头属性相对应的图标。然后播放TTS流或实时录制的音频流。在 播放到“省”或“市”时,调用相应的图标,为其加上VoiceXML属 性(或者VoiceXML超链接)。在用户按以上方式通过用户接口与系 统完成交互之后,用户动作流记录器就会记录下用户的整个操作过程, 或者确切地说,是用户对图形用户接口中图标的调用过程。系统的 VoiceXML标记生成器102对此动作流进行解释生成相应的 VoiceXML属性,系统的VoiceXML文件生成器103在TTS流或实 时录制的音频流上加上相应的VoiceXML属性,从而生成VoiceXML 文件。 图7是一流程图,示出了根据本发明一优选实施例为TTS流加入 超链接的工作过程。如图7所示,用户首先在图形用户界面的编辑区 中编辑TTS文件,这与编辑普通HTML文件一样。对于需要加入 VoiceXML超链接的部分,用户可以键入亦可以标记。调用相应的图 标,并在此之后,用键入相应的超链接地址。 图8是一流程图,示出了根据本发明的一优选实施例为实时录制 的音频流加入超链接的工作过程。其中当用户在图形用户接口的编辑 区中键入需要加入超链接部分时,要使用语音识别技术在实时录制的 音频流中寻找与需要加入超链接部分相匹配的部分。 以上结合附图描述了本发明的优选实施例。正如本领域一般技术 人所熟知的,在不背离本发明的精神实质的情况下,本发明可以有许 多修改和变型,因此,本发明旨在涵盖所有的这些修改和变型。本发 明的保护范围由所附权利要求书限定。 |