首页 / 专利库 / 视听技术与设备 / 视频编码层 / 一种声控式交互的双向互动数字电视盒系统及实现方法

一种声控式交互的双向互动数字电视盒系统及实现方法

阅读:877发布:2020-11-25

专利汇可以提供一种声控式交互的双向互动数字电视盒系统及实现方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种声控式交互的双向互动 数字电视 盒系统及实现方法,所述系统包括视频 服务器 系统、VOD管理系统、数字电视网络、EPG系统和数字电视终端。所述EPG系统为用户提供操作便捷、节目友好、快速 访问 节目的一种方式,通过该系统实现浏览和查询一个或多个频道近期播放的节目信息,同时,EPG提供分类功能,可以帮助用户浏览和选择各种类型的节目。EPG系统包括接收模 块 、控制转换模块、存储模块和 人机交互 操作模块。本发明具有令双向互动数字电视盒具有较强的产品易用性,规范化的布局和内容,简化了用户选择过程中的操作过程,使双向互动数字电视盒具有良好的用户体验优点。,下面是一种声控式交互的双向互动数字电视盒系统及实现方法专利的具体信息内容。

1.一种声控式交互的双向互动数字电视盒系统,其特征是,包括视频服务器系统、VOD管理系统、数字电视网络、EPG系统和数字电视终端,所述视频服务器系统将数据传输给VOD管理系统,所述VOD管理系统将数据通过数字电视网络传输给EPG系统,所述EPG系统与数字电视终端之间是双向通信,所述数字电视终端的数字电视盒通过接口获取EPG系统信息,并在数字电视终端的显示装置进行呈现;
EPG系统包括依次通信的接收模、控制转换模块、指令存储模块和声控式人机交互操作模块;
所述声控式人机交互操作模块用于实现组块化的人机交互操作,检测并识别用户的声音指令,响应并执行该操作指令,并将操作结果反馈给数字电视盒;所述声音交互操作能够通过用户的声音的信息采集进行自由定义,即允许用户定义不同的声音来表示系统中的操作功能。
2.如权利要求1所述的一种声控式交互的双向互动数字电视盒系统,其特征是,所述接收模块用于接收来自于数字电视网络各种数据信息,并通过解调、解复用、解码和音视频编码获取电子节目菜单信息,并将数据传输给接收模块;
所述控制转换模块,用于将生成的的节目内容索引以及相关联的扩展信息转换为组块化结构形式,并将组块话结构形式传输给指令存储模块;
所述指令存储模块,用于存储转换后的组块化结构的节目菜单信息,并定义组块指令集,存储用户输入的原始信息和表征指令功能的操作信息之间的映射关系库,映射关系以关键字对应关键值的形式存在,所述指令存储模块与人机交互操作模块之间是双向通信;
所述映射关系库中输入指令集作为关键字存在,用于匹配用户输入的信息,并且通过用户输入的信息采集进行自由定义;表征指令功能的操作信息作为关键值存在,关键字与关键值的映射为一对一或多对一的关系;
所述声控式人机交互操作模块包括预处理模块,特征提取模块,匹配模块,执行模块。
3.如权利要求1所述的一种声控式交互的双向互动数字电视盒系统,其特征是,所述视频服务器系统包括:VOD播出服务器、VOD页面目录服务器、VOD播控服务器;
所述VOD播控服务器是VOD业务的核心,主要用来执行处理用户的视频点播请求,并提供响应数据,并协调处理VOD点播的数据查询,播出文件准备,播出控制命令的下发;
所述VOD播出服务器主要用来执行播控服务器的点播命令,包括点播信息的分配,点播文件的调度,播出文件的控制;
所述VOD页面目录服务器用于处理用户的页面目录浏览请求,并把页面数据传给请求的用户。
4.如权利要求1所述的一种声控式交互的双向互动数字电视盒系统,其特征是,所述VOD管理系统负责该点播用户的授权、用户点播的计费及费用明细查询;主要功能包括用户信息管理、用户数据库索引、视频节目源管理、用户认证、服务器监测;
所述数字电视网络用于实现传输分发、网络传输、载入网络功能。
5.如权利要求1所述的一种声控式交互的双向互动数字电视盒系统,其特征是,所述EPG系统为用户提供操作便捷、节目友好、快速访问节目的一种方式,通过该系统实现浏览和查询一个或多个频道近期播放的节目信息,同时,EPG提供分类功能,帮助用户浏览和选择各种类型的节目。
6.如权利要求2所述的一种声控式交互的双向互动数字电视盒系统,其特征是,所述预处理模块用于对收集到的语音进行预滤波、量化去除冗余信息以及降噪处理的操作,并将处理后的信息传输给特征提取模块;
特征提取模块,对进行录入的语音进行特征提取,得到特征向量,并根据特征向量描述建立语音库的关键词词典,存储到指令存储模块;
匹配模块用于判断用户输入指令提取得到的特征向量是否属于某一个关键词,并匹配与该关键词对应的操作指令,通过执行模块识别并响应并执行该操作指令,最后将操作结果反馈给互联网电视终端;
另外,人机交互操作模块还包括自适应识别模块,对用户的语音进行自学习,即允许用户定义不同的声音指令来作为系统中功能的操作指令,从而对前期采样得到的声音模型进行必要的校正,以进一步提高识别的准确率。
7.如权利要求2所述的一种声控式交互的双向互动数字电视盒系统,其特征是,所述的数字电视终端包括显示装置和数字电视盒,显示装置用于对接收到的EPG信息进行解析并以组块形式的界面进行显示;数字电视盒用于影片数据的获取和识别用户的输入信息,所述数字电视盒包括实现声音录入功能的麦克
8.上述任一权利要求所述的系统所采用的工作方法,其特征是,步骤如下:
步骤(1):开始,视频服务器系统提供视频点播的节目源,并通过VOD管理系统管理点播用户的授权计费功能,节目信息源经过数字电视网络的传输,转发给EPG系统;
步骤(2):通过EPG系统接收模块接收来自于数字电视网络各种数据信息,并通过解调、解复用、解码和音视频编码技术获取电子节目菜单信息;
步骤(3):控制转换模块将接收到的电子节目菜单内容信息以及索引转换为组块结构形式,并在存储模块中存储转换后的组块结构的节目菜单信息;然后将节目菜单信息传输给数字电视终端的显示装置,进行界面的呈现;
步骤(4):用户的交互过程通过数字电视终端的数字电视盒的麦克风进行原始操作指令的录入,并支持用户设定自定义的操作指令;
步骤(5):通过人机交互操作模块,进行输入指令的识别和检测,判断用户输入指令是否能和映射关系库中的关键字匹配,如果是就进入步骤(6);如果否就进入步骤(7);
步骤(6):系统执行相应关键字的操作指令的功能事件,并通过终端显示装置呈现操作对应的结果界面;结束;
步骤(7):显示错误提示信息,结束。
9.如权利要求8所述的方法,其特征是,所述步骤(6)的操作对应的结果界面通过建立数学逻辑模型并应用算法自动生成,所述数学逻辑模型是指用树结构来表示组块界面的呈现结构,组块界面作为树状图的根结点,有两种类别的结点,分别为主区结点和辅区结点,其中主区结点为必须存在的结点,辅区结点允许根据需要作为对象容器的区存在,树结构的每一层的深度代表其所表示的结点的类型。
10.如权利要求8所述的方法,其特征是,所述步骤(5)的声控式人机交互操作模块的具体工作方法如下:
Step1进行语音信息的采集,由于组块界面的语音操作指令与遥控式操作的指令一一对应,因此语音信息的采集只需要对特定的遥控式操作对应的语音指令进行采集,定义了三类指令:宏观指令,组块指令以及功能指令;
Step2采集后的语音指令形成语音库,对于语音库中的每个语音信号波形图,提取其每段间隔的值得到一个n维的特征向量f,从而得到特征向量集合F;
Step3对特征集合F应用K-means聚类的方法生成检索关键词词典集合D,容量为d,每个类对应的关键词g由该类内所有特征向量f取平均值得到,每一个关键词g对应一个组块的执行指令,其与组块操作指令关键值的映射关系,存储到存储模块中;
Step4对于输入的待识别的声音指令,同样按照step1和step2的方法得到一个n维的特征向量m;
Step5在关键词词典集合D中,寻找与特征向量m之间Manhattan距离最小的关键词g,如果该距离小于指定阈值,则f为匹配的向量,其对应的指令为要执行的指令,并将m归属到该关键词对应的类中,将该类的特征描述更新为g=(D*g+m)/(d+1)。

说明书全文

一种声控式交互的双向互动数字电视盒系统及实现方法

技术领域

[0001] 本发明涉及信息技术领域,尤其涉及一种声控式交互的双向互动数字电视盒系统及实现方法。

背景技术

[0002] 数字电视机顶盒是一种将数字电视信号转换成模拟信号的变换设备,它对经过数字化压缩的图像和声音信号进行解码还原,产生模拟的视频和声音信号,通过电视显示器和音响设备给观众提供高质量的电视节目。目前的数字电视机顶盒已成为一种嵌入式计算设备,具有完善的实时操作系统,提供强大的CPU计算能,用来协调控制机顶盒各部分硬件设施,并提供丰富多彩的图形用户界面,如增强型电视的电子节目指南,给用户提供图文并茂的节目介绍和背景资料。同时,机顶盒具有“傻瓜计算机”能力,通过内部软件功能对网络进行双向改造,便于实现如因特网浏览、视频点播、家庭电子商务、电话通信多种服务。
[0003] 双向互动数字电视机顶盒仍然大多停留在传统遥控器式的操控中,缺乏统一的组件式的界面布局和灵活智能的操作方式。目前现有的相关界面呈现和智能交互方式的专利虽然也可以实现组化的界面以及触控、声控、手势智能化的操控,但是无法实现所有界面控件和操作指令一一对应的交互,从而将智能化操作应用到每一个组块指令,对于双向数字电视盒的电视直播、视频点播应用功能,难以实现所见即所得的交互和人性化的智能体验。
[0004] 总而言之,目前需要本领域技术人员迫切解决的一个技术问题是:
[0005] 第一,如何在数字电视的显示端实现一种新型组件化的界面布局,令界面呈现能够规范化和统一,并自动屏蔽各种显示终端的差异性。
[0006] 第二,如何提供一种双向互动数字电视盒系统的交互特性及方法,支持新型组块化的双向交互操作,实现即见即得的交互效果。

发明内容

[0007] 本发明针对传统双向互动数字电视盒的界面呈现以及人机交互涉及存在的问题,提出了一种声控式交互的双向互动数字电视盒系统及实现方法,该系统重点对双向互动数字电视盒系统中的EPG系统进行改进,定义一种基于组块的UI呈现界面,将应用资源内容以组件的形式进行封装,双向互动数字电视盒的终端界面实现交互操作指令与界面组件一一对应的事件绑定,完成所见即所得的应用选择功能,交互过程可以减少不必要的重复交互,实现灵活可控的交互效果,此方法实现的双向互动数字电视盒系统具有较强的产品易用性,规范化的布局和内容,简化了用户选择过程中的操作过程,使双向互动数字电视盒具有良好的用户体验优点,并实现了一种新型的应用呈现布局并支持触控、声控、手势等智能化的人机交互方式,方便用户浏览和查询节目信息,提供个性化的服务。
[0008] 为了实现上述目的,本发明采用如下技术方案:
[0009] 一种声控式交互的双向互动数字电视盒系统,包括视频服务器系统、VOD管理系统、数字电视网络、EPG系统和数字电视终端,所述视频服务器系统将数据传输给VOD管理系统,所述VOD管理系统将数据通过数字电视网络传输给EPG系统,所述EPG系统与数字电视终端之间是双向通信,所述数字电视终端的数字电视盒通过接口获取EPG系统的信息,并在数字电视终端的显示装置进行呈现;
[0010] EPG系统包括依次通信的接收模块、控制转换模块、指令存储模块和声控式人机交互操作模块;
[0011] 所述声控式人机交互操作模块用于实现组块化的人机交互操作,检测并识别用户的声音指令,响应并执行该操作指令,并将操作结果反馈给数字电视机顶盒;所述声音交互操作能够通过用户的声音的信息采集进行自由定义,即允许用户定义不同的声音来表示系统中的操作功能。
[0012] 所述接收模块用于接收来自于数字电视网络各种数据信息,并通过解调、解复用、解码和音视频编码获取电子节目菜单信息,并将数据传输给接收模块;
[0013] 所述控制转换模块,用于将生成的的节目内容索引以及相关联的扩展信息转换为组块化结构形式,并将组块话结构形式传输给指令存储模块;
[0014] 所述指令存储模块,用于存储转换后的组块化结构的节目菜单信息,并定义组块指令集,存储用户输入的原始信息和表征指令功能的操作信息之间的映射关系库,映射关系以关键字对应关键值的形式存在,所述指令存储模块与人机交互操作模块之间是双向通信;
[0015] 所述映射关系库中输入指令集作为关键字存在,用于匹配用户输入的信息,并且通过用户输入的信息采集进行自由定义;表征指令功能的操作信息作为关键值存在,关键字与关键值的映射为一对一或多对一的关系;
[0016] 所述声控式人机交互操作模块包括预处理模块,特征提取模块,匹配模块,执行模块。
[0017] 所述视频服务器系统包括:VOD播出服务器、VOD页面目录服务器、VOD播控服务器;
[0018] 所述VOD播控服务器是VOD业务的核心,主要用来执行处理用户的视频点播请求,并提供响应数据,并协调处理VOD点播的数据查询,播出文件准备,播出控制命令的下发;
[0019] 所述VOD播出服务器主要用来执行播控服务器的点播命令,包括点播信息的分配,点播文件的调度,播出文件的控制;
[0020] 所述VOD页面目录服务器用于处理用户的页面目录浏览请求,并把页面数据传给请求的用户。
[0021] 所述VOD管理系统负责该点播用户的授权、用户点播的计费及费用明细查询;主要功能包括用户信息管理、用户数据库索引、视频节目源管理、用户认证、服务器监测;
[0022] 所述数字电视网络用于实现传输分发、网络传输、载入网络功能。
[0023] 所述EPG系统为用户提供操作便捷、节目友好、快速访问节目的一种方式,通过该系统实现浏览和查询一个或多个频道近期播放的节目信息,同时,EPG提供分类功能,帮助用户浏览和选择各种类型的节目。
[0024] 所述预处理模块用于对收集到的语音进行预滤波、量化去除冗余信息以及降噪处理的操作,并将处理后的信息传输给特征提取模块;
[0025] 特征提取模块,对进行录入的语音进行特征提取,得到特征向量,并根据特征向量描述建立语音库的关键词词典,存储到指令存储模块;
[0026] 匹配模块用于判断用户输入指令提取得到的特征向量是否属于某一个关键词,并匹配与该关键词对应的操作指令,通过执行模块识别并响应并执行该操作指令,最后将操作结果反馈给互联网电视终端;
[0027] 另外,人机交互操作模块还包括自适应识别模块,对用户的语音进行自学习,即允许用户定义不同的声音指令来作为系统中功能的操作指令,从而对前期采样得到的声音模型进行必要的校正,以进一步提高识别的准确率。
[0028] 所述的数字电视终端包括显示装置和数字电视盒,显示装置用于对接收到的EPG信息进行解析并以组块形式的界面进行显示;数字电视盒用于影片数据的获取和识别用户的输入信息,所述数字电视盒包括实现声音录入功能的麦克
[0029] 所述的系统所采用的工作方法,步骤如下:
[0030] 步骤(1):开始,视频服务器系统提供视频点播的节目源,并通过VOD管理系统管理点播用户的授权计费功能,节目信息源经过数字电视网络的传输,转发给EPG系统;
[0031] 步骤(2):通过EPG系统接收模块接收来自于数字电视网络各种数据信息,并通过解调、解复用、解码和音视频编码技术获取电子节目菜单信息;
[0032] 步骤(3):控制转换模块将接收到的电子节目菜单内容信息以及索引转换为组块结构形式,并在存储模块中存储转换后的组块结构的节目菜单信息;然后将节目菜单信息传输给数字电视终端的显示装置,进行界面的呈现;
[0033] 步骤(4):用户的交互过程通过数字电视终端的数字电视盒的麦克风进行原始操作指令的录入,并支持用户设定自定义的操作指令;
[0034] 步骤(5):通过人机交互操作模块,进行输入指令的识别和检测,判断用户输入指令是否能和映射关系库中的关键字匹配,如果是就进入步骤(6);如果否就进入步骤(7);
[0035] 步骤(6):系统执行相应关键字的操作指令的功能事件,并通过终端显示装置呈现操作对应的结果界面;结束;
[0036] 步骤(7):显示错误提示信息,结束。
[0037] 所述步骤(6)的操作对应的结果界面通过建立数学逻辑模型并应用算法自动生成,所述数学逻辑模型是指用树结构来表示组块界面的呈现结构,组块界面作为树状图的根结点,有两种类别的结点,分别为主区结点和辅区结点,其中主区结点为必须存在的结点,辅区结点允许根据需要作为对象容器的区存在,树结构的每一层的深度代表其所表示的结点的类型。
[0038] 所述步骤(5)的声控式人机交互操作模块的具体工作方法如下:
[0039] Step1进行语音信息的采集,由于组块界面的语音操作指令与遥控式操作的指令一一对应,因此语音信息的采集只需要对特定的遥控式操作对应的语音指令进行采集,定义了三类指令:宏观指令,组块指令以及功能指令;
[0040] Step2采集后的语音指令形成语音库,对于语音库中的每个语音信号波形图,提取其每段间隔的值得到一个n维的特征向量f,从而得到特征向量集合F;
[0041] Step3对特征集合F应用K-means聚类的方法生成检索关键词词典集合D,容量为d,每个类对应的关键词g由该类内所有特征向量f取平均值得到,每一个关键词g对应一个组块的执行指令,其与组块操作指令关键值的映射关系,存储到存储模块中;
[0042] Step4对于输入的待识别的声音指令,同样按照step1和step2的方法得到一个n维的特征向量m;
[0043] Step5在关键词词典集合D中,寻找与特征向量m之间Manhattan距离最小的关键词g,如果该距离小于指定阈值,则f为匹配的向量,其对应的指令为要执行的指令,并将m归属到该关键词对应的类中,将该类的特征描述更新为g=(D*g+m)/(d+1)。
[0044] 本发明的有益效果:
[0045] 1提供一种智能化、开放的、支持多业务的、具有规范布局格式的EPG系统的宽带多媒体业务平台,解决业务索引和导航缺乏统一格式的问题,并通过以太网络传送静态或动态的资源并提供数字电视双向互动的娱乐服务。
[0046] 2定义一种基于组块的UI呈现界面,将应用资源内容以组件的形式进行封装,通过建立数学逻辑模型,实现了一种新型的应用呈现布局和交互方式。在数字电视的终端界面实现交互操作指令与界面组件一一对应的事件绑定,完成所见即所得的应用选择功能,交互过程可以减少不必要的重复交互,提高了响应的效率,达到灵活可控的交互效果,实现一种新型的数字电视节目菜单呈现布局和双向互动模式。
[0047] 3提供一种基于组块交互技术的触控式双向互动数字电视盒,以及运用组块交互技术原理实现的触控式交互的双向互动数字电视盒设备,能支持单点和多点的触控操作,并进行高精度的动作识别,快速响应各类触控操作,令双向互动数字电视盒具有较强的产品易用性,简化了用户选择时的操作过程,使互联网电视具有良好的用户体验。
[0048] 4通过新型的组块UI界面交互方法,区别于传统的只具有上、下、左、右、确认和退出等选择的遥控式交互操作模式。此方法无需定义复杂的交互事件,具有易知、易学、易用的交互特性。双向互动方式满足了用户对不同业务层次的需求,提供了更自由多元化的选择渠道,并且组块交互方法支持多种操作模式,可以自主配置,扩展到多种智能操控方式,操作方法灵活多变,适合各种业务信息以及应用资源的交互。
[0049] 5由于组块界面的布局的优势,声控指令不需要繁琐而庞大的指令库,只通过与界面组块对应的屈指可数的指令即可实现交互操作,因此在特征提取时也可以通过更简捷的方式获得特征向量,缩短了匹配时间,保证了匹配效率。
[0050] 6组块界面的组块排列采用最多不大于9的组合形式,因此声控指令最多只需要匹配1~9的9个语音,令提取出的声音指令库容量大大减少,通过定义关键词字典,对于用户输入的声音指令,使特征提取得到的关键词更加接近于匹配结果,并且匹配声音指令的工作效率也明显提高。
[0051] 总之,该交互方法令双向互动数字电视盒具有较强的产品易用性,规范化的布局和内容,简化了用户选择过程中的操作过程,通过这种UI布局和交互设计,可以使双向互动数字电视盒的操作方式更加人性化,从而大幅度提升产品的用户体验。
[0052] 本发明构建了一种新型组块式的双向互动数字电视盒系统的界面布局形式以及交互方式,通过一一对应的界面组件和响应事件,实现所见即所得的交互效果。区别于传统的只具有上、下、左、右、确认和退出选择的单一的遥控交互操作模式,应用此方法实现的双向互动数字电视盒系统可以向用户提供高质量的用户体验服务,操作方法灵活多变,并可以扩展到触控、声控、手势等智能操作的交互领域,适合各种业务信息以及应用资源的交互,实现快速响应各类操作,系统易知、易学、易用的便捷交互模式能够适合更广泛的人群操作使用,让用户感受到智能化、人性化的娱乐享受。附图说明
[0053] 图1是双向互动数字电视盒的数学模型示意图;
[0054] 图2是双向互动数字电视盒系统结构图;
[0055] 图3是双向互动数字电视盒系统的声音匹配和识别的方法步骤;
[0056] 图4是双向互动数字电视盒系统的组块交互方法流程图

具体实施方式

[0057] 如图1所示,本发明实现的互联网电视系统针对传统互联网电视的呈现和交互涉及存在的问题,提出了一种基于组块交互技术的互联网电视业务实现方法,此实现方法首先对互联网电视终端的呈现界面进行改进,定义一种基于组块的UI呈现界面,将应用资源内容以组件的形式进行封装,实现了一种新型的应用呈现布局。
[0058] 所述的组块形式的界面布局内容包括:主显示区块,用以显示第一承载组块;辅显示区块,用以显示第二承载组块;所述辅显示区块位于所述主显示区块的上侧、下侧、左侧、右侧、或悬浮在上方。有多个悬浮状态的区块时,采用层次递进的形态显示,即最新弹出的悬浮状态区块总是位于界面的最前端突出显示,其他层次的界面区块通过设置层次透明度显示。
[0059] 所述的系统包括初始界面和多个过程界面,初始界面和过程界面的呈现形式相同,主显示区块有九个第一承载组块,排列呈宫格形;辅显示区有九个第二承载组块,横向或纵向依次排列,每个区块内显示九个承载组块,若区块内组块超过九个时,需将第十个及以上的承载组块分页显示。
[0060] 与现有公开专利中涉及到的组块界面相比,本发明中为界面定义了数学模型,并可以通过算法自动的生成初始界面和过程界面,表示方法如下:
[0061] 用树结构来表示组块的界面呈现结构,组块界面作为树状图的根结点,有两种类别的五个子结点,分别为主区结点(E区结点)和辅区结点(辅区1、辅区2…辅区M),其中主区结点为必须存在的结点,辅区结点可以根据需要作为对象容器的区存在,树结构的每一层的深度代表其所表示的结点的类型。如图1所示,每一个界面(包括初始界面和过程界面)作为根结点,其层次深度为1,区结点的层次深度为2,区内组块结点的层次深度为3。
[0062] 组块模型,以集合Q={q|q=(主区(组块E1,组块E2…组块En),辅区1(组块A1,组块A2…组块An),辅区2(组块B1,组块B2…组块Bn)…辅区M(组块M1,组块M2…组块Mn)),其中主区≠∮,n≤9}表示,即组块界面的主区不能为空,并且每个区内还有的组块数不能超过9。另外,初始界面和过程界面得到的树结构,可以根据呈现内容自动生成,得到分配树结构的子结点。
[0063] 如图2所示,一种双向互动数字电视盒系统,包括视频服务器系统、VOD管理系统、数字电视网络、EPG系统和数字电视终端,所述视频服务器系统将数据传输给VOD管理系统,所述VOD管理系统将数据通过数字电视网络传输给EPG系统,所述EPG系统与数字电视终端之间是双向通信,所述数字电视终端的数字电视盒通过接口获取EPG系统上面所有发布影片的列表,节目类型和影片名称等信息,并在数字电视终端的显示装置进行呈现。
[0064] 所述视频服务器系统包括:VOD播出服务器、VOD页面目录服务器、VOD播控服务器。
[0065] 所述VOD播控服务器是VOD业务的核心,主要用来执行处理用户的视频点播请求,并提供响应数据,并协调处理VOD点播的数据查询,播出文件准备,播出控制命令的下发。
[0066] 所述VOD播出服务器主要用来执行播控服务器的点播命令,包括点播信息的分配(VPID,APID),点播文件的调度,播出文件的控制。
[0067] 所述VOD页面目录服务器用于处理用户的页面目录浏览请求,并把页面数据传给请求的用户。
[0068] 所述VOD管理系统负责该点播用户的授权、用户点播的计费及费用明细查询。主要功能包括用户信息管理、用户数据库索引、视频节目源管理、用户认证、服务器监测等。
[0069] 所述数字电视网络用于实现传输分发、网络传输、载入网络等功能。
[0070] 所述EPG系统为用户提供操作便捷、节目友好、可以快速访问节目的一种方式,通过该系统实现浏览和查询一个或多个频道近期播放的节目信息,同时,EPG可提供分类功能,可以帮助用户浏览和选择各种类型的节目。EPG系统包括接收模块、控制转换模块、存储模块和人机交互操作模块。
[0071] 所述接收模块用于接收来自于数字电视网络各种数据信息,并通过解调、解复用、解码和音视频编码等技术获取电子节目菜单信息,并将数据传输给接收模块;
[0072] 所述控制转换模块,用于将生成的的节目内容索引以及相关联的扩展信息转换为组块化结构形式,并将组块话结构形式传输给指令存储模块;
[0073] 所述指令存储模块,用于存储转换后的组块化结构的节目菜单信息,并定义组块指令集,存储用户输入的原始信息和表征指令功能的操作信息之间的映射关系库,映射关系以关键字对应关键值的形式存在,所述指令存储模块与人机交互操作模块之间是双向通信。所述映射关系库中输入指令集作为关键字存在,用于匹配用户输入的信息,并且可以通过用户输入的信息采集进行自由定义;表征指令功能的操作信息作为关键值存在,关键字与关键值的映射为一对一或多对一的关系。
[0074] 所述声控式人机交互操作模块用于实现组块化的人机交互操作,包括预处理模块,特征提取模块,匹配模块,执行模块,其中预处理模块用于对收集到的语音进行预滤波、量化等去除冗余信息以及降噪处理的操作,特征提取模块,对进行录入的语音进行特征提取,得到特征向量,并根据特征向量描述建立语音库的关键词词典,存储到指令存储模块。匹配模块用于判断用户输入指令提取得到的特征向量是否属于某一个关键词,并匹配与该关键词对应的操作指令,通过执行模块识别并响应并执行该操作指令,最后将操作结果反馈给互联网电视终端。另外,人机交互操作模块还包括自适应识别模块,可以对用户的语音进行自学习,即允许用户定义不同的声音指令来作为系统中功能的操作指令,从而对前期采样得到的声音模型进行必要的校正,以进一步提高识别的准确率。
[0075] 所述的数字电视终端包括显示装置和数字电视盒,显示装置用于对接收到的EPG信息进行解析并以组块形式的界面进行显示;数字电视盒用于影片数据的获取和识别用户的输入信息,所述数字电视盒包括实现声音录入功能的麦克风。
[0076] 如图4所示,上述系统所采用的工作方法步骤如下:
[0077] 步骤(1):开始,视频服务器系统提供视频点播的节目源,并通过VOD管理系统管理点播用户的授权计费等功能,节目信息源经过数字电视网络的传输,转发给EPG系统。
[0078] 步骤(2):通过EPG系统接收模块接收来自于数字电视网络各种数据信息,并通过解调、解复用、解码和音视频编码等技术获取电子节目菜单信息;
[0079] 步骤(3):控制转换模块将接收到的电子节目菜单内容信息以及索引转换为组块结构形式,并在存储模块中存储转换后的组块结构的节目菜单信息;然后将节目菜单信息传输给数字电视终端的显示装置,进行界面的呈现。
[0080] 步骤(4):用户的交互过程通过数字电视终端的数字电视盒的麦克风进行原始操作指令的录入,并支持用户设定自定义的操作指令。
[0081] 步骤(5):通过人机交互操作模块,进行输入指令的识别和检测,判断用户输入指令是否能和映射关系库中的关键字匹配,如果是就进入步骤(6);如果否就进入步骤(7);
[0082] 步骤(6):系统执行相应关键字的操作指令的功能事件,并通过终端显示装置呈现操作对应的结果界面;结束;
[0083] 步骤(7):显示错误提示信息,结束。
[0084] 所述步骤(6)的操作对应的结果界面通过建立数学逻辑模型并应用算法自动生成,所述数学逻辑模型是指用树结构来表示组块界面的呈现结构,组块界面作为树状图的根结点,有两种类别的结点,分别为主区结点和辅区结点,其中主区结点为必须存在的结点,辅区结点允许根据需要作为对象容器的区存在,树结构的每一层的深度代表其所表示的结点的类型。
[0085] 如图3所示,所述步骤(5)的声控式人机交互操作模块的具体工作方法如下:
[0086] Step1进行语音信息的采集,由于组块界面的语音操作指令与遥控式操作的指令一一对应,因此语音信息的采集只需要对特定的遥控式操作对应的语音指令进行采集,定义了三类指令:宏观指令,组块指令以及功能指令。组块指令集的划分以及配置指令与组块操作指令的映射关系请参见专利《采用声控式的人机交互设备》(申请号201310119989.3)。
[0087] Step2采集后的语音指令形成语音库,对于语音库中的每个语音信号波形图,提取其每段间隔帧的值得到一个n维的特征向量f,从而得到特征向量集合F;
[0088] Step3对特征集合F应用K-means聚类的方法生成检索关键词词典集合D,容量为d,每个类对应的关键词g由该类内所有特征向量f取平均值得到,每一个关键词g对应一个组块的执行指令,其与组块操作指令关键值的映射关系,存储到存储模块中;
[0089] Step4对于输入的待识别的声音指令,同样按照step1和step2的方法得到一个n维的特征向量m;
[0090] Step5在关键词词典集合D中,寻找与特征向量m之间Manhattan距离最小的关键词g,如果该距离小于指定的阈值,则f为匹配的向量,其对应的指令为要执行的指令,并将m归属到该关键词对应的类中,将该类的特征描述更新为g=(D*g+m)/(d+1)。
[0091] 上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改变形仍在本发明的保护范围以内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈