移动成像应用、装置结构、和服务平台结构

申请号 CN200580042645.0 申请日 2005-10-12 公开(公告)号 CN101076952A 公开(公告)日 2007-11-21
申请人 液滴技术有限公司; 发明人 约翰·D·罗尔斯顿; 克拉西米尔·D·克拉罗夫; 史蒂文·E·桑德斯;
摘要 本 发明 提供了一种用于对移动装置内的静态图像数据和视频图像数据进行压缩和解压缩的系统和方法。还提供了用于在无线和有线网络上对静态图像和视频图像进行传输、存储、编辑、和变码的并在可视装置上将它们显示出来的相应移动装置结构和服务平台结构。
权利要求

1.一种联合信源信道编码的改进方法,其中,所述联合信源信道 编码在源编码器级、信道编码器级以及速率控制器级按顺序来 处理待压缩的源视频以生成经过联合信源信道编码的位流,所 述改进包括:
确定传输带宽参数和传输误差比率参数这两者之中至少 一个的变化;
响应于所述至少一个所确定的变化来改变所述源编码器 级、所述信道编码器级、以及所述速率控制器级这三者之中至 少一个的处理过程。
2.根据权利要求1所述的方法,其中,所述参数中至少一个是即 时参数。
3.根据权利要求1所述的方法,其中,所述参数中至少一个是预 测参数。
4.根据权利要求1所述的方法,其中,所述参数中至少一个是平 均参数。
5.根据权利要求1所述的方法,其中,所述改进还包括:提供可 量度的和利用小波的源编码器级。
6.根据权利要求1所述的方法,其中,所述参数中至少一个是从 蜂窝电话信号塔接收的。
7.根据权利要求1所述的方法,其中,改变所述级中至少一个的 处理过程导致约1%到40%范围的比率变化增量。
8.根据权利要求1所述的方法,其中,改变所述级中至少一个的 处理过程导致约1%到5%范围的比率变化增量。

说明书全文

技术领域

发明涉及数据压缩,更特别地,涉及在移动装置内的静态图 像记录和视频图像记录,涉及用于在无线和有线网络上对静态图像 和视频图像进行传输、存储、编辑、和变码的并在可视装置上将它 们显示出来的以及跨网络和装置分布和升级编码解码器的相应移 动装置结构和服务平台结构。

背景技术

直接数字化的静态图像和视频需要许多“位”。因此,一般为 了存储、传输、和其它应用而压缩图像和视频。已经知道几种基本 的压缩方法,以及这些方法中的许多特定的变型。通常的方法以三 级处理为特征:变换、量化、以及熵编码。许多图像和视频压缩器 共享这一具有各种变化的基本结构。
视频压缩器中变换级的目的在于收集能量(energy)或源图片 的信息以通过利用该图片或序列内局部相似性和图案来将其转换 为尽可能压缩的一种形式。压缩器被设计为在“典型”输入上很好 地工作,而可能忽略掉其未能压缩“随机的”或“不合理的”输入。 诸如MPEG-2和MPEG-4等许多图像压缩和视频压缩方法使用离散 余弦变换(DCT)作为变换级。诸如MPEG-4静态结构压缩等一些 较新的图像压缩和视频压缩方法使用各种小波变换作为变换级。
量化通常在该变换级后就丢弃信息。因而,经过重构的解压缩 图像就不是原始图像的完整再生。
熵编码过程通常为无损步骤:该步骤获取量化后的剩余信息并 且照例对它进行编码以使得其在解码器中被完整再生。因此与有关 在变换和量化级中何种信息要丢弃的设计决策通常不受以下熵编 码级的影响。
基于DCT的视频压缩/解压缩(编码解码器)技术局限就是, 原来已被开发用于视频广播和流应用这些技术依赖于演播室环境 中的视频内容的编码,其中高复杂度编码器可能运行在计算机工作 站上。这种计算复杂的编码器允许将计算简单和相对廉价的解码器 (播放器)安装在用户播放装置内。然而,这种不对称的编码/解码 技术与移动多媒体装置(其中可能需要在手机自身内部实时捕获 (并且编码)以及播放视频消息)的匹配性很差。由于移动装置相 对小的计算能和电源,结果,移动装置内的(相比于其它用户产 品中的)视频图像通常被限制到很小的图像尺寸和很低的速率。

发明内容

本发明针对现有压缩技术的缺点提出了一些解决方案并且提 供了可以作为全软件(或混合)应用程序而在移动手机上执行的、 高复杂性但高效计算的图像压缩(编码解码器),从而减少了手机 结构的复杂度和移动成像服务平台结构的复杂度。本发明的全软件 或混合视频编码解码器解决方案的多个方面基本上减少或消除了 多媒体手机中的基带处理器和视频加速器的成本以及需要。与通过 OTA下载来安装编码解码器后期制作的功能相结合,全软件或混合 解决方案中的本发明基本上减少了手机开发和视频消息服务结构 及部署的复杂度、险、和成本。而且,根据本发明的多个方面, 软件视频变码器启动对移动手机进行的已部署的MMS控制 (MMSC)基础结构自动跨网(OTN)升级以及编码解码器部署或升 级。本发明的小波变码器为运营商提供了在小波视频格式和其它基 于标准的和专有的视频格式之间的完整的互操作性。本全软件或混 合视频平台允许没有现有技术可用的、平衡处理速度和视频产品精 确度的新MMS服务进行快速配置。本小波编码解码器在它们的高 效处理静态图像和视频的能力方面也是独特的,并因此可以用能够 同时支持动态图片邮件和视频消息服务以及其它服务的单个低成 本和低功耗解决方案取代单独的MPEG、和JPEG编码解码器。
附图说明
图1示出了普通视频显示格式之间的实际显示尺寸和分辨率的 差别。
图2示意性地示出了用于联合信源-信道编码的系统。
图3示出了移动成像手机结构。
图4示出了移动成像服务平台结构。
图5示意性地比较了DCT编码器和本发明的改进小波编码器 之间的处理资源的差别。
图6示意性地示出了用于联合信源-信道编码的改进系统。
图7示出了改进的移动成像手机结构。
图8示出了改进的移动成像服务平台结构。
图9示出了用于执行视频网关的空中升级的方框图
图10示出了用于软件成像应用的实施选项。
图11示出了用于硬件-加速成像应用的实施选项。
图12示出了用于混合硬件加速和软件成像应用的实施选项。

具体实施方式

基于小波的图像处理
小波变换包括以一维或多于一维的形式重复应用小波滤波器 对到数据集。对于静态图像压缩,可以使用2-D小波变换(平和 垂直)。视频编码解码器可以使用3-D小波变换(水平、垂直、和 时间)。改进的、对称的基于小波的3-D视频压缩/解压缩(编码解 码器)装置可以令人满意地把移动装置的计算复杂度和功率消耗降 低到基于DCT的编码解码器所需要的那些计算复杂度和功率消耗 以下,以及能够在单一编码解码器中同时支持处理静态图像和视频 图像。这种在单一编码解码器中同时支持静态图像和视频图像的方 法可以消除对单独的MPEG(视频)和JPEG(静态图像)编码解码器的 需要,或者极大地提高压缩性能以及因此而来的与移动JPEG编码 解码器相关的存储效率。
移动图像消息传输
根据本发明的多个方面,推动了移动手机和服务领域的更丰富 的内容,其利用更多的带宽并且为移动服务提供商带来更高的人均 收益(ARPU)。移动多媒体服务(MMS)是基于文本的短消息服 务(SMS)的多媒体演变。本发明的多个方面方便了新的MMS应用。 该新的应用就是视频消息传输。根据本发明,视频消息传输为响应 目标观众私人信息通讯交流的需求而提供了高度改进的系统。这种 移动图像消息传输需要给移动手机添加数码相机功能(静态图像) 和/或便携式摄像机功能(视频图像),以便用户既可以捕获(编码) 他们想要发送的视频消息,并且又可播放(解码)他们接收到的视 频消息。
即使目前存在一些移动图像消息传输服务和应用,它们被限制 在捕获和传输比诸如电视、个人计算机、和数字摄像机等其它多媒 体装置(见图1)上通常所捕获和显示的视频图像尺寸小得多并且 帧速率低得多的视频图像。如图1所示,最小的当前格式,SubQCIF 110(SubQ-通用中间格式)为128像素(图片元素)宽×96像素高, QQVGA 120(QQ-矢量图形阵列)为160×120像素,QCIF 130为 176×144像素,QVGA 140为320×240像素,CIF 150为352×288 像素,VGA 160为640×480像素,以及当前最大的格式, D1/HDTV(高清电视),为720×480像素。能够支持帧速率为30fps 或更高的(如由本发明的多个方面所提供和启动的)VGA(或更大 的)的移动图像消息传输服务和应用是期待已久的。
适应性联合信源-信道编码
与诸如文本、音频、以及静态图像等其它的数据/媒体类型的传 输相比,由于通常需要更高的数据速率,移动网络上的视频传输在 本质上是有挑战性的。另外,有限的和变化的信道带宽,与移动网 络的振荡噪声和误差特性一起给视频传输带来进一步的限制和困 难。根据本发明的多个方面,可以运用各种联合信源-信道编码技术 使视频位流适应于不同的信道条件(见图2)。而且,本发明的联合 信源-信道编码方法是可量度(scalable)的,以便适配于变化的信 道宽度和误差特性。更进一步,它支持多播场景的可量测性,其中, 在视频流的接收端的不同装置在解码计算能力和显示功能上具有 不同的限制。
如图2所示,以及依据本发明的多个方面,首先由源编码器220 对源视频序列210源编码(即,压缩),然后由纠错码(ECC)信 道编码230对其编码。在现有技术移动网络中,源编码通常使用诸 如H.263、MPEG-4、或运动JPEG等基于DCT的压缩技术。这种 编码技术不能像本发明那样能对源编码器中执行的压缩等级进行 实时的调整。特别是当视频实时或近似实时地被捕获、编码、和通 过通信网络传输时(与视频被捕获、编码、和存储以用于随后的传 输的实施例相比较),本发明就在这一方面提供了显著的优势。示 例性的信道编码方法有Reed-Solomon编码法、BCH编码法、FEC 编码法、以及Turbo编码法。联合信源信道编码视频位流随后就传 输通过速率控制器(Rate control)240来与信道带宽的需求相匹配, 而同时达到经过重构的最好视频质量。速率控制器240在它发送视 频位流250以传输通过信道260之前执行有关压缩视频位流的离散 速率失真计算。由于移动装置中计算能力方面的有限性,通常的速 率控制器只考虑可用的信道带宽,而没有明确地考虑传输信道的误 差特性。根据本发明的多个方面,源编码器具有调整压缩的功能, 以便于获取小到1%至5%以及1%至10%的压缩比率的各种值。当 不同的压缩因子被应用到分开的但一起表示一个或多个视频图像 数据的数据予频带时,就特别具有这种功能。
如图2b所示,在解码过程中,通过信道260接收联合信源信 道编码位流250和在步骤270中对其进行ECC信道解码,以及在 步骤280中对其进行源解码以呈现重构视频290。
本发明提供了基于具有更高计算效率的算法的改进适应性联 合信源信道编码,因此,即时的和预测的信道带宽和误差条件可以 被应用在源编码器220、信道编码器230、以及速率控制器240所 有这三者之中,来实现对重构的视频信号的即时和平均的质量(视 频速率和失真之间的关系)的最大化控制。
由本发明所提供的改进的适应性联合信源信道编码技术还允 许无线运营商和MMS服务提供商能够为其消费用户和企业客户提 供更大范围的服务质量(QoS)性能和价格水平,因此通过使用他 们的无线网络基础结构所产生的收益最大化。
多播场景需要能被许多用户解码的单个的适应性视频位流。这 在现代大规模异种网络中尤其重要,其中网络带宽的限制使得传输 为每个用户专调谐的多个联播视频信号不现实。单个适应性视频 位流的多播极大地降低了带宽需求,但是需要生成能够解码用于多 个用户(包括具有宽带无线或有线连接的高端用户、以及具有有限 带宽和易错连接的无线电话用户)的视频位流。由于移动装置的计 算能力的局限性,适应性速率控制器的粒度通常很粗糙,例如只生 成包括基础层和一加强层的2层位流。
由基于具有更高计算效率的算法的本发明改进适应性联合信 源信道编码所提供的另一个优势是其在信道类型(无线和有线)、 信道带宽、信道噪声/误差特性、用户装置、以及用户服务方面能够 支持更高级别的异种网络。
移动成像手机结构
现在参看图3,附加到移动手机上的便携数字摄像机功能涉及 以下的硬件、软件、或作为其硬件和软件的组合方面的功能:
.具有对应的前置放大器和模拟-数字(A/D)信号转换电路 的成像器阵列310(通常为CMOS或CCD像素阵列)
.诸如前处理、编码/解码(编码解码器)、后处理的图像处理 功能312
.用于通过无线或有线网络的非实时传输或实时流的处理图 像的缓冲区314
.诸如触摸屏316和/或彩色显示器318的一个或多个图像显 示屏
.内置存储器320或可更换存储器322上的本地图像存储器
使用诸如MPEG-4的基于DCT变换的编码解码器,商业上可 用的、能够成像的移动手机被限制到只能捕获与通常在诸如电视、 个人计算机、以及便携式数字摄像机等其它的多媒体装置上所捕获 和显示的视频图像相比尺寸要小且帧速率要低的视频图像。后面的 这些装置通常以VGA(640×480像素)以上的格式、以30帧每秒 (fps)或更高的显示速率来捕获/显示视频图像,而对比来看,商 业上可用的、能够成像的移动手机被限制到只能以QCIF(176×144 像素)或更小的格式、以15fps或更低的显示速率来捕获视频图像。 这一被降低的视频捕获能力归因于完成有关于应用DCT变换的视 频压缩/解压缩的计算步骤的数量、类型、和序列所需要的过大的处 理器功耗和缓冲存储器。即使对于这一经过减少了的商业上可用的 移动手机的视频捕获功能,也需要将专门设计的集成电路芯片植入 到手机硬件中以便完成压缩和解压缩。
使用商业上可用的视频编码解码器和微处理器技术会导致对 于试图以30fps或更高的帧速率捕获VGA(或更大)视频的移动成 像手机来说非常复杂、耗电、以及昂贵的结构,且其具有漫长的设 计和制造交付周期(lead times)。这种手机结构需要利用运行在精 简指令集(RISC)处理器324、数字信号处理器(DSP)326、专用 集成电路(ASIC)328、和可重构的处理装置(RPD)330等组合 上的软件程序和硬件加速器进一步组合的编码解码器以及更大的 缓冲存储器314(典型存储容量为1MB以上)。这些编码解码器 功能可以使用诸如RISC处理器324、DSP 326、ASIC 328、以及 RPD 330这样的分离的集成电路(IC)进行实施,或把一起集成在 封装组件系统(system-in-a-package,SIP)或单芯片系统 (system-on-a-chip,SoC)内的一个或多个RISC处理器324、DSP 326、ASIC 328、以及RPD 330结合起来。
运行在与以上硬件结合的RISC处理器324或DSP 326上的编 码解码器功能可以是软件例程,它们具有出于纠错和功能升级目的 而随时能被修改的这一优点。作为软件执行某些复杂、重复的编码 解码器功能的缺点是,所产生的整体处理器资源和功率消耗需求通 常超过移动通信装置中的可用量。运行在ASIC 328上的编码解码 器功能通常为复杂的、重复性计算步骤的固定硬件实施,其具有这 样的优势:专门定制的硬件加速可以大大降低编码解码器的整体功 率消耗。在固定硬件内执行某些编码解码器功能的缺点包括:更长 和更昂贵的设计周期、在固定的执行中发现错误的情况下召回产 品费用昂贵的风险、以及在新开发的功能将被添加到成像应用程序 的情况下不能完成对固定硅的功能进行升级。运行在RPD 330上的 编码解码器功能通常是既需要硬件加速也要求能够添加或修改终 端移动成像手机产品功能的多个例程。在RPD 330上执行某些编码 解码器功能的缺点是:与固定的ASIC 328实施相比,需要更大量 的硅栅和更高功耗以支持硬件重构。
根据本发明的一些方面所构造的成像应用减少或消除了复杂 的、重复性的编码解码器功能以便用全软件结构使移动成像手机能 够以30fps的帧速率捕获VGA 160(或更大)视频。这一安排简化了 以上结构并且使得手机成本与大批量商业推广相适应。
新的多媒体手机可能还需要不仅支持图片和视频消息功能,而 且支持多种附加多媒体功能(语音、音乐、图形)和无线存取模式 (2.5G和3G蜂窝存取、无线LAN、蓝牙、GPS等)。为了更高效 地推广新的创收服务和应用、以及避免花费昂贵的产品召回,涉及 到开发、推广、和支持这种产品的复杂性和风险性使得许多功能和 应用的空中(OTA)分布和管理变得急需。由本发明的多个方面所 提供的全软件成像应用使得通过移动运营商进行成像应用的OTA 分布和管理成为可能。
移动Java应用
Java技术把大范围的装置,从服务器到台式机再到移动装置, 一起集中到某一种语言和一种技术之下。尽管用于该范围的装置的 应用不同,Java技术在其统计的这些差别中起到的桥梁作用,从而 允许在某一个技能领域的开发人员可以跨越装置和应用范围发挥 他门的技能。
首先由Sun微系统在1999年6月引入到Java领域的J2ME(Java 2,微型版本)是为更好地满足Java开发人员不同需求的广泛动机 之中的一部分。使用Java 2平台,Sun重定义了Java技术结构,将 其归类为三个版本。标准版本(J2SE)为桌面开发和低端商业应用 提供了实际的解决方案。企业版本(J2EE)针对专注于企业环境应 用的开发人员。微型版本(J2ME)是为用诸如PDA、蜂窝电话、 寻呼机、电视机顶盒、遥测部件、以及许多其它的消费用户电子和 嵌入式装置等等具有有限硬件资源的装置工作的开发人员引入的。
J2ME的目标在于具有小至128KB的RAM和具有较之应用在 典型台式机和服务器装置上的处理器的功能小得多的处理器的装 置。J2ME实际上由一组配置文件(profile)组成。每种配置文件都 被限定用于特定类型的装置(蜂窝电话、PDA等),并且都包括: 特定类型装置所需的最小类库集以及为支持该装置所需的Java虚 拟机的规范。在任何J2ME配置文件中指定虚拟机不必与Java2 标准版本(J2SE)以及Java2企业版本(J2EE)中所使用的虚拟机 一样。
为以上列出的所有装置都定义最优的或接近最优的单一的 J2ME技术是不容易的。在处理器能力、存储器、永久存储器、以 及用户界面方面的差别的确太大。为解决该问题,Sun把适于J2ME 的装置定义划分然后又细分为若干段。使用第一划分(slice),Sun 基于处理能力、存储器、以及存储容量而不考虑将来的应用来把装 置划分为两个宽泛的种类。该公司然后又定义将工作在每个种类中 的那些装置的约束内的Java语言精简版本,同时仍旧提供至少最低 限度的Java语言功能。
其次,Sun在这两个装置种类中的每一个中用类似的色标识 ——因此,例如,不管制造商为谁,所有的蜂窝电话都落在一个类 中。在其Java标准化组织(JCP)内的伙伴帮助下,Sun然后就专 门针对于每个垂直划分来定义附加功能。
第一划分(division)创建了两个J2ME配置:连接装置配置 (CDC)和有限连接装置配置(CLDC)。配置是为装置的精选组提 供运行时环境的Java虚拟机(JVM),以及最小类库集和最小API 集。配置指定了Java语言的最小公分母子集,即,一种由用于其曾 被开发的装置族带来的资源约束的适合语言。由于即使在一种配置 内也在用户界面、功能、以及应用方面有这样大的变化,典型配置 不能象定义用户界面成套工具和永久存储API一样定义这样重要的 部分。相反,该功能的定义属于一种称作配置文件的东西。
J2ME配置文件是由行业主导组指定的Java API集,其是指寻 址诸如寻呼机和蜂窝电话这样的具体装置类。每种配置文件都被建 在由其配置所提供的Java语言最小公分母子集的顶端,并且是指对 该配置的补充。对移动手持装置重要的两种配置文件是:补充CDC 的基础配置文件、以及补充CLDC的移动信息装置配置文件 (MIDP)。工作含有更多的配置文件,规范以及参考实施中应该不 久就要出现。
用于无线工业规范的Java技术(JTWI),JSR 185,定义了用于 应用Java技术的移动电话的下一代的工业标准平台。JTWI是通过 Java标准化组织(JCP)是由主要的移动装置制造商、无线运营商、 以及软件厂商的专家组定义的。JTWI指定了必须包含在所有符合 JTWI的装置(CLDC 1.0(JSR 30)、MIDP 2.0(JSR 118)和WMA 1.1(JSR 120),以及,如果适用的话,CLDC 1.1(JRS 139)和 MMAPI(JSR 135))之内的技术。定义了用于移动多媒体装置的技 术和界面的两个附加JTWI规范为JSR-135(“移动媒体API”)和 JSR-234(“高级多媒体补充”)。
JTWI规范增加了用于高容量装置的功能条,同时最小化API 片段并扩展了已经被开发用于移动电话应用程序的根本基础。JTWI 的优点包括:
.互操作性:该工作的目标是为应用程序开发人员提供可预 测的环境,以及为设备制造商提供可交付的功能集。两者采用该 JTWI标准的益处都是巨大的:制造商从中获得了宽泛的兼容应用 程序,而软件开发人员从中获得了宽泛的支持其应用程序的设备。
.安全规范说明:JSR 185规范为与定义在MIDP 2.0规范内 的“针对遵从GSM/UMTS的装置所建议的安全策略”有关的不可 靠应用引进了许多说明。其扩展了定义在MIDP 2.0内的基础MIDlet 成套程序安全框架
.指路图:JTWI规范的重要方面是指路图,其为软件开发人 员在遵从JTWI的装置中可以期望的常见功能的概貌。2003年2月 在期望以六到九个月的间隔出现的一系列指路图中见到其第一个, 其描述了与移动电话的发展相一致的附加功能。该指路图使得各方 对未来的计划具有更多的信心:运营商可以更好地计划他们的应用 部署策略,设备制造商可以更好地确定他们的产品计划,而内容开 发人员可以看到用于其应用开发工作的更清晰的路径。在将来,运 营商特别依赖于Java VM来从当前侵蚀公共互联网的诸如病毒、蠕 虫、和其它的“攻击”的安全漏洞中提取/保护低层无线电射频/网 络功能。
根据本发明的多个方面,前述成像应用是基于Java的,以考虑 在所有的具有Java功能的手机、能够对抗病毒、蠕虫、和其它移动 网络安全“攻击”的Java VM安全和手机/网络强劲性方面、以及简 化的OTA编码解码器下载程序过程上的“一次编写,各处运行” 的可移植性。根据更进一步的方面,基于Java的成像应用遵循JTWI 规范JSR-135(“移动媒体API”)以及JSR-234(“高级多媒体补充”)。
移动成像服务平台结构
移动成像服务平台结构的组件(见图4)可能包括:
.移动手机410
.移动基站(BTS)412
.基站控制器/无线射频网络控制器(BSC/RNC)414
.移动转换中心(MSC)416
.网关服务节点(GSN)418
.移动多媒体服务控制器(MMSC)420
包含在MMSC内的典型功能(见图4)包括:
.视频网关422
.电信公司(Telco)服务器424
.MMS应用服务器426
.存储服务器428
MMSC 420内的视频网关422在成像服务平台所支持的不同视 频格式之间提供变码服务。变码还被无线运营商用来支持应用于移 动电话网络的不同的语音编码解码器,并且其相应的语音变码器被 集成到RNC 414中。用图4中示出的结构升级这种移动成像服务平 台的过程通常包括:部署新手机410,以及手动添加新硬件到MMSC 420视频网关422中。
根据本发明的多个方面所构造的全软件移动成像应用服务平 台支持所部署的手机的自动OTA升级,以及所部署的MMSC 420 的自动OTN升级。上述移动手机成像应用的Java实施提供了对抗 抗病毒、蠕虫、以及其它“攻击”的、所改进的手机/网络强劲性, 从而允许移动网络运营商提供国家立法者所要求的服务质量和可 靠性。
移动视频消息服务部署计划暴露与当前的视频压缩技术相关 的基本局限。一方面,这种移动视频服务将被投入到现在等同于具 有家庭影院质量广播(诸如以30帧每秒的VGA 160的全尺寸图像 格式)的视频。另一方面,使用原始开发来用于广播和流应用的现 有视频技术的这种大量数据的处理过程大大超过了可用于移动手 机410内的实时视频捕捉(编码)的计算资源和电池功率。广播和 流应用依赖于演播室环境中的视频内容的编码,其中高复杂性的编 码器可以运行在计算机工作站上。由于必须在手机自身内实时捕捉 视频消息,其就被局限到很小的尺寸和很低的帧速率。
结果,与用户长期以来期望从已置有用于答复(replicate)的 功能视频受话器的数字便携摄像机中得到的视频成像服务相比,现 在的移动视频成像服务是原始的:图片小(QCIF 130)并且不连续 (10fps)。现在提供给移动用户的的原始视频图像质量也非常缺乏 本行业在生活方式广告中所宣传的明确高清晰度视频。移动用户在 广泛采用和为便携式摄像机电话以及相关的移动视频消息服务支 付服务费用之前,需要完整的VGA 160、30fps性能(即,正如他 们的便携摄像机一样)。由于他们的2.5G和3G商业模块正经受风 险,无线运营商正在迫切寻求对以上问题可行的解决方案。
即使在极其昂贵的和耗时的开发程序以后,有竞争力的视频编 码解码器提供商仍旧只能为VGA 130、30fps性能提供复杂的混合 软件编码解码器和硬件加速器解决方案,其整体成本和功率消耗远 远超过商务需求和技术能力。手机因此被限制到小的不连续图像, 或昂贵的耗能结构。大贵的服务部署和太低的服务质量,使其不能 在大众市场范围内普及推广。
如果需要新硬件,升级MMSC基础结构420也是昂贵的。为 了能够实现对手机的自动OTA升级和对MMSC 420视频网关422 的OTN升级,可优先选取全软件ASP平台。
改进的基于小波的图像处理
根据本发明的一个方面,3-D小波变换可以被运用来设计在计 算复杂度方面远低于基于DCT的编码解码器420(见图5)的视频 压缩/解压缩(编码解码器)装置410。可以利用根据本发明的一些 方面的3-D小波编码解码器来显著地降低诸如色彩恢复和解调 430、图像变换440、存储器450、运动估算460/时间变换470、以 及量化、速率控制和熵编码480这些处理过程中所使用的处理资源。 小波转换级的这种应用还使得量化和熵编码级的设计具有大大降 低的计算复杂度。根据被开发用于移动成像应用、装置、和服务的 本发明的特定方面的3-D小波编码解码器410的进一步的优势包 括:
.对称的、低复杂度视频编码和解码
.既用于软件又用于硬件编码解码器实施的更低处理器能力 需求
.具有与现存的商业移动手机相兼容的处理器需求的以30 fps的帧速率的VGA 160(或更大)视频的全软件编码和解码,作为本 地码和Java应用
.用于SoC集成的更低门数ASIC内核
.更低缓冲存储器需求
.支持静态图像(~JPEG)和视频(~MPEG)的单一编码 解码器
.归因于更短图片组(GOP)的简化视频编辑(剪切、插入、 文本覆盖)
.归因于更短GOP的与语音编码解码器的简化同步
.归因于更短GOP的用于加强视频流的低延迟
.用于适应性速率控制、多播、以及联合信源信道编码的精 细颗粒尺度
.依据新出现的HDTV视频格式的低复杂度性能
根据本发明的多个方面,以上优势通过对如下技术独一无二组 合而获得。
使用提升结构中的短二元整数滤波系数的小波变换:例如,可 以使用Haar,2-6,以及5-3小波和它们的变种。这些只使用加、减、 以及小的定点位移——不需要乘法或浮点运算。
提升方案计算:可以使用允许原地(in place)计算的提升方案 来方便地计算以上滤波器。可以在Sweldens,Wim,The Lifting Scheme:A custom-design construction of biorthogonal wavelets.Appl. Comput.Harmon.Anal.3(2):186-200,1996中找到对提升方案的完整 描述,其全部内容结合于此以作参考。在该应用中实施该提升方案 使得寄存器和临时RAM位置的使用最小化,并且保持对高效使用 高速缓冲区的引用本地化。
具有定制金字塔结构的金字塔形式的小波变换:都可以在由前 一小波级生成的一半数据的基础上有利地计算小波变换序列的每 一级,因此整体计算几乎独立于级的数量。该金字塔可以被定制来 均衡以上提升方案的优势并且进一步节省了寄存器使用和高速缓 冲存储器带宽。
块结构:与大多数小波压缩实施方案相比,图片可以被方便地 分割成长方形块,每个块都与其它块分开来处理。这就允许存储器 引用将保持本地化并且可以使用保留在处理器高速缓冲存储器内 的数据完成整个变换金字塔,从而节省了大多数处理器内的大量数 据移动。块结构在硬件实施例中特别重要,这是因为它避免了信号 流内对大的中间存储容量之需求。
块边界滤波器:可以在每个块的边界方便地都使用改进的滤波 器计算以避免尖锐的伪像,正如申请人2003年4月17提交的题为 WAVELET TRANSFORM SYSTEM,METHOD AND COMPUTER PROGRAM PRODUCT的美国申请第10/418,363号中所述,其公开 号为2003/0198395,其全部内容结合于此以作参考。
色度时间移除:在某些实施例中,可以避免处理每个域的色差 信号,相反为GOP使用单一的色度域。这描述在申请人2003年5 月28提交的题为CHROMA TEMPORAL RATE REDUCTION AND HIGH-QUALITY PAUSE SYSTEM AND METHOD的美国申请第 10/447,514号中,其公开号为2003/0235340,其全部内容结合于此 以作参考。
使用3D小波的时间压缩:在某些实施例中,不使用诸如MPEG 等传统视频压缩方法的计算方面非常昂贵的运动搜索和运动补偿 操作。相反,可以计算域到域的时间小波变换。这是一种很廉价的 计算。优选使用带有本文提升方案的短整数滤波器。
二元量化:在某些实施例中,压缩处理过程的量化步骤通过在 系数位置范围上统一使用二进制位移操作来完成。这就避免了传统 量化所要求的每样本乘法或除法。
堆积:在某些实施例中,首先通过执行零流(run-of-zeros)转 换来减少待熵编码器处理的数据量。优选地,使用以并行处理结构 对零流计数的方法,如申请人2003年5月28提交的题为PILE PROCESSING SYSTEM AND METHOD FOR PARALLEL PROCESSORS的美国申请第10/447,455号中所述,其公开号为 2003/0229773,其全部内容结合于此以作参考。注意:大多数现代 处理平台具有能以这种方式运用的某些并行功能。
循环有效熵编码:在某些实施例中,使用将传统表查找与输入 符号上的直接计算相结合的技术来完成压缩处理过程的熵编码步 骤。对源静态图像或视频内的符号分布特征化导致了使用诸如 Rice-Golomb、exp-Golomb、或二元单调等这些简单的熵编码器。 熵编码器细节的选择经常根据处理器平台功能变化。Rice-Golomb 和exp-Golomb编码器的细节描述在以下文献中: Golomb,S.W.(1966),“Run-length encodings”,IEEE Transaction on Information Theory,IT-12(3):399-401;R.F.Rice,“Some Practical Universal Noiseless Coding Techniques”,Jet Propulsion Laboratory, Pasadena,California,JPL出版79-22,1979年3月;以及J.Teuhola, “A Compression Method for Clustered Bit-Vectors”,Information Processing Letters,第7卷,第308-311页,1978年10月(引入了术 语“exp-Golomb”)。二元单调编码器的细节描述在申请人2005年1 月25日公布的题为SYSTEM AND METHOD FOR A DYADIC-MONOTONIC(DM)CODEC的美国专利第6,847,317号 中。以上每个参考文献的全部内容都结合于此以作参考。
率控制
一种调整压缩量(所生成的输出位的速率)的方法就是改变在 该计算的量化级内所丢弃的信息量。量化通常通过将每个系数都除 以预先选定的数(即“量化参数”),并丢弃该除法的余数来完成。 因此,系数值的范围可以通过相同的单一值(即,该除法的商)来 表示。
当压缩图像或GOP被解压缩时,该逆向量化处理步骤将商乘 以(已知的)量化参数。这就把这些系数恢复到其原始大小的范围, 以用于进一步计算。
然而,在许多实施方式中,除法(或等效的乘法)在功率和时 间消耗方面以及在硬件成本上都是花费高的操作。注意,该量化操 作被应用到每个系数,并且,系数的数量通常与输入像素的数量一 样多。
在另一方法中,除了除法(或乘法)以外,量化还被限定为2 的乘幂的约数。这就具有可通过对二进制数的位移操作来实施的优 势。在许多实施中位移是一种成本很低的操作。实例为集成电路 (FPGA或ASIC)的实施;乘法器电路很大,但移位器电路就小很 多。此外,与移位操作相比,在许多计算机上,乘法也需要更长的 时间来完成,或者在执行中提供更少的并行操作。
虽然通过位移过程进行量化对于计算很有效,但在一些方面却 存在缺陷:它只能粗糙地调整压缩比率(输出位速率)。根据本发 明的多个方面,在实际中可以观察到:通过最小可能量(+1或-1) 对量化移位参数的改变导致了生成的位速率的近2倍的变化。对一 些压缩应用来说,这是可以接受的。对于其它应用,则需要更精细 的比率控制。
为了克服上述现有技术的粗糙性问题而不放弃位移量化的效 率,该量化就被统一化。代替如以前对每个系数都使用单一的公共 位移参数,我们还提供了不同的位移参数,以使其应用到每个单独 的零流压缩存储区或堆积。每个这种区或堆积的参数值都被记录到 压缩输出文件中。堆积为数据存储结构,其中,数据以压缩的零(或 其它公共值)序列表示。应该注意,子频带可包括几个单独的堆积 或存储区。另外,堆积或存储区可包括几个单独的子频带。
现在,这种解决方案使有效位速率的范围在由统一被应用到所 有系数的量化参数所得到的最接近的两个速率之间。例如,考虑到 除了一个子频带(子频带x)之外所有子频带均使用相同的量化参 数Q,而那个子频带(子频带x)却使用Q+1的情况。从量化步骤 中生成的整个位速率与在量化中为了所有子频带均应用Q相比降 低了,但没有降到为了所有子频带均应用Q+1的程度。这就提供了 在统一应用Q或统一应用Q+1所得到的位速率之间的中间位速率, 从而给出了更好的、更精细的压缩控制。
注意,该计算效率几乎完全等同于纯位移量化的计算效率,这 是因为应用到每个系数的操作通常仍为移位操作。可以使用任何数 量的子频带。通常为四到一百个子频带。最典型为三十二个子频带。 有关速率控制的进一步信息由申请人2005年9月20日提交的题为 COMPRESSION RATE CONTROL SYSTEM AND METHOD WITH VARIABLE SUBBAND PROCESSING(代理人文档第 74189-200301/US号)的美国中请第____号中给出,其全部内容 结合于此以作参考。
改进的适应性联合信源信道编码
现在参看图6,上述改进的基于小波的编码解码器的精细颗粒 尺度带来了改进的适应性比率控制、多播、以及联合信源信道编码。 改进的小波算法的所降低的计算复杂度和更高的计算效率使得即 时的和预测的信道带宽以及误差条件信息可以被应用在源编码器 620、信道编码器630、以及速率控制器640所有的这三个之中,以 对影响经过重构的视频信号690(见图6)质量(视频速率与失真 相互关系)的即时的和平均的压缩比率进行最大化控制。例如,在 移动装置410和蜂窝传输塔412(如图4所示)之间的可用传输带 宽可能基于在特定的时间内访问塔412的用户数量而变化。类似地, 移动电话410和塔412之间的传输质量(即误差比率)可能基于电 话410和塔412之间的距离和障碍物而变化。可以用电话410接收 有关当前可用带宽和误差比率的信息并用其来相应地调整压缩比 率。例如,当带宽减少和/或误差比率升高,可以降低压缩比率(以 及由此带来的相关的再生图片质量)以便仍旧可以实时传输完整的 压缩信号。相反,当可用带宽增加和/或误差比率降低时,就可以降 低压缩比率以便传输更高质量的图片。基于这个反馈,则可以通过 实时处理在源编码器620、信道编码器630、或速率控制器640中 的变化或利用这些元素组合的变化来调整压缩比率。
实例比率变化增量可以从1%到5%,从1%到10%,从1%到 15%,从1%到25%,以及从1%到40%进行变化。
改进的适应性联合信源信道编码技术允许无线运营商和MMS 服务提供商为其消费用户和企业客户提供更大范围的质量服务 (QoS)性能和价格水平。利用基于具有更高计算效率的改进的适 应性联合信源信道编码能够在信道类型(无线和有线)、信道带宽、 信道噪/误差特性、用户装置、以及用户服务方面支持更高级别的异 种网络。
改进的移动成像手机结构
图7示出了改进的移动成像手机结构。如图所示,成像应用可 以作为以本地码或Java应用运行在RISC处理器上的全软件应用实 施。Java编码操作加速可以在RISC处理器自身内部实施,或使用 单独的Java加速器IC。这种Java加速器可以作为单独的IC实施, 或该IC还可以集成有SIP或SoC内的其它功能。
图7中示出的改进的移动成像手机结构消除了对用于移动成像 应用的单独的DSP 326或ASIC 328处理块(如图3所示)的需求, 并且还极大地减少了移动手机715内的图像处理对缓冲存储器714 的需求。
改进的移动成像服务平台结构
现在参看图8,改进的移动成像服务平台结构的主要组件包括:
.移动手机810
.移动基站(BTS)812
.基站控制器/无线射频网络控制器(BSC/RNC)814
.移动转换中心(MSC)816
.网关服务节点(GSN)818
.移动多媒体服务控制器(MMSC)820
.成像服务下载服务器821
含在MMSC之内的典型功能(见图8)可能包括:
.视频网关822
.电信公司服务器824
.MMS应用服务器826
.存储服务器828
涉及部署改进的成像服务平台的步骤包括:
步骤1.
发送信号到视频网关变码器应用830可用于在经过部署的 视频网关822上升级的网络。换句话说,当新译码器软件830可用 时,下载服务器821发送信号到该可用网络上的视频网关822。
步骤2.
通过自动OTN 832部署或通过人工程序过程(也见图9) 来安装和构造视频网关变码器软件应用830。
步骤3.
发送信号到移动视频成像应用834(例如,升级的视频编 码解码器)可用于下载和安装的用户手机。
步骤4.
如果用户接受,并且成功完成事务安排,则通过OTA 836 程序过程下载和在移动手机810上安装移动视频成像应用834。
步骤5.
发送信号到手机升级完成的网络。激活服务和相关的应 用。升级用户月账单记录以反映用于移动视频成像应用的新费用。
性能
这一改进的基于小波的移动成像应用、联合信源信道编码、手 机结构、以及服务平台结构达到了更高的移动视频图像质量、更低 的手机成本和复杂度、以及经过降低的服务部署成本的目标。
加强
现在参看图10,作为移动成像手机1010结构的加强,在一些 实施例中可以考虑用于全软件基于小波的成像应用1012的几个实 施选项。可以通过OTA下载1014把成像应用1012安装到手机1010 的基带多媒体处理段、可更换的存储装置1016、成像模块1018、 或其它位置。如果想要,还可以在制造过程中或在销售点把成像应 用1012安装到手机1010的基带多媒体处理段、可更换的存储装置 1016、成像模块1018、或其它位置。随着移动装置结构的发展还可 能有另外的实施选项。
为了利用移动装置计算硬件(ASIC、DSP、RPD)和集成技术 (SoC、SIP)中持续发展的先进技术,可以通过加速凭借基于硬件的 处理资源的一些计算元件进一步改进移动成像手机的性能,以及进 一步减少成本和功率消耗。可以考虑几个全硬件选项以用于将这些 基于硬件的处理资源(包括手机1110的基带多媒体处理段、可更 换的存储装置1116、或成像模块1118)集成到手机1110(见图11) 中。
如图12所示,用于成像应用的混合结构可通过在硬件中实施 一些计算强化的、重复的、固定的功能以及在软件中实施那些可能 需要或要求在制造后进行改进的功能而提供多项加强。
优势
此处描述的全软件成像解决方案实施例极大地降低了多媒体 手机内的基带处理器和视频加速器的成本和需求。与通过OTA下 载来安装编码解码器后期制作的功能相结合,该全软件解决方案就 可极大地降低复杂度、风险、和手机开发以及视频消息服务部署这 两者的成本。
还应该注意:当使用根据本发明的多个方面的某些视频编码解 码器时,可以通过远程通讯网络把代表特定压缩视频的数据传输到 MMSC,并且该数据可能连接带有用于压缩视频的解码器。在根据 本发明的多个方面的方式中,可以全部或部分取消在别的方面对输 入到MMSC的变码器视频数据是必须的视频网关。这就部分得到 方便,这是因为即使每个压缩视频段都连接有自己的解码器,也不 需要为MMSC将视频格式变码到由正在接收的无线装置指定的特 定视频格式。相反,如实例810这一接收的无线装置可以使用连接 的解码器接收压缩视频并且在接收装置810平台上播放该视频。这 就在MMSC结构和其运行方面提供了显著的效率和节省的成本。
本发明的附加方面是:小波处理可以被设计来在正处理中的视 频上完成附加的视频处理功能。例如,小波处理可以被设计来完成 色彩空间转换、黑/白平衡、图像稳定、数字缩放、亮度控制、和大 小调整以及其它的功能。
本发明的多个方面的另一个特定优势在于实现了显著改进的 语音同步。在本发明的实施例中,语音同步于视频的间隔帧。通过 比较,MPEG4只将语音同步于每个第15帧。这就使得语音与视频 严重不同步,尤其是当像移动网络上通常出现的那样出现不完美的 视频传输时。另外,当该视频在MMSC中被实施时,使语音同步 于视频的间隔帧就为在诸如自动的或能够远程启动的视频编辑的 程序中完成视频编辑的MMSC中的视频提供高效的和快速的视频 编辑作好了准备。另外,本发明的多个方面尽可能多地出现在所有 允许植入更多或更容易植入的在正被生成和压缩的视频内的元数 据的当前编码技术中。除了其它项之外,这种元数据还包括时间、 视频曾被捕获的地点(如从移动手机的位置系统识别出的)、以及 制作该影片的用户等等。而且,与MPEG-4压缩视频中的视频的每 15帧中的参照帧比较,因为存在有在本发明的某些实施例中的视频 间隔帧中的参照帧,本发明的实施例就提供了视频的高效搜索和视 频的编辑,以及提供了更优良的音频同步性能。
结论
由本发明的各个方面提供了改进的移动成像应用、手机结构、 以及服务平台结构,本发明各方面结合在一起就极大地降低了与为 手机用户提供高质量静态和视频成像服务有关的技术复杂度和成 本。改进的适应性联合信源信道编码技术使无线运营商和服务提供 商相应能为其消费用户和企业客户提供更大范围的服务质量(QoS) 性能和价格水平的,从而使应用其无线网络基础结构所生成的收益 最大化。基于具有更高计算效率算法的改进的适应性联合信源信道 编码在信道类型(无线和有线)、信道带宽、信道噪声/误差特性、 用户装置、以及用户服务方面能够支持更高水平的异种网络。
虽然以上为本发明优选实施例的完整描述,但可以使用不同的 替换、修改和等同物。因此,以上描述不应该被看作是对本发明的 范围的限制,本发明的范围由所附权利要求限定。
相关申请
本申请要求以下临时申请的优先权:2004年10月12日提交的 题为MOBILE IMAGING APPLICATION,DEVICE ARCHITECTURE,AND SERVICE PLATFORM ARCHITECTURE 的美国专利申请第60/618,558号的临时申请;2004年10月13日提 交的题为VIDEO MONITORING APPLICATION,DEVICE ARCHITECTURES,AND SYSTEM ARCHITECTURE的美国专利 申请第60/618,938号的临时申请;2005年2月16日提交的题为 MOBILE IMAGING APPLICATION,DEVICE ARCHITECTURE, AND SERVICE PLATFORM ARCHITECTURE AND SERVICES的 美国专利申请第60/654,058号的临时申请;其全部内容结合于此以 作参考。
本申请为2004年9月16日提交的题为MULTIPLE CODEC-IMAGER SYSTEM AND METHOD的美国专利申请第 10/944,437号的部分延续,其现在是2005年5月19日公开的美国 公开第US2005/0104752号;2003年4月17日提交的题为SYSTEM, METHOD AND COMPUTER PROGRAM PRODUCT FOR IMAGE AND VIDEO TRANSCODING的美国专利申请第10/418,649号的部 分延续,其现在是2003年11月6日公开的美国公开第 US2003/0206597号;2003年4月17日提交的题为WAVELET TRANSFORM SYSTEM,METHOD AND COMPUTER PROGRAM PRODUCT的美国专利申请第10/418,363号的部分延续,其现在是 2003年10月23日公开的美国公开第US2003/0198395号;2003年 5月28日提交的题为PILE-PROCESSING SYSTEM AND METHOD FOR PARALLEL PROCESSORS的美国专利申请第10/447,455号的 部分延续,其现在是2003年12月11日公开的美国公开第 US2003/0229773号;2003年5月28日提交的题为CHROMA TEMPORAL RATE REDUCTION AND HIGH-QUALITY PAUSE SYSTEM AND METHOD的美国专利申请第10/447,514号的部分延 续,其现在是2003年12月25日公开的美国公开第US2003/0235340 号;2004年9月29日提交的题为SYSTEM AND METHOD FOR TEMPORAL OUT-OF-ORDER COMPRESSION AND MULTI- SOURCE COMPRESSION RATE CONTROL的美国专利申请第 10/955,240号的部分延续,其现在是2005年5月19日公开的美国 公开第US2005/0105609号;2005年9月20日提交的题为 COMPRESSION RATE CONTROL SYSTEM AND METHOD WITH VARIABLE SUBBAND PROCESSING(代理人文档第 74189-200301/US号)的美国申请第____号的部分延续,其 要求2004年9月21日提交的临时申请第60/612,311号的优先权; 2005年9月21日提交的题为MULTIPLE TECHNIQUE ENTROPY CODING SYSTEM AND METHOD(代理人文档第 74189-200401/US号)的美国申请第____号的CIP(部分延 续),其要求2004年9月22日提交的临时申请第60/612,652号的 优先权;2005年9月21日提交的题为PERMUTATION PROCRASTINATION(代理人文档第74189-200501/US号)的美国申 请第____号的CIP(部分延续),其要求2004年9月22日 提交的临时申请第60/612,651号的优先权;其全部内容结合于此以 作参考。本申请还将2004年11月30日出版的题为MULTIPLE CODEC-IMAGER SYSTEM AND METHOD的美国专利第 6,825,780号的、以及2005年1月25日出版的题为SYSTEM AND METHOD FOR A DYADIC-MONOTONIC(DM)CODEC的美国专利 第6,847,317号的全部内容结合于此以作参考。
QQ群二维码
意见反馈