混合介质环境的创建和使用的系统和方法专利检索-条形码阅读器后勤专利检索查询-专利查询网

混合介质环境的创建和使用的系统和方法

阅读：601发布：2020-12-26

专利汇可以提供混合介质环境的创建和使用的系统和方法专利检索，专利查询，专利分析的服务。并且公开混合介质实境(MMR)系统和相关联的技术。本发明的MMR系统提供用于形成包括诸如作为第一介质的打印纸张和作为第二介质的数码相片、数字电影、电子音频文件、或网络链接这样的至少两种类型的介质的混合介质文档的机制。此外，本发明的MMR系统使利用诸如照相手机这样的便携式电子装置和纸质文档的结合的商业方法便利。，下面是混合介质环境的创建和使用的系统和方法专利的具体信息内容。

权利要求

1、一种利用第一类型的介质和第二类型的介质来创建混合介质环境的系统，所述系统包括：
捕获装置，其捕获所述第一类型的介质的第一表示；
混合介质处理器，其将所述第一表示和具有所述第一类型的介质的第二表示和索引的混合介质文档相联系；和
介质存储器，其存储所述混合介质文档。
2、如权利要求1所述的系统，进一步包括：
通信机制，其将所述捕获装置连接至所述混合介质处理器。
3、如权利要求1所述的系统，其中所述通信机制为来自包括网络、有线连接、红外线链接、蓝牙链接、无线通信链接、蜂窝式通信链接、数据通信链接、移动数据服务、用于移动通信的全球系统、和公共交换电话网的组中的一个。
4、如权利要求1所述的系统，其中所述第一类型的介质为纸质文档，并且所述第二类型的介质为来自包括数据结构、命令、文本、音频、视频、图像、数码相片、网络链接文本、应用程序文件、更新的信息和服务的组中的一个。
5、如权利要求1所述的系统，其中使所述混合介质处理器适合于将所述第一表示与所述第二表示比较，来将所述第一表示和所述混合介质文档相联系，并且所述混合介质处理器响应于在所述第一表示至所述混合介质文档之间的关系来执行动作。
6、如权利要求5所述的系统，其中所述动作为来自包括检索信息、下订单、检索视频、检索声音、存储信息、创建新的文档、打印文档或图像、显示文档或图像、搜索信息、或呈现信息的组中的一个。
7、如权利要求1所述的系统，其中所述捕获装置包括能够捕获表示所述第一类型的介质的一部分的数字数据或图像的便携式输入装置。
8、如权利要求1所述的系统，其中所述捕获装置包括能够输出所述第二类型的介质的便携式输出装置。
9、如权利要求1所述的系统，其中所述捕获装置为来自包括照相手机；个人数字助理装置；数码相机；条形码阅读器；射频识别(RFID)阅读器；计算机外围设备；网络摄像机；或视频卡的组中的一个。
10、如权利要求1所述的系统，进一步包括连接至所述混合介质处理器的存储器，而所述存储器存储可由所述混合介质处理器执行的指令和/或数据，所述存储器存储从文本或图像碎片来检索基于内容的信息的、基于内容的检索部件。
11、如权利要求1所述的系统，进一步包括基础介质存储器，其以原始形式来存储所述第二类型的介质，其中所述基础介质存储器连接至所述混合介质处理器。
12、如权利要求1所述的系统，进一步包括每一个都具有第二表示和索引的多个混合介质文档的混合介质存储器，其中所述混合介质存储器连接至所述混合介质处理器。
13、如权利要求1所述的系统，进一步包括输出装置，其响应于来自所述混合介质处理器的信号来输出所述第二类型的介质，其中所述输出装置连接至所述混合介质处理器。
14、如权利要求1所述的系统，其中所述第一表示为其可用于模式匹配的、至少具有两行的打印文档的文本指纹。
15、如权利要求1所述的系统，其中所述第一表示唯一地识别在打印文档中的位置，并为打印文档的可匹配的部分。
16、如权利要求15所述的系统，其中所述第一表示为具有第一行的一部分和相邻的第二行的一部分的打印文档的文本指纹。
17、如权利要求1所述的系统，其中所述混合介质文档进一步包括所述第二类型的介质的文件或数据结构，并且其中所述索引为在所述文件和所述第二表示之间的链接。
18、如权利要求18的所述系统，其中所述混合介质文档进一步包括多个所述第二类型的介质的文件。
19、如权利要求1所述的系统，其中所述混合介质文档进一步包括将被呈现的文本或一个或多个将被执行的命令，并且其中所述索引为在所述将被呈现的文本或一个或多个将被执行的命令的文件与所述第二表示之间的链接。
20、如权利要求1所述的系统，其中所述混合介质文档进一步包括在相应于所述第一表示的所述第一类型的介质中的文档的电子表示，并且其中所述索引为在所述电子表示和所述第二表示之间的链接。
21、如权利要求1所述的系统，其中所述索引关联所述第二表示、所述混合介质文档和所述第二类型的介质。
22、如权利要求1所述的系统，其中所述混合介质文档具有每一个都具有相应的索引的、多个第二表示。
23、一种混合介质系统的捕获装置，而所述捕获装置包括：
输入装置，其捕获第一介质类型的表示；
通信收发机，将其连接至将信息和命令发送至混合介质系统和从混合介质系统接收信息和命令的输入装置和输出装置；和
混合介质处理器，其将所述表示与每一个都具有相应的表示的、多个混合介质文档比较，并且如果所述表示匹配所述匹配的混合介质文档的、相应的表示，则执行由匹配的混合介质文档所指定的动作。
24、如权利要求23所述的系统，其中所述第一介质类型为打印文档。
25、如权利要求23所述的系统，其中所述动作为来自包括检索信息、下订单、检索视频、检索声音、存储信息、创建新的文档、打印文档或图像、显示文档或图像、搜索信息、或呈现信息的组中的一个。
26、如权利要求23所述的系统，进一步包括呈现第二介质类型的输出装置，其中所述输出装置连接至所述混合介质处理器来接收将由所述输出装置输出的指令和数据。
27、如权利要求26所述的系统，其中所述动作为输出所述第二介质类型，并且所述第二介质类型为来自包括数据结构、命令、文本、音频、视频、图像、数码相片、网络链接文本、应用程序文件、更新的信息和服务的组中的一个。
28、如权利要求23所述的系统，其中所述混合介质处理器包括从文本或图像碎片来检索基于内容的信息的、基于内容的检索部件，并且其中所述第一介质类型的表示首先为文本的碎片。
29、如权利要求23所述的系统，其中所述捕获装置包括存储多个混合介质文档的存储装置。
30、如权利要求23所述的系统，其中所述混合介质处理器通过比较具有第一行的一部分和相邻的第二行的一部分的打印文档的文本指纹，来将所述第一介质类型的表示与所述相应的表示比较。
31、一种使第一介质类型与第二介质类型相关联的装置，所述装置包括：
具有输入端和输出端的混合介质处理器，用于将第一介质类型的第一表示与每一个都具有第二表示的、多个混合介质文档比较，来确定匹配的混合介质文档，并且执行由所述匹配的混合介质文档所指定的动作，而连接所述混合介质处理器的输入端来接收所述第一表示；和
存储装置，其存储所述多个混合介质文档，其中所述存储装置连接至所述混合介质处理器。
32、如权利要求31所述的装置，进一步包括通信机制，其将捕获装置连接至所述混合介质处理器。
33、如权利要求31所述的装置，其中所述第一介质类型为纸质文档，并且至少一个混合介质文档包括为来自包括数据结构、命令、文本、音频、视频、图像、数码相片、网络链接文本、应用程序文件、更新的信息和服务的组中的一个的第二介质类型。
34、如权利要求31所述的装置，其中所述动作为来自包括检索信息、下订单、检索视频、检索声音、存储信息、创建新的文档、打印文档或图像、显示文档或图像、搜索信息、或呈现信息的组中的一个。
35、如权利要求31所述的装置，进一步包括连接至所述混合介质处理器的存储器，所述存储器存储可由所述混合介质处理器来执行的指令和/或数据，所述存储器存储从文本或图像碎片检索基于内容的信息的、基于内容的检索部件。
36、如权利要求31所述的装置，其中所述存储装置以原始形式来存储第二介质类型。
37、如权利要求31所述的装置，其中所述混合介质文档进一步包括索引和文件或数据结构，并且其中所述索引为在所述文件和所述第二表示之间的链接。
38、如权利要求31所述的装置，其中所述混合介质文档进一步包括相应于所述第一表示的所述第一介质类型的文档的电子表示，和链接所述电子表示和所述第二表示的索引。
39、如权利要求31所述的装置，其中所述第一表示为可用于模式匹配的、具有至少两行的打印文档的文本指纹。
40、一种用于提供与第一介质类型和第二介质类型的文档交互的混合介质环境的方法，所述方法包括：
产生第一介质类型的文档的表示；
将所产生的所述文档的表示索引标定至混合介质文档；
获取输入表示；
将所述输入表示与所产生的表示比较；以及
如果所述输入表示与所产生的表示相似，则执行由所述混合介质文档所指定的动作。
41、如权利要求40所述的方法，其中所述产生所述第一介质类型的文档的表示自动地包含捕获打印文档的文本布局。
42、如权利要求41所述的方法，其中由来自包括打印文档捕获模块、操作系统、打印驱动器、扫描仪和文件传递机制的组中的一个来进行所述自动捕获。
43、如权利要求40所述的方法，其中所产生的表示为来自包括全部文档的表示、文本的碎片的表示、单个单词的表示、图像的一部分的表示、和所述文档的可匹配的部分的任何其他表示的组中的一个。
44、如权利要求40所述的方法，其中将所产生的表示索引标定包括来自包括索引、所述文档的电子表示、第二介质类型、和动作的组中的一个与所产生的表示的关联。
45、如权利要求40的所述方法，其中将所产生的表示索引标定包括来自包括指定打印文档的字符的x-y位置、指定所述打印文档的单词的x-y位置、指定在打印文档中的图像或图像的一部分的x-y位置、执行OCR操作和指定字符和/或单词的x-y位置、执行特征提取和指定字符和/或单词的x-y位置的组中的一个。
46、如权利要求40的所述方法，其中获取输入表示包括来自包括扫描文本的碎片、扫描文本的碎片和预处理来确定准确地提取期望的特征描述的可能性、扫描机器可读的标识符、输入识别所述文档的数据、接收有文档附件的电子邮件、通过文件传递来接收所述文档、扫描图像的一部分、和输入所述文档的组中的一个。
47、如权利要求40所述的方法，其中将所述输入表示与所产生的表示比较进一步包括执行在所述输入表示和所产生的表示之间的模式匹配。
48、如权利要求47所述的方法，其中通过将所述输入表示的文档指纹与所产生的表示的文档指纹比较，来执行所述模式匹配。
49、如权利要求48所述的方法，其中比较所述文档指纹包括从所捕获的图像提取特征，从所述特征来合成描述符，并且查找包含一定比率的所述描述符的文档和碎片。
50、如权利要求40所述的方法，其中执行由所述混合介质文档所指定的动作包括检索与具有所述匹配的所产生的表示的所述混合介质文档相关联的、预定的动作。
51、如权利要求40所述的方法，其中所述动作为来自包括检索信息、将信息写入至位置、执行对信息的搜索、在客户机装置上显示信息、引导交互会话、推迟用于稍后的执行的所述动作、更改文档、产品的购买和到另一个系统的命令的输入的组中的一个。

说明书全文

技术领域

本发明涉及用于产生从至少两种介质类型而形成的混合介质文档的技术，并且更具体地，涉及使用与电子介质结合的打印介质来产生混合介质文档的混合介质实境(MMR)系统。

背景技术

文档打印和复制技术已在许多环境中使用了许多年。例如，在私人和商业办公环境中、在具有个人计算机的家庭环境中、以及在文档打印和出版服务环境中，都使用打印机和复印机。然而，先前并未认为打印和复制技术是起连接静态打印介质(即，纸质文档)与包括数字通信系统、网络、信息供应、广告、娱乐、和电子商务之类的交互的“虚拟世界”之间的差距的桥梁作用的手段。
打印介质已作为通信信息，例如新闻和广告信息，的主要来源历时几个世纪。在过去的少数几年，通过使得以电子可读和可搜索的形式利用，以及通过引进交互式多媒体性能，个人计算机和个人电子装置，例如个人数字助理(PDA)装置和蜂窝式电话(如，照相手机)的出现和日益增长的流行度已扩大了打印介质的概念，对于传统的打印介质来说，其为史无前例的。
不幸地，电可访问的虚拟的基于多媒体的世界与打印介质的物理世界之间存在差距。例如，尽管几乎发达世界的每个人每天都可访问打印介质和电子信息，但打印介质和个人电子装置的用户不拥有形成两者之间的连接(即，用于便利混合介质文档)所必需的工具和技术。
此外，传统的打印介质提供特别的有利属性，例如触感，不需要功率，和持久的组织和存储，其在虚拟或数字介质中不提供。同样地，传统的数字介质也提供特别的有利属性，例如便携(如，在手机或便携式计算机的存储中携带)和易于传输(如，通过电子邮件)。
因为这些原因，存在关于使得能够开发与打印的和虚拟的介质两者都关联的益处的技术的需要。

发明内容

本发明的一个或多个实施例的至少一个方面提供混合介质实境(MMR)系统和相关联的方法。本发明的MMR系统提供用于形成包括诸如作为第一介质的打印纸张和作为第二介质的以电子形式的文本或数据、数字图片、数码相片、数字电影、数字音频文件、或网络链接这样的至少两种类型的介质的混合介质文档的机制。此外，本发明的MMR系统使利用诸如照相手机这样的便携式电子装置和纸质文档的商业方法便利。本发明的MMR系统包括MMR处理器、捕获装置、通信机制和包括MMR 软件的存储器。还可以将MMR处理器连接至介质类型的存储器或源、输入装置和输出装置。MMR 软件包括可由MMR 处理器执行的例程，其用于访问有另外的数字内容的MMR文档，创建或更改 MMR文档，并使用文档来执行诸如商业交易、数据查询和报告等这样的其他操作。
本发明还包括许多新奇的方法，其包括：用于创建混合介质实境文档的方法，用于使用混合介质实境文档的方法，和用于更改或删除混合介质实境文档的方法。
本发明的一个或多个实施例的至少另一个方面提供以指令编码的机器可读介质(例如，一个或多个压缩光盘、磁盘、服务器、记忆棒、或硬盘驱动器、ROM、RAM、或适合于存储电子指令的任何类型的介质)，当由一个或多个处理器执行时，其促使处理器执行用于访问混合介质文档系统中的信息的过程。例如，这个过程能够与这里所描述的方法类似或是其变体。
于此所描述的特点和优点并不包含所有的，且特别地，考虑绘图和描述，对于一个本领域普通技术人员来说，许多另外的特点和优点将会很明显。此外，应该注意到，主要为易读性和指导性的目的已选择说明书中所使用的语言，并且不局限于发明主旨的范围。
附图说明
通过将同样的参考数字指示、附图中相似的部件，作为例子来阐明本发明，而不作为限制。
图1A阐明根据本发明的一个实施例而配置的混合介质实境(MMR)系统的功能框图；
图1B阐明根据本发明的另一个实施例而配置的MMR系统的功能框图；
图2A、2B、2C、和2D阐明根据本发明的一个实施例的捕获装置；
图2E阐明根据本发明的一个实施例而配置的捕获装置的功能框图；
图3阐明根据本发明的一个实施例而配置的MMR计算机的功能框图；
图4阐明根据本发明的一个实施例而配置的MMR软件套装中所包括的一组软件部件；
图5阐明表示根据本发明的一个实施例而配置的MMR文档的实施例的图解；
图6阐明根据本发明的一个实施例的文档指纹匹配方法；
图7阐明根据本发明的一个实施例而配置的文档指纹匹配系统；
图8阐明根据本发明的一个实施例的文本/非文本辨别的流程；
图9阐明根据本发明的一个实施例的文本/非文本辨别的例子；
图10阐明用于估计根据本发明的一个实施例的图像碎片中的文本的磅值的流程；
图11阐明根据本发明的另一个实施例的文档指纹匹配技术；
图12阐明根据本发明的另一个实施例的文档指纹匹配技术；
图13阐明根据本发明的一个实施例的交互式图像分析的例子；
图14阐明根据本发明的另一个实施例的文档指纹匹配技术；
图15阐明根据本发明的一个实施例的文字边界框探测的例子；
图16阐明根据本发明的一个实施例的特征提取技术；
图17阐明根据本发明的另一个实施例的特征提取技术；
图18阐明根据本发明的另一个实施例的特征提取技术；
图19阐明根据本发明的另一个实施例的特征提取技术；
图20阐明根据本发明的另一个实施例的文档指纹匹配技术；
图21阐明根据本发明的一个实施例的文档指纹匹配的多分类器特征提取；
图22和23阐明根据本发明的一个实施例的文档指纹匹配技术的例子；
图24阐明根据本发明的另一个实施例的文档指纹匹配技术；
图25阐明根据本发明的一个实施例的数据库驱动的反馈的流程；
图26阐明根据本发明的另一个实施例的文档指纹匹配技术；
图27阐明根据本发明的一个实施例的数据库驱动的分类的流程；
图28阐明根据本发明的另一个实施例的文档指纹匹配技术；
图29阐明根据本发明的一个实施例的数据库驱动的多重分类的流程；
图30阐明根据本发明的另一个实施例的文档指纹匹配技术；
图31阐明根据本发明的另一个实施例的文档指纹匹配技术；
图32阐明根据本发明的另一个实施例的文档指纹匹配技术；
图33示出根据本发明的一个实施例的多层级识别的流程；
图34A阐明根据本发明的一个实施例而配置的MMR数据库系统的功能框图；
图34B阐明根据本发明的一个实施例的基于OCR的技术的MMR特征提取的例子；
图34C阐明根据本发明的一个实施例的示例性索引表组织；
图35阐明根据本发明的一个实施例的用于产生一个MMR索引表的方法；
图36阐明根据本发明的一个实施例的用于计算关于目标文档的分等级的一组文档、页面、和位置假设的方法；
图37A阐明根据本发明的另一个实施例而配置的MMR部件的功能框图；
图37B阐明根据本发明的一个实施例的MMR打印软件中所包括的一组软件部件；
图38阐明根据本发明的一个实施例的在文档中嵌入热点的方法的流程图；
图39A阐明根据本发明的一个实施例的HTML文件的例子；
图39B阐明图39A的HTML文件的标记版的例子；
图40A阐明根据本发明的一个实施例的浏览器中所显示的图39A的HTML 文件的例子；
图40B阐明根据本发明的一个实施例的图40A的HTML文件的打印版的例子；
图41阐明根据本发明的一个实施例的符号热点描述；
图42A和42B示出根据本发明的一个实施例的图39A的HTML文件的示例性page_desc.xml文件；
图43阐明根据本发明的一个实施例的，相应于图41、42A、和42B的 hotspot.xml文件；
图44阐明根据本发明的一个实施例的转发DLL所使用的过程的流程图；
图45阐明根据本发明的一个实施例的转换相应于文档中的热点的字符的方法的流程图；
图46阐明根据本发明的一个实施例的文档的电子版的例子；
图47阐明根据本发明的一个实施例的打印修改文档的例子；
图48阐明根据本发明的一个实施例的共享文档注解的方法的流程图；
图49A阐明根据本发明的一个实施例的浏览器中的样本源网页；
图49B阐明根据本发明的一个实施例的浏览器中的样本修改网页；
图49C阐明根据本发明的一个实施例的样本打印网页；
图50A阐明根据本发明的一个实施例的添加热点至图像化文档的方法的流程图；
图50B阐明根据本发明的一个实施例的定义用于添加至图像化文档的热点的方法的流程图；
图51A阐明示出已根据一个实施例而扫描的新闻纸页面的一部分的用户接口的例子；
图51B阐明用于定义数据或交互，以与所选择的热点关联的用户接口；
图51C阐明根据本发明的一个实施例的包括分派框的图51B的用户接口；
图51D阐明根据本发明的一个实施例的用于显示文档内的热点的用户接口；
图52阐明根据本发明的一个实施例的使用MMR文档和MMR系统的方法的流程图；
图53阐明根据本发明的一个实施例的与MMR系统关联的示例性的一组商业实体的框图；
图54阐明根据本发明的一个实施例的，作为通过使用MMR系统而便利的一般化的商业方法的，方法的流程图。
图55阐明根据本发明的一个实施例的，用于访问混合介质文档的方法的流程图。
图56A、56B和56C阐明根据本发明的各种各样的实施例，用于访问混合介质文档的方法和使用的各种各样的例子。
图57阐明根据本发明的一个实施例的，用于访问混合介质文档的方法的流程图。
图58阐明根据本发明的一个实施例的，用于访问混合介质文档的用户接口。
图59阐明根据本发明的一个实施例的，用于给介质文件加标签的方法。
图60阐明根据本发明的一个实施例的，给介质文件加标签的用户接口。
图61A、61B、61C和61D阐明使用根据本发明的MMR文档和MMR系统的方法的流程图。
图62阐明使用根据本发明的MMR文档和MMR系统的方法的流程图。
图63阐明包括没有光学捕获的MMR信息装置的MMR系统的实施例的功能框图。
图64阐明在图63的MMR系统的MMR信息装置上的MMR文档的菜单的用户接口。
图65阐明在MMR信息装置上所显示的MMR文档和热点信息的用户接口。
图66阐明图63的MMR信息装置的操作的流程图。
图67阐明包括捕获装置和没有光学捕获的MMR信息装置的MMR系统的实施例的功能框图。
图68阐明图67的MMR信息装置的操作的流程图。
图69阐明包括处理热点信息的语音邮件服务器的MMR系统的框图。
图70阐明在图69的MMR系统中更新热点信息的方法的流程图。
图71阐明在图69的MMR系统中检索热点信息的方法的流程图。
图72阐明包括处理热点信息的电子邮件消息服务器的MMR系统的框图。
图73阐明在图72的MMR系统中检索热点信息的方法的流程图。
图74阐明包括文档数据库的MMR系统的框图。
图75阐明包括运送数据库的MMR系统的框图。
图76阐明在使用MMR个性化文档来定购商品或服务中的使用的、根据本发明的MMR系统的一个实施例的功能框图。
图77阐明用于使用MMR个性化文档来定购商品或服务的方法的流程图。
图78阐明根据本发明的另一个实施例的，执行MMR文档的动作的MMR 系统的体系结构的框图。
图79阐明根据本发明的一个实施例的，涉及动作的性能的数据库的一部分的框图。
图80阐明根据本发明的一个实施例的，用于执行MMR文档的动作的方法的流程图。
图81阐明根据本发明的一个实施例的，用于查看有关动作的历史信息的方法的流程图。
图82A和82B阐明根据本发明的一个实施例的，用于执行与动作相关联的命令的方法的流程图。
图83阐明根据本发明的一个实施例的分布式MMR系统的体系结构的框图。
图84阐明根据本发明的一个实施例的，用于将MMR系统用作为第三方系统的输入控制和输出装置的方法的流程图。
图85阐明根据本发明的一个实施例的，用于在办公环境中使用MMR系统的方法的流程图。

具体实施方式

描述混合介质实境(MMR)系统和相关联的方法。MMR系统提供用于形成包括至少两种类型的介质，如打印纸张作为第一种介质，以及数码照片、数字电影、数字音频文件、数字文本文件、或网络链接作为第二种介质，的混合介质文档的机制。MMR系统和/或技术能够进一步用于便利各种各样的利用便携式电子装置(如，PDA或照相手机)与纸质文档的结合，以提供混合介质文档的商业模型。
在一个特定实施例中，MMR系统包括基于内容的检索数据库，其表示以允许使用基于文本的索引查找的方式从打印文档中所提取的目标之间的二维几何关系。证据累加技术将特征出现的频率与其在二维区域中的位置的可能性结合。在一个这样的实施例中，MMR数据库系统包括接收由MMR特征提取算法所计算的描述的索引表。索引表识别文档、页面、和每个特征出现处的那些页面内的x-y位置。给出来自索引表的数据，证据累加算法计算分等级的一组文档、页面和位置假设。如所期望的，能够使用关系数据库(或其它适合的存储设施)来存储有关每个文档、页面、和位置的另外的特性。
MMR数据库系统也可以包括其它部件，如MMR处理器、捕获装置、通信机制和包括MMR软件的存储器。也可以将MMR处理器连接至介质类型的存储器或源、输入装置和输出装置。在一个这样的配置中，MMR软件包括MMR处理器可执行的例程，用于访问具有另外的数字内容的MMR文档、创建或修改 MMR文档、以及使用文档执行其它的操作，如商业交易、数据查询、报告，等等。
MMR系统概述
现在参考图1A，示出根据本发明的实施例的混合介质实境(MMR)系统 100a。MMR系统100a包括MMR处理器102、通信机制104、具有便携式输入装置168和便携式输出装置170的捕获装置106、包括MMR软件的存储器108、基本介质存储器160、MMR介质存储器162、输出装置164、和输入装置166。通过提供使用来自现有的打印文档(第一介质类型)的信息作为第二介质类型，如音频、视频、文本、更新的信息和服务的索引的方式，MMR系统100a 创建混合介质环境。
捕获装置106能够产生打印文档(例如，图像、绘图、或其它这样的表示法)的表示，并将该表示发送至MMR处理器102。然后MMR系统100a将该表示与MMR文档和其它第二介质类型匹配。MMR系统100a也为响应表示的输入和识别而采取动作负责。MMR系统100a所采取的动作能够为任何类型，包括，例如，检索信息、下订单、检索视频或声音、存储信息、创建新文档、打印文档、显示文档或图像，等等。通过于此所描述的基于内容的检索数据库技术的使用，MMR系统100a提供将打印文本提交到向用户提供感兴趣的或有价值的电子内容或服务的进入点的动态介质的机制。
MMR处理器102处理数据信号，并可以包括各种各样的计算体系结构，包括复杂指令集计算机(CISC)体系结构、精简指令集计算机(RISC)体系结构、或实现指令集的结合的体系结构。在一个特定实施例中，MMR处理器 102包括算术逻辑单元、微处理器、一般用途的计算机、或为执行本发明的操作而配备的一些其它信息设备。在另一个实施例中，MMR处理器102包括具有图形化的用户接口的一般用途的计算机，该图形化用户接口可以由，例如，以在像基于WINDOWS或UNIX 操作系统那样的操作系统之上运行的Java 所写的程序产生。尽管在图1A中仅示出单个处理器，但可以包括多个处理器。处理器连接至MMR存储器108，并执行存储在那里的指令。
通信机制104是用于将捕获装置106连接至MMR处理器102的任何装置或系统。例如，能够使用网络(例如，WAN和/或LAN)、有线链接(例如，USB、 RS232、或以太网)、无线链接(例如，红外线、蓝牙、或802.11)、移动装置通信链接(例如，GPRS或GSM)、公共交换电话网(PSTN)链接、或这些的任何结合来实现通信机制104。这里能够使用许多通信体系结构和协议。
捕获装置106包括像收发机那样的设备，以与通信机制104相接，并且是能够通过输入装置168数字地捕获图像或数据的任何装置。捕获装置106 能够选择性地包括输出装置170，并且可替代地为便携式的。例如，捕获装置106是标准的照相手机、PDA装置、数字相机、条形码读取器、射频识别 (RFID)阅读器、诸如标准的网络摄像机这样的计算机外围设备、或诸如PC 的视频卡这样的内置装置。参考图2A-2D，更详细地分别描述捕获装置106a-d 的几个例子。另外，捕获装置106可以包括使得基于内容的检索能够进行并且将捕获装置106连接至MMR系统100a/100b的基础设施的软件应用程序。参考图2E可找到捕获装置106的更多功能细节。根据这个公开发明，许多传统和定制的捕获装置106，以及其各自的功能和体系结构将很明显。
存储器108存储可能由处理器102执行的指令和/或数据。该指令和/或数据可以包括用于执行于此所描述的任何和/或所有的技术的代码。存储器 108可以是动态随机存取存储器(DRAM)装置、静态随机存取存储器(SRAM) 装置、或任何其它适当的存储装置。参考图4，下文将更加详细地描述存储器108。在一个特定实施例中，存储器108包括MMR软件套装、操作系统和其它应用程序(如，文字处理应用程序、电子邮件应用程序、金融应用程序、和网页浏览器应用程序)。
基本介质存储器160是用于以其原始的形式存储第二介质类型的，并且 MMR介质存储器162是用于存储MMR文档、数据库和其它如于此所描述的，以创建MMR环境的信息的。尽管分别示出，在另一个实施例中，基本介质存储器160和MMR介质存储器162可以是相同存储装置的部分，或是集成一体的。数据存储器160、162进一步存储关于MMR处理器102的数据或指令，并包括一个或多个装置，其包括，例如，硬盘驱动器、软盘驱动器、CD-ROM装置、DVD-ROM装置、DVD-RAM装置、DVD-RW装置、闪存装置、或任何其它适当的大容量存储装置。
输出装置164可操作地连接至MMR处理器102，并表示为输出像显示的那些、声音、或当前内容那样的数据而配备的任何装置。例如，输出装置164 能够是像打印机、显示装置、和/或扬声器那样的多种类型的任何一个。示例性的显示输出装置164包括阴极射线管(CRT)、液晶显示器(LCD)、或任何其它类似配备的显示装置、屏幕、或监视器。在一个实施例中，输出装置164 配备有触摸屏，其中触摸敏感、透明的面板覆盖输出装置164的屏幕。
输入装置166可操作地连接至MMR处理器102，并且是像键盘和光标控制器、扫描仪、多功能打印机、相机或摄像机、数字按键键盘、触摸屏、探测器、RFID特征阅读器、开关、或允许用户与系统100a互动的任何机制那样的多种类型的任何一个。在一个实施例中，输入装置166为键盘和光标控制器。光标控制器可包括，例如，鼠标、轨迹球、触笔、笔、触摸屏和/或触控板、光标方向键、或其它促使光标移动的机制。在另一个实施例中，输入装置166是麦克风、为一般用途的计算机系统内使用而设计的音频插入卡/ 扩展卡、模拟-数字转换器、和数字信号处理器，以便利声音识别和/或音频处理。
图1B阐明根据本发明的另一个实施例而配置的MMR系统100b的功能框图。在这个实施例中，MMR系统100b包括MMR计算机112(由用户110操作)、网络介质服务器114、和产生打印文档118的打印机116。MMR系统100b进一步包括办公室入口120、服务提供者服务器122、电连接至机顶盒126的电子显示器124、和文档扫描仪127。通过网络128提供MMR计算机112、网络介质服务器114、打印机116、办公室入口120、服务提供者服务器122、机顶盒126、和文档扫描仪127之间的通信链接，网络128能够是LAN(例如，办公或家庭网络)、WAN(例如，因特网或公司网络)、LAN/WAN的结合、或通过其多个计算装置可以通信的任何其它数据路径。
MMR系统100b进一步包括能够通过蜂窝式基础设施132、无线保真(Wi-Fi) 技术134、蓝牙技术136、和/或红外线(IR)技术138，与一个或多个计算机112、网络介质服务器114、用户打印机116、办公室入口120、服务提供者服务器122、电子显示器124、机顶盒126、和文档扫描仪127无线通信的捕获装置106。可替代地，或者另外，捕获装置106能够通过有线技术140，以有线的方式与MMR计算机112、网络介质服务器114、用户打印机116、办公室入口120、服务提供者服务器122、电子显示器124、机顶盒126、和文档扫描仪127通信。尽管在图1B中如分离的元素一样示出Wi-Fi技术134、蓝牙技术136、IR技术138、和有线技术140，这样的技术也能够被集成为处理环境(如，MMR计算机112、网络介质服务器114、捕获装置106，等等)。另外，MMR系统100b进一步包括与服务提供者服务器122或网络128无线或有线通信的地理位置机制142。这也能够被集成于捕获装置106之中。
MMR用户110为正使用MMR系统100b的任何个人。MMR计算机112为任何桌上型计算机、膝上型计算机、网络计算机、或其它这样的处理环境。用户打印机116为能够产生打印文档118的任何家庭、办公、或商业打印机，打印文档118为由一个或多个打印页面而形成的纸质文档。
网络介质服务器114为保留由MMR系统100b的用户通过网络128访问的信息和/或应用程序的网络计算机。在一个特定实施例中，网络介质服务器 114为集中式计算机，在其之上存储多种介质文件，如文本源文件、网页、音频和/或视频文件、图像文件(例如，静态照片)、和诸如此类。网络介质服务器114为，例如，康卡斯特公司的康卡斯特视频点播服务器、理光创新公司的理光文档中心、或谷歌公司的谷歌图像和/或视频服务器。一般而言，网络介质服务器114提供对可能经由捕获装置106附着于打印文档118上、与其集成一体、或与其相关联的任何数据的访问。
办公室入口120为用于捕获MMR用户110的环境中出现的事件，例如MMR 用户110的办公室中出现的事件，的可选择的机制。办公室入口120为，例如，分离于MMR计算机112的计算机。在这种情形，办公室入口120通过网络128直接连接至MMR计算机112或连接至MMR计算机112。可替代地，将办公室入口120置入到MMR计算机112内。例如，办公室入口120从传统的个人计算机(PC)而构建，并然后以支持任何相关联的捕获装置106的适当的硬件扩大充实。办公室入口120可以包括捕获装置，例如摄像机和音频录音机。可替代地，办公室入口120可以捕获和存储来自MMR计算机112的数据。例如，办公室入口120能够接收和监控MMR计算机112上出现的功能和事件。结果，办公室入口120能够记录MMR用户110的物理环境中的所有的音频和视频，并记录MMR计算机112上出现的所有的事件。在一个特定实施例中，办公室入口120捕获来自MMR计算机112的事件，如正编辑文档时的视频屏幕捕获。在这样做时，办公室入口120捕获当创建给定的文档时，所浏览的网站和所参阅的其它文档。稍后通过他/她的MMR计算机112或捕获装置106对于MMR用户110可以利用。另外，办公室入口120可以用作用户添加至其文档的剪辑的多媒体服务器。此外，办公室入口120可以捕获其它办公事件，例如当纸质文档在桌面上时出现的谈话(如，电话或办公)、电话上的讨论、和办公室中的小会议。通过为捕获装置106而发展的相同的基于内容的检索技术的使用，办公室入口120上的摄像机(未示出)可以识别MMR 用户110的物理桌面上的纸质文档。
服务提供者服务器122为保留MMR系统100b的MMR用户110能够通过网络128访问的信息或应用程序的任何商业服务器。特别地，服务提供者服务器122为与MMR系统100b关联的任何服务提供者的代表。服务提供者服务器 122为，例如，有线TV提供者的商业服务器，如康卡斯特公司；蜂窝式电话服务提供者，如Verizon Wireless；因特网服务提供者，如阿德尔菲亚通信；在线音乐服务提供者，如索尼公司；以及诸如此类，但并不局限于此。
电子显示器124为任何显示装置，例如，标准模拟或数字电视(TV)、纯平TV、平板显示器、或投影系统，但并不局限于此。如已知的，机顶盒126 为处理来自圆盘式卫星电视天线、天线、电缆、网络、或电话线的输入信号的接收器装置。机顶盒的一个示例性制造商为Advanced Digital Droadcast (远升科技)。机顶盒126电连接至电子显示器124的视频输入。
文档扫描仪127为商业上可利用的文档扫描仪装置，例如松下公司的 KV-S2026C全彩色扫描仪。在现有打印文档至MMR预备文档的转换中使用文档扫描仪127。
蜂窝式基础设施132是多个蜂窝塔和其它蜂窝网络互连的代表。特别地，通过蜂窝式基础设施132的使用，经由结合于装置，例如结合于捕获装置106 的无线调制解调器，给可手握的、便携的、以及车载的电话提供双向声音和数据通信。
Wi-Fi技术134、蓝牙技术136、和IR技术138为便利电子装置之间的无线通信的技术的代表。如已知的，Wi-Fi技术134是与基于802.11标准的无线局域网(WLAN)产品关联的技术。如已知的，蓝牙技术136是描述通过短程无线连接的使用，蜂窝式电话、计算机、和PDA如何互相连接的电讯工业规范。IR技术138允许电子装置通过短程无线信号通信。例如，IR技术 138是电视遥控器、膝上型计算机、PDAs、和其它装置所使用的视线无线通信介质。IR技术138在从中微波至可见光以下的频谱中工作。此外，在一个或多个其它实施例中，可以使用IEEE 802.15(UWB)和/或802.16(WiMAX) 标准支持无线通信。
有线技术140为任何有线通信机制，例如标准以太网连接或通用串行总线(USB)连接。通过使用蜂窝式基础设施132、Wi-Fi技术134、蓝牙技术 136、IR技术138、和/或有线技术140，捕获装置106能够双向地与MMR系统100b的任何或所有的电子装置通信。
地理位置机制142为任何适用于确定地理位置的机制。例如，如已知的，地理位置机制142为提供位置数据给地球上的GPS接收器装置的GPS人造卫星。在图1B中所示的示例性实施例中，GPS 人造卫星通过与GPS接收器(未示出)结合的连接至网络128的服务提供者服务器122，将位置数据提供给 MMR系统100b的用户。可替代地，地理位置机制142为提供作为确定地理位置的部件的三角测量机制、蜂窝塔识别(ID)机制、和/或增强的911服务的一组蜂窝塔(如，蜂窝式基础设施132的一个子集)。可替代地，通过来自 WiFi访问点或蓝牙装置的已知位置的信号强度测量而提供地理位置机制 142。
在操作中，捕获装置106用作MMR用户110所拥有的客户机。其上存在使得基于内容的检索操作能够进行，并通过蜂窝式基础设施132、Wi-Fi技术 134、蓝牙技术136、IR技术138、和/或有线技术140将捕获装置106连接至MMR系统100b的基础设施的软件应用程序。另外，在MMR计算机112上存在执行像打印捕获操作、事件捕获操作(如，保存文档的编辑历史)、服务器操作(如，用于稍后供应给其它对象而在MMR计算机112上所保存的数据和事件)、或打印机管理操作(如，可以将打印机116安装为将像文档布局和多媒体剪辑那样的MMR所需要的数据排队)那样的，但并不局限于此的几个操作的软件应用程序。网络介质服务器114提供附着于打印文档，如通过属于 MMR用户110的MMR计算机112打印的打印文档118，的数据的访问。在这样做时，第二介质，如视频或音频，与第一介质，如纸质文档关联起来。下文参考图2E、3、4、和5描述用于形成第二介质至第一介质的关联的软件应用程序和/或机制的更多细节。
捕获装置
图2A、2B、2C、和2D阐明根据本发明的实施例的示例性捕获装置106。更明确地，图2A示出为照相手机的捕获装置106a。图2B示出为PDA装置的捕获装置106b。图2C示出为计算机外围装置的捕获装置106c。计算机外围装置的一个例子是任何标准的网络摄像机。图2D示出为将其置入到计算装置 (如，MMR计算机112)内的捕获装置106d。例如，捕获装置106d为计算机图形卡。参考图2E可找到捕获装置106的示例性细节。
在捕获装置106a和106b的情形中，捕获装置106可以为MMR用户110 所有，并且可以通过地理位置机制142或通过蜂窝式基础设施132内的每个蜂窝塔的ID号跟踪其物理位置。
现在参考图2E，示出根据本发明的捕获装置106的一个实施例的功能框图。捕获装置106包括处理器210、显示器212、数字按键键盘214、存储装置216、无线通信链接218、有线通信链接220、MMR软件套装222、捕获装置用户接口(UI)224、文档指纹匹配模块226、第三方软件模块228、和多种捕获机制230的至少一个。示例性捕获机制230包括摄像机232、数码相机234、录音器236、电子高亮器238、激光器240、GPS装置242、和RFID 阅读器244，但并不局限于此。
处理器210为中央处理单元(CPU)，如英特尔公司制造的奔腾微处理器，但并不局限于此。显示器212为任何标准的视频显示机制，如可手握的电子装置中所使用的那些。更明确地，例如，显示器212为任何数字显示器，如液晶显示器(LCD)或有机发光二极管(OLED)显示器。数字按键键盘214为任何标准的字母数字符号输入机制，如标准计算装置和像蜂窝式手机那样的可手握的电子装置中所使用的数字按键键盘。存储装置216为任何易失性或非易失性存储装置，例如，如熟知的，硬盘驱动器或随机存取存储(RAM)装置。
无线通信链接218为通过如所熟知的访问接入点(未示出)和LAN(如， IEEE 802.11 Wi-Fi或蓝牙技术)提供直接的点对点通信或无线通信的无线数据通信机制。有线通信链接220为，例如，通过标准以太网和/或USB连接提供直接通信的有线数据通信机制。
MMR软件套装222为执行像将一种类型的介质与第二种类型合并那样的 MMR操作的全部管理软件。参考图4可找到MMR软件套装222的更多细节。
捕获装置用户接口(UI)224为用于操作捕获装置106的用户接口。通过使用捕获装置UI 224，为了在其上的功能的选择，将各种各样的菜单呈现给MMR用户110。更明确地，捕获装置UI 224的菜单允许MMR用户110管理任务，如与纸质文档交互、从现有文档中读出数据、将数据写入现有文档、查看并与那些文档所关联的扩增实境交互、以及查看并与在他/她的MMR计算机112上所显示的文档关联的扩增实境交互，但并不局限于此。
文档指纹匹配模块226为用于从通过捕获装置106的捕获机制230的至少一个而捕获的文本图像中提取特征的软件模块。文档指纹匹配模块226也能够执行所捕获的图像与文档的数据库之间的模式匹配。在最基本的水平，以及根据一个实施例，文档指纹匹配模块226确定较大的页面图像内的图像碎片的位置，其中那个页面图像是从很大的文档集中选择的。文档指纹匹配模块226包括接收所捕获的数据、从所捕获的数据中提取图像的表示、执行文档内的碎片识别和移动分析、执行决定性结合、以及输出输入图像所位于的页面内的一列x-y位置的例程和程序。例如，为了识别文档和从其中提取它的文档内的章节，文档指纹匹配模块226可以是结合从文本的片段的图像中所提取的水平和垂直特征的算法。一旦提取了特征，为了识别符号文档，就查询，例如，位于MMR计算机112或网络介质服务器114上的打印文档索引(未示出)。在捕获装置UI 224的控制下，文档指纹匹配模块226可访问打印文档索引。参考图3的MMR计算机112更加详细地描述打印文档索引。注意到在一个可替代的实施例中，文档指纹匹配模块226可能为MMR计算机 112的一部分，并不位于捕获装置106内。在这样的实施例中，捕获装置106 将原始的捕获数据发送至MMR计算机112，以便图像提取、模式匹配、和文档及位置识别。在再一个实施例中，文档指纹匹配模块226仅执行特征提取，并将所提取的特征发送至MMR计算机112，以便模式匹配和识别。
第三方软件模块228为用于增强可能在捕获装置106上所出现的任何操作的任何第三方软件模块的代表。示例性的第三方软件包括安全软件、图像感知软件、图像处理软件、和MMR数据库软件。
如上文所提到的，捕获装置106可以包括任何数量的捕获机制230，现在将描述其示例。
摄像机232为如在标准数字相机或一些蜂窝手机中可找到的那样的数字视频记录装置。
数码相机234为能够捕获数字图像的任何标准数字相机装置。
录音器236为能够捕获音频信号并以数字形式输出它的任何标准音频记录装置(麦克风和相关联的硬件)。
电子高亮器238为提供扫描、存储和传递打印文本、条形码、和小图像至PC、膝上型计算机、或PDA装置的能力的电子高亮器。例如，电子高亮器 238为WizCom Technologies公司的快速链接笔手握式扫描仪，其允许信息被存储在笔上或通过串行端口、红外通信、或USB适配器，被直接传递至计算机应用程序。
如熟知的，激光器240为通过受激发射产生相干的、接近单色光的光源。例如，激光器240为标准的激光器二极管，其为当施加正向偏压时，发射相干光的半导体装置。与激光器240关联并包括于其中的是测量将激光器240 引导于此的图像所反映的光的总量的探测器。
GPS装置242是供给位置数据，如数字纬度和经度数据，的任何便携式 GPS接收器装置。便携式GPS装置242的例子为来自索尼公司的NV-U70便携式人造卫星导航系统、和来自Thales North America公司的麦哲伦牌 RoadMate系列GPS装置、Meridian系列GPS装置、和Explorist系列GPS装置。如熟知的，GPS装置242给多个地理位置机制142提供依靠三角测量，部分地，实时地，确定捕获装置106的位置的方式。
RFID阅读器244为商业上可利用的RFID标签阅读器系统，如德州仪器所制造的TI RFID系统。RFID标签为用于通过使用无线电波识别唯一的项目的无线装置。如熟知的，RFID标签由微芯片构成，该微芯片附着于天线，并且在其上存储有唯一的数字识别号码。
在一个特定实施例中，捕获装置106包括处理器210、显示器212、键盘 214、存储装置216、无线通信链接218、有线通信链接220、MMR软件套装 222、捕获装置UI 224、文档指纹匹配模块226、第三方软件模块228、和捕获机制230的至少一个。在这样做时，捕获装置106为一个全功能装置。可替代地，捕获装置106可以具有较少的功能，并因而可以包括有限的一组功能部件。例如，MMR软件套装222和文档指纹匹配模块226可以远程地位于，例如，MMR系统100b的MMR计算机112或网络介质服务器114处，并由捕获装置106通过无线通信链接218或有线通信链接220访问。
MMR计算机
现在参考图3，示出根据本发明的实施例而配置的MMR计算机112。如能够看到的，MMR计算机112连接至包括一个或多个多媒体(MM)文件336的网络介质服务器114、产生打印文档118的用户打印机116、文档扫描仪127、和包括捕获装置UI 224及文档指纹匹配模块226的第一实例的捕获装置106。这些部件之间的通信链接可以直接链接或通过网络。另外，文档扫描仪127 包括文档指纹匹配模块226’的第二实例。
这个示例性实施例的MMR计算机112包括一个或多个源文件310、第一源文档(SD)浏览器312、第二SD浏览器314、打印机驱动器316、打印文档(PD)捕获模块318、存储PD索引322的文档事件数据库320、事件捕获模块324、文档分析器模块326、多媒体(MM)剪辑浏览器/编辑器模块328、 MM的打印机驱动器330、文档-视频纸(DVP)打印系统332、和视频纸文档 334。
源文件310是为文档(或其一部分)的电子表示的任何源文件的代表。示例性源文件310包括超文本标记语言(HTML)文件、微软Word文件、微软 PowerPoint文件、简单文本文件、便携式文档格式(PDF)文件、及诸如此类，其存储在MMR计算机112的硬盘驱动器(或其它适当的存储器)上。
第一SD浏览器312和第二SD浏览器314为关于提供已与源文件310相关联的数据的访问的现有PC应用程序的独立PC应用程序或者插件。第一和第二SD浏览器312、314可以用来检索原始的HTML文件或MM剪辑，以在MMR 计算机112上显示。
如熟知的，打印机驱动器316为控制应用程序与页面描述语言或任何特殊的打印机所使用的打印机控制语言之间的通信链接的打印机驱动器软件。特别地，无论何时打印一个文档，如打印文档118，打印机驱动器316都将具有正确的控制命令的数据，例如理光公司所提供的用于他们的打印装置的那些，馈给打印机116。在一个实施例中，打印机驱动器316不同于传统的打印驱动器，因为它自动捕获每个打印页面上的每个字符的x-y坐标、字体、和磅值的表示。换句话说，其捕获有关所打印的每个文档的内容的信息，并将那个数据反馈给PD捕获模块318。
PD捕获模块318为捕获文档的打印表示，以致能够检索打印页面上的字符和图形的布局的软件应用程序。另外，通过使用PD捕获模块318，在打印时刻，实时地，自动地捕获文档的打印表示。更明确地，PD捕获模块318为捕获打印页面上的文本的二维布置，并将这个信息传送至PD索引322的软件例程。在一个实施例中，PD捕获模块318通过捕捉打印页面上的每个字符的 Windows文本布局命令而操作。文本布局命令给操作系统(OS)指示打印页面上的每个字符的x-y位置、以及字体、磅值，等等。本质上，PD捕获模块 318监测听传送至打印机116的打印数据。在所示的例子中，PD捕获模块318 连接至第一SD浏览器312的输出，以便数据的捕获。可替代地，可以在打印机驱动器316内直接实现PD捕获模块318的功能。根据这个公开发明，各种各样的配置将会很明显。
根据本发明的一个实施例，文档事件数据库320是为存储打印文档与事件之间的关系而更改的任何标准的数据库。(参考图34A，下文进一步将文档事件数据库320描述为MMR数据库)。例如，文档事件数据库320存储从源文件310(如，Word、HTML、PDF文件)至与打印文档118相关联的事件的双向链接。示例性事件包括打印了Word文档之后即刻在捕获装置106上的多媒体剪辑的捕获、用捕获装置106的客户机应用程序将多媒体添加至文档、或多媒体剪辑的注解。另外，可以存储在文档事件数据库320中，与源文件310 关联的其它事件包括当打开、关闭、或移除给定的源文件310时记入日志；当给定的源文件310处于MMR计算机112的桌面上的活动应用程序中时记入日志；将文档“复制”和“移动”操作的时间和目的地记入日志；以及将给定源文件310的编辑历史记入日志。这样的事件由事件捕获模块324捕获并存储在文档事件数据库320中。连接文档事件数据库320来接收源文件310、事件捕获模块324、PD捕获模块318和扫描仪127的输出，并且也连接至捕获装置106，以接收查询和数据，并提供输出。
文档事件数据库320也存储PD索引322。PD索引322为将从打印文档的图像所提取的特征映射到它们的符号形式(如扫描的图像至Word)上的软件应用程序。在一个实施例中，PD捕获模块318给PD索引322提供打印页面上的每个字符的x-y位置、以及字体、磅值，等等。在打印给定文档的时候构建PD索引322。然而，捕获所有的打印数据并以能够在稍后的时间询问的方式将其保存在PD索引322中。例如，如果打印文档118包含物理上位于页面上单词“rose”之上一行的单词“garden”，则PD索引322支持这样的查询(即，单词“garden”在单词“rose”之上)。PD索引322包含在其上单词 “garden”出现在单词“rose”之上的哪个文档、哪些页面、和那些页面内的哪个位置的记录。因而，组织PD索引322，以支持基于特征或基于文本的查询。通过在打印操作期间使用PD捕获模块318和/或通过在扫描操作期间使用文档扫描仪127的文档指纹匹配模块226，产生作为打印文档的电子表示的PD索引322的内容。下文将参考图34A-C、35、和36描述数据库320和 PD索引322的另外的体系结构和功能。
事件捕获模块324为在MMR计算机112上捕获与给定的打印文档118和/ 或源文件310相关联的事件的软件应用程序。这些事件在给定的源文件310 的生命周期期间被捕获并被保存在文档事件数据库320中。在一个特定的例子中，通过使用事件捕获模块324，捕获涉及MMR计算机112的浏览器，例如第一SD浏览器312中活动的HTML文件的事件。这些事件可能包括在MMR 计算机112上所显示的HTML文件的时间或者在显示或打印HTML文件的同时打开着的其它文档的文件名。例如，如果MMR用户110想要知道(在稍后的时刻)在显示或打印HTML文件的同时他/她正在查看或工作于哪个文档，则这种事件信息是很有用的。事件捕获模块324所捕获的示例性事件包括文档编辑历史；来自接近当给定的源文件310在桌面上时的时刻出现的办公室会议的视频(例如，如由办公室入口120所捕获的)；以及当给定的源文件310 是打开着的时候出现的电话呼叫(如，由办公室入口120所捕获的)。
事件捕获模块324的示例性功能包括：1)跟踪-跟踪活动文件和应用程序；2)键击捕获-键击捕获和与活动应用程序的关联；3)帧缓冲器捕获和索引标定-用帧缓冲器数据的光学字符识别(OCR)结果给每个帧缓冲器图像编索引，以致能够将打印文档的章节与其在屏幕上显示的时间相匹配。可替代地，能够用捕捉由PC操作系统所发布的PC桌面的文本绘图命令的图形显示接口(GDI)阴影dll来捕获文本。MMR用户110可以将捕获装置106指向文档，并确定何时它在MMR计算机112的桌面上是活动的；以及4)读取历史捕获-为了跟踪多长时间，以及特别的文档的哪个部分对于MMR用户110是可见的，帧缓冲器捕获和索引标定操作的数据与文档在他/她的MMR计算机112 的桌面上活动的时间的分析连接。在这样做时，为了推断MMR用户110是否正在读取文档，可能出现与其它事件的关联，如按键或鼠标移动。
文档事件数据库320、PD索引322、和事件捕获模块324的结合在MMR 计算机112上局部地实现，或者可替代地，作为共享的数据库而实现。如果局部地实现，与以共享的方式实现相比较，则需要较小的安全性。
文档分析器模块326为软件应用程序，其分析和各个打印文档118有关的源文件310，以定位在其中的有用的对象，如统一资源定位符(URL)、地址、标题、作者、时间、或表示位置的短语，如，Hallidie Building。在这样做时，确定在源文件310的打印版本中的那些对象的位置。然后接收装置能够使用文档分析器模块326的输出，以用另外的信息扩增文档118的表述，并提高模式匹配的准确性。此外，例如在URL的情形中，接收装置也能够采取动作使用位置检索与URL相关联的网页。连接文档分析器模块326以接收源文件310，并且该模块将其输出提供给文档指纹匹配模块226。尽管仅作为连接至捕获装置的文档指纹匹配模块226而示出，但文档分析器模块326的输出能够连接至所有或任何数量的文档指纹匹配模块226，无论它们位于何处。此外，文档分析器模块326的输出也能够存储于文档事件数据库320中，以便稍后使用。
MM剪辑浏览器/编辑器模块328为提供创作功能的软件应用程序。MM剪辑浏览器/编辑器模块328为单独的软件应用程序或，可替代地，，为文档浏览器上运行的插件(由到第二SD浏览器314的虚线表示)。MM剪辑浏览器/ 编辑器模块328将多媒体文件显示给用户，并连接至网络介质服务器，以接收多媒体文件336。另外，当MMR用户110正创作文档(如，将多媒体剪辑附着于纸质文档)时，MM剪辑浏览器/编辑器模块328为这种功能的支持工具。MM剪辑浏览器/编辑器模块328为示出元数据，如从接近于当捕获多媒体时的时刻所打印的文档所分析的信息，的应用程序。
MM的打印机驱动器330提供创作MMR文档的能力。例如，MMR用户110 可以在由MM的打印机驱动器330所产生的UI中加亮文本，并将包括检索多媒体数据或在网络128上或在MMR计算机112上执行一些其它过程的动作添加至该文本。MM的打印机驱动器330与DVP打印系统332的结合提供使用条形码的可供选择的输出格式。这种格式不必定需要基于内容的检索技术。MM 的打印机驱动器330为用于支持视频纸技术，即，视频纸334，的打印机驱动器。MM的打印机驱动器330创建包括条形码的纸质表示，作为访问多媒体的方式。相比而言，打印机驱动器316创建包括MMR技术的纸质表示，作为访问多媒体的方式。MM剪辑浏览器/编辑器328与SD浏览器314的结合中所体现的创作技术能够创建与SD浏览器312相同的输出格式，因而使得能够进行为基于内容的检索准备的MMR文档的创建。DVP打印系统332执行与文档相关联的文档事件数据库320中的任何数据至其打印表示的连接操作，或者用明确的或者用隐含条形码。隐含条形码指像条形码一样使用的文本特征的模式。
视频纸334为用于在可打印介质，例如纸，上呈现音频-视觉信息的技术。在视频纸中，条形码用作在计算机中所存储的或其中可访问的电子内容的索引。用户扫描条形码和视频剪辑或与系统所输出的文本有关的其它多媒体内容。存在用于打印音频或视频纸的系统，并且这些系统本质上提供关于多媒体信息的基于纸的接口。
网络介质服务器114的MM文件336为多种文件类型和文件格式的任何一种的集合的代表。例如，MM文件336为文本源文件、网页、音频文件、视频文件、音频/视频文件、和图像文件(如，数码照片)。
如图1B中所描述的，将文档扫描仪127用于现有打印文档至MMR-预备文档的转换。然而，继续参考图3，通过将文档指纹匹配模块226’的特征提取操作应用于所扫描的文档的每个页面，将文档扫描仪127用于MMR-使能的现有文档。随后，以扫描和特征提取操作的结果增加PD索引322，并因而，将所扫描的文档的电子表示存储于文档事件数据库320中。然后能够将PD索引322中的信息用于创作MMR文档。
继续参考图3，注意到MMR计算机112的软件功能并不仅局限于MMR计算机112。可替代地，可以将图3中所示的软件功能分布于MMR系统100b的 MMR计算机112、网络介质服务器114、服务提供者服务器122与捕获装置106 之间的任何用户定义的配置中。例如，源文件310、SD浏览器312、SD浏览器314、打印机驱动器316、PD捕获模块318、文档事件数据库320、PD索引 322、事件捕获模块324、文档分析器模块326、MM剪辑浏览器/编辑器模块 328、MM的打印机驱动器330、和DVP打印系统332可以完全位于捕获装置 106之内，并从而，给捕获装置106提供增强的功能。
MMR软件套装
图4阐明根据本发明的一个实施例的MMR软件套装222中所包括的一组软件部件。应该理解，MMR计算机112、捕获装置106、网络介质服务器114 和其它服务器中可以包括MMR软件套装222中的所有或一些。另外，MMR软件套装222的其它实施例可能具有从它们的一个至所有的任何数量的所阐明的部件。这个例子的MMR软件套装222包括：多媒体注解软件410，其包括基于文本内容的检索部件412、基于图像内容的检索部件414、和密写更改部件416；纸张读取历史日志418；在线读取历史日志420；合作文档查阅部件 422、实时通知部件424、多媒体检索部件426；桌面视频提醒部件428；网页提醒部件430、物理历史日志432；完整表格查阅器部件434；时间输送部件436、位置告知部件438、PC创作部件440；文档创作部件442；捕获装置创作部件444；无意识上载部件446；文档版本检索部件448；PC文档元数据部件450；捕获装置UI部件452；和特定领域部件454。
根据一个特定实施例，多媒体注解软件410结合文档事件数据库320的组织形成MMR系统100b的基本技术。更明确地，多媒体注解软件410是用于管理纸质文档的多媒体注解的。例如，MMR用户110将捕获装置106指向纸质文档的任何章节，并然后使用捕获装置106的捕获机制230的至少一个来给那个章节添加注解。在一个特定的例子中，律师口述有关合同的章节的记录(创建音频文件)。将多媒体数据(音频文件)自动附着于文档的原始电子版本。文本随后的打印输出可选地包括那些注解的存在的指示。
基于文本内容的检索部件412为从文本中检索基于内容的信息的软件应用程序。例如，通过使用基于文本内容的检索部件412，从文本碎片中检索内容，识别文档内的原始文档和章节，或者识别连接至那个碎片的其它信息。基于文本内容的检索部件412可以利用基于OCR的技术。可替代地，用于执行从文本的基于内容的检索的操作的不基于OCR的技术包括文本碎片中的单词长度的二维布置。基于文本内容的检索部件412的一个例子为结合从文本片段的图像中所提取的水平和垂直特征的算法，以识别文档和从其中提取它的文档内的章节。能够串行地、并行地、或同时地使用水平和垂直特征。使用这样的不基于OCR的特征集，以致在出现噪声时提供高速实现与鲁棒性。
基于图像内容的检索部件414为从图像中检索基于内容的信息的软件应用程序。基于图像内容的检索部件414执行所捕获的数据与数据库320中的图像之间的图像比较，以产生一列可能的图像匹配和相关联的置信水平。另外，每个图像匹配可以具有相关联的数据或响应用户输入而执行的动作。在一个例子中，通过将图像转换为能够用来查询关于具有相同的特征布置的图像的图像数据库的矢量表示，基于图像内容的检索部件414可检索，例如，基于光栅图像(例如，地图)的内容。可选择的实施例使用图像的色彩内容或图像内的对象的几何布置，以在数据库中查找匹配图像。
密写更改部件416为在打印之前执行密写更改的软件应用程序。为了使 MMR应用程序更好地运作，在打印文本和图像之前，将数字信息添加至所述文本和图像。在可替代的实施例中，密写更改部件416产生并存储MMR文档，该文档包括：1)像文本、音频、或视频信息那样的原始基本内容；2)以任何像文本、音频、视频、Java的Applets、超文本链接，等等那样的形式存在的另外的内容。密写更改能够包括在彩色或灰度图像中嵌入水印，文档背景上的光点图形的打印，或者打印字符的轮廓至编码数字信息的细微更改。
纸张读取历史日志418为纸质文档的读取历史日志。纸张读取历史日志 418位于，例如，文档事件数据库320中。纸张读取历史日志418是基于由理光创新公司开发的来自视频的文档识别技术的，其用于产生MMR用户110 所读取的文档的历史。例如，对于提醒MMR用户110文档的读取和/或任何相关联的事件，纸张读取历史日记418是很有用的。
在线读取历史日志420为在线文档的读取历史日志。在线读取历史日志 420是基于操作系统事件的分析，并位于，例如，文档事件数据库320中。在线读取历史日志420是MMR用户110所读取的在线文档和读取文档的哪个部分的记录。可以以许多方式将在线读取历史日志420的条目打印到任何随后的打印输出上，例如通过在每个页面的底部提供笔记，或者通过用不同的颜色加亮基于读取每段所花费的时间量的文本。另外，多媒体注解软件410 可以将这种数据编入PD索引322中。可选地，可以通过装备有如监控MMR计算机112的面部探测系统那样的装置的MMR计算机112援助在线读取历史日志420。
合作文档查阅部件422为通过将他/她的捕获装置106指向文档的任何章节，允许相同纸质文档的不同版本的不止一个阅读器查阅其它阅读器所应用的注释的软件应用程序。例如，在捕获装置106上注解可以显示为文档略图之上的覆盖层。合作文档查阅部件422可以用任何类型的现有合作软件实现，或与任何种类的现有合作软件合作。
实时通知部件424为执行正被读取的文档的实时通知的软件应用程序。例如，当MMR用户110读取文档时，他/她的读取踪迹被张贴于博客或在线公告板上。结果，对相同的话题感兴趣的其他人可以访问并谈论该文档。
多媒体检索部件426为从任意的纸质文档中检索多媒体的软件应用程序。例如，通过将捕获装置106指向文档，MMR用户110可以检索当任意的纸质文档呈现在MMR用户110的桌上时发生的所有会话。这假设MMR用户110 的办公室中存在捕获多媒体数据的办公室入口120(或其它适当的机制)。
桌面视频提醒部件428为提醒MMR用户110在MMR计算机112上出现的事件的软件应用程序。例如，通过将捕获装置106指向纸质文档的一个章节， MMR用户110可以看见示出当那个章节可见时发生的MMR计算机112的桌面的变化的视频剪辑。另外，桌面视频提醒部件428可以用于检索MMR计算机 112所记录的其它多媒体，例如MMR计算机112的周围所呈现的音频。
网页提醒部件430为提醒MMR用户110在他/她的MMR计算机112上被查看的网页。例如，通过在纸质文档上摇摆捕获装置106的镜头，MMR用户110 可以看见当MMR计算机112的桌面上示出文档的相应章节时被查看的网页的踪迹。可以在像SD浏览器312、314那样的浏览器中，或者在捕获装置106 的显示器212上示出网页。可替代地，网页作为原始URL呈现在捕获装置106 的显示器212上或MMR计算机112上。
物理历史日志432存在于，例如，文档事件数据库320中。物理历史日志432为纸质文档的物理历史日志。例如，MMR用户110将他/她的捕获装置 106指向纸质文档，并且通过使用物理历史日志432中所存储的信息，可确定与过去某个时刻感兴趣的文档相邻的其它文档。例如，RFID类似的跟踪系统可便利这种操作。在这种情形，捕获装置106包括RFID阅读器244。
完整表格查阅器部件434为检索先前所获取的用于完善表格的信息的软件应用程序。例如，MMR用户110将他/她的捕获装置106指向空白表格(例如，从网站所打印的医疗索赔表格)，并提供有先前所输入的信息的历史。随后，由这个完整表格查阅器部件434用这个先前所输入的信息自动填充该表格。
时间输送部件436为检索文档过去的和将来的版本的源文件，并检索和显示与那些版本相关联的一列事件的软件应用程序。这个操作补偿手头上的打印文档可能是已从在与之相关联的最重要的外部事件(如，讨论或会议) 之后数月所创建的一版文档而产生的事实。
位置告知部件438为管理位置已知的纸质文档的软件应用程序。例如， RFID类似的跟踪系统便利了位置已知的纸质文档的管理。例如，捕获装置106 整天捕获MMR用户110的地理位置的踪迹，并扫描附着于文档或包含文档的文件夹的RFID标签。RFID扫描操作由捕获装置106的RFID阅读器244执行，以探测其范围内的任何RFID标签。可以通过蜂窝式基础设施132内的每个蜂窝塔的识别号，或者可替代地，经由与地理位置机制142结合的捕获装置106 的GPS装置242，跟踪MMR用户110的地理位置。可替代地，可以以“总是开着的视频”或捕获装置106的摄像机232完成文档识别。位置数据提供“地理位置参考”文档，其使能整天示出文档位于何处的基于地图的接口。一个应用可能是携带文件拜访远程客户机的律师。在可替代的实施例中，文档118 包括当移动文档并执行一些初步的面部探测操作时能够感知的附着于其上的感知机制。感知功能是经由附着于纸质文档的一组回转仪或类似的装置的。基于位置信息，MMR系统100b指示何时“呼叫”所有者的蜂窝式电话，以告诉他/她文档正移动。蜂窝式电话可以将那个文档添加至其虚拟的公文包。另外，这是“无形”条形码的概念，其为捕获装置106的摄像机232或数码相机234可见的，但对于人而言是不可见的或非常微弱的机器可读记号。可以考虑在捕获装置106上可以被解码的各种各样的墨标记和密写或，打印图像水印技术，来确定位置。
PC创作部件440为在PC上，如在MMR计算机112上执行创作操作的软件应用程序。PC创作部件440作为现有创作应用程序，如Microsoft Word、 PowerPoint、和网页创作包，的插件而提供。PC创作部件440允许MMR用户 110准备具有与来自他/她的MMR计算机112的事件的链接或者与他/她的环境中的事件的链接的纸质文档；允许自动产生具有链接的纸质文档，例如被自动地链接至从其产生它的Word文件的打印文档118；或者允许MMR用户110 检索Word文件，并将其交给其他人。在此将具有链接的纸质文档称为MMR文档。参考图5进一步描述MMR文档的更多细节。
文档创作部件442为执行现有文档的创作操作的软件应用程序。能够，例如，或者作为个人版，或者作为企业版而实现文档创作部件442。在个人版中，MMR用户110扫描文档并将它们添加至MMR文档数据库(例如，文档事件数据库320)。在企业版中，出版者(或者第三方)从原始电子源(或者电子校样本)创建MMR文档。这个功能可以被嵌入高端发布包(例如，Adobe Reader)并与另一个实体所提供的后台服务连接。
捕获装置创作部件444为直接在捕获装置106上执行创作操作的软件应用程序。使用捕获装置创作部件444，MMR用户110从他/她手头上的纸质文档中提取关键短语，并将该关键短语与动态捕获的另外的内容一同存储，以创建临时MMR文档。另外，通过使用捕获装置创作部件444，MMR用户110可以返回至他/她的MMR计算机112，并将他/她所创建的临时MMR文档下载至现有文档应用程序，如PowerPoint，然后将其编辑成为MMR文档的最后版本或另一个应用程序的文档的其它标准类型。在这样做时，可将图像和文本自动地插入现有文档的页面中，如插入PowerPoint文档的页面中。
无意识上载部件446为无意识地(自动地，无用户干预地)将打印文档上载至捕获装置106的软件应用程序。因为在大多数时间捕获装置106都为 MMR用户110所有，包括当MMR用户110在他/她的MMR计算机112上时，除了将文档发送至打印机116之外，结合Wi-Fi技术134或蓝牙技术136，经由捕获装置106的无线通信链接218，或者如果捕获装置106与MMR计算机 112连接/对接，则通过有线连接，打印机驱动器316也可以将那些相同的文档压入捕获装置106的存储装置216。以这种方式，在打印文档之后，MMR用户110从来不会忘记捡取该文档，因为其被自动地上载至捕获装置106。
文档版本检索部件448为检索给定源文件310的过去和将来版本的软件应用程序。例如，MMR用户110将捕获装置106指向打印文档，并然后文档版本检索部件448定位当前的源文件310(例如，Word文件)和源文件310 的其它过去和将来版本。在一个特定实施例中，这个操作使用跟踪将源文件 310复制和移动于此的位置的Windows文件跟踪软件。同样这里也能够使用其它这样的文件跟踪软件。例如，Google桌面搜索或Microsoft Windows搜索助理能够用从源文件310所挑选的单词而组成的查询找到文件的当前版本。
PC文档元数据部件450为检索文档的元数据的软件应用程序。例如，MMR 用户110将捕获装置106指向打印文档，并且PC文档元数据部件450确定谁打印了该文档，何时打印的该文档，文档在何处打印的，以及在打印时刻的给定源文件310的文件路径。
捕获装置UI部件452为管理捕获装置106的UI的操作的软件应用程序，其允许MMR用户110与纸质文档交互。捕获装置UI部件452与捕获装置UI 224 的结合允许MMR用户110从现有文档读取数据，以及将数据写入现有文档，查看并与那些文档所关联的扩增实境交互(即，通过捕获装置106，MMR用户 110能够查看当创建文档时或在编辑文档时发生了什么)，以及查看并与在他 /她的捕获装置106上显示的文档所关联的扩增实境交互。
特定领域部件454为管理特定领域功能的软件应用程序。例如，在音乐应用程序中，特定领域部件454为经由，例如，捕获装置106的录音器236 将所探测到的音乐与标题、艺术家、或作曲家匹配的软件应用程序。以这种方式，可以将感兴趣的项目，如与所探测的音乐有关的活页乐谱或音乐CD，呈现给MMR用户110。类似地，特定领域部件454适应于以关于视频内容、视频游戏、和任何娱乐信息的类似的方式操作。特定领域部件454也可以适应于任何大众传媒内容的电子版本。
继续参考图3和4，注意到MMR软件套装222的软件部件可以完全或者部分地存在于MMR系统100b的一个或多个MMR计算机112、网络介质服务器 114、服务提供者服务器122、和捕获装置106上。换句话说，可以将MMR系统100b的操作，例如MMR软件套装222所执行的任何操作，分布于MMR计算机112、网络介质服务器114、服务提供者服务器122、和捕获装置106(或者系统100b中所包括的其它这样的处理环境)之间的任何用户定义的配置中。
根据这个公开发明，将很明显，能够以MMR软件套装222的软件部件的某些结合而执行MMR系统100a/100b的基本功能。例如，MMR系统100a/100b 的一个实施例的基本功能包括：
●创建或者增加包括第一介质部分和第二介质部分的MMR文档；
●使用MMR文档的第一介质部分(例如，纸质文档)访问第二介质部分中的信息；
●使用MMR文档的第一介质部分(例如，纸质文档)触发或启动电子领域中的过程；
●使用MMR文档的第一介质部分(例如，纸质文档)创建或增加第二介质部分；
●使用MMR文档的第二介质部分创建或增加第一介质部分；
●使用MMR文档的第二介质部分触发或启动电子领域中的或与第一介质部分有关的过程；
MMR文档
图5阐明根据本发明的一个实施例的MMR文档500的图解。更明确地，图5示出包括打印文档118的一部分的表示502、动作或第二介质504、索引或热点506、以及全部文档118的电子表示508的MMR文档500。尽管典型地将MMR文档500存储在文档事件数据库320，也能够将其存储在捕获装置或连接至网络128的任何其它装置中。在一个实施例中，多个MMR文档可以相应于打印文档。在另一个实施例中，复制图5中所示的结构，以在单个打印文档中创建多个热点506。在一个特定实施例中，MMR文档500包括具有页面和页面内的位置的表示502和热点506；第二介质504和电子表示508是可选的并且如由虚线那样描画。注意到，若如是需要，能够在已经创建MMR文档稍后添加第二介质504和电子表示508。这个基本的实施例能够用来定位文档或相应于表示的文档中的特殊位置。
打印文档118的一部分的表示502能够是以适用于模式匹配并识别文档中的至少一个位置的任何形式(图像、矢量、像素、文本、代码，等等)存在的。表示502最好唯一地识别打印文档中的位置。在一个实施例中，表示 502是如图5中所示的文本指纹。在打印操作期间，经由PD捕获模块318自动捕获文本指纹502，并将其存储在PD索引322中。可替代地，在扫描操作期间，经由文档扫描仪127的文档指纹匹配模块226’自动捕获文本指纹502，并将其存储在PD索引322中。如果其为文档中的唯一实例、图像的一部份、文档可匹配部分的唯一属性或任何其它表示，则表示502可替代地能够为全部文档、文本碎片、单个单词。
动作或第二介质504优选地为数字文件或任何类型的数据结构。最基本的实施例中的第二介质504可以是将要呈现的文本或将要执行的一个或多个命令。第二介质类型504更典型地为与由表示502所识别的文档的一部分有关的文本文件、音频文件、或视频文件。第二介质类型504可能是附注或包括多个不同介质类型，和相同类型的多个文件的数据结构或文件。例如，第二介质504能够是文本、命令、图像、PDF文件、视频文件、音频文件、应用程序文件(如，电子数据表或文字处理文档)，等等。
索引或热点506为表示502与动作或第二介质504之间的链接。热点506 使表示502与第二介质504关联。在一个实施例中，索引或热点506包括像文档内的x和y坐标那样的位置信息。热点506可能是点、区域或甚至全部文档。在一个实施例中，热点是具有表示502的指针、第二介质504的指针、和文档内的位置的数据结构。应该理解到，MMR文档500可能具有多个热点 506，并且在这样的情形中，数据结构创建多个表示、多个第二介质文件、和打印文档118内的多个位置之间的链接。
在可替代的实施例中，MMR文档500包括全部文档118的电子表示508。这个电子表示能够被用于确定热点506的位置，并且也能够通过用户接口用于在捕获装置106或MMR计算机112上显示文档。
MMR文档500的示例性使用如下。通过分析文本指纹或表示502，经由捕获装置106的文档指纹匹配模块226识别所捕获的文本片段。例如，MMR用户110将他/她的捕获装置106的摄像机232或数码相机234指向打印文档 118，并捕获图像。随后，文档指纹匹配模块226在所捕获的图像上执行其分析，以确定PD索引322内是否存在相关联的条目。如果找到匹配项，在他/ 她的捕获装置106的显示器212上，为MMR用户110高亮显示热点506的存在。如图5中所示，高亮显示单词或短语。打印文档118内的每个热点506 都用作至其它用户定义的或预定的数据，如存在于网络介质服务器114上的 MM文件336的一个，的链接。PD索引322中所存储的文本指纹或表示502的访问允许将电子数据添加至任何MMR文档500或文档内的任何热点506。如参考图4所描述的，包括至少一个热点506(如，链接)的纸质文档被称为 MMR文档500。
继续参考图1B、2A直至2D、3、4、和5，MMR系统100b的示例性操作如下。MMR用户110或任何其它实体，例如出版社，打开给定的源文件310 并启动打印操作，以产生纸质文档，如打印文档118。在打印操作期间，自动执行某些动作，如：(1)在打印时刻，经由PD捕获模块318，自动捕获打印格式，并将其传递至捕获装置106。通过使用位于，例如，SD浏览器312 的输出处的PD捕获模块318，在打印时刻自动捕获文档的电子表示508。例如，MMR用户110打印来自SD浏览器312的内容，并且该内容滤过PD捕获模块318。如先前所讨论的，当为打印而展示文档时，能够确定页面上的文本的二维布置；(2)在打印时刻，经由PD捕获模块318，自动捕获给定的源文件310；以及(3)为了定位“指定的实体”或可以增加捕获装置106上的多媒体注解接口的其它有趣的信息，经由文档分析器模块326，分析打印格式和/或源文件310。指定的实体为，例如，用于稍后添加多媒体的“锚”，即，自动生成的热点506。文档分析器模块326接收与给定的打印文档118 有关的输入源文件310。文档分析器模块326为识别文档118中与热点506 一起使用的表示502的应用程序，例如，标题、作者、时间、或位置，并因而，在捕获装置106上提示将要接收的信息；(4)为基于内容的检索自动地给打印格式和/或源文件310编索引，即，建立PD索引322；(5)在文档事件数据库320中制造关于文档和与源文件310相关联的事件的条目，例如，编辑历史和当前位置；以及(6)在打印机驱动器316内执行交互式会话，其允许MMR用户110在打印热点506之前将所述热点506添加至文档，并因而形成MMR文档500。将相关联的数据存储在MMR计算机112上或上载至网络介质服务器114。
示范性可替代实施例
MMR系统100(100a或100b)并不局限于图1A-1B、2A-2D、和3-5中所示的配置。MMR软件可以全部或部分地分配于捕获装置106与MMR计算机112 之间，并且需要远少于上文参考图3和4所描述的所有的模块。多个配置都是可能的，包括如下：
MMR系统100的第一可替代的实施例包括捕获装置106和捕获装置软件。捕获装置软件为捕获装置UI 224和文档指纹匹配模块226(如，图3中所示的)。在捕获装置106上，或者可替代地，在可访问捕获装置106的像网络介质服务器114或服务提供者服务器122那样的外部服务器上，执行捕获装置软件。在这个实施例中，可利用提供连接至发行物的数据的网络服务。可以使用分等级的识别方案，在其中首先识别发行物，并然后识别发行物内的页面和章节。
MMR系统100的第二可替代的实施例包括捕获装置106、捕获装置软件和文档使用软件。如参考图4所示出和描述的，第二可替代的实施例包括捕获并给打印文档编索引，以及连接基本的文档事件，如文档的编辑历史，的软件。这允许MMR用户110将他/她的捕获装置106指向任何打印文档，并确定产生该文档的源文件310的名字和位置，以及确定打印的时间和地点。
MMR系统100的第三可替代的实施例包括捕获装置106、捕获装置软件、文档使用软件、和事件捕获模块324。将事件捕获模块324添加至MMR计算机112，该计算机捕获与文档相关联的事件，例如当它们在MMR计算机112 的桌面上可见时的时间(通过监控GDI特征发生器而确定)、在文档打开时所访问的URL、或者在文档打开时在键盘上键入的字符。
MMR系统100的第四可替代的实施例包括捕获装置106、捕获装置软件、和打印机116。在这个第四可替代的实施例中，打印机116配备有蓝牙收发器或与处于其附近的任何MMR用户110的捕获装置106通信的类似的通信链接。无论何时任何MMR用户110从打印机116拾取文档，打印机116将MMR 数据(文档布局和多媒体剪辑)压入那个用户的捕获装置106。为了获得与特定的文档相关联的多媒体数据，用户打印机116包括数字按键键盘、通过它用户登录并输入代码。该文档可以包括在其页脚的代码的打印表示，其可以通过打印机驱动器316插入。
MMR系统100的第五可替代的实施例包括捕获装置106、捕获装置软件、和办公室入口120。办公室入口装置优选地为办公室入口120的个性化版本。办公室入口120捕获办公室中的事件，如会话、会谈/电话呼叫、和会议。办公室入口120识别并跟踪物理桌面上的特定纸质文档。办公室入口120另外执行文档识别软件(即，文档指纹匹配模块226和主机文档事件数据库320)。这个第五可替代的实施例可用于从MMR计算机112卸载计算工作负荷，并提供将MMR系统100b 包装成为消费者装置(例如，将MMR系统100b作为硬件和在苹果计算机公司的Mac迷你型计算机上执行的软件产品而出售)的便利方法。
MMR系统100的第六可替代的实施例包括捕获装置106、捕获装置软件、和网络介质服务器114。在这个实施例中，多媒体数据存在于网络介质服务器114，例如康卡斯特视频点播服务器。当MMR用户110通过使用他/她的捕获装置106扫描文档文本碎片时，将作为结果的查找命令或者传输至与MMR 用户110的有线电视(cable TV)相关联的机顶盒126(通过因特网，无线地，或者通过电话上呼叫机顶盒126)，或者传输至康卡斯特服务器。在两种情形中，多媒体都从康卡斯特服务器流向机顶盒126。系统100知道向何处发送数据，因为MMR用户110先前注册了他/她的电话。因而，能够将捕获装置106用于机顶盒126的访问和控制。
MMR系统100的第七可替代的实施例包括捕获装置106、捕获装置软件、网络介质服务器114和位置服务。在这个实施例中，位置已知服务在来自康卡斯特系统(或其它适当的通信系统)的输出的多个目的地之间辨别。或者通过自动辨别蜂窝式电话塔ID，或者通过允许MMR用户110选择将要显示数据的位置的数字按键键盘接口，来执行这个功能。因而，当拜访另一个位置时，只要那个其它位置具有有线接入，用户就能够访问他们的有线电视运营商所提供的节目和其它有线TV特征。
文档指纹匹配(“基于图像的碎片识别”)
如先前所描述的，文档指纹匹配涉及唯一地识别MMR文档的一部分、或 “碎片”。参考图6，文档指纹匹配模块/系统610接收所捕获的图像612。文档指纹匹配系统610然后查询文档数据库3400(例如，下文参考图34A进一步描述的)中的页面集，并返回一列页面和包含它们的文档，其内包含所捕获的图像612。每个结果都为出现所捕获的输入图像612的x-y位置。本领域技术人员将注意到数据库3400能够处于文档指纹匹配模块610的外部(例如，如图6中所示)，但也能够处于文档指纹匹配模块610的内部(例如，如图7、11、12、14、20、24、26、28、和30-32中所示，其中文档指纹匹配模块610包括数据库3400)。
图7示出根据本发明的实施例的文档指纹匹配系统610的框图。捕获装置106捕获图像。将所捕获的图像发送至质量评估模块712，其基于下游处理的需要和能力，有效地进行关于所捕获的图像的内容的初步判断。例如，如果所捕获的图像是如此的质量，以致在下游文档指纹匹配系统610中不能处理它，则质量评估模块712促使捕获装置106以更高的分辨率重新捕获图像。此外，例如，质量评估模块712可以探测所捕获的图像的许多其它相关的特征，例如所捕获的图像中所包含的文本的清晰度，其为所捕获的图像是否“对焦”的指示。此外，质量评估模块712可以确定所捕获的图像是否包含可能为文档的一部分的某物。例如，包含非文档图像(例如，桌子、室外场景)的图像碎片指示用户正将捕获装置106的视野转换至新的文档。
此外，在一个或多个实施例中，质量评估模块712可以执行文本/非文本辨别，以致仅通过可能包含可识别的文本的图像。图8示出根据一个或多个实施例的文本/非文本辨别的流程。在步骤810从输入图像碎片提取许多列像素。典型地，输入图像是灰度图，并且列中的每个值都是从零至255的整数 (对于8位像素)。在步骤812，探测每列中的局部峰值。这能够以通常所熟悉的“滑动窗口”的方法进行，在该方法中固定长度(例如，N像素)的窗口沿着列滑动，每次M像素，其中M＜N。在每一步，通过寻找灰度水平值的显著差别(例如，大于40)而确定峰值的存在。如果峰值位于窗口的一个位置，则无论何时滑动窗口与这个位置交迭，都抑制其它峰值的探测。在步骤 812也可以探测连续的峰值之间的间隙。步骤812适用于图像碎片中的许多列(C)，并且在步骤814以直方图累加间隙值。
将间隙直方图与从具有数据库818中所存储的已知分类(在步骤816) 的训练数据中导出的其它直方图相比较，并一起输出有关碎片的类别(或者文本或者非文本)的决定和那个决定的置信度的测量。步骤816的直方图分类考虑从文本的图像中导出的直方图的典型的外观，并且其包含两个紧密的峰，一个中心置于行之间的距离上，其中在直方图中远离那些峰的其它一个或两个更小的峰可能整数倍高。以统计方差的测量，该分类可以确定直方图的形状，或者其可以用距离测量，例如，汉明或欧氏距离，将直方图逐一与所存储的原型相比较。
现在同样参考图9，其示出文本/非文本辨别的例子。处理输入图像910，以采样许多列，用点线指示其子集。914中示出典型的列912的灰度水平直方图。Y值为910中的灰度水平，以及X值为910中的行。916中示出直方图中的峰值之间所探测到的间隙。918中示出来自所有采样列的间隙值的直方图。这个例子阐明从包含文本的碎片所导出的直方图的形状。
图10中示出用于估计图像碎片中的文本的磅值的流程。这个流程利用图像的模糊度反比例于捕获装置离页面的距离的事实。通过估计模糊量，可以估计距离，并且那个距离可以用来，相对于已知“标准化的”高度，将图像中的对象的大小缩放。这个行为可以用来估计新的图像中的文本的磅值。
在训练阶段1010，在步骤1012，用在已知距离的图像捕获装置获得具有已知字体和磅值的文本的碎片的图像(称为“校准”图像)。在步骤1014测量以许多像素表达的那个图像中的文本字符的高度。例如，这可以用像微软照片编辑器那样的图像注解工具手动进行。在步骤1016估计校准图像中的模糊度。例如，这可以用已知的二维快速傅里叶变换的频谱截止测量进行。这也可以单位的形式表达为许多像素1020。
当在步骤1024呈现“新的”图像时，如在运行时刻MMR识别系统中，在步骤1026处理图像，以用通常熟知的在每个字符周围产生边界框的行分割和字符分割方法定位文本。可以用像素表达那些方框的高度。在步骤1028，以与步骤1016类似的方式估计新图像的模糊度。在步骤1030结合这些测量，以产生每个字符(或者等同地，每行)的磅值的第一估计1032。这可以通过计算下列方程进行：(校准图像模糊大小/新图像模糊大小)*(新图像文本高度/校准图像文本高度)*(校准图像字体磅值)。这按比例确定校准图像中的文本的磅值，以产生经估计的输入图像碎片中的文本的磅值。可以将相同的标度功能应用于每个字符的边界框的高度。这产生关于碎片中的每个字符的决定。例如，如果碎片包含50个字符，则这个过程将产生关于碎片中的字体的磅值的50个表决。然后可以用该表决的中值导出关于磅值的单一估计。
此外，更明确地返回参考图7，在一个或多个实施例中，可以将质量评估模块712至捕获装置106的反馈传导至捕获装置106的用户接口(UI)。例如，反馈可能包括以声音或振动形式存在的指示，其指示所捕获的图像包含看起来像文本但模糊不清的某物，并指示用户应该使捕获装置106稳固。反馈可能也包括改变捕获装置106的光学装置的参数，以提高所捕获的图像的质量的命令。例如，可以调节焦距、F制光圈、和/或曝光时间，以致提高所捕获的图像的质量。
此外，通过所使用的特殊的特征提取算法的需要，可以使质量评估模块 712至捕获装置106的反馈专门化。如下文进一步描述的，特征提取将图像转换成为符号表示。在计算单词的长度的识别系统中，使所捕获的图像模糊对于捕获装置106的光学装置来说可能是很理想的。本领域技术人员将注意到这样的调节可能产生尽管人类或者光学字符识别(OCR)过程或许不可识别的，但良好地适合于特征提取技术的图像。通过将指令反馈给捕获装置106，促使捕获装置106将其镜头散焦，并从而产生模糊的图像，质量评估模块712 可以实现这一点。
由控制结构714更改反馈过程。一般而言，控制结构714从文档指纹匹配系统610中的其它部件接收数据和符号信息。控制结构714决定文档指纹匹配系统610中的各种各样的步骤的执行顺序，并能够使计算负载最优化。控制结构714识别所接收到的图像碎片的x-y位置。更具体地，控制结构714 接收有关特征提取过程的需要、质量评估模块712的结果、和捕获装置106 的参数的信息，并能够适当地改变它们。这能够在一帧接一帧的基础上动态地进行。在使用多个特征提取方法的系统配之中，一个可能需要文本的大碎片的模糊图像，而另一个可能需要纸张纹理的高分辨率锐聚焦图。在这样的情形中，控制结构714可以发送命令至质量评估模块712，指示它当其视野中具有文本时，产生适当的图像质量。质量评估模块712与捕获装置106交互，以产生正确的图像(例如，大碎片的N个模糊图像，其后的锐聚焦纸张纹理(高分辨率)的M个图像)。控制结构714跟踪通过处理管道的那些图像的进展，以确保应用了相应的特征提取和分类。
基于识别系统的需要，图像处理模块716更改输入图像的质量。图像更改的类型的例子包括锐化、偏移校正、和二进制化。这样的算法包括像掩码大小、期望的旋转、和阈值那样的许多可调的参数。
如图7中所示，文档指纹匹配系统610使用来自特征提取和分类模块718、 720(下文所描述的)的反馈，以动态地更改图像处理模块716的参数。这样可行，因为用户典型地会将他们的捕获装置106连续几秒地指向文档中的相同位置。例如，假设捕获装置106每秒处理30帧，则以任何顺序处理最初几帧的结果可能影响如何处理稍后所捕获的帧。
特征提取模块718将所捕获的图像转换成为符号表示。在一个例子中，特征提取模块718定位单词，并计算它们的边界框。在另一个例子中，特征提取模块718定位联在一起的部件，并计算它们的形状的描述符。此外，在一个或多个实施例中，文档指纹匹配系统610与控制结构714共享有关特征提取的结果的元数据，并使用那个元数据调节其它系统部件的参数。本领域技术人员将注意到通过抑制差质量数据的识别，这可能显著地减少计算需求，并提高准确性。例如，识别单词边界框的特征提取模块718能够告诉控制结构714其找到的行和“单词”的数量。如果单词的数量太高(例如，指示输入图像为片断)，则控制结构714能够指示质量评估模块712产生更模糊的图像。质量评估模块712然后会将适当的信号发送至捕获装置106。可替代地，控制结构714能够命令图像处理模块716应用平滑滤波器。
分类模块720将来自特征提取模块718的特征描述变换成为文档内的一个或多个页面以及输入图像碎片出现的那些页面内的x，y位置的识别。如依次描述，依赖于自数据库3400的反馈进行该识别。此外，在一个或多个实施例中，置信度值可与每个决定相关联。文档指纹匹配系统610可以使用这样的决定确定系统中其它部件的参数。例如，控制结构714可以确定头两个决定的置信度是否彼此靠近，是否应该改变图像处理算法的参数。这可能导致增加中值滤波器的大小的范围，以及其结果顺流至剩余的部件的运送。
此外，如图7中所示，在分类模块720与数据库3400之间可以存在反馈。此外，本领域技术人员将记起数据库3400能够处于如图6中所示的模块610 的外部。能够使用有关碎片的一致性的决定，关于具有类似的外观的其它碎片，而查询数据库3400。这将会将数据库3400中所存储的碎片的完美的图像数据与数据库3400中的其它图像相比较，而不是将输入图像碎片与数据库 3400相比较。这可以提供关于分类模块720的决定的另外的确认水平，并可以允许匹配数据的一些预处理。
也能够在碎片，而不仅仅是图像数据上的符号表示，进行数据库比较。例如，最好的决定可能指示图像碎片包含双间距的12号Arial字体。数据库比较能够定位具有类似的字体间距的其它文档中的碎片，并仅使用文本元数据，而不是图像比较，来定位单词布局。
数据库3400可以支持几种类型的基于内容的查询。分类模块720能够传递给数据库3400特征布置，并接收一列文档和那个布置出现的x-y位置。例如，特征可能是或者水平的或者垂直的单词长度的三线形。能够组织数据库 3400，以响应每种类型的查询而返回一列结果。分类模块720或控制结构714 能够结合那些等级排序，以产生单一的经筛选的一列决定。
此外，在数据库3400、分类模块720、与控制结构714之间可以存在反馈。除了存储足够从特征矢量识别位置的信息外，数据库3400可以存储包括文档的原始图像，以及其图形部件的符号表示的相关信息。这允许控制结构 714动态地更改其它系统部件的行为。例如，如果关于给定的图像碎片存在两种似乎可能的决定，则数据库3400可能指示关于图像的存在，通过缩小并检查右边的区域，能够消除它们的歧义。控制结构714能够发送适当的消息至捕获装置106，指示它缩小。特征提取模块718和分类模块720能够关于文档上打印的图像检查图像的右边。
此外，注意到假设碎片准确地位于文档中，则数据库3400存储关于围绕图像碎片的数据的详细信息。这可以用来进一步触发现有技术中未预期的硬件和软件图像分析步骤。在一个情形中，由保存文档的详细符号描述的打印捕获系统提供那个详细的信息。在一个或多个其它实施例中，通过扫描文档，可以获得类似的信息。
仍然参考图7，位置跟踪模块724接收来自控制结构714的关于图像碎片的一致性的信息。位置跟踪模块724使用它从数据库3400检索全部文档页面的拷贝或描述文档的数据结构。起始位置是位置跟踪过程开始的锚。当质量评估模块712决定所捕获的图像适合跟踪时，位置跟踪模块724接收来自捕获装置106的图像数据。位置跟踪模块724也具有关于自成功地识别了上一帧以来已经流逝的时间的信息。位置跟踪模块724应用光流技术，其允许它估计在文档之上捕获装置106在连续的帧之间已移动的距离。给定捕获装置106的采样率，即使它看到的数据可能是不可识别的，也能够估计其目标。通过其图像数据与从数据库文档中所导出的相应图像数据的比较，可以确认捕获装置106的估计位置。一个简单的例子计算所捕获的图像与数据库3400 中的期望图像的交叉相关性。
因而，位置跟踪模块724提供数据库图像的交互使用，以引导位置跟踪算法的过程。这允许将电子交互附着于非文本对象，如图形和图像。此外，在一个或多个其它实施例中，可以在不存在上文所描述的图像比较/确认步骤的情况下实现这样的依附。换句话说，通过估计在页面之上的捕获装置106 的瞬间移动，可以估计应该处于独立于所捕获的图像的视野中的电子链接。
图11示出根据本发明的实施例的文档指纹匹配技术。图11中所示的“前馈”技术独立地处理每个碎片。它从被用来定位一个或多个页面和碎片出现的那些页面上的x-y位置的图像碎片中提取特征。例如，在一个或多个实施例中，文档指纹匹配的特征提取可能依赖于所捕获的图像的水平和垂直组特征(例如，单词、字符、块)。然后可以使用这些组的提取特征来查找包含所提取的特征的文档(和那些文档内的碎片)。可以使用OCR功能来识别所捕获的图像中的水平单词对。然后使用每个识别的水平单词对形成数据库3400的搜索查询，用于确定包含所识别的水平单词对的所有文档，以及那些文档中的单词对的x-y位置。例如，对于水平单词对“the，cat”，数据库3400可能返回(15，x，y)，(20，x，y)，指示水平单词对“the，cat”出现在文档 15和20中所指示的x-y位置。类似地，对于每个垂直相邻的单词对，关于包含单词对的实例的所有文档和那些文档中的单词对的x-y位置，查询数据库3400。例如，对于垂直相邻的单词对“in，hat”，数据库3400可能返回 (15，x，y)，(7，x，y)，指示垂直相邻的单词对“in，hat”出现在文档 15和7中所指示的x-y位置。然后，使用数据库3400所返回的文档和位置信息，能够进行如对哪个文档从所捕获的图像中所提取的各种各样的水平单词对和垂直相邻的单词对之间出现最多的位置交迭一样的确定。响应可以确定哪个热点和所链接的介质的存在，这可能导致识别包含所捕获的图像的文档。
图12示出根据本发明的实施例的另一个文档指纹匹配技术。图12中所示的“交互式图像分析”技术涉及图像处理和可能在识别图像碎片之前出现的特征提取之间的交互。例如，图像处理模块716可能首先估计输入图像中的模糊度。然后，特征提取模块718计算离页面的距离和图像文本的磅值。然后，图像处理模块716可能使用那个磅值的字体的特征，在图像上执行模板匹配步骤。随后，特征提取模块718可能因而从结果中提取字符或单词特征。此外，本领域技术人员将认识到字体、磅值、和特征可能受制于数据库 3400文档中的字体。
图13中示出如上文参考图12所描述的交互式图像分析的例子。在步骤 1310处理输入图像碎片，估计图像碎片中的文本的字体和磅值和其离相机的距离。本领域技术人员将注意到可以用已知的技术进行字体估计(即，碎片中的文本的字体的候选者的识别)。例如，可以使用参考图10所描述的流程来执行磅值和距离估计。此外，可以使用其它技术，例如能够容易地适应于捕获装置的离焦点的距离的已知方法。
仍然参考图13，在步骤1312应用行分割算法，其在碎片中的文本行的周围构造边界框。在步骤1314使用像缩放那样的已知技术将每个行图像的高度标准化为固定的大小。将关于图像中所探测到的字体的一致性以及其磅值传递1324至字体原型集1322，其中使用它们来检索每个指定的字体中的字符的图像原型。
字体数据库1322可以从由操作系统和其它软件应用程序用来打印文档的用户系统上的字体集(例如，TrueType、OpenType、或Microsoft Windows 中的raster字体)而构造。在一个或多个其它实施例中，可以从数据库3400 中的文档的原始图像产生字体集。数据库3400xml文件提供可以用来从原始图像中提取字符的原型图像的x-y边界框坐标。xml文件正确地识别字体的名称和字符的磅值。
基于在步骤1314所使用的参数的功能，在步骤1320将所选择的字体中的字符原型大小标准化。在步骤1316的图像分类可以将在步骤1320所输出的大小标准化后的字符与步骤1314的输出相比较，以在图像碎片中的每个 x-y位置处产生决定。关于图像碎片中所探测到的每个字符i，i＝1...n，可以使用图像模板匹配的已知方法产生像(ci，xi，yi，wi，hi)那样的输出，其中ci为字符的一致性，(xi，yi)为其边界框的左上角，以及hi，wi为其宽度和高度。
在步骤1318，能够如上文所描述的执行几何关系限制数据库查找，但在一个情形中，可以专门适应于字符对，而不是单词对。在这样的情形中：“a-b” 可能指示字符a和b是水平相邻的；“a+b”可能指示它们是垂直相邻的； “a/b”可能指示a在b的西南方；以及“a\b”可能指示a在b的东南方。可以从每对字符的xi，yi值导出几何关系。可以组织MMR数据库3400，以致其返回包含字符对而不是单词对的一列文档页面。步骤1326的输出为与表达为通过评分等级排序的n-元组(documenti，pagei，xi，yi，actioni， scorei)的输入图像相匹配的候选者列表。
图14示出根据本发明的实施例的另一个文档指纹匹配技术。图14中所示的“产生和测试”技术独立地处理每个碎片。它从图像碎片中提取特征，其被用来定位可能包含给定的图像碎片的许多页面图像。此外，在一个或多个实施例中，可以执行另外的提取分类步骤，以通过它们包含该图像碎片的可能性将页面分等级。
仍然参考上文参考图14所描述的“产生和测试”技术，可以提取所捕获的图像的特征，并可以识别数据库3400中包含最多数量的这些提取的特征的文档碎片。然后进一步处理具有最多的匹配特征的最初X个文档碎片(“候选者”)。在这种处理中，将匹配文档碎片候选者中的特征的相对位置与查询图像中的特征的相对位置相比较。基于这个比较计算评分。然后，识别相应于最好的匹配文档碎片P的最高评分。如果最高的评分大于适应阈值，则然后找到文档碎片P，作为至查询图像的匹配。阈值适应于许多参数，包括，例如，所提取的特征的数量。在数据库3400中，已知文档碎片P从何而来，并因而，确定查询图像来自相同的位置。
图15示出单词边界框探测算法的例子。示出在作旋转校正的图像处理之后的输入图像碎片1510。通常已知为倾斜校正算法，这类技术将文本图像旋转，以致其沿着水平轴排列。边界框探测算法中的下一步是水平投影轮廓图 1512的计算。以这样的方式，通过已知适应阈值或滑动窗口算法选择1516 行探测的阈值，以致区域“在阈值之上”相应于文本行。以类似的方式1514 和1518提取并处理每行内的区域，以定位指示行内的单词的在阈值之上的区域。1520中示出在一个文本行中所探测到的边界框的例子。
为了与文档碎片候选者相比较，可以提取各种各样的特征。例如，可以提取尺度不变特征转换(SIFT)特征、角点特征、凸点，上行字母，和下行字母，单词边界，和间隔，以便匹配。能够可靠地从文档图像中提取的特征的一个是单词边界。一旦提取了单词边界，它们就可以形成如图16中所示的组。在图16中，例如，以单词边界在其上和其下都具有交迭单词边界这样的方式形成垂直组，并且交迭单词边界的总数量至少是3(注意到在一个或多个其它实施例中，交迭单词边界的最小数量可能不同)。例如，第一个特征点 (第二行中的第二个单词方框，长度为6)在其上具有两个单词边界(长度为5和7)，以及在其下具有一个单词边界(长度为5)。第二个特征点(第三行中的第四个单词方框，长度为5)在其上具有两个单词边界(长度为4和5)，以及在其下具有两个单词边界(长度为8和7)。因而，如图16中所示，用中间单词边界的长度，其后的其上单词边界的长度，并然后其后的其下单词边界的长度，来表示所指示的特征。此外，注意到单词方框的长度可以是基于任何度量标准的。因而，对于一些单词方框，具有可替代的长度是可能的。在这样的情形，可以提取包含所有或某些它们的可替代物的特征。
此外，在一个或多个实施例中，可以提取特征，以致用0表示间隔，并用1表示单词区域。图17中示出一个例子。在右边的块表示相应于左边的文档碎片的单词/间隔区域。
可以将所提取的特征与各种各样的距离测量相比较，包括，例如，规范和汉明距离。可替代地，在一个或多个实施例中，可以使用哈希表识别具有与查询图像相同的特征的文档碎片。一旦识别了这样的碎片，就可以如图18 中所示的计算从每个特征点至其它特征点的角度。可替代地，可以计算特征点组之间的角度。1802示出从三个一组的特征点而计算出的角度1803、1804、和1805。然后可以将所计算出的角度与查询图像中从每个特征点至其它特征点的角度相比较。如果匹配点的任何角度是相似的，则然后可以增加相似性评分。可替代地，如果使用角度组，并且如果两个图像中相似组的特征点之间的角度组数字上相似，则然后增加相似性评分。一旦在查询图像之间计算了每个检索文档碎片的评分，就选择导致最高评分的文档碎片，并将其与适应阈值相比较，以确定匹配是否满足一些预定的标准。如果满足标准，则然后指示已找到匹配文档路径。
此外，在一个或多个实施例中，所提取的特征可以是基于单词的长度的。基于单词高度和宽度，将每个单词划分为所估计的字母。当扫描在给定单词之上和之下的单词行时，根据其上和其下的行中的间隔信息，将二进制值分派给所估计的字母的每一个。然后用整数号码表示二进制代码。例如，参考图19，其示出每个都代表所捕获的图像中探测到的一个单词的单词方框的布置。将单词1910划分为所估计的字母。用(i)单词1910的长度，(ii)单词1910之上的行的文本布置，和(iii)单词1910之下的行的文本布置，来描述这个特征。以所估计的字母的数量测量单词1910的长度。从当前所估计的字母之上或之下的间隔信息的二进制编码中提取文本布置信息。在单词 1910中，仅只最后所估计的字母在间隔之上；第二和第三所估计的字母在间隔之下。另外，将单词1910的特征编码为(6，100111，111110)，其中0表示间隔，以及1表示无间隔。以整数形式重写，单词1910编码为(6，39， 62)。
图20示出根据本发明的实施例的另一个文档指纹匹配技术。通过将它们独立地分类，并将结果结合，图20中所示的“多个分类器”技术利用不同特征描述的互补信息。应用于文本碎片匹配的这种典范的例子是提取水平和垂直相邻的单词对的长度，并分别计算数据库中碎片的等级排序。更具体地，例如，在一个或多个实施例中，由“分类器”附属部件通过分类模块720与确定特征的位置。使用用于确定所捕获的图像的水平和垂直特征的分类器的结合，给所捕获的图像加指纹。这是考虑到文本的图像包含两个独立的信息源作为其一致性的观察而执行的，除了单词的水平序列之外，也能够使用单词的垂直布局识别从其提取图像的文档。例如，如图21中所示，通过水平分类器2112和垂直分类器2114，将所捕获的图像2110分类。除输入所捕获的图像之外，分类器2112、2114的每一个都从数据库3400中取得信息，以依次输出可以应用各个分类的那些文档页面的等级排序。换句话说，图21中所示的多分类器技术使用水平和垂直特征独立地将所捕获的图像分类。然后根据结合算法2118结合分等级的一列文档页面(下文进一步描述示例)，其依次输出分等级的一列文档页面，该列表是基于所捕获的图像2110的水平和垂直特征两者的。特别地，在一个或多个实施例中，使用有关数据库3400中所探测到的特征如何协同发生的信息结合来自水平分类器2112和垂直分类器2114的分别的等级排序。
现在同样参考图22，其示出关于特征提取，垂直布局如何与水平布局结合的例子。在(a)中，示出带有单词分割的所捕获的图像2200。从所捕获的图像2200，确定水平和垂直“n-grams”。“n-gram”为每个都描述一些特性量的n个数量的序列。例如，水平三线形指定水平序列的三个单词的每个单词中的字符的数量。例如，对于所捕获的图像2200，(b)示出水平三线形： 5-8-7(为所捕获的图像2200的第一行中水平地排列的单词“upper”、 “division”、和“courses”的每一个中的字符的数量)；7-3-5(为所捕获的图像2200的第二行中水平地排列的单词“Project”、“has”、和“begun” 的每一个中的字符的数量)；3-5-3(为所捕获的图像2200的第二行中水平地排列的单词“has”、“begun”、和“The”的每一个中的字符的数量)；3-3-6 (为所捕获的图像2200的第三行中水平地排列的单词“461”、“and”、和 “permit”的每一个中的字符的数量)；以及3-6-8(为所捕获的图像2200 的第三行中水平地排列的单词“and”、“permit”、和“projects”的每一个中的字符的数量)。
垂直三线形指定在给定的单词之上和之下垂直排列的单词的每个单词中的字符的数量。例如，对于所捕获的图像2200，(c)示出垂直三线形：5-7-3 (为垂直地排列的单词“upper”、“Project”、和“461”的每一个中的字符的数量)；8-7-3(为垂直地排列的单词“division”、“Project”、和“461” 的每一个中的字符的数量)；8-3-3(为垂直地排列的单词“division”、 “has”、和“and”的每一个中的字符的数量)；8-3-6(为垂直地排列的单词 “division”、“has”、和“permit”的每一个中的字符的数量)；8-5-6(为垂直地排列的单词“division”、“begun”、和“permit”的每一个中的字符的数量)；8-5-8(为垂直地排列的单词“division”、“begun”、和“projects” 的每一个中的字符的数量)；7-5-6(为垂直地排列的单词“courses”、 “begun”、和“permit”的每一个中的字符的数量)；7-5-8(为垂直地排列的单词“courses”、“begun”、和“projects”的每一个中的字符的数量)； 7-3-8(为垂直地排列的单词“courses”、“The”、和“projects”的每一个中的字符的数量)；7-3-7(为垂直地排列的单词“Project”、“461”、和 “student”的每一个中的字符的数量)；以及3-3-7(为垂直地排列的单词 “has”、“and”、和“student”的每一个中的字符的数量)。
基于从图22中所示的所捕获的图像2200中所确定的水平和垂直三线形，产生指示包含水平和垂直三线形的每一个的文档的(d)和(e)的文档列表。例如，在(d)中，水平三线形7-3-5出现在文档15、22、和134中。此外，例如，在(e)中，垂直三线形7-5-6出现在文档15和17中。使用(d)和 (e)的文档列表，在(f)和(g)中分别示出所有的所相关的文档的分等级的列表。例如，在(f)中，(d)中的五个水平三线形都涉及文档15，而(d) 中仅一个水平三线形涉及文档9。此外，例如，在(g)中，(e)中的十一个垂直三线形都涉及文档15，而(e)中仅一个垂直三线形涉及文档18。
现在同样参考图23，其示出用于将参考图22而描述的水平和垂直三线形信息结合的技术。使用关于原始的打印页面上的三线形的已知物理位置的信息，该技术将来自水平和垂直特征提取的表决的列表结合。对于由水平和垂直分类器的每一个所输出的头M个选择之中共有的每一个文档，将关于文档而表决的每个水平三线形的位置与关于那个文档而表决的每个垂直三线形相比较。文档接收等于与任何垂直三线形交迭的水平三线形的数量的许多表决，这里当两个三线形的边界框交迭时，“交迭”出现。另外，用下文参考图 34A的3406而描述的证据累加算法的经适当更改后的版本计算交迭部分的中心的x-y位置。例如，如图23中所示，(a)和(b)中的列表(分别为图22 中的(f)和(g))相交，以确定水平和垂直三线形都相关的页面列表(c)。使用交叉列表(c)、列表(d)和(e)(仅示出由所识别的三线形所相关的交叉文档)、和打印文档数据库3400，确定文档的交迭部分。例如，水平三线形3-5-3和垂直三线形8-3-6涉及文档6，而在所捕获的图像2200中，那两个三线形本身在单词“has”之上交迭；因而文档6接收关于这个交迭部分的一个表决。如(f)中所示，对于特殊的所捕获的图像2200，文档15接收最多数量的表决，并因而被识别为包含所捕获的图像2200的文档。识别(x1， y1)作为文档15内的输入图像的位置。因而，总结上文参考图22和23所描述的文档指纹匹配技术，水平分类器使用从文本的单词的水平布置而导出的特征，以及垂直分类器使用从那些单词的垂直布置而导出的特征，这里基于原始文档中那些特征的交迭部分，而将结果结合起来。这样的特征提取提供用于唯一地识别文档的机制，因为当这个特征提取的水平方面受制于适当的语法和语言约束时，垂直方面并不受制于这样的约束。
此外，尽管参考图22和23的描述特别适于三线形的使用，但对于水平和垂直特征提取/分类的一个或两者，可以使用任何n-gram。例如，在一个或多个实施例中，对于多分类器特征提取，可以使用垂直和水平n-gram，这里n＝4。在一个或多个其它实施例中，水平分类器可以基于n-gram提取特征，这里n＝3，而垂直分类器可以基于n-gram提取特征，这里n＝5。
此外，在一个或多个实施例中，分类可以是基于并不是严格地垂直或水平的邻接关系的。例如，NW、SW、NW、和SE邻接关系可以用于提取/分类。
图24示出根据本发明的实施例的另一个文档指纹匹配技术。图24中所示的“数据库驱动的反馈”技术考虑到通过利用能够与输入相匹配的文档的图像，以确定在其中将来自原始文档的子图像与输入图像匹配的图像分析的后序步骤，可以提高文档图像匹配系统的准确性。该技术包括复制输入图像中所呈现的噪声的转换。在这之后可以有模版匹配分析。
图25示出根据本发明的实施例的数据库驱动的反馈的流程。如上文所描述的，在步骤2510、2512，首先预处理并识别输入图像碎片(例如，使用单词OCR和单词对查找、字符OCR和字符对查找、单词边界框配置)，以产生图像碎片2522的识别的许多候选者。这个列表中的每个候选者可以包含下列项 (doci、pagei、xi、yi)，这里doci为文档的标识符，pagei为文档内的页面，以及(xi，yi)为那个页面内的图像碎片的中心的x-y坐标。
在步骤2514的原始碎片检索算法使用自页面的距离信息将全部输入图像碎片的大小标准化至可选的固定大小，以确保将其转换为已知的空间分辨率，例如，100dpi。上文所描述的字体大小估计算法可以适应于这个任务。类似地，可以使用已知的自焦点的距离或自焦点的深度技术。同样，能够基于它们的单词边界框的高度，大小标准化能够按比例地缩放图像碎片。
以关于其接收到的每个文档和页面的标识符和MMR数据库将产生的碎片的边界框的中心一起，原始碎片检索算法查询MMR数据库3400。所产生的碎片的范围依赖于标准化的输入碎片的大小。以这样的方式，可以获得相同空间分辨率和维度的碎片。例如，当标准化至100dpi时，输入碎片能够在其中心的每一边上延伸50像素。在这种情形，将命令MMR数据库产生中心置于指定的x-y值的，100像素高和宽的100dpi的原始碎片。
从MMR数据库2524返回的每个原始图像碎片都可以与下列项(doci， pagei，xi，yi，widthi，heighti，actioni)相关联，这里(doci，pagei， xi，yi)为如上文所描述的，widthi和heighti为以像素计算的原始碎片的宽度和高度，以及actioni为可能与数据库中doci的条目中的相应区域相关联的可选的动作。原始碎片检索算法输出2518图像碎片和数据2518的这个列表，并一起输出其构造的大小标准化的输出碎片。
此外，在一个或多个实施例中，碎片匹配算法2516将大小标准化的输入碎片与每个原始碎片相比较，并分派度量它们彼此如何匹配的评分2520。本领域技术人员将意识到由于被用来确保碎片的大小可比较的机制的原因，在许多情形下，与汉明距离的简单交叉相关性就足够了。此外，这个过程可能包括模仿输入中所探测到的图像噪声的原始碎片中的噪声的引进。比较也可能是任意复杂的，并可能包括任何特征组的比较，该特征组包括两个碎片的 OCR结果和基于字符、字符对、或单词对的数量的等级排序，其中单词对可能受制于如以前的几何关系。然而，在这种情形，输入碎片与原始碎片之间共有的几何对的数量可以被估计为或者用作等级排序度量标准。
此外，输出2520可以是以n-元组(doci，pagei，xi，yi，actioni， scorei)的形式，这里评分由碎片匹配算法提供，并度量输入碎片与doci， pagei的相应区域相匹配的程度。
图26示出根据本发明的实施例的另一个文档指纹匹配技术。图26中所示的“数据库驱动的分类器”技术使用初始的分类，产生可能包含输入图像的一组假设。在数据库3400中查找那些假设，并且自动地为那些假设设计特征提取加上分类策略。一个例子是识别输入碎片为或者包含Times字体，或者包含Arial字体。在这种情形，控制结构714调用衬线/无衬线字体辨别专用的特征提取器和分类器。
图27示出根据本发明的实施例的数据库驱动的分类的流程。紧接着第一特征提取2710，由上文所描述的任何一种或多种识别方法将输入图像碎片分类2712，以产生文档，页面，和那些页面内的x-y位置的等级排序。这个列表中的每个候选者都可以包含，例如，下列项(doci，pagei，xi，yi)，这里doci为文档的标识符，pagei为文档内的页面，以及(xi，yi)为那个页面内的图像碎片的中心的x-y坐标。可以使用参考图25而描述的原始碎片检索算法2714产生关于每个候选者的碎片图像。
仍然参考图27，将第二特征提取应用于原始碎片2716。这可能不同于第一特征提取，并可能包括，例如，一个或多个字体探测算法、字符识别技术、边界框、和SIFT特征。将每个原始碎片中所探测到的特征输入至自动分类器设计方法2720，该方法包括，例如，为将未知的样本分类为原始碎片的一个而设计的神经网络、支持向量机、和/或最近邻分类器。可以将相同的第二特征提取应用于2718输入图像碎片，并且将它探测到的特征输入至这个新近设计的可能为原始碎片专用的分类器。
输出2724可能是n-元组(doci，pagei，xi，yi，actioni，scorei) 的形式，这里评分由2720自动设计的分类技术2722提供。本领域技术人员将意识到，评分度量输入碎片与doci，pagei的相应区域相匹配的程度。
图28示出根据本发明的实施例的另一个文档指纹匹配技术。图28中所示的“数据库驱动的多分类器”技术通过遍及决定过程多个候选者，而减少识别过程中早期的不可恢复性错误的机会。执行几个初始分类。每个都产生不同的特征提取和分类能够辨别的输入碎片的不同等级排序。例如，那些组中的一个可能由水平n-grams产生，并由从无衬线字体辨别衬线而唯一地识别。另一个例子可能由垂直n-grams产生，并由行分离的精确计算而唯一地识别。
图29示出根据本发明的实施例的数据库驱动的多分类的流程。该流程与图27中所示的那个类似，但其使用多个不同的特征提取算法2910和2912，以用分类器2914和2916产生输入图像碎片的独立的等级排序。特征和分类技术的例子包括上文所描述的水平和垂直单词长度n-grams。每个分类器可以产生包含至少关于每个候选者的下列项(doci，pagei，xi，yi，scorei) 的碎片识别的分等级的列表，这里doci为文档的标识符，pagei为文档内的页面，(xi，yi)为那个页面内的图像碎片的中心的x-y坐标，以及scorei 度量输入碎片与数据库文档中的相应位置相匹配的程度。
可以使用上文参考图25而描述的原始碎片检索算法产生相应于2914和 2916的输出中的碎片识别的列表中的条目的一组原始图像碎片。可以如以前那样将第三和第四特征提取2918和2920应用于原始碎片和如上文图27中所描述的那样自动设计和应用的分类器。
仍然参考图29，将那些分类器所产生的等级排序结合，以产生具有条目 (doci，pagei，xi，yi，actioni，scorei)的单个等级排序2924，这里i＝1...，候选者的数量，以及每个条目中的值都如上文所描述的。例如，可以通过基于它在两个等级排序中的共同位置而分派项目一个评分的已知的Borda计数法测量，执行等级排序结合2922。这可以与由单独的分类器所分派的评分结合，以产生合成的评分。此外，本领域技术人员将注意到可以使用其它等级排序结合的方法。
图30示出根据本发明的实施例的另一个文档指纹匹配技术。图30中所示的“视频序列图像累加”技术通过将来自附近的或相邻的帧的数据集成，而构建图像。一个例子涉及“超分辨率”。它记录N个临时相邻的帧，并使用透镜的点扩展功能的知识执行本质上为子像素边缘增强的操作。效果是增加图像的空间分辨率。此外，在一个或多个实施例中，可以使超分辨率方法专门化，以强调像洞、角落、和点那样的文本特定特征。进一步的扩展将使用候选图像碎片的特征，如从数据库3400而确定的，以使超分辨率集成功能专门化。
图31示出根据本发明的实施例的另一个文档指纹匹配技术。图31中所示的“视频序列特征累加”技术在做决定之前，在许多临时相邻的帧之上累加特征。这利用捕获装置的高采样率(例如，每秒30帧)和用户的意图，其保持捕获装置指向文档上的相同点至少几秒钟。在每帧上独立地执行特征提取，并将结果结合，以产生单个统一的特征图。结合过程包括隐含注册步骤。在文本碎片的视频剪辑的检查上，对于这种技术的需要是相当显然的。在典型的捕获设备中的自动对焦和对比度调节可以在相邻的视频帧中产生明显不同的结果。
图32示出根据本发明的实施例的另一个文档指纹匹配技术。图32中所示的“视频序列决定结合”技术将来自许多临时相邻的帧的决定结合。这利用典型的捕获装置的高采样率和用户的意图，其保持捕获装置指向文档上的相同点至少几秒钟。独立地处理每帧，并产生其本身的分等级的一列决定。将那些决定结合，以产生输入图像组的单个统一的等级排序。这种技术包括控制决定结合过程的隐含注册方法。
在一个或多个实施例中，上文参考图6至32所描述的一个或多个各种各样的文档指纹匹配技术可以用于与一个或多个已知匹配技术结合，这样的结合在此被称为“多层级(或多因素)识别”。通常，在多层级识别中，使用第一匹配技术在文档数据库中定位一组具有特定标准的页面，并且然后使用第二匹配技术从该组中的页面之中唯一地识别碎片。
图33示出根据本发明的实施例的多层级识别的流程的例子。最初，在步骤3310，使用捕获装置106在感兴趣的文档上捕获/扫描”挑选”特征。该挑选的特征可以是任何特征，其捕获有效地导致文档数据库内的一组文档的选择。例如，挑选的特征可以是仅只为数字的条形码(例如，通用产品码 (UPC))、字母数字条形码(例如，code 39、code 93、code 128)、或二维条形码(例如，QR码、PDF 417、Datamatrix、Maxicode)。此外，挑选的特征可以是，例如，图形、图像、商标、标志、特别的颜色或颜色的结合、关键字、或短语。此外，在一个或多个实施例中，挑选的特征可以局限于适合于捕获装置106识别的特征。
在步骤3312，一旦在步骤3310已捕获了挑选的特征，基于与所捕获的挑选的特征的关联，选择文档数据库中一组文档和/或文档页面。例如，如果所捕获的挑选的特征为公司的标志，则选择数据库中编索引为包含那个标志的所有文档。在另一个例子中，数据库可以包含将所捕获的挑选的图像与其比较的商标库。当在该库中有“命中”时，选择与所命中的商标相关联的所有文档，以用于如下文所描述的随后的匹配。此外，在一个或多个实施例中，在步骤3312的文档/页面的选择可以依赖于所捕获的挑选的特征和所扫描的文档上那个挑选的特征的位置。例如，与所捕获的挑选的特征相关联的信息可以指定挑选的图像是否位于文档的右上角，而不是相对立的文档的左下角。
此外，本领域技术人员将注意到，可以由捕获装置106或一些其它从捕获装置106接收原始的图像数据的部件作出特别的捕获图像包含挑选的特征的图像的确定。例如，数据库自身可以确定从捕获装置106发送的特定捕获对象包括挑选特征，作为对其的相应数据库选择与捕获的挑选特征关联的一组文档。
在步骤3314，在步骤3312已经选择特定组文档之后，捕获装置106继续扫描并且由此捕获感兴趣的文档的图像。然后，通过使用参考图6-32所描述的不同的文档指纹匹配技术中的一个或多个，将该捕获的文档的图像与在步骤3312选择的文档匹配。例如，在步骤3310基于感兴趣的文档上的鞋图形图像的捕获来将被索引为包括鞋图形的挑选特征的一组文档之后，可以使用如前所述的多个分类器技术来将随后的感兴趣的文档的捕获图像与所述的一组选择的文档匹配。
由此，使用参考图33的描述的多层识别流处理的实现，通过初始降低页面/文档的数量可以降低碎片识别次数，其中将所述页面/文档与随后的捕获的图像匹配。此外，通过首先扫描存在图像、条形码、图形或其它类型的挑选的特征的位置上的文档，用户可以利用这样的改进的识别次数。通过执行这样的动作，用户可以快速地降低与随后的捕获的图像匹配的文档的数目。
MMR数据库系统
图34A阐明根据本发明的一个实施例而配置的MMR数据库系统3400的功能框图。系统3400是为基于内容的检索而配置的，这里以使得能够进行基于文本的索引(或任何其它可搜索的索引)的查找的方式表示对象之间的二维几何关系。系统3400采用证据累加，以通过，例如，将特征发生的频率与二维区域中其位置的可能性结合，而提高查找效率。在一个特定实施例中，数据库系统3400为文档事件数据库320(包括PD索引322)的详细实现，其内容包括由捕获模块318产生的打印文档的电子表示和/或如上文参考图3所讨论的文档指纹匹配模块226。根据这个公开发明，系统3400的其它应用程序和配置将很明显。
如能够看到的，数据库系统3400包括接收由MMR特征提取模块3402计算的描述的MMR索引表模块3404、证据累加模块3406、和关系数据库3408 (或任何其它适当的存储设施)。索引表模块3404查询识别每个特征发生的文档、页面、和那些页面内的x-y位置的索引表。能够通过，例如，MMR索引表模块3404或一些其它专用的模块，产生索引表。将证据累加模块3406 程序化为或配置为，给定来自索引表模块3404的数据，而计算分等级的一组文档、页面和位置假设3410。关系数据库3408能够用来存储有关每个碎片的另外的特征3412。这些包括图5中的504和508，但并不局限于此。通过在导出关于碎片的签名或指纹(即，唯一的搜索项)中使用碎片内的文本的二维布置，可相当大程度地增加甚至很小的文本的片段的唯一性。其它实施例类似地能够在导出关于碎片的签名和指纹中利用碎片内的对象/特征的任何二维布置，并且关于唯一地识别碎片，本发明的实施例并不意味着局限于文本的二维布置。图34A中所阐明的数据库系统3400的其它部件和功能包括反馈导向的特征搜索模块3418、文档呈现应用程序模块3414、和子图像提取模块3416。这些部件与其它的系统3400部件交互，以提供反馈导向的特征搜索和动态原始图像生成。另外，系统3400包括接收动作的动作处理器3413。动作确定数据库系统3400执行的动作和其提供的输出。将依次解释这些其它部件的每一个。
图34B中示出利用这种碎片内的文本的二维布置的MMR特征提取模块 3402的例子。在一个这样的实施例中，将MMR特征提取模块3402程序化为或配置为采用基于OCR的技术从图像碎片中提取特征(文本或其它目标特征)。在这个特定实施例中，特征提取模块3402提取文本的碎片的图像中的单词的x-y位置，并将那些位置表示为其包含的水平或垂直相邻的单词对组。如果它们是水平相邻的，则将图像碎片有效地转换为由“-”连接的单词对(例如，the-cat，in-the，the-hat，和is-back)，而如果它们垂直地交迭，则由“+”连接(例如，the+in，cat+the，in+is，和the+back)。该x-y位置能够是，例如，基于自文档图像中的某些固定点(从文档的最左上角或中心)，在x和y平面方向中计算的像素的。注意到该例子中水平相邻的对可以频繁地出现在许多其它文本段落中，而垂直交迭的对在其它文本段落中将可能较少见。能够类似地将图像特征之间的其它几何关系编码，例如单词之间带有 “/”的SW-NE邻接、带有“\”的NW-SE邻接，等等。同样，能够将“特征” 一般化为能够用任意的但一致的串编码的单词边界框(或者其它特征边界框)。例如，能够用串“4rusl”表示具有粗糙的上轮廓线但光滑的下轮廓线，与高的四倍一样长的边界框。另外，能够将几何关系一般化为特征之间的任意角度和距离。例如，可以用“4rusl\\4rusl”表示NW-SE相邻的但由两个单词的高度分离的具有“4rusl”描述的两个单词。根据这个公开发明，许多编码方案将会很明显。此外，注意到能够使用数字、布尔值、几何形状、和其它这样的文档特征，代替单词对，来识别碎片。
图34C阐明根据本发明的一个实施例的示例性索引表组织。如能够看到的，MMR索引表包括倒置项索引表3422和文档索引表3424。如将依次讨论的，每个唯一的项或特征(例如，关键点3421)都指向项索引表3422中的位置，该项索引表3422保留指向一列记录3423(例如，Rec#1、Rec#2，等等)的特征的函数值(例如，关键点x)，并且每个记录都识别文档内的页面上的候选区域。在一个例子中，关键点和关键点的函数值(关键点x)是相同的。在另一个例子中，将哈希函数应用于关键点，并且该函数的输出为关键点x。
给定一列查询项，检查经关键点编索引的每个记录，并且识别与所有的查询项最一致的区域。如果该区域包含足够高的匹配评分(例如，基于预定的匹配阈值)，则确认假设。否则，宣布匹配失败，并不返回区域。在这个示例性实施例中，如先前所描述的，关键点为或者由“-”或者由“+”分离的单词对(如，“the-cat”或“cat+the”)。将几何关系合并入关键点中的这种技术本身允许关于二维几何查询的传统的文本搜索技术的使用。
因而，索引表组织将图像碎片中所探测到的特征转换成为代表特征本身和它们之间的几何关系两者的文本项。这允许传统的文本索引标定和搜索方法的利用。例如，如根据这个公开发明将很明显的，由能够被称为“查询项” 的符号“cat+the”表示垂直相邻的项“cat”和“the”。传统的文本搜索数据结构和方法的利用便利了在此所描述的MMR技术在因特网文本搜索系统 (例如，Google、Yahoo、Microsoft，等等)之上的移接。
在这个示例性实施例的倒置项索引表3422中，每个记录都使用六个参数：文档识别(DocID)、页面号(PG)、x/y偏移量(分别为X和Y)、以及矩形区域的宽度和高度(分别为W和H)，识别文档内页面上的候选区域。DocID 为当打印文档时，基于时间标记(或其它元数据)而产生的唯一的串。但它能够是结合装置ID和人员ID的任何串。在任何情形，文档都由唯一的DocIDs 识别，并且具有存储于文档索引表中的记录。页面号为相应于纸张输出的页码标记，并且从1开始。由左上角的X-Y坐标，以及标准化的坐标系统中的边界框的宽度和高度为参数表示矩阵区域。根据这个公开发明，许多的文档内部位置/坐标方案将会很明显，但本发明并不意味着局限于任何特别的一个。
根据本发明的一个实施例而配置的示例性记录结构使用24-位DocID和 8-位页面号，允许直到一千六百万个文档和四十亿个页面。关于边界框的每个X和Y偏移量的一个无符号字节都提供30dpi水平的和23dpi垂直的空间分辨率(假设8.5”×11”的页面，尽管能够使用其它页面大小和/或空间分辨率)。关于边界框的宽度和高度的类似的处置(例如，关于每个W和H的一个无符号字节)允许与句点或者“i”上的点一样小的，或者与全部页面(例如，8.5”×11”或其它)一样大的区域的表示。因此，每个记录的八个字节 (DocID的3个字节、PG的1个字节、X的1个字节、Y的1个字节、W的1 个字节、和H的1个字节为总共8个字节)能够包含大量的区域。
文档索引表3424包括有关每个文档的相关信息。在一个特定实施例中，这个信息包括XML文件中文档相关的字段，包括打印分辨率、打印日期、纸张大小、影子文件名、页面图像位置，等等。因为当给文档编索引时，将打印坐标转换成为标准化的坐标系统，计算搜索假设并不涉及这个表。因而，仅关于相匹配的候选区域参阅文档索引表3424。然而，这个决定暗示索引中信息的一些损失，因为标准化的坐标通常处于比打印分辨率更低的分辨率。若如是需要，当计算搜索假设时，可替代的实施例可以使用文档索引表3424 (或者标准化的坐标的更高的分辨率)。
因而，索引表模块3404运作，以有效地提供使得给定图像查询发生处的对象(例如，文档页面)和那些对象内的x-y位置的基于内容的检索能够进行的图像索引。这样的图像索引和关系数据库3408的结合允许使图像碎片与碎片的特征(例如，附着于碎片的“动作”，或者能够扫描以促使与碎片有关的其它内容的检索的条形码)相匹配的对象的位置。关系数据库3408也提供从一个碎片至文档中的其它碎片在索引表中的特征的“相反链接”的方法。相反链接提供找到当其从文档图像的一个部分移动到另一个部分时，识别算法将期望看到的特征的方式，其可以相当大程度地提高如在此所讨论的MMR 系统中前端图像分析算法的性能。
反馈导向的特征搜索
同样能够将图像碎片的x-y坐标(例如，图像碎片的中心的x-y坐标) 和文档及页面的识别输入至反馈导向的特征搜索模块3418。反馈导向的特征搜索模块3418搜索自图像碎片的中心的给定距离内发生的记录3423的项索引表3422。例如，能够通过将关于每个DocID-PG结合的记录3423存储在以 X和Y值的顺序分类的存储邻接块中，而便利这种搜索。通过关于给定值(依赖于存储时数据如何分类的X或Y)的二进制搜索，和自具有给定的X和Y 值的所有记录的那个位置的串行搜索，而执行查找。典型地，这将包括围绕度量给定的文档和页面中W英寸宽和H英寸高的碎片的外围的M英寸环中的 x-y坐标。定位这个环中发生的记录，并通过反跟踪指针定位它们的关键点或特征3421。如在图34A的3417示出的，报导环中特征的列表和它们的x-y 位置。能够基于输入图像的大小，通过识别系统动态地设置在3415所示的W、 H、和M的值，以致特征3417在输入图像碎片的外面。
例如，对于消除多个假设的歧义，图像数据库系统3400的这样的特征是很有用的。如果数据库系统3400报导不止一个文档可能与输入图像碎片相匹配，则围绕碎片的环中的特征将允许识别系统(例如，指纹匹配模块226或其它适合的识别系统)通过引导用户在能够消除决定的歧义的方向轻微地移动图像捕获装置，而决定哪个文档与用户持有的文档最匹配。例如(假设使用基于OCR的特征，尽管该概念可扩展至任何几何上编索引的特征组)，文档 A中的图像碎片可能径直地位于单词对“blue-xylophone”之下。文档B中的图像碎片可能径直地位于单词对“blue-thunderbird”之下。数据库系统 3400将报导这些特征的期望的位置，并且识别系统可能命令用户(例如，通过用户接口)将相机向上移动由特征的y坐标和碎片的顶部的差所指示的量。识别系统能够计算那个差别区域中的特征，并使用来自文档A和文档B的特征确定哪一个最匹配。例如，识别系统能够用由(xylophone，thunderbird) 组成的特征的“词典”后处理来自差别区域的OCR结果。与OCR结果最匹配的单词相应于与输入图像最匹配的文档。后处理算法的例子包括通常已知的拼写校正技术(例如单词处理器和电子邮件应用程序所使用的那些)。
如这个例子阐明，数据库系统3400的设计允许识别系统，通过以避免进行进一步的数据库访问的需要的方式匹配特征描述，以有效的方式消除多个候选者的歧义。可替代的解决方案将为独立地处理每个图像。
动态原始图像生成
同样能够将图像碎片中的位置的x-y坐标(例如，图像碎片的中心的x-y 坐标)和文档及页面的识别输入至关系数据库3408，在其中能够使用它们来检索那个文档和页面的所存储的电子原文。然后，能够通过文档呈现应用程序模块3414将那个文档呈现成为位图图像。同样，子图像提取模块3416使用由模块3414所提供的另外的“方框大小”值来提取围绕中心的位图的一部分。这个位图是图像碎片的所期望的外观的“原始”表示，并且其包含输入图像中应该呈现的所有特征的准确表示。然后能够返回原始碎片作为碎片特征3412。这种解决方案克服了现有技术所要求的过度存储，该现有技术通过存储能够随后在要求时被转换为位图数据的压缩非图像表示，而存储图像位图。
这样的存储方案是有益的，因为其使得能够进行假设-和-检验识别策略的使用，在其中使用从图像中所提取的特征表示检索通过详细的特征分析消除歧义后的一组候选者。通常，预测将最佳地消除任意的一组候选者的特征是不可能的，但从那些候选者的原始图像而确定这一点是很理想的。例如，可以在两个数据库文档中定位单词对“the cat”的图像，其中一个最初以 Times Roman字体打印，而另一个以Helvetica字体打印。简单地确定输入图像是否包含这些字体的一个将识别正确匹配的数据库文档。用像欧氏距离那样的模板匹配比较度量标准，将那些文档的原始碎片与输入图像碎片相比较，将识别正确的候选者。
一个例子包括存储Microsoft Word“.doc”文件的关系数据库3408(类似的方法适于像postscript、PCL、pdf.、或微软的XML paper specification XPS那样的其它文档格式，或者通过像ghostscript那样的呈现应用程序，或在XPS、具有所安装的WinFX部件的微软的Internet Explorer的情形中，能够被转换成为位图的其它这样的格式)。假定文档、页面、x-y位置、方框维度、和指示优选的分辨率为600点每英寸(dpi)的系统参数的识别，则能够调用Word应用程序，以产生位图图像。这将提供6600行和5100列的位图。另外的参数x＝3”、y＝3”、height＝1”、和width＝1”指示数据库应该返回中心置于远离页面的左上角x和y上1800像素的点的600像素高和宽的碎片。
多个数据库
当使用多个数据库系统3400时，其每一个都可以包含不同的文档集，能够使用原始碎片确定两个数据库是否返回相同的文档或者哪个数据库返回了与输入较好地匹配的候选者。
如果两个数据库返回相同的文档，或许具有不同的标识符3410(即，原始文档是相同的是不明显的，因为它们在不同的数据库中分别输入)和特征 3412，则原始碎片将几乎完全相同。这能够通过，例如，用计算不同的像素的数量的汉明距离，将原始碎片彼此比较而确定。如果原始文档是像素到像素完全相同的，则汉明距离将为零。如果碎片稍微地不同，如可能由微小的字体差别所导致的，则汉明距离将稍微地大于零。当计算汉明算符中的图像差别时，这能够导致围绕字符边缘的“光环”效应。不同版本的原始呈现应用程序、运行数据库的服务器上不同版本的操作系统、不同的打印机驱动器、或不同的字体集，都能够导致像这样的字体差别。
能够在来自两个文档中的不止一个x-y位置的碎片上执行原始碎片比较算法。它们所有的都应该相同，但像这样的采样过程将允许能够克服数据库系统之间的呈现差别的冗余。例如，当在两个系统上呈现时，一种字体可能看起来彻底地不同，但另一种字体可能完全相同。
如果两个或多个数据库返回不同的文档作为其关于输入图像的最佳匹配，则能够通过像汉明距离那样的基于像素的比较度量标准，将原始碎片与输入图像相比较，以确定哪个是正确的。
用于比较来自不止一个数据库的结果的可替代的策略为比较测量每个数据库所报导的文档中的特征的几何分布的累加阵列的内容。直接由数据库提供这个累加器，以避免执行分离的原始特征组的查找的需要，是很理想的。同样，这个累加器应该独立于数据库系统3400的内容。在图34A所示的实施例中，导出活动阵列3420。能够通过测量它们的值的内部分布，比较两个活动阵列。
更详细地，如果两个或多个数据库返回相同的文档，或许具有不同的标识符3410(即，原始文档是相同的是不明显的，因为它们在不同的数据库中分别输入)和特征3412，则来自每个数据库的活动阵列3420将几乎完全相同。这能够通过，例如，用计算不同的像素的数量的汉明距离，将阵列彼此比较而确定。如果原始文档完全相同，则汉明距离将为零。
如果两个或多个数据库返回不同的文档作为其关于输入特征的最佳匹配，则能够比较它们的活动阵列3420，以确定哪个文档与输入图像“最佳地” 匹配。与图像碎片正确地匹配的活动阵列将包含中心近似置于碎片出现处的位置的高数值的群族。与图像碎片不适当地匹配的活动阵列将包含随机分布的数值。存在许多熟知的用于测量色散或图像的随机性的策略，例如熵。能够将这样的算法应用于活动阵列3420，以获得指示群簇的存在的测量。例如，包含相应于图像碎片的群簇的活动阵列3420的熵将相当地不同于其数值随机地分布的活动阵列3420的熵。
此外，注意到，单独的客户机106可能在任何时刻都可访问其内容并不必定彼此冲突的多个数据库3400。例如，企业可能具有每个都涉及单个文档的公开可访问的碎片和企业私有的碎片两者。在这样的情形，客户机装置106 将维持按顺序参阅的一列数据库D1、D2、D3...，并将经结合的活动阵列3420 和标识符3410生成统一的用户显示。给定的客户机装置106可能显示从所有的数据库可得到的碎片，或者允许用户选择数据库子集(例如，仅只D1、D3、和D7)，并仅显示来自那些数据库的碎片。可以通过订购服务将数据库添加至列表，或者当客户机装置106处于某个位置时，使得数据库可以无线地获得，或者因为数据库是已经被加载到客户机装置106之上的几个的一个，或者因为已经证明某个用户当前正在使用该装置，或者甚至因为该装置正以某个模式操作。例如，因为特别的客户机装置的音频扬声器开启或关闭，或者因为像视频投影机那样的外围装置当前附着于客户机，某些数据库就可能是可利用的。
动作
进一步参考图34A，MMR数据库3400接收动作，和来自MMR特征提取模块3402的一组特征。动作指定命令和参数。在这样的实施例中，命令和其参数确定所返回的碎片特征3412。以能够容易地被翻译成为文本的包括，例如， http，的格式接收动作。
动作处理器3413接收由证据累加模块3406所确定的关于文档、页面和页面内的x-y位置的标识符。它也接收命令和其参数。动作处理器3413被程序化为或被配置为将命令转换成为或者检索数据或者使用关系数据库3408 将数据存储在相应于给定的文档、页面和x-y位置的位置处的指令。
在一个这样的实施例中，命令包括：RETRIEVE、INSERT_TO、 RETRIEVE_TEXT、TRANSFER、PURCHASE、PRISTINE_PATCH 、和ACCESS_DATABASE。现在将依次讨论每一个。
RETRIEVE-检索连接至给定的文档页面中的x-y位置的数据。动作处理器 3413将RETRIEVE命令转换成为检索可能存储在这个x-y位置附近的数据的关系数据库查询。这能够要求不止一个数据库查询的发布，以搜索包围着x-y 位置的区域。将检索的数据作为碎片特征3412输出。RETRIEVE命令的示例性应用程序为检索视频剪辑或动态信息对象(例如，能够检索当前信息的电子地址)的多媒体浏览应用程序。检索的数据能够包括指定将要在MMR装置上执行的随后的步骤的菜单。它也可能是能够在电话(或其它显示装置)上显示的静态数据，例如JPEG图像或视频剪辑。能够将参数提供给RETRIEVE 命令，其确定搜索碎片特性的区域。
INSERT_TO-在图像碎片指定的x-y位置插入。动作处理器 3413将INSERT_TO命令转换成为关于关系数据库的将数据添加至指定的x-y 位置的指令。将INSERT_TO命令的成功完成的确认作为碎片特征3412而返回。 INSERT_TO命令的示例性应用程序为允许用户将数据附着于文本的段落中的任意x-y位置的MMR装置上的软件应用程序。数据能够是静态多媒体数据，如JPEG图像、视频剪辑、或音频文件，但它也能够是像菜单那样的指定与给定的位置相关联的动作的任意的电子数据。
RETRIEVE_TEXT-检索由图像碎片所确定的x-y位置的内的文本。能够将指定为，例如，图像空间中的许多像素，或者能够将它指定为围绕由证据累加模块3406所确定的x-y位置的许多单词的字符。也能够涉及经分析的文本对象。在这个特定实施例中，动作处理器3413将RETRIEVE_TEXT命令转换成为检索适当的文本的关系数据库查询。如果指定经分析的文本对象，则动作处理器仅返回经分析的文本对象。如果经分析的文本对象不位于指定的x-y位置附近，则动作处理器返回零指示。在可替代的实施例中，动作处理器调用反馈导向的特征搜索模块，以检索在给定的x-y位置的半径范围内出现的文本。将文本串作为碎片特征3412而返回。与文本串中的每个单词相关联的可选的数据包括原始文档中x-y边界框。RETRIEVE_TEXT命令的示例性应用程序为从打印文档中挑选文本短语，以便包括于另一个文档之中。这可能用于，例如，在MMR系统上合成陈述文件(例如，以PowerPoint格式)。
TRANSFER-检索全部文档和以能够被加载至另一个数据库上的形式连接至它的一些数据。指定所检索的数据的数量和类型。如果为ALL，则动作处理器3413发布命令至数据库3408，其检索与文档相关联的所有数据。这样的命令的例子包括DUMP或Unix TAR。如果为SOURCE，则检索文档的原始源文件。例如，这将检索打印文档的Word文件。如果为BITMAP，则检索打印文档的位图的JPEG压缩版(或其它通常所使用的格式)。如果为PDF，则检索文档的PDF表示。依靠命令名称，以调用应用程序已知的格式，将检索的数据作为碎片特征3412而输出。TRANSFER命令的示例性应用程序为允许用户通过使文本的小区域成像而将文档的PDF表示传递至MMR装置的“文档攫取器”。
PURCHASE-检索连接至文档中的x-y位置的产品说明。动作处理器3413 首先执行一系列一个或多个RETRIEVE命令，以获得给定的x-y位置附近的产品说明。产品说明包括，例如，卖主的名字、产品的识别(例如，物料编号)、和卖主的电子地址。优先于可能位于附近的其它数据类型，而检索产品说明。例如，如果jpeg存储在由图像碎片所确定的x-y位置，则替代地检索下一个最接近的产品说明。将检索的产品说明作为碎片特征3412而输出。PURCHASE 命令的示例性应用程序与打印文档中的广告相关联。MMR装置上的软件应用程序接收与广告相关联的产品说明，并在将其发送至所指定的电子地址处的指定的卖主之前，添加用户的个人识别信息(例如，名字、运送地址、信用卡号码，等等)。
PRISTINE_PATCH-检索所指定的文档的电子表示，并提取具有半径RADIUS，中心置于x-y的图像碎片。RADIUS能够指定圆环形的半径，但它也能够指定矩形碎片(例如，2英寸高×3英寸宽)。它也能够指定全部文档页面。(DocID，PG，x，y)信息能够明白地作为动作的一部分而提供，或者它能够从文本碎片的图像中导出。动作处理器3413从关系数据库3408中检索文档的原始表示。那个表示能够是位图，但它也能够是可呈现的电子文档。将原始表示传递至文档呈现应用程序3414，在此将其变换成为位图(具有如点每英寸的参数DPI中所提供的分辨率)，并然后将它提供给在其提取所期望的碎片的子图像提取3416。将碎片图像作为碎片特征 3412而返回。
ACCESS_DATABASE-将数据库3400添加至客户机106的数据库列表。除了当前在列表中任何现有的数据库之外，客户机现在能够参阅这个数据库300。DBID或者指定文件，或者指定涉及指定的数据库的远程网络。
索引表生成方法
图35阐明根据本发明的实施例的用于产生MMR索引表的方法3500。能够，例如，通过图34A的数据库系统3400实施这个方法。在一个这样的实施例中，例如，通过MMR索引表模块3404(或一些其它专用的模块)，从扫描或打印文档中产生MMR索引表。能够以软件、硬件(例如，门级逻辑)、固件 (例如，配置有用于实施该方法的嵌入例程的微控制器)，或者它们的一些结合，正如在此所描述的其它模块。
该方法包括接收3510纸质文档。纸质文档能够是任何文档，例如具有任何数量的页面的便函(如，工作相关、个人的信件)、产品标签(如，罐装商品、医药、箱装电子装置)、产品说明(如，吹雪机、计算机系统、制造系统)、产品手册或广告材料(如，汽车、船、度假胜地)、服务描述材料(如，因特网服务提供者、清洁服务)、书的一个或多个页面、杂志或其它这样的出版物、从网站打印的页面、手写的笔记、从白板捕获和打印的笔记、或者从任何处理系统(如，桌上型计算机或便携式计算机、相机、智能手机、远程终端) 打印的页面。
该方法继续产生3512纸质文档的电子表示，该表示包括文档中所示的特征的x-y位置。目标特征能够是，例如，单独的单词、字母、和/或文档内的字符。例如，如果扫描原始文档，则首先将其OCR并且提取单词(或者其它目标特征)和其x-y位置(例如，通过扫描仪127的文档指纹匹配模块226’ 的操作)。如果打印原始文档，则索引标定过程接收每个字符(或其它目标特征)的字体、磅值、和x-y边界框的XML格式的精确表示(例如，通过打印机116的打印驱动器316的操作)。在这种情形，索引表生成开始于步骤3514，因为以精确地识别的x-y特征位置接收电子文档(例如，从打印驱动器316)。根据这个公开发明，除了XML以外的格式将很明显。通过将它们“打印”至其输出被导向文件的打印驱动器，以致并不必定产生纸张，能够将像 Microsoft Word、Adobe Acrobat、和postscript那样的电子文档输入数据库。这触发下文所示的XML文件结构的产生。在所有的情形，XML和原始文档格式(Word、Acrobat、postscript，等等)都分派有标识符(添加至数据库的关于第i个文档的doc i)，并且以通过那个标识符，但也基于包括捕获它的时间、打印的日期、触发打印的应用程序、输出文件的名称，等等的文档的其它“元数据”的特征，使得能够进行它们稍后的检索的方式，存储在关系数据库3408中。
这里示出XML文件结构的例子：
$docID.xml:
<？xml version＝“1.0”？>

file url/path or null if not known
file printed date
application that triggered print
$docID.txt
name of output file
dpi of page for x，y coordinates，eg.600
in inch，like 8.5
in inch，eg.11.0
0.1 is 1/10th scale of dpi

$doc ID_1.jpeg

this string of text
any font info

word text
a
b
1 entry per char，in sequence

在一个特定的实施例中，单词可以包含自a-z、A-Z、0-9的任何字符，和 @％$#的任何一个；所有其它的是分隔符。能够通过索引标定过程所使用的打印捕获软件(例如，在像数据库320服务器那样的服务器上执行的)创建.xml 文件的原始描述。随着系统获得新的文档，实际格式经常演化，并包含多个元素。
保存打印驱动器(例如，打印驱动器316)所接收的文本的原始序列，并且除“-@％$#”之外，基于标点符号强加逻辑单词结构。使用XML文件作为输入，索引表模块3404遵守页面边界，并首先试图通过检查两个连续的序列之间的垂直交迭的数量，将序列分组成为逻辑行。在一个特定实施例中，如果两个序列交迭少于它们的平均高度的一半，则使用行中断发生的试探法。对于典型的文本文档(例如，Microsoft Word文档)，这样的试探法相当起作用。对于具有复杂布局的html页面，可能需要另外的几何分析。然而，只要能够如通过查询过程产生一致的索引标定项，就不必定要提取完美的语义文档结构。
基于纸质文档的电子表示的结构，该方法继续3514给纸质文档的每个页面上的每个目标特征的位置编索引。在一个特定实施例中，这个步骤包括给纸质文档的每个页面上的每对水平和垂直相邻的单词的位置编索引。如先前所解释的，水平相邻的单词为一行内的相邻单词对。垂直相邻的单词为垂直地排列的相邻行中的单词。能够类似地利用页面的其它多维方面。
该方法进一步包括存储3516与每个目标特征相关联的碎片特征。在一个特定实施例中，碎片特征包括附着于碎片的动作，并存储在关系数据库中。如先前所解释的，这样的图像索引和存储设施的结合允许与图像碎片和碎片的特征相匹配的对象的位置。特征能够是与路径有关的任何数据，例如元数据。特征也能够包括，例如，将实施特定的功能的动作，能够被选择以提供对与碎片有关的其它内容的访问的链接、和/或能够被扫描或处理，以促使与碎片有关的其它内容的检索的条形码。
关于搜索项生成，给出更精确的定义，这里仅观察行结构的一段。对于水平相邻的对，通过用“-”分隔符连接单词，形成查询项。使用“+”连接垂直对。若如是需要，能够以其原始形式使用单词，以保存大写(这创建更多唯一的项，但同样产生具有另外的查询发布的较大的索引，以考虑像大小写敏感性这样的事情)。索引标定方案允许将相同的搜索策略应用于或者水平的或者垂直的单词对，或者两者的结合。任何一种情况的逆向文档频率可说明项的辨别能力。
证据累加方法
图36阐明根据本发明的一个实施例的用于计算分等级的一组文档、页面、和关于目标文档的位置假设的方法3600。能够，例如，通过图34A的数据库系统3400实施该方法。在一个这样的实施例中，证据累加模块3406使用来自如先前所讨论的索引表模块3404的数据计算假设。
该方法以接收3610像较大的文档图像的图像碎片或全部文档图像那样的目标文档图像开始。该方法继续产生3612捕获目标文档图像中对象之间的二维关系的一个或多个查询项。在一个特定实施例中，通过如先前参考图34B 所讨论的产生水平和垂直的单词对的特征提取过程，而产生查询项。然而，如根据这个公开发明将会很明显的，能够使用如在此所描述的任何数量的特征提取过程，来产生查询项，其捕获目标图像中对象之间的二维关系。例如，能够使用用来构建方法3500的索引的相同的特征提取技术，来产生查询项，例如参考步骤3512所讨论的那些(产生纸质文档的电子表示)。此外，注意到，查询项的二维示像能够单独地应用于每个查询项(例如，表示目标文档中的水平和垂直对象两者的单个查询项)，或者应用于一组搜索项(例如，为水平单词对的第一查询项和为垂直单词对的第二查询项)。
该方法继续查找3614项索引表3422中的每个查询项，以检索与每个查询项相关联的一列位置。关于每个位置，该方法继续产生3616包含位置的许多区域。在处理所有的查询之后，该方法进一步包括识别3618与所有的查询项最一致的区域。在一个这样的实施例中，以权重(例如，基于每个区域与所有的查询项一致的程度)增加每个候选区域的评分。该方法继续确定3620 所识别的区域是否满足预定的匹配标准(例如，基于预定的匹配阈值)。如果这样，该方法继续确认3622该区域作为目标文档图像的匹配(例如，最可能包含所述区域的页面能够被访问或以其它方式被使用)。否则，该方法继续拒绝3624该区域。
单词对和“标准化”的坐标空间的位置存储在项索引表3422中。这提供不同的打印机与扫描仪分辨率之间的一致性。在一个特定实施例中，将85× 110坐标空间用于8.5”×11”的页面。在这样的情形，由其在这个85×110空间中的位置识别每个单词对。
为了提高搜索的效率，能够执行两步过程。第一步包括定位最可能包含输入图像碎片的页面。第二步包括计算最可能为碎片的中心的那个页面内的 x-y位置。这样的途径引进可能在第一步中错过的真实的最好匹配的可能性。然而，在稀疏索引标定空间，这样的可能性很少见。因而，依赖于索引的大小和所期望的性能，能够使用这样的效率提高技术。
在一个这样的实施例中，使用下列算法找到最可能包含输入图像碎片中所探测到的单词对的页面。
For each given word-pair wp
    idf＝1/log(2+num_docs(wp))
    For each(doc，page)at which wp occurred
        Accum[doc，page]+＝idf；
    end/*For each(doc，page)*/
end/*For each wp*/
(maxdoc，maxpage)＝max(Accum[doc，page])；
if(Accum[maxdoc，maxpage]>thresh_page)
    return(maxdoc，maxpage)；
这个技术将关于每个单词对的逆向文档频率(idf)添加至由文档和它在其上出现的页面标定索引的累加器。num_docs(wp)返回包含单词对wp的文档的数量。由证据累加模块3406实现累加器。如果那个累加器中的最大值超过阈值，则其作为是碎片的最佳匹配的页面而输出。因而，该算法运算，以识别与查询中的单词对最匹配的页面。可替代地，能够筛选Accum阵列，并作为与输入文档相匹配的“N个最佳”页面报导头N个页面。
根据本发明的一个实施例，下列证据累加算法累加关于单个页面内的输入图像碎片的位置的证据。
For each given word-pair wp
    idf＝1/log(2+num_docs(wp))
    For each(x，y)at which wp occurred
        (minx，maxx，miny，maxy)＝extent(x，y)；
        maxdist＝maxdist(minx，maxx，，miny，maxy)；
        For i＝miny to maxy do
            For j＝minx to maxx do
                norm_dist＝Norm_geometric_dist(i，j，x，y，
maxdist)
                    Activity[i，j]+＝norm_dist；
                    weight＝idf*norm_dist；
                    Accum2[i，j]+＝weight；
                end/* for j */
            end/* for I */
        end/* For each(y，y) */
    end/*For each*/
该算法运算，以定位最可能为输入图像碎片的中心的85×110空间中的单元。在这里所示的实施例中，通过将权重添加至围绕每个单词对的固定区域(称为环区)中的单元，该算法可做到这一点。对extent函数给定x，y 对，并且其返回关于环绕的固定大小区域(1.5”高和2”宽是典型的)的最小和最大值。extent函数考虑边界条件，并确保其返回的值不会落在累加器之外(即，小于零或x大于85或者y大于110)。maxdist函数找到由边界框坐标(minx，maxx，miny，maxy)所描述的边界框中两个点之间的最大欧氏距离。关于环区内的每个单元，而计算由单词对的逆向文档频率和单元与环区的中心之间的标准化的几何距离的乘积所确定的权重。这使接近于中心的单元权重高于较远处的单元。在由该算法处理每个单词对之后，在Accum2阵列中搜索具有最大值的单元。如果那个值超过了阈值，则将其坐标作为图像碎片的位置而报导所述单元的坐标。活动阵列存储累加的norm_dist值。因为不通过idf将它们缩放，它们不考虑包含特别的单词对的数据库中的文档的数量。然而，它们的确提供与给定的一组单词对最匹配的x-y位置的二维图像表示。此外，活动阵列中的条目独立于数据库中所存储的文档。能够将通常内部使用的这种数据结构导出3420。
根据本发明的一个实施例，如这里所示计算标准化的几何距离。
Norm_geometric_dist(i，j，x，y，maxdist)
begin
    d＝sqrt((i-x)2+(j-y)2)；
    return(maxdist-d)；
end
计算单词对的位置与环区的中心之间的欧氏距离，并返回这与可能已经计算的最大距离之间的差。
在通过证据累加算法处理每个单词对之后，在Accum2阵列中搜索具有最大值的单元。如果那个值超过了预定的阈值，则将其坐标作为图像碎片的中心的位置而报导。
MMR打印体系结构
图37A阐明根据本发明的一个实施例的MMR部件的功能框图。基本的MMR 部件包括具有相关联的打印机116和/或共享文档注解(SDA)服务器3755的计算机3705。
如本技术领域中已知的，计算机3705为任何标准的桌上型计算机、膝上型计算机、或网络计算机。在一个实施例中，计算机为参考图1B所描述的 MMR计算机112。如在此所描述的，用户打印机116为任何标准的家庭、办公室、或商业打印机。用户打印机116产生打印文档116，其为由一个或多个打印页面组成的纸质文档。
SDA服务器3755为拥有信息、应用程序、和/或多种与共享注解的方法相关联的文件的标准的网络或集中化的计算机。例如，与网页或其它文档相关联的共享注解存储在SDA服务器3755上。在这个例子中，如在此所描述的，注解为MMR中所使用的数据或交互。SDA服务器3755是通过根据一个实施例的网络连接可访问的。在一个实施例中，SDA服务器3755是参考图1B所描述的网络介质服务器114。
计算机3705进一步包括多种部件，根据各种各样的实施例，其一些或所有的都是可选的。在一个实施例中，计算机3705包括源文件3710、浏览器 3715、插件3720、符号热点描述3725、更改过的文件3730、捕获模块3735、 page_desc.xml 3740、hotspot.xml 3745、数据存储3750、SDA服务器3755、和MMR打印机软件3760。
源文件3710是为文档的电子表示的任何源文件的代表。示例性的源文件 3710包括超文本标记语言(HTML)文件、文件、文件、简单文本文件、便携式文档格式(PDF)文件、和诸如此类。如在此所描述的，在许多情况下，在浏览器3715所接收到的文档都起源于源文件3710。在一个实施例中，源文件3710等同于如参考图3所描述的源文件310。
浏览器3715为提供已与源文件3710相关联的数据的访问的应用程序。例如，可以使用浏览器3715检索来自源文件3710的网页和/或文档。在一个实施例中，浏览器3715为如参考图3所描述的SD浏览器312、314。在一个实施例中，浏览器3715为像Internet Explorer那样的因特网浏览器。
插件3720为提供创作功能的软件应用程序。插件3720为独立的软件应用程序，或者可替代地，为浏览器3715上运行的插件。在一个实施例中，插件3720为与像浏览器3715那样的应用程序交互的计算机程序，以提供在此所描述的特定的功能。根据各种各样的实施例，插件3720执行文档或浏览器 3715中所显示的网页的各种各样的转换和其它更改。例如，插件3720以独立可辨别的基准标记环绕热点标志，以创建热点，并将“已标记”版本的HTML 文件返回至浏览器3715，将转换规则应用于浏览器3715中所显示的文档的一部分，并检索和/或接收浏览器3715中所显示的文档的共享注解。另外，插件3720可以执行其它功能，例如创建经更改的文档以及创建如在此所描述的符号热点描述3725。参考捕获模块3735，插件3720便利了参考图38、44、 45、48、和50A-B所描述的方法。
符号热点描述3725为识别文档内的热点的文件。符号热点描述3725识别热点号和内容。在这个例子中，将符号热点描述3725存储于数据存储器 3750。图41中更加详细地示出符号热点描述的例子。
经更改的文件3730为作为通过插件3720的源文件3710的更改和转换的结果而创建的文档和网页。例如，如上文所提及的经标记的HTML文件是经更改的文件3730的一个例子。如根据这个公开发明将很明显的，在某些情形，经更改的文件3730返回至浏览器3715，以显示给用户。
捕获模块3735为在文档的打印表示上执行特征提取和/或坐标捕获，以致能够检索打印页面上的特征和图形的布局，的软件应用程序。可以在打印时刻自动地捕获布局，即，打印页面上的文本的二维布置。例如，捕获模块 3735执行所有的文本和绘图打印命令，并且另外，截取并记录打印表示中每个字符和/或图像的x-y坐标和其它特征。根据一个实施例，捕获模块3735 为如在此所描述的打印捕获DLL，允许现有的DLL的功能的添加或更改的转发动态连接库(DLL)。参考图44描述捕获模块3735的功能的更详细的描述。
本领域技术人员将识别捕获模块3735连接至浏览器3715的输出，以便数据捕获。可替代地，可以在打印机驱动器内直接实现捕获模块3735的功能。在一个实施例中，捕获模块3735等同于如参考图3所描述的PD捕获模块318。
Page_desc.xml 3740为可扩展标记语言(“XML”)文件，对于通过捕获模块3725处理的文本相关的函数调用，可将文本相关的输出写入其中。 page_desc.xml 3740包括逐个单词逐个字符的关于所有的打印文本的文档的坐标信息，以及热点信息、打印机端口名称、浏览器名称、打印的日期和时间、和每英寸的点数(dpi)和分辨率(res)信息。page_desc.xml 3740存储于，例如，数据存储器3750中。数据存储器3750等同于参考图34A所描述的MMR数据库3400。图42A-B更详细地阐明HTML文件的page_desc.xml 3740的例子。
hotspot.xml 3745为当打印文档时(例如，如先前所讨论的，通过打印驱动器316的操作)，所创建的XML文件。hotspot.xml为将符号热点描述3725 与page_desc.xml 3740合并的结果。hotspot.xml包括像热点号、坐标信息、维度信息、和热点的内容那样的热点标识符信息。图43中阐明hotspot.xml 文件的例子。
数据存储器3750为本技术领域中已知的用于存储为了与在此所描述的方法一同使用所更改的文件的任何数据库。例如，根据一个实施例，数据存储器3750存储源文件3710、符号热点描述3725、page_desc.xml 3740、经呈现的页面布局、共享注解、图像化的文档、热点定义、和特征表示。在一个实施例中，数据存储器3750等同于如参考图3所描述的文档事件数据库 320，并等同于如参考图34A所描述的数据库系统3400。
MMR打印软件3760为便利在此所描述的像如先前所描述的由计算机3705 的部件所执行的那样的MMR打印操作的软件。下文将参考图37B更加详细地描述MMR打印软件3760。
图37B阐明根据本发明的一个实施例的MMR打印软件3760中所包括的一组软件部件。应该理解到，计算机112，905、捕获装置106、网络介质服务器114和如在此所描述的其它服务器中，可以包括所有或一些MMR打印软件 3760。尽管现在将描述MMR打印软件3760为包括这些不同的部件，本领域技术人员将识别，MMR打印软件3760能够具有从一个至它们的所有的任何数量的这些部件。MMR打印软件3760包括变换模块3765、嵌入模块3768、分析模块3770、转换模块3775、特征提取模块3778、注解模块3780、热点模块 3785、呈现/显示模块3790、和存储模块3795。
变换模块3765使得能够进行将源文档转换成为图像化的文档，从其中能够提取特征表示，并且是这样做的一种方法。
嵌入模块3768使得能够进行相应于电子文档中的热点的标志的标记的嵌入，并且是这样做的一种方法。在一个特定实施例中，嵌入的标记指示热点的开始点和热点的结束点。可替代地，能够使用在实施例标记周围的预定的区域，来识别电子文档中的热点。能够使用各种各样的这样的标记方案。
分析模块3770使得能够进行关于指示热点的开始点的标记，而分析电子文档(已经发送至打印机的)，并且是这样做的一种方法。
转换模块3775使得能够进行至电子文档的一部分的转换规则的应用程序，并且是这样做的一种方法。在一个特定实施例中，部分为指示热点的开始点的标记与指示热点的结束点的标记之间的字符流。
特征提取模块3778使得能够进行相应于文档和热点的打印表示的特征提取和坐标捕获，并且是这样做的一种方法。坐标捕获包括使用转发动态连接库分支至到打印命令，并且分析相应于热点或经转换的字符的坐标子集的打印表示。特征提取模块3778使得能够实现根据一个实施例的捕获模块3735 的功能。
注解模块3780使得能够接收共享注解和其附属的与共享注解相关联的文档的一部分的标志，并且是这样做的一种方法。接收共享注解包括从终端用户以及从SDA服务器接收注解。
热点模块3785使得能够进行一个或多个剪辑与一个或多个热点的关联，并且是这样做的一种方法。热点模块3785也使得能够进行通过首先标志文档内的热点的位置，并定义剪辑以与热点相关联的热点定义的形成。
呈现/显示模块3790使得能够呈现或显示文档或文档的打印表示，并且是这样做的一种方法。
存储模块3795使得能够进行各种各样的文件、包括页面布局、图像化的文档、热点定义、和特征表示的存储，并且是这样做的一种方法。
软件部分3765-3795不需要分离的软件模块。所示出的软件配置仅意味着作为例子；如根据这个公开发明将很明显的，通过和在本发明的范围内可期望其它配置。
在文档中嵌入热点
图38阐明根据本发明的一个实施例的在文档中嵌入热点的方法的流程。
根据该方法，在文档中嵌入3810相应于文档内的热点的标志的标记。在一个实施例中，接收包括热点标志位置的文档，以在浏览器中显示，例如，在浏览器3715从源文件3710接收文档。热点包括一些文本或像图形或照片那样的其它文档对象，以及电子数据。电子数据能够包括像音频或视频那样的多媒体，或者其能够是当访问热点时将在捕获装置上执行的一组步骤。例如，如果文档为超文本标记语言(HTML)文件，则浏览器3715可以是Internet Explorer，并且标志可以是HTML文件内的统一资源定位符(URL)。图39A阐明具有URL 3920的这样的HTML文件3910的例子。图40A阐明如浏览器4010，例如，Internet Explorer，中所显示的图39A的HTML文件3910的文本。
为了嵌入3810标记，浏览器3715的插件3720以独立可辨别的基准标记环绕每个热点标志位置，以创建热点。在一个实施例中，插件3720更改浏览器3715中所显示的文档，例如，继续上文的例子的Internet Explorer中所显示的HTML，并插入将热点标志位置(例如，URL)置于括号内的标记、或标签。或者在浏览器3715中或者在文档的打印版本中查看文档的终端用户是察觉不到标记的，但在打印命令中能够探测到该标记。在这个例子中，使用在此被称为MMR Courier New的新字体，来添加开始和结束基准标记。在MMR Courier New字体中，通过空格表示关于字符“b”、“e”的典型字形或点模式表示和数字。
再次参考图39A和40A中所示的示例性HTML页面，插件3720在URL的开始(“here”)插入3810基准标记“b0”，并在URL的结尾插入3810基准标记“e0”，以用标识符“0”指示热点。因为b、e和数字字符都作为间隔示出，用户仅可看到很少的或不可看到文档的外观的改变。另外，如图41中所示，插件3720创建指示这些标记的符号热点描述3725。符号热点描述3725识别热点号为零4120，其相应于“b0”和“e0”基准标记中的0。在这个例子中，符号热点描述3725存储于，例如，数据存储器3750。
如图39B中所示，插件3720返回HTML3950的“经标记”的版本至浏览器3715。经标记的HTML3950以将字体改变为1号的MMR Courier New的跨越标签3960环绕基准标记i。因为b、e、和数字字符作为间隔而示出，用户仅可看到很少的或不可看到文档的外观的改变。经标记的HTML 3950为经更改的文件3730的例子。为简单起见，这个例子使用单一页面模型，然而，多页面模型使用相同的参数。例如，如果热点跨越页面边界，则其将具有相应于每个页面位置的基准标记，关于每个的热点标识符是相同的。
接下来，响应打印命令，捕获3820相应于打印表示和热点的坐标。在一个实施例中，捕获模块3735“分支至到”打印命令内的文本和绘图命令。捕获模块3735执行所有的文本和绘图命令，并且另外，截取并记录打印表示中每个字符和/或图像的x-y坐标和其它特征。在这个例子中，捕获模块3735 涉及打印表示的装置场景(DC)，其为定义将要依赖于输出格式(即，打印机、窗口、文件格式、存储缓冲器，等等)而输出的文本和/或图像的属性的打印表示的结构的句柄。在捕获3820打印表示的坐标的过程中，使用HTML中嵌入的基准标记可很容易地识别热点。例如，当遇到开始标记时，如果记录了所有的字符，可找到直到结束标记的x-y位置。
根据一个实施例，捕获模块3735为转发DLL，在此被称为“打印捕获DLL”，其允许现有DLL的功能的添加或更改。转发DLL在客户看来完全像原始的DLL，然而，在将调用转发至目标(原始)DLL之前，将另外的代码(“分支至到”) 添加至一些或所有的函数。在这个例子中，打印捕获DLL为关于Windows图形装置接口(Windows GDI)DLL gdi32.dll的转发DLL。gdi32.dll具有超过600个输出函数，其所有的都需要被转发。打印捕获DLL，在此被称为 gdi32_mmr.dll，允许客户从使用DLL gdi32.dll绘图的任何Windows应用程序捕获打印输出，并且其仅需要在局域计算机上执行，即使打印至远程服务器。
根据一个实施例，将gdi32_mmr.dll重命名为gdi32.dll，并复制至C: \Windows\system32，促使它监控来自几乎每个Windows应用程序的打印。根据另一个实施例，将gdi32_mmr.dll命名为gdi32.dll，并复制至关于其监控打印的应用程序的主目录。例如，用于监控Windows XP上的Internet Explorer的C:\Program\Files\Internet Explorer。在这个例子中，仅这个应用程序(例如，Internet Explorer)将自动地调用打印捕获DLL中的函数。
图44阐明根据本发明的一个实施例的转发DLL所使用的过程的流程图。打印捕获DLL gdi32_mmr.dll首先接收4405指向gdi 32.dll的函数调用。在一个实施例中，gdi32_mmr.dll接收指向gdi32.dll的所有的函数调用。 gdi32.dll监控600个左右的总的函数调用的近似200个，其用于以某些方式影响打印页面的外观的函数。因而，打印捕获DLL接下来确定4410所接收的调用是否为被监控的函数调用。如果所接收的调用不是被监控的函数调用，则该调用绕过步骤4415直至4435，并转发4440至gdi32.dll。
如果它是被监控的函数调用，则该方法接下来确定4415函数调用是否指定“新”的打印机装置场景(DC)，即，先前还未接收到的打印机DC。这通过相对于内部DC表而检查打印机DC来确定。如先前所提及的，DC封装用于绘图的目标(其可能为打印机，存储缓冲器，等等)，以及像字体、颜色，等等一样的绘图设置。在DC上执行所有的绘图操作(例如，LineTo()、 DrawText()，等等)。如果打印机DC不是新的，则已存在相应于打印机DC的存储缓冲器，并且跳过步骤4420。如果打印机DC是新的，则创建4420相应于新的打印机DC的存储缓冲器DC。这个存储缓冲器DC映出打印页面的外观，并且在这个例子中，等同于上文所相关的打印表示。因而，当将打印机DC添加至内部DC表时，创建相同维度的存储缓冲器DC(和存储缓冲器)，并使之与内部DC表中的打印机DC相关联。
gdi32_mmr.dll接下来确定4425调用是否为文本相关的函数调用。200 个监控gdi32.dll调用的近似12个是文本相关的。如果它不是，则跳过步骤 4430。如果函数调用是文本相关的，则将文本相关的输出写入4430xml文件，在此被称为page_desc.xml3740，如图37A中所示。page_desc.xml3740存储于，例如，数据存储器3750。
图42A和42B示出关于参考图39A和40A所讨论的HTML文件3910例子的示例性page_desc.xml3740。page_desc.xml3740包括逐个x，y，宽度和高度，逐个单词4210(例如，Get)以及逐个字符4220(例如，G)的所有的打印文本的坐标信息。坐标是以点的形式存在的，其为相对于页面的左上角的像素的打印等同物，除非另外指明。page_desc.xml3740也包括处于“序列”形式的热点信息，例如开始标记4230和结束标记4240。对于跨越页面边界的热点(例如，页面N至页面N+1的)，其在两个页面(N和N+1)上都示出；在两种情况中的热点标识符都是相同的。另外，page_desc.xml3740 中包括其它重要的信息，例如打印机端口名称4250，其能够对如下产生重大影响：所产生的.xml和.jpeg文件、浏览器3715(或应用程序)名称4260、和打印的日期及时间4270、以及关于页面4280和可打印区域4290的每英寸的点数(dpi)和分辨率(res)。
再次参考图44，紧接着调用不是文本相关的确定，或者紧接着将文本相关的输出写入4430 page_desc.xml3740，gdi32_mmr.dll执行4435关于DC 的存储缓冲器上的函数调用。这个步骤4435提供至打印机的输出，同样得到至局域计算机上的存储缓冲器的输出。然后，当增加页面时，压缩存储缓冲器的内容，并以JPEG和PNG的格式写出。然后将函数调用转发4440至 gdi32.dll，其如通常地执行它。
再次参考图38，呈现3830包含包括热点的打印表示的页面布局。在一个实施例中，呈现3830包括打印文档。图40B阐明图39A和40A的HTML文件3910的打印版本4011的例子。注意到，对于终端用户而言，基准标记不是明显可察觉的。呈现的布局保存至，例如，数据存储器3750。
根据一个实施例，打印捕获DLL将符号热点描述3725中的数据和 page_desc.xml3740，例如，如图42A-B中所示，合并入hotspot.xml 3745，如图43中所示。在这个例子中，当打印文档时，创建hotspot.xml 3745。图43中的例子示出热点0出现在x＝1303，y＝350，以及为190像素宽和71 像素高。同样示出热点的内容，即，http://www.ricoh.com。
根据捕获模块3820的可替代的实施例，Microsoft XPS(XML打印说明) 打印驱动器中的过滤器，通常已知为“XPSDrv过滤器”，接收文本绘图命令，并创建如上文所描述的page_desc.xml文件。
明显可察觉的热点
图45阐明根据本发明的一个实施例的转换相应于文档中的热点的字符的方法的流程图。该方法以指示终端用户和呈现热点的MMR识别软件两者的方式，更改打印文档。
最初，接收4510将要打印的电子文档作为字符流。例如，可以在打印机驱动器或在能够过滤字符流的软件模块接收4510文档。在一个实施例中，在浏览器3715从源文件3710接收4510文档。图46阐明根据本发明的一个实施例的文档4610的电子版的例子。这个例子中的文档4610具有两个热点，一个与“在下文列出”相关联，并且一个与“可能的现有技术”相关联。根据一个实施例，对于终端用户，热点不是明显可察觉的。可以通过参考图38 所描述的坐标捕获方法，或者根据在此所描述的其它方法的任何一个，建立热点。
为开始标记分析4520文档，指示热点的开始。开始标记可以是如先前所描述的基准标记，或者是任何其它单独可辨别的识别热点的标记。一旦找到开始标记，就将转换规则应用于4530文档的一部分，即，紧接着开始标记的字符，直到找到结束标记。根据一个实施例，转换规则促使相应于热点的文档的一部分的可见的更改，例如通过更改字符字体或颜色。在这个例子中，可以将原始字体，例如，Times New Roman，变换成为不同的已知字体，例如， OCR-A。在另一个例子中，以不同的字体颜色呈现文本，例如，blue#F86A。根据一个实施例，转换字体的过程与上文所描述的过程类似。例如，如果文档4610是HTML文件，则当在文档4510中遇到基准标记时，就在HTML文件中替代字体。
根据一个实施例，通过浏览器3715的插件3720完成转换步骤，产出经更改的文档3730。图47阐明根据本发明的一个实施例的打印更改的文档4710 的例子。如所阐明的，从剩余的文本，热点4720和4730是视觉上可辨别的。特别地，基于其不同的字体，热点4720是视觉上可辨别的，并且基于其不同的颜色和下划线，热点4730是视觉上可辨别的。
接下来，将具有转换的部分的文档呈现4540成为页面布局，包含电子文档和电子文档内的热点的位置。在一个实施例中，呈现文档是打印文档。在一个实施例中，根据在此所描述的这样做的方法的任何一种，呈现包括在具有转换的部分的文档上执行特征提取。在一个实施例中，特征提取包括，根据一个实施例，响应打印命令，捕获相应于电子文档的页面坐标。然后为相应于转换的字符的坐标的子集分析电子文档。根据一个实施例，图37A的捕获模块3735执行特征提取和/或坐标捕获。
MMR识别软件使用相同的转换规则预处理每个图像。首先它寻找遵循规则的文本，例如，其为OCR-A或blue #F86A，并然后它应用其标准的识别算法。
本发明的这个方面是有利的，因为其充分地降低了MMR识别软件的计算负载，因为它使用消除大量的计算开销的非常简单的图像预处理例程。另外，例如，如参考图51A-D所讨论的，如在文档的一部分之上的包围方框，通过消除可能从选择中应用的大量的可替代的解决方案，而提高特征提取的精确性。另外，文本的可见更改指示终端用户哪个文本(或其它文档对象)是热点的一部分。
共享文档注解
图48阐明根据本发明的一个实施例的共享文档注解的方法的流程图。该方法使得用户能够在共享的环境中给文档加注解。在下文所描述的实施例中，共享环境为各种各样的用户正查阅的网页；然而，根据其它实施例，共享环境能够是在其中共享资源的任何环境，例如工作组。
根据该方法，在浏览器，例如浏览器3715，中显示4810源文档。在一个实施例中，从源文件3710接收源文档；在另一个实施例中，源文档为通过网络，例如，因特网连接，所接收到的网页。使用网页例子，图49A阐明根据本发明的一个实施例的浏览器中的样本源网页4910。在这个例子中，网页 4910为关于与流行的孩子的书本特性有关的游戏，the Jerry Butter Game，的HTML文件。
在源文档的显示4810之后，接收4820共享注解和与共享注解相关联的源文档的一部分的标志，该共享注解与源文档相关联。为描述清楚，在这个例子中使用单一注解，然而多个注解是可能的。在这个例子中，注解为数据或如在此所讨论的MMR中所使用的交互。根据一个实施例，注解存储于共享文档注解服务器(SDA服务器)，例如图37A中所示的3755，并通过自该服务器的检索接收。在一个实施例中，通过网络连接可访问SDA服务器3755。共享注解的检索的插件便利了这个例子中的这种能力，例如，如图37A中所示的插件3720。根据另一个实施例，从用户接收注解和标志。用户可以创建关于不具有任何注解的文档的共享注解，或者可以添加或更改文档的现有共享注解。例如，用户可以加亮源文档的一部分，关于与共享注解的关联标明它，也由用户经由在此所描述的各种各样的方法提供。
接下来，在浏览器中显示4830经更改的文档。经更改的文档包括相应于在步骤4820标明的源文档的一部分的热点。热点指定共享注解的位置。根据一个实施例，经更改的文档为由插件3720所创建的经更改的文件3730的一部分，并返回至浏览器3715。图49B阐明根据本发明的一个实施例的浏览器中的样本经更改的网页4920。网页4920示出热点4930的标志和相关联的注解4940，其为这个例子中的视频剪辑。可以在视觉上从剩余的网页4920文本来辨别标志4930，例如，通过加亮。根据一个实施例，当点击标志4930 或将鼠标移过去时，注解4940显示。
响应打印命令，捕获4840相应于经更改的文档的打印表示的文本坐标和热点。坐标捕获的细节是根据关于在此所描述的那个目的的方法的任何一个的。
然后，呈现4850包括热点的打印表示的页面布局。根据一个实施例，呈现4850为打印文档。图49C阐明根据本发明的一个实施例的样本打印网页 4950。打印网页布局4950包括如所标明的热点4930，然而打印布局4950中的行中断不同于网页4920。在这个例子中，热点4930的边界在打印布局4950 上是不可见的。
在可选的最后的步骤，将共享注解局部地存储于，例如，数据存储器3750，并且使用其与打印文档4950中的热点4930的关联标定索引。也可以将打印表示局部地保存。在一个实施例中，打印行为触发局部拷贝的下载和创建。
图像化的文档的热点
图50A阐明根据本发明的一个实施例的添加热点至图像化文档的方法的流程图。该方法允许在扫描之后，将热点添加至纸质文档，或者在打印呈现之后，将热点添加至符号电子文档。
首先，将源文档变换5010为图像化的文档。根据一个实施例，在浏览器 3715从源文件3710接收源文档。变换5010是通过产生在其上能够执行特征提取的文档的任何方法，以产生特征表示。根据一个实施例，将纸质文档扫描以成为图像化的文档。根据另一个实施例，使用适当的应用程序呈现电子文档的可呈现页面样本。例如，如果可呈现页面样本是PostScript格式，则使用Ghostscript。图51A阐明示出已根据一个实施例而扫描的新闻纸页面 5110的一部分的用户接口5105的例子。主要的窗口5115示出新闻纸页面 5110的放大的部分，并且略图5120示出正显示页面的哪个部分。
接下来，将特征提取应用5020于图像化的文档，以创建特征表示。为这个目的可以使用在此所描述的各种各样的特征提取方法的任何一种。根据一个实施例，通过参考图37A所描述的捕获模块3735执行特征提取。然后将一个或多个热点5125添加5030至图像化的文档。根据多种多样的实施例，可以预先定义或可需要定义热点。如果已经定义了热点，则定义包括页面号码、页面上的热点的边界框的坐标位置、以及电子数据或附着于热点的交互。在一个实施例中，如图43中所阐明的，热点定义采取hotspot.xml文件的形式。
如果还未定义热点，则终端用户可以定义热点。图50B阐明根据本发明的一个实施例的定义用于添加至图像化文档的热点的方法的流程图。首先，选择5032候选热点。例如，在图51A中，终端用户已使用边界框5125选择了文档的一部分作为热点。接下来，关于给定的数据库，在可选的步骤5034 确定热点是否是唯一的。例如，在周围的n”×n”碎片中应该存在足够的文本，以唯一地识别热点。n的典型值的例子为2。如果对于数据库而言，热点不是足够地唯一，则在关于如何处理含糊不清的一个实施例中，将可选项呈现给终端用户。例如，用户接口可以提供可供选择的项，例如选择较大的区域，或者接受含糊不清，但将它的描述添加至数据库。其它的实施例可以使用定义热点的其它方法。
一旦选择5032了热点位置，就定义5036数据或交互，并将其附着于热点。图51B阐明用于定义数据或交互，以与所选择的热点关联的用户接口。例如，一旦用户已选择了边界框5125，就显示编辑框5130。使用相关联的按钮，用户可以取消5135操作，仅简单地保存5140边界框5125，或者将数据或交互分派5145给热点。如果用户选择将数据或交互分派给热点，则显示分派框5150，如图51C中所示。分派框5150允许终端用户将图像5155、各种各样的其它介质5160、和网络链接5165分派给热点，其由ID号5170识别。用户然后能够选择保存5175热点定义。尽管为简单起见，已经描述了单个热点，多个热点是可能的。图51D阐明用于显示文档内的热点5125的用户接口。在一个实施例中，不同颜色的边界框相应于不同的数据和交互类型。
在可选的步骤，图像化的文档、热点定义、和特征表示一起存储于5040，例如，数据存储器3750。
图52阐明根据本发明的一个实施例的使用MMR文档500和MMR系统100b 的方法5200。
该方法5200通过获取5210第一文档或第一文档的表示而开始。获取第一文档的示例性方法包括下列各项：(1)通过经由PD捕获模块318自动地捕获MMR计算机112的操作系统内的打印文档的文本布局，获取第一文档；(2) 通过自动地捕获MMR计算机112的打印机驱动器316内的打印文档的文本布局，获取第一文档；(3)通过经由连接至，例如，MMR计算机112的标准文档扫描仪装置127扫描纸质文档，获取第一文档；以及(4)通过自动或手动地传递、上载或下载，为打印文档的表示的文件至MMR计算机112，获取第一文档。尽管已经描述获取步骤为获取打印文档的大多数或全部，但应该理解到，能够仅关于打印文档的最小的一部分执行获取步骤5210。此外，尽管就获取单个文档而言描述了该方法，但可以执行这个步骤，以获取许多文档，并创建第一文档库。
一旦执行了获取步骤5210，该方法5200就在第一文档上执行5212索引标定操作。索引标定操作允许文档的相应电子表示和关于与所获取的第一文档或其部分相匹配的输入的相关联的第二介质类型的识别。在这个步骤的一个实施例中，通过PD捕获模块318执行产生PD索引322的文档索引标定操作。示例性的索引标定操作包括下列各项：(1)给打印文档的字符的x-y位置编索引；(2)给打印文档的单词的x-y位置编索引；(3)给图像或打印文档中的图像的一部分的x-y位置编索引；(4)执行OCR图像化操作，并且相应地给字符和/或单词的x-y位置编索引；(4)执行自呈现页面的图像的特征提取，并且给特征的x-y位置编索引；以及(5)模拟页面的符号版本上的特征提取，并且给特征的x-y位置编索引。索引标定操作5212可以包括依赖于本发明的应用程序的上述索引标定操作的任何一个或组。
该方法5200也获取5214第二文档。在这个步骤5214中，所获取的第二文档能够为全部文档或仅只第二文档的一部分(碎片)。获取第二文档的示例性方法包括下列各项：(1)依靠捕获装置106的一个或多个捕获机制230，扫描文本碎片；(2)依靠捕获装置106的一个或多个捕获机制230，扫描文本碎片，并随后，预处理图像，以确定将正确地提取所想要的特征描述的可能性。例如，如果索引是基于OCR的，则系统可能确定图像是否包含文本行，以及对于成功的OCR操作，图像清晰度是否足够。如果这个确定失败，则扫描另一个文本碎片；(3)扫描识别所扫描的文档的机器可读标识符(例如，国际标准书号(ISBN)或通用产品码(UPC)代码)；(4)输入识别所要求的文档或一组文档(例如，运动画刊杂志的2003版)的数据，并且随后，通过使用这个方法步骤的项目(1)或(2)，扫描文本碎片；(5)接收具有所附的第二文档的电子邮件；(6)通过文档传递接收第二文档；(7)用捕获装置106 的一个或多个捕获机制230扫描图像的一部分；以及(9)用输入装置166输入第二文档。
一旦已经执行了步骤5210和5214，该方法就执行5216第一文档和第二文档之间的文档或模式匹配。在一个实施例中，这通过执行第二文档至第一文档的文档指纹匹配而进行。通过查询PD索引322，在第二介质文档上执行文档指纹匹配操作。文档指纹匹配的例子为在步骤5214从所捕获的图像中提取特征，以那些特征合成描述符，并且查找包含那些描述符的一部分的文档和碎片。应该理解到，可以多次执行这种模式匹配步骤，关于每个文档一次，其中数据库存储许多的文档，以确定库或数据库中的任何文档与第二文档是否相匹配。可替代地，索引标定步骤5212将文档5210添加至代表文档集的索引，并执行模式匹配步骤一次。
最后，该方法5200执行5218基于步骤5216的结果并且可选地基于用户输入的动作。在一个实施例中，该方法5200查找与，例如，存储在第二介质 504中的给定的文档碎片相关联的预定的动作，该第二介质504与步骤5216 中作为匹配而找到的热点506相关联。预定的动作的例子包括：(1)从文档事件数据库320、因特网、或别的地方，检索信息；(2)将信息写入准备接收系统的输出的MMR系统100b所验证的位置；(3)查找信息；(4)在客户机装置，例如捕获装置106上，显示信息，并且引导与用户的交互会话；(5) 查询在方法步骤5216中所确定的动作和数据，以便稍后执行(用户的参与可以是可选的)；以及(6)立即执行在方法步骤5216中所确定的动作和数据。这种方法步骤的示例性结果包括信息、经更改的文档的检索、一些其它动作的执行(例如，股票或产品的购买)、或者发送至有线TV盒，例如机顶盒126，的命令的输入，该机顶盒连接至有线TV服务器(例如，服务提供者服务器 122)，其将视频回流至有线TV盒。一旦已经进行了步骤5218，该方法5200 完成并结束。
图53阐明根据本发明的一个实施例的与MMR系统100b关联的示例性的一组商业实体5300的框图。商业实体5300组包括MMR服务提供者5310、MMR 消费者5312、多媒体公司5314、打印机用户5316、蜂窝式电话服务提供者 5318、硬件制造商5320、硬件零售商5322、金融机构5324、信用卡处理者 5326、文档出版者5328、文档打印机5330、履约商5332、有线TV提供者5334、服务提供者5336、软件提供者5338、广告公司5340、和商业网络5370。
MMR服务提供者5310为如参考图1A至5和52所描述的MMR系统100的所有者和/或管理者。如先前参考图1B所描述的，MMR消费者5312为任何MMR 用户110的代表。
多媒体公司5314为数字多媒体产品的任何提供者，例如Blockbuster Inc (Dallas，TX)，其提供数字电影和视频游戏，和美国(纽约，NY)的索尼公司，其提供数字音乐、电影、和TV展示。
打印机用户5316是为了产生打印纸质文档，利用任何种类的任何打印机的任何单独的实体。例如，MMR消费者5312可以是打印机用户5316或文档打印机5330。
蜂窝式电话服务提供者5318为任何蜂窝式电话服务提供者，例如 Verizon Wireless(Bedminster，NJ)、Cingular Wireless(Atlanta，GA)、 T-Mobile USA(Bellevue，WA)、和Sprint Nextel(Reston.VA)。
硬件制造商5320为任何硬件装置的制造商，例如打印机、蜂窝式电话、或PDA的制造商。示例性的硬件制造商包括Hewlett-Packard(Houston，TX)、 Motorola，Inc，(Schaumburg，IL)、和美国(纽约，NY)的Sony Corporation。硬件零售商5322为任何硬件装置的零售商，例如打印机、蜂窝式电话、或 PDA的零售商。示例性的硬件零售商包括RadioShack Corporation(Fort Worth，TX)、Circuit City Stores，Inc.(Richmond，VA)、 Wal-Mart(Bentonville，AR)、和Best Buy Co.(Richfield，MN)，但并不局限于此。
金融机构5324为任何金融机构，例如用于处理银行账户以及资金至和从其它银行或金融机构的传递的任何银行或信用合作社。信用卡处理者5326为任何管理信用卡认证和购买交易的批准过程的信用卡机构。示例性的信用卡处理者包括ClickBank，其为Click Sales Inc，(Boise ID)的服务、ShareIt！ Inc.(Eden Prairie，MN)、和CCNow Inc.(Eden Prairie，MN)，但并不局限于此。
文档出版者5328为任何文档出版公司，例如，Gregath Publishing Company(Wyandotte，OK)、Prentice Hall(Upper Saddle River，NJ)、和 Pelican Publishing Company(Gretna，LA)，但并不局限于此。文档打印机 5330为任何文档打印公司，例如，PSPrint LLC(Oakland CA)、 PrintLizard，Inc.(Buffalo，NY)、和Mimeo，Inc.(New York，NY)，但并不局限于此。在另一个例子中，文档出版者5328和/或文档打印机5330为产生并分布新闻纸或杂志的任何实体。
如熟知的，履约商5332为专门适用于订单的履行的任何第三方物流仓库。示例性的履约商包括Corporate Disk Company(McHenry，IL)、 OrderMotion，Inc.(New York，NY)、和Shipwire.com(Los Angeles，CA)，但并不局限于此。
有线TV提供者5334为任何有线TV服务提供者，例如，Comcast Corporation(Philadelphia，PA)和Adelphia Communications(Greenwood Village，CO)，但并不局限于此。服务提供者5336为提供任何种类的服务的任何实体的代表。
软件提供者5338为任何软件开发公司，例如， Art&Logic，Inc.(Pasadena，CA)、Jigsaw Data Corp.(San Mateo，CA)、 DataMirror Corporation(New York，NY)、DataBank IMX，LCC(Beltsville，MD)，但并不局限于此。
广告公司5340为任何广告公司或代理，例如，D and B Marketing(Elhurst，IL)、BlackSheep Marketing(Boston，MA)、和Gotham Direct，Inc.(New York，NY)，但并不局限于此。
商业网络5370为通过其建立和/或便利商业关系的任何机制的代表。
图54阐明根据本发明的实施例的方法5400，其为通过使用MMR系统100b 而便利的一般化的商业方法。方法5400包括步骤：在至少两个实体之间建立关系，确定可能的商业交易；执行至少一个商业交易并交付关于该交易的产品或服务。
首先，在至少两个商业实体5300之间建立5410关系。例如，可以在四个广泛的范畴，如(1)MMR创建者、(2)MMR分布者、(3)MMR用户、和(4) 其它内排列商业实体5300，并且在其内某些商业实体可属于不止一个范畴。根据这个例子，商业实体5300分类如下：
●MMR创建者-MMR服务提供者5310、多媒体公司5314、文档出版者5328、文档打印机5330、软件提供者5338、和广告公司5340；
●MMR分布者-MMR服务提供者5310、多媒体公司5314、蜂窝式电话服务提供者5318、硬件制造商5320、硬件零售商5322、文档出版者5328、文档打印机5330、履约商5332、有线TV提供者5334、服务提供者5336、和广告公司5340；
●MMR用户-MMR消费者5312、打印机用户5316和文档打印机5330；以及
●其它-金融机构5324和信用卡处理者5326。
例如在这个方法步骤中，在作为MMR创建者的MMR服务提供者5310，和作为MMR用户的MMR消费者5312，和作为MMR分布者的蜂窝式电话服务提供者5318及硬件零售商5322之间建立商业关系。此外，硬件制造商5320与硬件零售商5322具有商业关系，其两者都为MMR分布者。
接下来，方法5400确定5412具有在步骤5410中所建立的关系的团体之间可能的商业交易。特别地，在任何两个或多个商业实体5300之间可以发生多种交易。示例性的交易包括：购买信息；购买物质商品；购买服务；购买带宽；购买电子存储；购买广告；购买广告统计量；运送商品；出售信息；出售物质商品；出售服务；出售带宽；出售电子存储器；出售广告；出售广告统计量；租借/出租；以及收集意见/评级/投票。
一旦方法5400已经确定了团体之间可能的商业交易，就使用MMR系统 100来达成5414至少一个商业交易的协议。特别地，在任何两个或多个商业实体5300之间可能发生作为交易的结果的多种动作。示例性的动作包括：购买信息；接收订单；为了更多的信息点进；创建广告空间；提供局部/远程访问；主办；运送；创建商业关系；存储私有信息；将信息传递至其它对象；添加内容；以及播客。
一旦方法5400已经达成了商业交易的协议，就使用MMR系统100交付 5416该交易的产品或服务，例如，至MMR消费者5312。特别地，作为在方法步骤5414中所达成的商业交易的结果，在任何两个或多个商业实体5300之间可以交换多种内容。示例性的内容包括：文本；网页链接；软件；静态照片；视频；音频；和以上的任何结合。另外，为了便利交易，在任何两个或多个商业实体5300之间可以利用多种交付机制。示例性的交付机制包括：纸张；个人计算机；网络计算机；捕获装置106；个人视频装置；个人音频装置；和以上的任何结合。
除了如在上述的实施例中根据权利提出要求并描述的这样的本发明，公开下列的实施例。
根据本发明的一个实施例，图55阐明用于访问混合介质文档的方法。
获取5510第一文档。例如，能够通过使用参考图2E而于此描述的捕获机制230中的任何一种而捕获第一文档的表示，来获取5510第一文档。根据各种各样的实施例，能够获取5510第一文档的整体，或者能够获取5510第一文档的一部分。能够使用用于获取5214参考图52而于此描述的文档的方法中的任何一种，来获取第一文档。
检索5512第二文档。例如，能够从中央存储库来检索5512第二文档。根据本发明的一个实施例，第二文档为诸如参考图5而于此描述的MMR文档 500这样的MMR文档。能够基于第一文档和诸如PD索引322这样的索引，来检索5512第二文档。
比较5514第一和第二文档。例如，比较5514第一和第二文档能够包括分析第一和第二文档来确定它们是否充分地相似。在一个实施例中，这通过执行从第二文档到第一文档的文档指纹匹配来完成。
应该重视的是在一些实施例中，能够将检索5512第二文档与比较5514 第一和第二文档结合于文档匹配步骤中。例如，能够通过查询PD索引322来在第一文档上执行文档指纹匹配操作。如另一个例子这样，能够通过查询MMR 数据库3400的MMR索引3404来在第一文档上执行文档指纹匹配操作。文档指纹匹配的例子为从在步骤5510中所捕获的图像提取特征，从那些特征来合成描述符，以及查找包含一定比率的那些描述符中的文档和碎片。然后能够检索5512匹配文档。应该理解的是可以多次执行这个模式匹配步骤，对于每一个文档一次，其中数据库存储众多的文档来确定在库或数据库中是否有文档匹配第一文档。
基于比较来执行5516动作。执行5516的动作能够依赖于比较的结果。例如，在一个实施例中，如果比较5514指示文档匹配，则执行5516第一动作，而如果比较5514指示文档不匹配，则执行5516第二动作。在另一个实施例中，执行5516的动作能够依赖于匹配第一文档的第二文档。例如，能够将第二文档与预定的动作相关联，并且能够执行5516预定的动作。此外，执行5516的动作能够响应于用户的选择。根据本发明的各种各样的实施例，参考图56(a)至56(c)来于此描述能够执行的、各种各样的类型的动作的例子。
图56(a)阐明用于访问MMR文档的方法的第一例子。获得5510文档5604。从中央存储库5610检索5512文档5614。在一个实施例中，中央存储库5610 为文档事件数据库320。在另一个实施例中，中央存储库5610为MMR数据库 3400。在再一个实施例中，能够将中央存储库5610实现为能够存储文档的电子表示的任何数据库。
在所阐明的例子中，将动作或介质5618与文档5614相关联。例如，能够将文档5614实现为MMR文档500，并且文档5614能够包括动作或第二介质504。
比较5514文档5604和文档5614。在一个实施例中，基于比较，执行5620 与文档5614相关联的动作5618。在另一个实施例中，基于比较，显示5620 与文档5614相关联的介质5618。
基于第一和第二文档的比较来执行动作有益地允许打印文档来包含信息的、另外的维度。例如，文档5604能够为旅游与旅行的书籍的一部分。给定许多旅游目的地的、迅速发展的经济，在他们到达商店货架的时候，旅行书籍常常为过时的。用户能够采用MMR系统来获得与旅游书籍或旅游书籍的特定的部分(例如，特别的文章)相关联的、补充的信息。
例如，通过与用户的手机集成一体的相机来获取5510旅游书籍的章节。检索5512并比较5514有匹配感兴趣的章节的指纹的MMR文档5614。MMR文档5614包含关于旅游书籍的所获取5510的部分的、补充的信息5618。例如，补充的信息5618能够为文章的更新的电子表示、关于特别的区域的健康咨询，或广告。将所述补充的信息5618显示至用户。有利地，更新的或另外的信息对用户为可利用的。
能够将补充的信息实现为任何种类的介质文件。能够将基于第一和第二文档的比较来执行动作，用来显示与纸质文档相关联的介质文件。例如，文档5604能够为体育杂志的页面。检索5512并比较5514具有匹配文档5604 的指纹的MMR文档5614。文档5614包含涉及在所获取5510的、杂志的页面上的体育故事的介质5618，例如，文章描述的致胜球的视频剪辑。将介质5618 显示5620至用户。有利地，与纸质文档相关联的介质文件对用户为可利用的。
补充的信息还能够为用户特定的。基于第一和第二文档的比较来执行动作能够包括检索并显示用户特定的信息。例如，文档5604能够为有关上市公司的报纸文章。检索5512并比较5514有匹配文档5604的指纹的MMR文档 5614。文档5614包含识别文章的主旨的元数据5618。例如，基于元数据5618 来检索用户特定的信息。例如，能够从在线的证券经纪公司来检索涉及在文章中提及的公司的、用户的持股信息。将用户特定的信息显示至用户。有利地，涉及纸质文档的用户特定的信息对用户为可利用的。
图56(b)阐明用于访问MMR文档的方法的第二实例。获取5510文档5604，并且从中央存储库5610检索5512文档5614。比较5514文档5604和文档 5614，并且接收用户输入5628。响应于比较5514和用户输入5628，执行5630 动作。
在一个实施例中，文档5614为MMR文档500。MMR文档能够包括多个第二介质504。对于选择，将多个第二介质504呈现至用户，并且用户输入5628 指示所期望的第二介质504。例如，第二介质504能够为音频文件、视频文件、文本文件、或应用程序文件，等等。显示5630所选取的第二介质504。如另一个例子这样，MMR文档能够包括多个相关联的动作504。例如，相关联的动作能够为检索信息、将信息写入至一个位置、执行对信息的搜索、在客户机装置上显示信息、引导交互会话、为了稍后的执行而推迟动作、更改文档、产品的购买、和到另一个系统的命令的输入。对于选取，将多个相关联的动作504呈现至用户，并且用户输入5628指示所期望的、相关联的动作 504。执行5630所选择的、相关联的动作504。如再一个例子这样，MMR文档能够包括第二介质和相关联的动作504的结合，并且用户输入5628能够指示是否应该显示5630第二介质，或是否应该执行5630相关联的动作。通过接收用户输入5628，能够有利地为用户的期望来定制执行5630的动作。
在另一个实施例中，文档5614为包括多个热点506(即，在文档5604 之内的位置)的MMR文档500。用户输入5628能够指示所期望的热点506。在一些情况下，能够将所期望的热点506依次与多个动作和/或第二介质504 相关联，并且用户输入5628能够进一步地指示将执行哪些动作和/或将显示哪些介质。有利地，通过接收用户输入5628，能够由用户来选择特别的热点，并且能够进一步地为用户的期望来定制执行5630的动作。
图56(c)阐明用于访问MMR文档的方法的第三实例。获取5510文档5604，并且从中央存储库5610检索5512文档5614。比较5514文档5604和文档 5614。例如，文档5604能够为用户愿意将其与介质文件相关联的纸质文档。
获取5622介质5624。例如，介质5624能够为视频文件、音频文件、或应用程序文件(如，电子数据表或文字处理文档等)。以不背离本发明的范围，介质5624的另一个例子将对本领域技术人员为明显的。例如，可以从相机、麦克风、网络、计算机可读介质等来获取5622介质。
将介质5624与文档5614相关联5626。例如，以基于未来可访问文档5614 的方式，来存储所述介质5624。根据本发明的一个实施例，在中央存储库5610 中存储介质5624。根据本发明的另一个实施例，从文档5614分离地存储介质5624。
在一个实施例中，文档5614为MMR文档500，并且将介质5624存储为第二介质504。能够将介质5624与文档5614的一个或多个热点相关联。在一个实施例中，接收5625用户输入。例如，用户输入5625能够指示将介质 5624与哪一热点相关联。如另一个例子这样，文档5614能够包括各种各样的实体，并且用户输入5625能够指示将介质5624与哪一实体相关联。例如，能够在正常的打印操作期间从打印驱动器获得对用户选择为可利用的实体。在图37至43和于此附随的描述中描述用于从打印驱动器获得实体的、各种各样的示例性的方法。
将介质与MMR文档相关联有益地允许用户来补充纸质文档。例如，准备旅行的用户能够取得有利于其便携性和低的替换成本的纸质文档，并从移动平台(诸如手机这样的)以补充的内容来更新文档的电子版。
基于所获得的、纸质文档的表示来检索MMR文档有利地将另外的维度引进到纸质文档。能够将另外的维度考虑为能够将内容或广告提供到其中的、额外的文档空间。例如，用于新的电影的报纸广告能够“链接”至电影的查阅，这意味着报纸广告的获取的结果将为诸如查阅这样的、补充的信息的显示。如另一个例子这样的，在杂志中的电影的查阅能够“链接”至用于电影院的广告。内容能够链接至其他内容，并且广告能够链接至其他广告。检索特定的MMR文档能够导致至用户的信用或付款(例如，在用于查看广告的交换中的)，或者能够导致借方或记在用户的帐上(例如，在用于查看奖金内容的交换中的)。因而本发明的各种各样的方法对广告客户、内容提供者和用户等能够为有益的。
在一个实施例中，基于纸质文档的识别来检索MMR文档。获取纸质文档的表示，并将其与MMR文档的指纹比较。匹配的MMR文档能够包括介质，或者能够将所述匹配的MMR文档与特别的动作相关联。响应于纸质文档和虚拟的多媒体文档的比较，来执行动作。例如，能够显示匹配的MMR文档的介质，或者能够执行与匹配的MMR文档相关联的动作。基于纸质文档的识别来检索 MMR文档有利地允许纸质文档的用户来受益于对纸质文档补充的信息。此外，基于纸质文档的识别来检索虚拟的多媒体文档有利地允许纸质文档的用户，来更改内容或将所述内容添加至虚拟的多媒体文档。
在一个实施例中，将来自MMR文档的数据与用户特定的信息结合，来将个性化的信息提供至用户。在另一个实施例中，征求用户输入来确定将执行与MMR文档相关联的多个动作中的哪一个。
在一个实施例中，基于纸质文档的识别来检索MMR文档。响应于纸质文档与虚拟的多媒体文档的比较的，来执行动作。例如，能够显示匹配的MMR 文档的介质，或者能够执行与匹配的MMR文档相关联的动作。
在下面描述另一个实施例。
图57阐明根据本发明的一个实施例的，用于访问混合介质文档的方法。
获取5710第一文档。例如，能够通过使用参考图2E于此描述的捕获机制230中的任何一个来捕获第一文档的表示，来获取5710第一文档。根据各种各样的实施例，能够在第一实施例的实体中获取5710所述第一文档，或者能够获取5710第一文档的一部分。能够使用参考图52于此描述的、用于获得5214文档的方法中的任何一个，来获取第一文档。
检索5712第二文档。例如，能够从中央存储库来检索5712第二文档。根据本发明的一个实施例，第二文档为诸如参考图5于此描述的MMR文档500 这样的MMR文档。能够基于第一文档和诸如PD索引322这样的索引来检索 5712第二文档。
比较5714第一和第二文档。例如，比较5714第一和第二文档能够包括分析第一和第二文档来确定它们是否为充分相似的。在一个实施例中，这通过执行将第二文档匹配到第一文档的文档指纹匹配来完成。
应该重视的是在一些实施例中，能够将检索5712第二文档和比较5714 第一和第二文档结合到文档匹配步骤。例如，能够通过查询PD索引322，来在第一文档上执行文档指纹匹配操作。文档指纹匹配的例子为从在步骤5710 中所捕获的图像提取特征，从那些特征合成描述符，以及查找包含一定比率的那些描述符的文档和碎片。然后，能够检索5712匹配的文档。应该理解的是可以多次执行这个模式匹配步骤，对于每一个文档一次，其中数据库存储众多的文档来确定在库或数据库中是否有文档匹配第一文档。
基于比较来将动作显示5716至用户。显示5716的动作能够依赖于比较的结果。例如，在一个实施例中，如果比较5714指示文档匹配，则显示5716 第一组动作，并且如果比较5714指示文档不匹配，则显示5716第二组动作。在另一个实施例中，显示5716的一组动作能够依赖于哪一个第二文档匹配第一文档。例如，能够将第二文档与预定的一组动作相关联，并且能够显示5716 预定的一组动作。根据各种各样的实施例，参考图58于此描述能够将其显示至用户的动作的例子。
选择性地，能够执行5718用户选择的动作。响应于在列表上的动作中的一个的用户选择的，能够执行用户选择的动作。根据各种各样的实施例，参考图58于此描述能够响应于用户选择来执行的动作的例子。
图58阐明根据本发明的一个实施例的，访问混合介质文档的用户接口。图58阐明在捕获装置106的显示器212上的、用户动作的显示。
在所阐明的例子中，在显示器212上显示菜单5801。菜单5801包括与所检索的文档5712相关联的文档信息5802。例如，文档信息5802能够包括所检索的文档5712的标题。如另一个例子这样，文档信息5802能够包括标题、页面、作者、出版日期、ISBN号、或涉及所检索5712的或所获取5710 的文档的任何其他信息或其部分。已为了阐明的目的来提供这些实施例，并其为不限制的。能够不背离本发明的范围，在菜单5801中显示的文档信息 5802的另一个例子将对本领域技术人员为明显的。
菜单5801还包括多个动作5804。在菜单5801上所显示的动作5804为响应于所获取5710和所检索的文档5712的比较5714。例如，如果获取5710 第一文档，则将第一组动作5804包括在菜单5801中。如果获取5712第二文档，则将第二组动作5804包括在菜单5801中。第二组动作5804能够包括在第一组动作5804中不包括的动作。
在菜单5801上所显示的动作5804还能够依赖于所获取5710的文档的、特别的区域或位置。例如，当获取文档的第一位置(或热点)时，显示确定的动作5804，并且当获取相同的文档的第二位置(或热点)时，显示其他动作5804。根据本发明的一个实施例，对于选择将在文档之内的多个热点显示至用户。在菜单5801中显示与用户选择的热点相关联的动作5804。
在所阐明的例子中，菜单5801包括用于“攫取”文档的动作5804A。响应于攫取动作的用户选择的，为了立即的或稍后的、文档的显示，来将所检索5712的文档的标识符存储在捕获装置106上或在另外的装置上。根据本发明的一个实施例，响应于攫取动作的用户选择的，将所检索5712的文档存储在捕获装置106上。为了未来的参考，存储文档的标识符或文档本身有益地使文档对于用户为可利用的。所检索的文档能够为诸如Microsoft Word、 Adobe PDF、Microsoft XML Paper Specification(XPS)、Postscript和PCL 等这样的许多形式中的一种。
例如，当在牙科医生的办公室阅读杂志的时候，用户可能偶遇感兴趣的文章。用户捕获文档，并选择动作来攫取文档。辨认文档，并且将文档的标识符存储在捕获装置上。在稍后的时间中的点处，对于用户的乐趣，文档为可利用的。
在所阐明的例子中，菜单5801包括用于制定预约的计划的动作5804B。例如，能够将文档(或在文档中的位置)与在特别的日期和时间出现的活动 (诸如医生的预约和音乐会等这样的)相关联。响应于制定计划的动作的用户选择的，将行程安排的信息存储在捕获装置106或另一个装置上。在一个实施例中，捕获装置106包括数字日历应用程序，并且响应于制定计划的动作的用户选择的，在数字日历上制定对于与文档相关联的日期和时间的预约的计划。在另一个实施例中，远程服务器存储预约数据，并且响应于制定计划的动作的用户选择的，在远程服务器上存储与文档相关联的预约数据。在再一个实施例中，另一个计算机装置包含数字日历应用程序，并且响应于制定计划的动作的用户选择的，在数字日历上制定对于与文档相关联的日期和时间的预约的计划。例如，能够在用户的Outlook日历上定制预约的计划。存储行程安排的信息有益地允许基于文档来制定计划的、方便的和有效率的预约。
例如，用户能够看见对于使他生出兴趣的电视节目的广告。用户捕获文档，并选择动作来基于文档以制定预约的计划。响应于用户选择的，将预约添加至包括时间、日期和事件的描述的用户的日历。根据各种各样的实施例，还能够将预约添加或代替地添加至其他的日历。例如，第一用户能够使用时间表的特征来将与文档相关联的事件“推荐”给第二用户，并且将预约添加至第二用户的日历。如另一个例子这样，用户能够使用时间表的特征来将事件添加至诸如数字视频录像机(DVR)或在线的汽车共享服务(诸如City CarShare或ZipCar这样的)这样的电子装置的日历。在电视广告的例子中，在用户的DVR上制定电视节目的录制的计划。在医生的预约的例子中，对于围绕医生的预约的时间窗，保留所共享的汽车。
能够以多种方式来获得用来制定预约的计划的预约日期。例如，能够将预约日期与所检索5712的文档相关联。作为打印文档的结果，能够由文档分析器模块326来确定预约日期。如另一个例子这样，能够通过在所获取5710 的文档上执行光学字符识别(OCR)来获取预约日期。能够从所辨认的字符来分析诸如描述、时间和日期这样的预约数据。在一个实现中，指定的实体识别从所辨认的字符来提取日期和时间。如再一个例子这样的，预约数据能够包括相关联的和/或所检索的数据与从用户输入的数据的结合。例如，能够将所检索的文档5712与预约的描述相关联，并且用户能够输入诸如时间和日期这样的、另外的预约数据。
在所阐明的例子中，菜单5801包括用于做出购买的动作5804C。例如，能够将文档(或在文档中的位置)与可利用于出售的商品或服务(诸如文档、介质文件、票和杂志订阅等这样的)相关联。响应于购买动作的用户选择的，下对商品或服务的订单。响应于购买动作的用户选择的，还能够向用户的帐户收费。在一个实施例中，响应于购买动作的用户选择的，对于交付来制定所购买的项目的计划。能够立即或在稍后的时间中的点处，将所购买的项目传递至捕获装置106或至另一个装置。例如，能够在便携式装置的下一个同步处，对于到有视频功能的便携式装置的传递来制定所购买的项目的计划。所购买的项目可以为文档本身的拷贝(电子的或物理的)、涉及文档的项目、或在文档的基础上所建议的项目。例如，所获得5710的文档能够为新的电视节目的查阅，并且响应于购买动作的选择的，能够购买节目的一段情节并使其可利用于下载到有视频功能的便携式装置上。响应于用户选择的，下对于商品或服务的订单有益地允许用户来方便地使用基于纸质的文档来进行购买。
还能够将购买动作用于商品和服务的付款。例如，所获得5710的文档能够为餐馆收据，并且响应于购买动作的选择的，将资金从用户的帐户转到餐馆或餐馆的代理人的帐户，因而将用户的债务支付至餐馆。
图59阐明根据本发明的一个实施例的，用于给介质文件加标签的方法。例如，将被加标签的介质文件能够为图像、音频、视频、文本、便携式文档和报告书等。例如，能够从在捕获装置106上的相机或麦克风，或从本地的或远程的位置的文件传递等来获得介质文件。
捕获5910为名称的列表。例如，能够从源文件310来捕获5910名称的列表。如另一个例子这样，能够从诸如Word文档、网页、Excel电子数据表格、PDF文件和纸质文档等这样的任何文档来捕获名称的列表。能够以多种方式来捕获名称的列表。根据一个实施例，由PD捕获模块318或文档分析器模块326响应于文档的打印来捕获5910名称的列表。根据另一个实施例，由事件捕获模块324响应于文档的查看、复制和编辑等来捕获5910名称的列表。根据再一个实施例，通过扫描和在文档上执行OCR来捕获5910名称的列表。
捕获名称的列表能够包括分析源文件310(或其他文档)，以便定位“指定的实体”或可以使多媒体注解接口增殖的、其他有趣的信息。例如，指定的实体为能够稍后将其应用于多媒体的标签。例如，能够在文档和(因而) 所捕获5910的名称的列表中探测标题、作者、时间或位置。
参考图60，阐明样本源文件310。在所阐明的例子中，示出包括对于“San Francisco Walking Tour”的议程的文档或网页。如所示的，源文件310包括能够捕获5910的、诸如数名、时间和位置等这样的多个名称。例如，响应于源文件310的打印或作为所述打印的部分，能够，例如，由PD捕获模块 318来捕获名称“San Francisco”，“City Hall”，“Rose Garden”，“McAuliff Park”，“Bayshore”和“Robin Williams”。如另一个例子这样，源文件310 能够为网页，并且响应于源文件310的查看，能够捕获时间“9am”、“10am”、 “noon”、“1pm”和“2pm”。能够以不背离本发明的范围，从诸如源文档 310这样的文档捕获的名称的另一个例子将对本领域的技术人员为明显的。
将名称的列表显示5912至用户。能够将名称的列表显示5912在诸如MMR 计算机112或捕获装置106这样的任何装置上。显示5912名称的列表的装置可以为或可以不为与捕获5910名称的列表的装置相同的装置。例如，根据本发明的一个实施例，在第一装置上捕获名称的列表5910，并将所述列表电子地传递到第二装置。第二装置将名称的列表显示5912至用户。
参考图60，在显示器212上显示菜单6001。菜单6001包括作为用户选项的多个名称6004。显示5912至用户的名称6004至少包括所捕获5910的名称的列表的子集。在所阐明的例子中，将来自文档310的所捕获5910的名称的名称“City Hall”，“Robin Williams”，“McAuliff Park”，“Rose Garden”和“Bayshore”呈现为用户选项。还能够从多种文档来捕获5910所显示5912的名称。根据本发明的一个实施例，所显示5912的名称的次序不同于以其捕获5910名称的次序。例如，能够基于以选择名称的频率(诸如将更通常选择的名称放在列表的顶部这样的)、在从其捕获5910名称的文档中的名称的显著性、和从其捕获5910名称的文档的重要性与显著性等，来重新排列所显示5912的名称。此外，在其中所捕获5910的名称比所显示5912的名称更多的情形下，能够使用相似的计量来确定应该显示5912哪些名称。
基于所捕获5910的、名称的列表来显示5912名称的列表有利地将与用户的活动相关的选项呈现至用户，例如，基于用户最近已打印或查看的文档。因而，呈现方便的和智能的用户接口。
菜单6001还能够包括标题6002。例如，标题6002能够包括将被加标签的介质文件的描述。标题6002能够指示时间和/或从其获取介质文件的源，和被应用于介质文件的、任何先前的标签。
用户选择在菜单6001上所显示5912的名称6004中的一个。响应于用户的选择的，将介质文件与用户选择的名称相关联5914。能够以多种方式来将介质文件与用户选择的名称相关联5914。例如，介质文件能够包括一个或多个元数据字段，并且能够将用户选择的名称存储在元数据字段中。如另一个例子这样，能够将用户选择的名称与介质文件分离地存储，并且指针或其他关联能够将用户选择的名称与介质文件相关联。如另一个例子这样，能够将用户选择的名称用作为介质文件的文件名。如再一个实施例这样，可以将用户选择的名称用作为将介质文件存储于其中的文件来名。已为了阐明的目的，给出这些例子，但不限于此。以不背离本发明的范围，用于将介质文件与用户选择的名称相关联的方法的其他实例将对本领域的技术人员为明显的。
参考图60，示出介质文件与用户选择的名称的关联。在所阐明的例子中，介质文件为将图像以图像数据6008的形式存储的图像文件6005。响应于用户选择的，将用户选择的名称(在这个例子中，“Rose Garden”)作为元数据 6006存储5914在图像文件6005中。将标签“Rose Garden”与介质文件相关联。有利地，用户选择的名称为可利用于介质文件的未来的组织、搜索、和/或显示的。
在一个实施例中，基于纸质文档的识别来检索MMR文档。获取纸质文档的表示，并将其与MMR文档的指纹比较。响应于纸质文档和虚拟的多媒体文档的比较的，将一组动作显示至用户。响应于用户的选择的，执行用户选择的动作。例如，能够为了稍后的查看，来检索并存储所辨认的文档(或其标识符)。如另一个例子这样，能够制定预约的计划。如再一个例子这样，能够购买产品。
在另一实施例中，将所捕获的名称的列表用以帮助用户来给介质文件加标签。例如，从文档捕获名称的列表。将名称的列表显示至用户。响应于用户的选择的，来将介质文件与用户选择的名称相关联。
在一个实施例中，基于纸质文档的识别来检索MMR文档。响应于纸质文档与虚拟的多媒体文档的比较的，来将一组动作显示至用户。响应于用户的选择的，来执行用户选择的动作。在另一个实施例中，将所捕获的名称的列表用以帮助用户来给介质文件加标签。
在下面描述另一个实施例。
广告的生成
图61A阐明使用根据本发明的MMR文档500和MMR系统100b的方法6100 的流程图。设计所述方法来给MMR用户110提供将动作与图像相关联的方式。
通过获取6102图像或图像的表示和动作，方法6100开始。在一个实施例中，配置来将所述动作与图像相关联。能够将图像包括在所打印的文档或网页中。图像能够包括对捕获装置106的摄像机232或相机234其为可见的、但对人类其为不可见的或非常微弱的、机器可读的标记。图像的例子包括商标和徽标的图像。图像能够以诸如TIFF、BMP、GIF和JPEG这样的许多的规范中的一个。动作的例子包括：(1)从文档事件数据库320(在一个特定实施例中，将文档事件数据库320(包括PD索引322)实现为如图34A中所示的数据库系统3400)、因特网或别处(如，将电影预告片下载至捕获装置106 或诸如iPod视频这样的、分离的视频显示装置)来检索信息；(2)将信息写入至由准备好接收系统的输出的MMR系统100b验证的位置；(3)查找信息 (如，引导本地/全局搜索)；以及(4)在诸如捕获装置106这样的客户机装置上显示信息，并引导与用户的交互会话(如，执行概览)。然而，将对本领域的技术人员为明显的是能够将图像与多个动作相关联。
在一个实施例中，由MMR用户110来创建图像，并稍后由MMR系统100b 来获取6102所述图像。用户能够使用由MMR服务提供者5310或由第三方软件提供者(如，来自Microsoft公司的Paint和来自Adobe公司的Photoshop) 提供的软件应用程序来创建图像。能够使用不同的方法来获取图像。获取图像的示例性方法包括下列各项：(1)通过经由PD捕获模块318来自动地捕获在MMR计算机112的操作系统之内的打印文档的布局，以获取图像；(2)通过自动地捕获在MMR计算机112的打印机驱动器316之内的打印文档的布局，以获取图像；(3)通过经由连接至，例如，MMR计算机112的、标准的文档扫描仪装置127来扫描纸质文档，以获取图像；(4)以包括在图2E中所示的捕获机制230的图像捕获装置106来获取图像；以及(5)通过自动地或手动地将为图像的表示的文件传递、上载或下载至MMR计算机112。在另一个实施例中，方法6100能够使用用户输入(诸如文本或图像这样的)来创建图像，以代替获取6102所述图像。能够使用相似于图像的那些方法的、不同的方法来获取6102动作。
例如，MMR用户110计划将为Coca-Cola公司的商标的Coca-Cola的徽标与访问Coca-Cola公司的官方网站(www.cocacola.com)相关联。由PD捕获模块318来获取徽标的打印表示。用户通过由MM 330的打印机驱动器产生的UI来将动作(访问www.cocacola.com)输入至MMR计算机112中。可替代地，用户使用文档扫描仪127或图像捕获装置106来扫描徽标的打印拷贝，并以与就图50A而言所描述的那个用户接口相似的用户接口(UI)来输入动作。
一旦执行获取步骤6102，方法6100就在图像上执行6104索引标定的操作。索引标定的操作允许相应的图像的电子表示和用于匹配所获取的图像的输入的、相关联的动作的识别。在步骤6104的一个实施例中，在两个步骤中执行索引标定。在第一个步骤中，基于图像内容的检索部件414执行在图像和已经存储在文档事件数据库320中的图像的表示之间的图像比较。如果部件414确定图像以高的置信水平至少匹配一个所存储的图像，则方法6100能够确定图像不是唯一的，通知MMR用户110所述确定，并结束方法6100。用户能够选择来更改图像并重启所述过程。
假设确定图像为充分地唯一的，执行索引标定的操作的第二个步骤，其将图像和相关联的动作添加至文档事件数据库320。在一个实现中，就图35 而言所描述的，来更新PD索引322(或等同地，MMR索引表3404)。能够添加至所述索引表的特征的例子包括下列各项：(1)在图像中的字符的x-y位置；(2)在图像中的单词的x-y位置；(3)一部分图像的x-y位置；(4)执行OCR成像操作，并且从而为字符和/或单词的x-y位置编索引；以及(5) 执行来自图像的特征提取，并且为特征的x-y位置编索引。特征提取的实例包括区域分割、颜色分析、边缘探测、面部探测、纹理分析、或用于在基于内容的检索算法中的特征提取的通常所使用的方法中的任何一个。索引标定的操作6104可以包括上面的、依赖于本发明的应用程序的索引标定的操作中的任何一个或其中的组群。文档事件数据库320将图像与将动作与图像相关联的索引标定的操作的结果一起，存储在MMR文档500的第一介质部分中，将动作存储在第二介质部分中。
继续上文的Coca Cola的例子，基于图像内容的检索部件414执行在 Coca·Cola徽标与存储在文档事件数据库320中的图像之间的图像比较。部件414确定徽标为唯一的。随后，PD捕获模块318更新用于徽标的PD索引 322(或等同地，MMR索引表模块3404或一些其他专用的模块更新索引)，并且如就图35而言所描述的，将动作与图像相关联。如果输入所扫描的、徽标的图像，则执行类似的一组步骤(如就图35而言所描述的)。在任何情形下，在数据库320中创建MMR文档500，而徽标的所成像(所打印的或所扫描的) 的表示为第一介质，并且动作为第二介质。
方法6100还获取6106文档。在这个步骤6106中，所获取的文档能够为全部文档或只是一部分文档。能够通过以一个或多个捕获装置106的捕获机制230扫描一部分文档来获取文档。正被获取的文档不需要以所打印的形式，能够将其电子地显示在视频显示装置(如，输出装置164)上。
继续上文的Coca Cola的例子，文档能够为在饮料容器上的标签。标签包括Coca·Cola徽标的图像。MMR用户110能够使用照相手机来取得标签的图像，由此获取徽标的图像。
一旦已执行获取步骤6106，方法就执行6108在文档图像与存储在数据库320中的图像之间的模式匹配，来确定文档图像是否包括数据库图像中的任何一个。在一个实施例中，由文档指纹匹配模块226来执行所述模式匹配步骤6108。因为文档图像可以包括多个存储在数据库320中的子图像，所以应该理解的是可以多次执行所述模式匹配步骤，对于在文档图像中的每一子图像一次，来确定是否将子图像中的任何一个包括在数据库中。在另一个实施例中，由基于图像内容的检索部件414来执行所述模式匹配步骤6108。如果相关联的置信水平超过预定的阈值，则确定文档图像或其子图像中的任何一个为在数据库中。
在另一个实施例中，方法执行在所获取的文档和存储在文档事件数据库 320中的文档之间的文档或模式匹配6108。这能够通过执行所获取的文档至存储在数据库320中的文档的文档指纹匹配来完成。
继续上文的Coca Cola的例子，方法执行在饮料标签与Coca·Cola徽标之间的模式匹配，并确定标签包含所述徽标。
最终，方法6100基于步骤6108的结果并选择性地基于用户输入，来执行6110在获取步骤6102中所获取的动作。如果步骤6108确定文档包括图像，则方法6100执行6110动作。应该理解的是模式匹配步骤6108可以确定文档包括存储在数据库320中的其他图像。为此，方法6100可以执行多个动作，其中将每一个都与包括在文档中的图像相关联。一旦已进行步骤6110，方法 6100就为完成的并结束。
继续上文的Coca Cola的例子，因为步骤6108确定文档包括Coca·Cola 徽标，所以方法6100执行6110相关联的动作——访问Coca-Cola公司的官方网站。结果，照相手机通过因特网从网站www.cocacola.com来检索网页。
使用混合介质实境文档的合作注解
图61B阐明使用根据本发明的MMR文档500和MMR系统100b的方法6120 的流程图。设计方法6120来给MMR用户110提供合作地添加对其他MMR用户为容易利用的注解的方式。
通过获取6122第一文档或第一文档的表示，方法6120开始。第一文档为MMR用户110打算将注解添加至的作品。由于能够使用与上文就图61A而言所描述的获取步骤6102的那些方法相似的方法来获取第一文档，因此此处不重复描述。例如，书《Harry Potter and Sorcerer’s Stone》的出版者能够使用文档扫描仪127来扫描该书，以获取6122书的打印表示。
一旦执行获取步骤6122，方法6120就在第一文档上执行6124索引标定的操作。索引标定的操作6124允许相应的第一文档的电子表示和来自“匹配” 第一文档(使用就图6而言进一步描述的文档指纹匹配模块226)或其部分的输入的、相关联的第二介质类型的识别。在所述步骤的一个实施例中，由产生PD索引322的PD捕获模块318来执行文档索引标定的操作。等同地，能够如就图35而言所描述的这样来执行索引标定的操作。索引标定的操作 6124可以包括在参考图61A的索引标定步骤6104中所描述的、依赖于本发明的应用程序的索引标定的操作中的任何一个。系统将在MMR文档500的第一介质部分中的第一文档与索引标定步骤6124的结果(如，PD索引322或等同地MMR索引表3404)一起，存储在文档事件数据库320中。
在一个实施例中，系统100b确定是否已将第一文档的不同版本存储在数据库320中。例如，第一文档为平装本的拷贝，而系统100b可能已先前地获取相同的文档的精装本的拷贝。可替代地，数据库320可能具有一个或多个第一文档的不同版本。当系统100b确定将第一文档的不同版本存储在数据库 320中时，合作文档查阅部件422能够创建在版本之间的中间链路层。中间链路层将不同版本的相同的章节相关联在一起。当MMR用户110正访问第一文档的一个版本时，能够动态地创建中间链路层。可替代地，当获取不同的版本时，能够创建所述中间链路层。为此，当MMR用户110访问第一文档的一个版本的章节(如，《Harry Potter and Sorcerer’s Stone》的平装本的拷贝的前言的第一段)时，部件422能够识别在其他版本中的、相应的章节 (如，《Harry Potter and Sorcerer’s Stone》的精装本的拷贝的前言的第一段)。
继续上文的Harry Potter的例子，PD捕获模块318产生对于平装本版本的PD索引322。等同地，能够如就图35而言所描述的这样来执行索引标定的操作。数据库320将书籍的打印表示与PD索引322一起存储在MMR文档 500的第一介质部分中。假设也将与精装本《Harry Potter and Sorcerer’s Stone》相关联的MMR文档500存储在数据库320中，将在两个版本之间创建中间链路层，并将所述中间链路层存储在数据库320中。
方法6120获取6126相关的数据，并将所述数据与第一文档相关联。相关的数据能够为有关第一文档或其一部分的注释或注解。能够由一个或多个 MMR用户110来做相关的数据。在一个实施例中，相关的数据为在因特网上可访问的内容。例如，来自为Harry Potter所指派的BLOG的实体能够为相关数据的部分。由用户在讨论所述书籍的社区网站中所提供的内容也能够为相关数据的部分。例如，MMR用户110感到有关《Harry Potter and Sorcerer’s Stone》的前言的注释为有趣的。所述用户能够通过创建包括前言的热点506 并将注释与热点506相关联，来关联所述书的前言和注释。可替代地，用户能够输入有关在所述书籍中的角色的他的注释，并将所述输入与所述书籍的、有关的章节相关联。用户能够使用文档创作部件442来创建关联。可替代地，用户能够使用多媒体注解软件410来创建注解。能够将这些注解和相关的数据存储在为了第一文档而创建的MMR文档500中。注意到的是能够将数据的多个源与第一文档的、相同的章节相关联，并且多个MMR用户110能够创建注解。当在数据库320中有第一文档的多个版本时，MMR用户110能够选择来做到版本中的任何一个的关联。
一旦执行获取步骤6126，方法6120就获取6128第二文档。在这个步骤 6128中，所获取的第二文档能够为全部文档或只是第二文档的一部分。由于能够使用与上文参考图61A所描述的获取步骤6106的那些方法相似的方法来获取第二文档，因此此处不重复所述描述。例如，对知道其他人的有关书籍《Harry Potter and Sorcerer’s Stone》的前言的意见有兴趣的MMR用户能够将他的照相手机的相机指向所述书籍，并取得前言的图片。结果，照相手机获取包含前言的打印表示的一部分的图像。
一旦已执行步骤6128，方法6120就在第一文档和第二文档之间执行6130 文档或模式匹配。由于能够以与上文参考图61A来所描述的模式匹配步骤 6108相似的方式来进行所述步骤，因此此处不重复所述描述。方法6120还识别与所获取的第二文档的部分匹配的、第一文档的章节。
继续《Harry Potter and Sorcerer’s Stone》的例子，文档指纹匹配模块226产生对于所获取的第二文档的部分的特征描述，对于匹配文档而在数据库320中查询(在图34A中提供其特定的实现)，并确定第一文档与第二文档匹配。模块226进一步确定所获取的第二文档的部分为书籍的前言。
最终，方法6120检索6132存储在基于步骤6130的结果或选择性地基于用户输入而匹配第二文档的MMR文档500的第二介质部分中的数据。在第一实施例中，方法6120识别在步骤6128中所获取的第一文档的章节中的热点，并检索与所识别的热点相关联的第二介质类型的数据。基于用户输入，方法 6120能够显示与热点中的一个或多个相关联的数据。当有第二文档的多个版本时，合作文档查阅部件422能够检索与每一版本的热点相关联的数据，而所述版本相应于所获取的第二文档的部分，并使热点准备好让用户来查阅。例如，方法6120检索与在《Harry Potter and Sorcerer’s Stone》的平装本拷贝的前言和精装本拷贝的前言中的热点相关联的注解。方法6120能够提示用户他所感兴趣的是哪一热点，并从而显示注解。
在另一个实施例中，方法6120基于步骤6130的结果来执行动作，以代替检索存储在第二介质部分中的数据。例如，方法6120能够运行浏览器来访问包含与在步骤6128中所获取的第二文档的部分相关的注释的网页。可替代地，方法6120能够运行使能MMR用户110来输入有关部分的、他的注释的应用程序，将注释关联到所述部分，并将注释存储在MMR文档500的第二介质部分中。一旦已进行步骤6132，方法6120就为完成的并结束。
媒介链接
图6C阐明使用根据本发明的MMR文档500和MMR系统100b的方法6140 的流程图。设计方法6140来给MMR用户110提供工具来交叉引用相关的文档。
通过获取6142第一文档(或第一文档的表示)和第二文档(或第二文档的表示)，方法6140开始。第一和第二文档彼此相关。例如，第一文档能够为由William Shakespeare所写的《Hamlet》，而第二文档能够为是Hamlet 的删节版的《Cliff Notes：Hamlet Book Summary，Monarch Notes-Hamlet》，或有关Hamlet的测验。
由于能够使用与上文就图61A而言所描述的获取步骤6102的那些方法相似的方法来获取两个文档，因此此处不重复所述描述。例如，书籍《Cliff Notes：Hamlet Book Summary》的出版者能够使用文档扫描仪127来扫描所述书籍《Hamlet》和相应的《Cliff Notes》，以获取6142两个文档的打印表示。
一旦执行获取步骤6142，方法6140就在这两个文档上执行6144索引标定的操作。索引标定的操作允许相应的文档的电子表示和用于匹配文档中的每一个或其部分的输入的、相关联的第二介质类型的识别。索引标定操作6144 可以包括在参考图61A的、依赖于本发明的应用程序的索引标定步骤6104中所描述的索引标定的操作中的任何一个。索引标定的操作6144能够在两个文档的、相关的章节中创建热点506，并将热点506与到在其他文档中的、相应的章节的参考相关联。
例如，方法6140能够将《Hamlet》的第一幕：第四场与到在《Cliff Notes》中的、相应的场的参考相关联，并将在MMR文档的第二介质部分中的参考与《Hamlet》的打印表示一起保存。方法6140还能够创建相应的、从《Cliff Notes》回到《Hamlet》的参考。可替代地，方法6140能够将在《Hamlet》中的角色(如，Claudius)中的每一个呈现与相应的、在《Cliff Notes》中的角色分析相关联。能够自动地或以人的干涉来执行索引标定操作6144。例如，《Cliff Notes》的出版公司能够提供在《Hamlet》和《Cliff Notes》之间的交叉引用的信息。可替代地，方法6140能够使用软件应用程序来自动地产生两个文档的交叉引用的信息。然而，对本领域的技术人员为明显的是，能够有彼此关联的多个文档，例如，测验书、教师的指南、和有关相同的主旨的课本。
在另一个实施例中，索引标定步骤6144能够创建在相同的文档之内的参考。例如，能够将到其中首先引入角色的章节的参考与在相同的文档中的角色的每一随后的呈现相关联。能够以在存储在数据库3400中的文档文本上的、对于角色名字的文本搜索，和在实现交叉引用的数据库中的链接的插入来实现这个。
一旦执行索引标定步骤6144，方法6140就获取6146第三文档。在这个步骤6146中，所获取的第三文档能够为全部文档或只是第三文档的一部分。由于能够使用与上文参考图61A所描述的获取步骤6106的那些方法相似的方法，来获取第三文档，因此此处不重复所述描述。例如，由《Hamlet》的章节所迷惑的并愿意知道《Cliff Notes》或《Monarch Notes》如何解释所述章节的MMR用户110能够将他的照相手机的相机指向所述章节，并取得它的图片。结果，照相手机获取包含章节的打印表示的图像。
一旦已执行步骤6146，方法6140就在第三文档和在步骤6142中所获取的文档之间执行6148文档或模式匹配。由于能够以上文参考图61A所描述的模式匹配步骤6108相似的方式来进行这个步骤，因此此处不重复所述描述。假设定位匹配文档，方法6140还识别与第三文档的所获取的部分匹配的文档的章节。
继续《Hamlet》的例子，文档指纹匹配模块226产生用于《Hamlet》的所获取的部分的特征表示，在用于匹配文档的文档事件数据库320中查询，并确定第三文档为由Washington Square Press出版的2003年版的William Shakespeare的《Hamlet》。模块226进一步确定所获取的第三文档的部分为其中Hamlet与他父亲的幽灵相遇的第一幕：第四场中的部分。
最终，基于步骤6148的结果和选择性地基于用户输入，方法6140检索 6150存储在匹配文档的MMR文档500的第二介质部分中的交叉引用的信息。在一个实施例中，方法6140识别在步骤6146中所获取的匹配文档的部分中的热点，并获取与热点相关联的第二介质类型的数据。基于用户输入，方法 6140能够显示与热点中的一个或多个相关联的数据。例如，方法6140检索与其中Hamlet遇见他父亲的幽灵的所述场的热点相关联的参考信息。方法 6140能够提示用户他所感兴趣的主旨(如，历史的背景、所述场的暗示、相关的场、或专家注释)，并基于用户的输入来显示到《Cliff Notes》和其他相关的文档的参考。一旦已进行步骤6150，方法6140就为完成的并结束。
在另一个实施例中，方法6140能够检索参考引用的文本，并将文本显示至用户，以代替检索存储在第二介质部分中的参考。
动态的文档创作
图61D阐明使用根据本发明的MMR文档500和MMR系统100b的方法6160 的流程图。设计方法6160来在捕获内容的同时，给MMR用户110提供工具来将动态地创建多媒体文档。
通过创建6162第一文档，方法6160开始。第一文档为MMR用户110打算添加至仍将被捕获的内容中的文档。第一文档能够为诸如PowerPoint文档、Word文档和PDF文档这样的任何格式。能够在MMR计算机112或网络介质服务器114中创建第一文档。能够稍后将第一文档传递至捕获装置106。可替代地，MMR用户110能够在捕获装置106中创建第一文档。
例如，MMR用户110计划来参加会议，创建有关在参加期间的会议的 PowerPoint文档，并且然后使用PowerPoint文档来做报告。在出发前往会议之前，MMR用户110在MMR计算机112上创建PowerPoint文档。文档为空的或只包含会议的、简短的介绍。然后，MMR用户110将文档通过有线的或无线的设备压入到捕获装置106的存储装置216。
然后，方法6160在第二文档或第二文档的表示上执行6164获取操作。将第二文档打算来帮助用户以创建第一文档。例如，第二文档能够为对于会议的行程安排，和对于公路旅行的计划等。由于能够使用与上文就图61A而言所描述的获取步骤6102的那些方法相似的方法来获取第二文档，因此此处不重复所述描述。例如，MMR用户110能够使用打印机116来打印包含会议行程安排的网页。PD捕获模块318捕获在MMR计算机112的操作系统之内的会议行程安排的文本布局。
一旦执行获取步骤6164，方法6160就能够选择性地处理第二文档来识别指定的实体。(注释：指定的实体识别为熟知的技术。)例如，文档分析器模块326能够分析第二文档，来定位诸如讲座标题(如，“An Inconvenient Truth”)、主讲人名字(如，“Al Gore”)、和位置(如，“Center Building”) 这样的、嵌入的指定的实体。能够由用户稍后选择指定的实体来描述所捕获的内容。文档分析器模块326还能够分析出诸如对于在行程安排上的每一事件的时间和持续时间这样的、其他相关的信息。能够将所定位的实体名称存储在捕获装置106的存储装置216中。
然后，方法6160能够在所获取的第二文档上执行6166索引标定的操作。索引标定的操作允许相应的第二文档的电子表示，和用于匹配所获取的第二文档或其部分的输入的、相关联的第二介质类型的识别。索引标定的操作6166 能够包括在参考图61A的索引标定步骤6104中所描述的、依赖于本发明的应用程序的索引标定操作中的任何一个。
一旦执行索引标定步骤6166，方法6160就获取6168内容。能够由捕获装置106的捕获机制230中的任何一个来获取所述内容。例如，在一直挺到会议的一个讲座结束的同时，MMR用户能够使用摄像机232来取得演讲人的视频剪辑，使用视屏录像机236来记录讲座的一部分，或使用数字按键键盘 214来输入他的有关讲座的注释。
一旦执行获取步骤6168，方法6160就给在步骤6168中所获取的内容加标签，并通过基于第二文档来添加所加标签的内容来更改6170第一文档。例如，在用户捕获讲座的视频剪辑之后，捕获装置能够提示用户来从实体名称 (其为从第二文档更早地定位的)选择。用户能够选择诸如“An Inconvenient Truth”和“Al Gore”这样的短语。结果，将把视频剪辑与注释“An Inconvenient Truth，Al Gore”一起插入到先前所创建的PowerPoint文档中。在一个实施例中，方法6160能够使用处理器210的机器时间和在第二文档中列出的时间来确定当前的事件。例如，假设第二文档列出有关宇宙的起源的讲座在上午 10点开始并在上午11点结束，并且用户在上午10点30分取得音频剪辑，方法6160能够自动地给音频剪辑加“audio clip of the lecture the origin of the universe”的标签。可替代地，用户能够使用数字按键键盘214来将标签和注解打到所捕获的内容，或使用录音机236来记录他的有关内容的口头注释。
在另一个实施例中，方法6160还能够以与上文参考图61A所描述的获取步骤6106的那些方式相似的方式来获取第二文档的一部分。例如，MMR用户 110能够将他的照相手机的相机指向所打印的会议行程安排的章节，并取得它的图片。结果，照相手机获取包含会议行程安排的章节的、打印表示的图像。然后，方法6160能够在所获取的打印表示与第二文档之间执行模式匹配 (使用文档指纹匹配模块226)，来确定第二文档的所述章节的内容，并使用所述章节的内容来给所捕获的内容加标签。
最终，方法6160使所更改的文档对MMR用户110为可利用的。然后，用户能够以或不以进一步的编辑来使用文档。例如，在会议之后，用户能够使表示不以进一步的编辑来使用所更改的PowerPoint文档。为此，当用户正获取用于文档的内容时，至少部分地、动态地创作PowerPoint文档。
在另一个实施例中，实时通知部件424能够将所获取的内容和注释实时地发布到网页(如，BLOG)，以代替动态地创建文档。
在本发明的、分离的实施例中，方法6160不需要创建6162第一文档，而所述方法也不需要获取6168数据或更改6170第一文档。代替地，方法6160 获取第二文档并为其编索引，并且然后，获取第二文档的一部分，执行文档指纹匹配来确定所获取的部分的内容，并由用户来存储用于进一步的存储的内容。例如，从事于有关Hamlet的短文的MMR用户110能够扫描在相同的领域中的书籍。当用户稍后阅读所述书籍时，无论何时他感到某一段为有用的，他都能够使用他的照相手机来取得所述章节的图片。照相手机能够执行模式匹配来确定在所述书籍中的所述章节的位置，并检索所述章节的内容。当他完成阅读所述书籍时，他能够使用文本的章节来写他自己的短文。
本发明的一个或多个实施例的至少一个方面提供方法来产生哪些用户的唯一的图像能够关联动作。方法获取图像，确定图像为是唯一的，并产生用于图像的索引。在为图像编索引之后，方法获取文档并在文档与所编索引的图像之间执行模式匹配。如果方法确定所获取的文档的一部分匹配所编索引的图像，则它执行相关联的动作。
本发明的一个或多个实施例的至少一个方面提供方法来使合作注解便利。首先，方法获取文档并为其编索引。用户合作地提供与文档的部分相关联的注解信息。然后，方法获取文档的一部分，识别所获取的部分，并提供与所述部分相关联的注解信息。
本发明的一个或多个实施例的至少一个方面提供方法来提供在文档之间的链接。方法获取两个相关联的文档，并将相关的部分关联在一起。当方法获取文档中的一个的一部分时，它识别所获取的部分，并提供其他文档的相关部分。
本发明的一个或多个实施例的至少一个方面提供方法来动态地创作文档。方法获取文档，识别文档的内容，并为所获取的文档编索引。方法稍后获取数据，使用文档的内容来注解所获取的数据，并使用所注解的数据来创作文档。
在一个特定实施例中，MMR系统提供方法来关联相关的文档。方法获取两个相关联的文档，并将相关的部分关联在一起。当方法获取文档中的一个的一部分时，它识别所获取的部分，并提供其他文档的相关部分。
在下面描述另一个实施例
地理定位应用程序
图62阐明使用根据本发明的MMR文档500和MMR系统100b的方法6200 的流程图。
通过获取6210文档或文档的表示，方法6200开始。文档包含一些地理位置信息。文档的例子包括下列各项：(1)HTML文件(如，Google地图的网页)；(2)包含位置的地址或位置的名称(如，包含对于国家历史博物馆的行车路线的PDF文档)；和(3)有关特定的地理区域的打印文档(如，由Lonely Planet出版公司出版的罗马城市指南)。
能够使用不同的方法来获取文档。获取文档的示例性方法包括下列各项： (1)通过经由PD捕获模块318(或等同地就图37至47而言更早地描述的 MMR打印体系结构)来自动地捕获在MMR计算机112的操作系统内的打印文档的文本布局，以获取文档；(2)通过自动地捕获在MMR计算机112的打印机驱动器316内的打印文档的文本布局，来获取文档；(3)通过经由将其连接至，例如，MMR计算机112的、标准的文档扫描仪装置127来扫描纸质文档，来获取文档；以及(4)通过自动地或手动地将为打印文档的表示的文件传递、上载或下载至MMR计算机112，来获取文档。尽管已将获取步骤描述为获取打印文档中的大多数或全部，还应该理解的是能够只对打印文档的最小的部分，来执行获取步骤6210。此外，尽管就在所述步骤中捕获单个文档而言来描述方法，本领域的技术人员还将认识到能够执行所述步骤，以获取多个文档并创建文档的库。
例如，MMR用户110计划来在餐馆中吃饭，并使用MMR计算机112和用户打印机116来打印包含餐馆的菜单的HTML文件。PD捕获模块318获取6210 由获取打印菜单的文本布局的HTML文件的打印表示。
一旦执行获取步骤6210，方法6200在文档上执行6212索引标定操作。索引标定操作允许相应的文档的电子表示和用于匹配所获取的第一文档或其部分的输入的、相关联的第二介质类型的识别。在所述步骤的一个实施例中，由产生PD索引322的PD捕获模块318来执行文档索引标定操作。示例性索引标定操作包括下列各项：(1)给打印文档的字符的x-y位置编索引；(2) 给打印文档的单词的x-y位置编索引；(3)给在打印文档中的图像或图像的部分的x-y位置编索引；(4)执行OCR图像化操作，并且从而给字符和/或单词的x-y位置编索引；(4)执行来自所呈现的页面的图像的特征提取，并且给特征的x-y位置编索引；以及(5)模拟在页面的符号版本上的特征提取，并且给特征的x-y位置编索引。索引标定操作6212可以包括依赖于本发明的应用程序的、上文的索引标定操作及其上文的索引标定操作的组群中的任何一个。文档事件数据库320将文档(或文档的表示)与索引标定操作的结果一同存储。
继续餐馆菜单的例子，当打印包含菜单的HTML文件时，PD捕获模块318 在HTML文件的打印表示上执行6212索引标定操作，并产生用于打印表示的 PD索引322。将菜单的打印表示和PD索引322两者存储在文档事件数据库 320中。
一旦执行获取步骤6210，方法6200就在文档上执行6214提取操作，以识别相关联的地理位置。在提取步骤6214的一个实施例中，文档分析器模块 326分析文档，以定位所嵌入的地理相关的信息，例如表示，如Hallidie Building这样的，位置的地址和实体名称。地址不需要为以邮寄地址的形式，并且其能够为交叉路段或仅仅为城市名称。然后，文档分析器模块326能够将实体名称识别过程应用于所定位的实体名称，来确定实体的地址，或纬度和经度坐标。文档分析器模块326能够使用商业数据库，例如由Google Earth 使用的那个，来引导实体名称识别过程。
然后，能够将地理相关的信息变换成地理位置。例如，能够使用地理数据库，例如由Google Earth使用的那个，来将地址和位置的名称变换成它们的相应的纬度和经度坐标。然后，文档分析器模块326能够将地理位置传输至MMR用户110的捕获装置106。能够将地理位置存储在捕获装置106的存储装置216中。
在提取步骤的另一个实施例中，能够由MMR用户110来提供地理位置。例如，当由MMR系统100b来处理如下地理位置时，Lonely Planet Publications能够提供包括在其旅行的书籍中的地方和地图的地址和/或纬度和经度坐标的地理位置。Lonely Planet Publications能够使用文档创作部件442，来创建一个用于旅行的书籍中的每一个的MMR文档500，创建对于在旅行的书籍中的地方和地图的热点506，在MMR文档的第二介质部分中添加地理位置信息，并将地理位置与相应的热点506相关联。当MMR用户110 将捕获装置106指向旅行的书籍的页面时，文档指纹匹配模块226执行模式匹配，识别与在所述页面上的热点506一起的、旅行的书籍的MMR文档500，由此提取由Lonely Planet Publications提供的、相关联的地理位置。文档指纹匹配模块226还能够将地理位置信息传输至捕获装置106。
在提取步骤的再一个实施例中，能够在文档的元数据中提供地理位置。例如，在HTML文件中，能够在诸如跨越标签这样的HTML标签中提供地理位置信息。有属性“EXECUTE_WHEN_PRINTED”的跨越标签能够指向至包含命令和参数的引证字符串。当打印包含这样的跨越标签的文档时，不必在打印文档上显示标签。然而，由文档分析器模块326来分析命令和它的参数(如，由有属性“EXECUTE_WHEN_PRINTED”的跨越标签来表示的)，并将其存储在 HTML文件的MMR文档的第二介质部分中，而所述命令和参数与打印文档的、加标签的部分相关联。位置敏感的标签指定对于相关联的部分的地理位置信息，并能够选择性地提供能够基于捕获装置106的位置来触发的动作。
例如，下列各项为没有位置敏感的标签的HTML文件的内容：

The Corner Restaurant at Main and Cherry
Has a special habanero burrito.

在插入位置敏感的标签之后，HTML文件的内容能够变成：

    span.send_to_phone_when_printed{color:#ff0000}

TheEXECUTE_WHEN_PRINTED＝”SEND_TO_PHONE COMMAND＝PROVIDE_GUIDANCE”
LAT＝24:36:21 LONG＝56:45:06 THRESH＝1km OUTPUT＝audio”>Corner
Restaurantat Main and Cherry
Has a special habanero burrito.

文档分析器模块326能够从文档提取命令(“SEND_TO_PHONE”)和将被发送的内容(“COMMAND＝PROVIDE_GUIDANCE LAT＝24:36:21 LONG＝56:45:06 THRESH＝1km OUTPUT＝audio”)。文档分析器模块326还能够将内容传输至MMR 用户110的捕获装置106。在所述情形下，当用户为在离餐馆1公里内的时，内容为将音频指引调用至Corner餐馆的、位置敏感的标签。
本领域技术人员将注意到在HTML标签中所提供的命令具有不同于如方法6200中所描述的地理位置应用程序的应用程序。例如，能够通过添加在 HTML标签(或在文档中的别处)中指定的预约，来配置命令以更新用户的日历。命令还能够以联系人信息来更新联系人管理器，将布告(如，电子邮件消息和/或语音邮件)发送至用户或所标明的人员(如，相关的实体的文档分发管理器)，而所述用户或所标明的人员通告已打印文档，并应该将其撕碎。
继续餐馆菜单的例子，文档分析器模块326从在HTML文件中的跨越标签提取地理位置信息，并将信息传输至MMR用户110的照相手机。选择性地，文档分析器模块326还将菜单的图像表示传输至照相手机。在可替代的实现中，将由就图37至47而言更早地描述的MMR打印体系结构来提取跨越标签，将其保存在数据库3750(等同地MMR数据库34A)中，并响应于打印文档，由无意识上载部件446来将其传输至捕获装置106。
一旦执行提取步骤6214，方法6200就执行6216识别操作，来确定捕获装置106的地理位置。如在图2E中所描述的，捕获装置106的GPS装置242 能够依靠三角测量来实时地确定捕获装置106的地理位置。就图1B的142而言来描述确定地理位置的、可替代的方法，并且在捕获装置142上所述方法不要求GPS装置。
继续餐馆菜单的例子，有他的照相手机和所打印的菜单的MMR用户110 开车至餐馆。当MMR用户110接近餐馆时，照相手机的GPS装置242(或确定地理位置的、可替代的方法)实时地识别电话的位置。注意到，因为照相手机具有更早地从文档分析器模块326接收的、菜单的图像表示的拷贝，所以MMR用户110不需要拿来所打印的菜单。
最终，方法6200基于所提取的地理位置和捕获装置106的地理位置，并选择性地基于用户输入，来执行6218动作。在一个实施例中，方法6200查找与所提取的地理位置相关联的动作，如例如，将其与相关联的地理位置一起存储在捕获装置106的存储装置216中。能够由文档分析器模块326，来将动作与地理位置一起传输至捕获装置106。可替代地，动作能够为预定的动作。预定的动作的例子包括：(1)将方向信息提供至相关联的地理位置； (2)从文档事件数据库320、因特网、或别处来检索信息；以及(3)提取与地理位置相关联的动作。一旦已进行步骤6218，方法6200就为完成的并结束。
在一个实施例中，方法6200通过将所提取的地理位置传输至有路段导航能力的第三方软件模块228，来执行6218动作。然后，第三方软件模块228 能够基于由GPS装置242所提供的位置数据，来将MMR用户110指引至所提取的地理位置。可替代地，捕获装置106能够通过无线通信链接218，在与 Wi-Fi技术134或技术136的结合中，或由到外部装置的有线连接，来将所提取的地理位置传输至外部装置(如，在MMR用户的汽车中的GPS系统)。
当MMR用户110在邻近时，捕获装置106能够利用先前所使用的地理位置，并提示MMR用户110。可替代地，假设MMR用户先前使用MMR导航服务来访问地铁餐馆，即使先前所访问的地铁餐馆不在邻近地铁餐馆的位置信息中的，捕获装置106也能够基于用户的位置，来给用户提供所述邻近地铁餐馆的位置信息。当有多个所提取的地理位置为可应用的时，捕获装置106能够通过显示器212来提示MMR用户110，以选择一个。
在另一个实施例中，方法6200通过在捕获装置106的显示器212中将勉强瞄准的广告提供至MMR用户110，来执行6218动作。例如，方法6200能够提供对于地理上位于所提取的地理位置附近的商业的广告，将所提供的服务和产品的感觉给到MMR用户110。可替代地，方法6200能够提供对于定位于所提取的地理位置和MMR用户106的当前位置之间的商业的广告。
方法6200能够进一步定制将通过MMR用户110的偏好来显示的广告。方法6200能够通过他先前打印的文档来确定MMR用户110的偏好。方法6200 能够从文档事件数据库320检索这些文档，并处理它们来识别文档的主旨 (如，文档的关键词和主题)。例如，MMR用户110打印列出在San Francisco 区域中的、几个有历史意义的地方的旅游地图。方法6200将显示有历史意义的餐馆的广告，以代替显示对于附近的、常规的餐馆的广告。所述广告还能够包括计时信息(如，电影院的时间表)和促销信息(如，电子优惠券)。能够由手机服务提供者718来将所述广告通过本地超微型基站或通过广告公司 740提供至捕获装置106。
在另一个实施例中，传输至捕获装置106的地理位置信息包括代表地理位置的实体名称。例如，MMR用户110打印包括黄石国家公园(Yellow Stone)、金门大桥(Golden Gate)和大峡谷(Grand Canyon)的旅程时间表。除三个地方的纬度和经度坐标之外，文档分析器模块326还将相关联的实体名称 (“Yellow Stone”、“Golden Gate”，和“Grand Canyon”)传输至捕获装置 106。然后，能够使用实体名称来注解在这些地方中所捕获的数据。例如，用户分别使用捕获装置106的相机234、录音器236、和摄像机232，来照几张大峡谷的相片，记录在黄石国家公园中的狼嚎，并在金门大桥上捕获San Francisco市区的视频。因为捕获装置106能够通过GPS装置242(或确定可替代的、地理位置的方法)来确定它的实时位置，所以捕获装置106能够确定相片是在大峡谷照的，音频剪辑是在黄石国家公园录的，而视频剪辑是在金门大桥上摄的，并从而将其注解并/或将其命名。当捕获相片、音频/视频剪辑时，捕获装置106还能够以捕获装置106的地理位置，来注解所述相片、音频/视频剪辑，并使用所注解的地理位置信息来将它们映射至地理应用程序 (如，Google Earth)。
继续餐馆菜单的例子，照相手机使用音频指引，来将MMR用户110引导至餐馆。照相手机还能够显示对于附近的餐馆的广告。
本发明的一个或多个实施例的至少一个方面提供方法，来给用户提供涉及用户的位置的信息。所述方法获取文档，从文档提取位置相关的信息，识别用户的位置，并基于所识别的位置和所提取的信息来将信息提供至用户。
在一个特定实施例中，MMR系统给用户提供涉及用户的位置的信息。系统获取文档，从文档提取位置相关的信息，识别用户的位置，并基于所识别的位置和所提取的信息来将信息提供至用户。
在下面描述另一个实施例。
具有MMR信息装置的MMR系统
图63阐明包括没有光学捕获的MMR信息装置6301的MMR系统6300的实施例的功能框图。图64阐明在图63的MMR系统的MMR信息装置上的、对于 MMR文档500的菜单的用户接口。图65阐明在MMR信息装置6301上所显示的MMR文档500和热点信息的用户接口。
在所述实施例中，用户没有有光学捕获和模式识别的捕获装置106。代替地，MMR信息装置6301能够将用户引导至在文档中的热点，并将热点信息提供至用户。在可替代的实施例中，MMR信息装置6301存储并显示MMR文档 500和在MMR文档500中的热点。MMR信息装置6301能够以与上文所描述的捕获装置106这样相似的方式，来与MMR系统100通信。
MMR信息装置6301能够存储包括MMR文档500的文本和图片的MMR信息、在MMR文档500之内的热点标识符、和MMR文档500的热点信息。例如，热点标识符能够为图标或链接。用户使用在MMR信息装置6301上的用户接口，来选择在文档中的热点。响应于用户的选择，MMR信息装置6301将如文本、图像、音频或视频这样的热点信息提供至用户。例如，用户能够查看图64的用户接口，并选择所题名为“Prime Minister Koizumi Visits Graceland” 的文章。响应于用户的选择，MMR信息装置6301能够显示视频或文本，或者播放首相到Graceland的访问的音频。
MMR信息装置6301包括通过网络128，从网络介质服务器114或MMR介质存储器162下载MMR信息和热点信息的系统接口6310。MMR信息能够包括文本、图像、音频、或视频，或其任何结合，并能够为以播客的形式的。热点信息能够提供用于购买涉及热点的产品或服务的信息。能够将MMR信息和热点信息格式化为MMR数据库320。
对于使用用户接口6311的用户检索，MMR信息装置6301将MMR信息和热点信息贮藏在存储器6313中。在一个实施例中，MMR信息装置6301下载对于用户预定的商品目录、杂志、报纸和期刊的MMR信息和热点信息。用户能够在MMR信息装置6301上或通过MMR计算机l12，来选择对于下载的信息。 MMR信息装置6301能够在用户选择信息的时候下载所述信息，或能够在稍后的时间，例如如果将MMR信息装置6301与MMR计算机112对接，下载信息。
MMR信息装置6301包括响应于相应于热点的菜单项的用户选择，来显示 MMR文档500的可选部分的菜单和热点信息的文本的显示器6312。在图64中所示的一个实施例中，菜单包括在包括热点的报纸中的文章。可选的部分可以包括MMR文档500的部分的、全部的或部分的文本，并可以包括在这些部分中的热点的指示符。图65阐明显示在MMR文档中的文章的全部的文本和热点指示符6501的用户接口，而所述热点指示符可以为与在文档中的热点506 (见图5)相似的。用户可以选择热点，来检索相关联的热点信息。其涉及在房屋参观上的段节的、选择上面的热点促使MMR信息装置6301，来当在参观中护卫首相时，播放首相到Graceland的访问的一部分的音频或视频。其涉及在首相唱歌上的段节的、选择较低的热点促使MMR信息装置6301，来播放首先唱歌的音频或视频。
在一个实施例中，用户接口6311和显示器6312是相同的。
例如，MMR信息装置6301能够包括音频播放器6315或视频播放器6316 或两者。
在一个实施例中，音频播放器6315响应于相应于热点的菜单项的用户选择，来播放热点信息的音频。例如，MMR文档500可以包括诸如博物馆或电影这样的娱乐，并且热点信息可以为断开时间的音频、方向或电话号码。在一个实施例中，视频播放器6316响应于相应于热点的菜单项的用户选择，来播放热点信息的视频。例如，MMR文档500可以包括电影列表，并且热点信息可以为对于所选择的电影的电影预告片。
在一个实施例中，MMR信息装置6301包括至数字转换器6317的音频，而所述转换器将从用户通过麦克风6318接收的音频命令变换成用户命令。响应于所变换的用户命令，MMR信息装置6301控制菜单项或MMR文档的部分的选择。用户从MMR文档500读取文本。MMR信息装置6301将音频变换成文本，并将文本与所存储的MMR信息比较。
图66阐明MMR信息装置6301的操作的流程图。将MMR信息和热点信息存储6602在存储器6313中。处理器6314显示6604具有在显示器6312上所指示的热点的MMR文档500的部分，诸如图65中所示的那样。响应于在用户接口6311上的用户选择6606，处理器6314在显示器6312上将热点信息提供6608为文本或视频，或将所述热点信息提供6608为音频。
图67阐明包括捕获装置106和没有光学捕获的MMR信息装置6301的MMR 系统6700的实施例的功能框图。
虽然MMR系统6700为与MMR系统6300相似的，但是其进一步包括捕获装置106，其为了帮助用户来定位MMR文档500中的热点，从MMR信息装置 6301接收信息。
捕获装置106和MMR信息装置6301直接地相互通信，诸如通过无线通信、红外线通信或听不见的音频这样的。
在可替代的实施例中，只有捕获装置106和MMR信息装置6301中的一个与MMR系统100通信，并将信息转发至其它装置。
在可替代的实施例中，将捕获装置106和MMR信息装置6301构成为集成一体的装置。
在一个实施例中，捕获装置106探测热点，并将命令发送至对于装置6301 的MMR信息装置6301，来检索相关联的热点信息。在一个实施例中，MMR信息装置6301可以如上文与图63的联合中所描述的这样来提供热点信息。在可替代的实施例中，为了提供至用户，MMR信息装置6301可以将热点信息发送至捕获装置106。在可替代的实施例中，MMR信息装置6301可以延迟执行从热点导出的命令(如，购买在MMR文档500中所示的产品的命令)，直到其与MMR系统100通信。
捕获装置106可以识别MMR文档500，并为了热点信息将请求发送至MMR 信息装置6301。MMR信息装置6301将信息发送至捕获装置106，来帮助用户定位在MMR文档500中的热点。信息可以包括文档的图形图像，而所述图像选择性地包括对于热点的位置的图形表示(如，红色透明覆盖层)。也可以提供对于热点的位置和内容的文本表示。
在另一个实施例中，为了存储MMR文档信息和热点信息，可以将存储器在MMR信息装置6301和捕获装置106之间分区。
在一个实施例中，捕获装置106或MMR信息装置6301都不包括呈现MMR 文档信息和热点信息的显示器。装置106和6301相互通信，来提供用于显示的信息。
图68阐明MMR系统6700的操作的流程图。作为下载的部分，处理器6314 将MMR信息和热点信息存储6802在存储器6313中。MMR信息装置6301将热点的位置提供6804至捕获装置106。捕获装置106探测热点。如果用户在捕获装置106上选择6806热点，则为了所请求的热点信息的检索，捕获装置 106将检索信号传输6808至MMR信息装置6301。MMR信息装置6301将热点信息作为文本、图像或视频在显示器6312上，或将其为音频来提供6810，或者将热点信息提供至捕获装置106。
本发明的一个或多个实施例的至少一个方面提供混合介质实境(MMR)系统和相关联的方法。本发明的MMR系统提供用于形成混合介质文档的机制，而所述混合介质文档包括诸如作为第一介质的打印纸张和作为第二介质的在电子表格中的文本或数据、数字图片、数码相片、数字电影、数字音频文件、或网络链接这样的至少两种类型的介质。此外，本发明的MMR系统使商业方法便利，而所述商业方法利用诸如便携式视频或音频播放器这样的便携式电子装置和纸质文档的结合。本发明的MMR系统包括MMR处理器、捕获装置、通信机制和包括MMR软件的存储器。还可以将MMR处理器连接至介质类型的存储器或源、输入装置和输出装置。为了访问有另外的数字内容的MMR文档，创建或更改MMR文档，并使用文档来执行诸如商业交易、数据查询、和报告等这样的其他操作，MMR软件包括可由MMR处理器执行的例程。MMR系统包括存储所下载的MMR信息的MMR信息装置，而所述MMR信息涉及用于响应于输入至MMR信息装置的或从捕获装置所提供的用户选择的检索的MMR文档。
混合介质实境(MMR)系统提供用于形成包括至少两种类型的介质(如，作为第一介质的打印纸张，和作为第二介质的数字内容和/或网络链接)的混合介质文档的机制。MMR系统提供用于形成包括诸如作为第一介质的打印纸张和作为第二介质的数码相片、数字电影、数字音频文件、或网络链接这样的至少两种类型的介质的混合介质文档的机制。此外，MMR系统使商业方法便利，而所述商业方法利用诸如便携式视频播放器或便携式音频播放器这样的便携式电子装置和用于便携式电子装置的纸质文档的结合来提供信息。
在下面描述另一个实施例。
语音邮件
图69阐明包括处理热点信息的语音邮件服务器6902的MMR系统6900 的框图。
语音邮件服务器6902将涉及MMR文档500的热点信息以语音邮件的形式提供至用户。MMR系统100可以将语音邮件内容提供至语音邮件服务器6902。用户还可以提供语音邮件内容来更新热点信息。在图69至74中所示的实施例中，MMR系统100可以为MMR系统100a或110b。
在解说性的实施例中，用户可以留下涉及诸如餐馆、博物馆或电影这样的在热点中的特别的项的、诸如称赞或抱怨这样的注释。MMR系统6900可以向用户收取在语音信箱中留下消息的费用。
在一个实施例中，MMR文档500可以为将热点链接提供至语音信箱但不包括电话号码的个人广告。这允许用户以不发布他们的电话号码，来放置个人广告，但允许回复者留下语音邮件的能力。
在另一个实施例中，MMR文档500可以包括用于下订单的、有热点的广告。用户在语音信箱中留下定购的详情和放置能够检索用于操纵定购的消息的广告的实体。
MMR系统6900使用由用户所放置的语音信箱，来控制热点信息的更新。语音邮件服务器6902将涉及MMR文档500的热点信息存储在语音邮件存储器 6904中。在一个实施例中，每一个热点具有相关联的语音信箱。语音邮件服务器6902可以将语音邮件提供至用户的语音信箱。
MMR系统100可以转录语音邮件，并将录音存储为所更新的热点信息。可以使用多种用于录音的技术，其包括诸如IBM Via Voice系统这样的自动语音识别软件，或通过人操作者的、手动的录音，或自动的和手动的技术的结合。
图70阐明更新在MMR系统6900中的热点信息的方法的流程图。
MMR系统6900接收7002在MMR文档500上的热点的用户选择。MMR系统 6900接收7004用户请求，来更新从捕获装置106至语音邮件服务器6902的热点信息。MMR系统6900连接7006至语音邮件服务器6902，并提示7008用户来在语音邮件服务器6902中留下语音邮件。通过使用热点和提示，用户不用拨电话号码或语音信箱号码就能访问语音信箱。MMR系统6900可以提示用户来将语音邮件分类。例如，对于电影的查阅，MMR系统6900可以提示用户在捕获装置106上输入代码，来指示所述查阅是否为满意的、不满意的、或一般的。
MMR系统6900还可以提示用户来授权对于留下语音邮件的付款。在授权之后，MMR系统6900接受语音邮件。所述特征在一些为了使用(诸如个人广告这样的)而付款的应用程序中为有用的。所述特征还可用来阻止语音邮件的、轻佻的或有害的使用。
MMR系统6900从用户通过捕获装置106接收7010语音邮件，并将语音邮件提供7012至语音邮件服务器6902，来更新热点信息。MMR系统6900更新7014对于相关联的热点的索引信息。
图71阐明在MMR系统6900中检索热点信息的方法的流程图。
MMR系统100控制语音邮件热点信息的用户检索。MMR系统100接收7102 在MMR文档500上的热点的用户的选择。MMR系统100给捕获装置106提供 7104语音邮件热点的菜单。可以将菜单显示在捕获装置106上，或者所述菜单可以为音频菜单。菜单可以包括诸如满意的注释这样的、语音邮件的分类。 MMR系统100检索7106相应于热点(其响应于来自菜单的热点中的一个的用户的选择)的语音邮件，并为了用户听到，来将语音邮件提供7108至捕获装置106。在可替代的实施例中，MMR系统6900选择提供至的用户语音邮件。
MMR系统6900还可以提示用户来授权对于接收语音邮件的付款。在授权之后，MMR系统6900提供语音邮件的菜单。
作为解说性的例子，用户可以读取为电影的报纸列表的MMR文档500。用户可以用捕获装置106来选择电影热点，并请求电影的查阅，而可以将其提供为语音消息。在听到查阅之后，用户决定观看所述电影。在电影之后，用户想要通过留下语音邮件来更新热点信息。虽然用户再次使用电影的报纸列表来访问热点，但是这次，用户发送热点更新请求，并留下电影的评论。
电子邮件
图72阐明包括处理热点信息的电子邮件消息服务器7204的MMR系统 7200的框图。
电子邮件消息服务器7204可以将热点信息以电子邮件消息的形式提供至用户，而将所述电子邮件消息实时地交付至捕获装置106或用户计算机 7206，或将其异步地交付至用户计算机7206。在一个实施例中，在MMR系统 100和电子邮件的交付站点之间的通信信道是与在MMR系统100和捕获装置 106之间的通信信道不同的。MMR系统100可以将电子邮件消息内容提供至电子邮件消息服务器7204。用户还可以提供电子邮件消息内容来更新热点信息。
MMR系统7200使用发送至用户的电子邮件消息，来控制热点信息的下载。电子邮件消息服务器7204存储涉及MMR文档500的热点信息。
电子邮件服务器7204可以将电子邮件发送至，例如，电话、用户选择的诸如个人的或商业的电子邮件地址这样的电子邮件帐户、或在数字视频录像机上记录的有线电视或卫星电视。
为了响应于使用传统的搜索工具的查询的搜索，MMR系统100可以给电子邮件编索引。
作为解说性的例子，用户正读取旅游指南，并请求更多的信息。用户选择热点来接收热点信息。如果热点信息的大小为大的，则用户选择以电子邮件来接收热点信息，而用户将稍后或者在由更大屏幕的计算机上读取，或将文档打印出来阅读。
图73阐明在MMR系统7200中检索热点信息的方法的流程图。
MMR系统7200接收7302在MMR文档500中的热点的用户的选择。MMR 系统7200连接7304至电子邮件消息服务器7204，并提示7306用户来从电子邮件消息服务器7204选择电子邮件的目的地。通过提示的使用，用户可以将电子邮件引导至捕获装置106或用户计算机7206。如果用户已选择将电子邮件发送至用户计算机7206或不同于捕获装置106的目的地，则MMR系统 7200将电子邮件发送7308至所请求的地址，并将确认电子邮件发送7310至捕获装置106。
在一个实施例中，MMR系统7200在电子邮件上设置高的优先标记。
在一个实施例中，可以将捕获装置106从MMR系统100临时地断开。在断开期间，捕获装置106存储对于稍后的传输的热点选择。当将捕获装置106 重新连接至MMR系统100时，捕获装置106将对于处理的请求传输至MMR系统100。
图74阐明包括文档数据库7404的MMR系统的框图。虽然MMR系统7400 是与MMR系统7200相似的，但是其进一步包括文档数据库7404。文档数据库7404存储由用户读取的MMR文档500，并存储由用户选择的热点信息。可以由用户来给文档数据库7404编索引，并且其可以对于用户为可搜索的。文档数据库7404为了用户而存储阅读。
图75为包括文档运送数据库7504的MMR系统7500的框图。
虽然MMR系统7500是与MMR系统7200相似的，但是其包括文档运送数据库7504。文档运送数据库7504存储产品或服务的卖方的MMR信息。在所述实施例中，MMR系统100提供至文档运送数据库7504的用户访问。文档数据库可以为旅游书籍出版者，其提供全部MMR使能的旅游指南的数据库。用户请求MMR系统100来从文档运送数据库7504检索文档，而将可以异步地发送的所述文档提供至用户。文档提供者将热点信息通过电子邮件发送至用户。
在一个实施例中，文档运送数据库7504为通过因特网或通过因特网搜索引擎不可访问的。通过MMR系统100，来访问文档运送数据库7504。
在另一个实施例中，文档可以使用唯一的电子产品代码(EPC)或相似的代码来唯一地识别每一个页面，以识别文档并在文档运送数据库7504中找到文档。
在另一个实施例中，使用打印文档的全部的页面或其一部分，来创建用于打印文档的、唯一的标识符。可以将唯一的标识符传输至文档运送数据库 7504，以代替用于确定所请求的热点信息的图像。
在可替代的实施例中，MMR系统7200、7400和7500进一步包括处理除电子邮件之外的、作为语音邮件的热点信息的语音邮件服务器6902。
本发明的MMR系统提供用于形成混合介质文档的机制，而所述文档包括诸如作为第一介质的打印纸张，与作为第二介质的在电子表格中的文本或数据、数字图片、数码相片、数字电影、数字音频文件、或网络链接这样的至少两种类型的介质。此外，本发明的MMR系统使商业方法便利，而所述商业方法利用诸如照相手机这样的便携式电子装置与纸质文档的结合。本发明的 MMR系统包括MMR处理器、捕获装置、通信机制和包括MMR软件的存储器。还可以将MMR处理器连接至介质类型的存储器或源、输入装置和输出装置。 MMR软件包括可由MMR处理器执行的例程，而所述例程用于访问有另外的数字内容的MMR文档，创建或更改MMR文档，并使用文档来执行诸如商业交易、数据查询、报告等这样的其他操作。为了提供涉及打印文档的信息，MMR系统包括分别使用语音邮件或电子邮件的语音邮件服务器或电子邮件服务器。
混合介质实境(MMR)系统包括MMR用户、MMR计算机、产生打印文档的用户打印机、网络介质服务器、办公入口、服务提供者服务器、被电连接至机顶盒的电子显示器、文档扫描仪、网络、捕获装置、蜂窝式基础设施、无线保真(Wi-Fi)技术、技术、红外线(IR)技术、有线技术、和地理位置机制。MMR系统提供用于形成混合介质文档的机制，而所述混合介质文档包括诸如作为第一介质的打印纸张与作为第二介质的数码相片、数字电影、数字音频、或网络链接这样的至少两种类型的介质。此外，MMR系统使商业方法便利，而所述商业方法利用便携式电子装置、语音邮件或电子邮件、和纸质文档的结合。
在下面描述另一个实施例。
图76阐明根据本发明的MMR系统的、用于在使用MMR个性化的文档来定购商品或服务中使用的一个实施例的功能框图。为了使用MMR个性化的商业打印文档7601来从履约商定购和处理商品或服务，来配置MMR系统7600。虽然图76阐明以MMR系统7600来使用MMR个性化文档7601以定购商品或服务的例子，但是注意到MMR个性化文档7601可以用于任何其他类型的商业交易。除MMR系统7600还包括用于以MMR个性化打印文档7601的使用的履约商软件7602和定购过程数据库(DB)7604之外，所述MMR系统7600是与在图1A中所阐明的MMR系统100a充分相同的。
MMR个性化打印文档7601为根据如在，例如，图1A、1B、4、和52中所阐明的MMR系统和方法来打印的MMR文档。MMR文档7601包括唯一地识别个人或文档7601的用户的、一个或多个热点或文档的部分，和识别文档7601 的其他热点。与如于此所描述的其他MMR文档相似，给热点编索引，并将其存储在PD索引322(或等同地MMR数据库3400)中。在一个实施例中，MMR 文档7601为用于定购商品或服务(书籍、杂货、旅行包、或家庭维修服务等) 的打印目录，并包括识别文档(目录)的热点文本或图像，和识别与目录相关联的、一个或多个用户或个人的热点。
在热点包含识别与文档相关联的、一个或多个用户或个人的文本的或图像标识符的意义下，来将MMR文档7601“个性化”。例如，文档7601可以包括文档7601的接受者的名字和地址，而能够将其辨认为用于用户的识别的热点。对于另一个例子，文档7601可以包括条形码或其他识别号码，或能够辨认为用于用户的识别的热点的图像。在特别的实现中，用户识别信息能够呈现为在文档上的邮寄标签。能够由标签的OCR(光学字符识别)或邮递条形码(已知为在美国中的POSTNET条形码)的识别来识别用户。邮寄标签还能够包含条形码或其他信息(如，打印文本)，其识别目录的特定版本，如，对于San Francisco海湾地区的、2006年11月的Victoria Secrets的目录。因而，邮寄标签包含识别在数据库7622中的个人用户的信息，而将目录和目录本身发送至所述用户。在目录中检索用户的识别信息和热点的列表为充分的。热点数据将包括对于在目录中的项目的识别、它们呈现于其上的页面、和需要来定购项目的信息。在捕获装置106上的用户接口能够使用所述信息来提供定购商品和服务的能力。可替代地，热点信息能够包括有关图像特征的信息，而所述信息相应于能够用在随后的、通过MMR识别系统的比较步骤中的每一个热点。
对于再一个例子，虽然文档7601不包括用于用户的识别的、分离的文本或图像，但是其包括在文档自身内的原始文本的呈现中的、较小的变体，如，文本和图像的形状、字体大小、方位、颜色等，而最初将所述文本和图像包括在文档7601中，并能够将其辨认为用于用户的识别的热点。一个例子为将在目录上具有项目的描述，来包括在外观、形状、字体大小、方位、颜色等中的较小的变体，以便用户不会容易地辨认在个性化的MMR文档7601中的差别，但MMR系统7600可以通过以文档的指纹来匹配热点，以辨认用户。在一个示例性的实现中，将图像特性，如，字体和颜色的结合与在数据库7622中的用户识别信息相关联。例如，可以将目录与热点一起以有蓝色#F86A墨水的OCR-A字体打印。将那个字体-颜色的结合指派至在数据库7622中的用户，而将相应的目录发送至所述用户。MMR识别软件预处理对于字体-颜色结合的每一图像，并将字体和颜色的身份发送至定购处理数据库7604，而所述定购处理数据库使用字体-颜色结合来查找用户识别信息。能够将图像特性的、唯一的结合指派至每一用户。这具有每一个热点唯一地识别目录的、有意的接受者的优势。能够通过将字符或单词的水平地或垂直地位置移动小的量，来提供相同的性能。移动量能够将在文本中的数字信息(如，用户识别和热点) 编码，以便其对于阅读者为几乎觉察不到的，但容易由识别算法来解码。在可替代的实现中，从所限制的组来选择图像特性的结合，并将其分派至在数据库7622中的每一个用户。MMR识别软件还辨认那些图像特性的存在，并将它们的身份发送至定购处理数据库(如，它可以找到在蓝色#F86A中的OCR-A 字体或在输入图像中的、确定的字符或单词的位置移动)。然而，它还从MMR 装置106发送次要的用户识别信息，例如从在装置上所存储的简档所确定的所注册的、装置的所有者，它的电话号码，或如由手机服务提供者5318、服务提供者5336、有线TV提供者5334、或MMR相关的服务的其他提供者所提供的这样的所注册的装置的所有者。定购处理数据库7604验证由MMR识别系统来辨认的那些图像特性符合次要的用户识别信息。
捕获装置106能够为在图1A、1B、和2A至2E中所阐明的捕获装置中的任何一个。只为了说明的目的，在图76和77中所描述的应用程序的捕获装置106为照相手机，其包括数字相机的性能和蜂窝式电话性能。注意到，在捕获装置106上运行的第三方软件模块228包括诸如在Microsoft OutlookTM 中包括的那个这样的日历应用程序，来保持各种各样的时间表的轨迹。用户可以将捕获装置106指向MMR个性化的文档7601上的热点上，来扫描热点图像。例如，MMR文档7601为列出为了目录的有意的用户的、多种书籍的书籍目录。将识别书籍目录自身的MMR热点包括在目录中。另外，还将唯一地识别用户的热点包括在目录中。
捕获装置106(或可替代地在MMR计算机112上)的文档指纹匹配模块 226从所捕获的热点图像提取热点特征。如参考图6至33进一步所描述的这样的，文档指纹匹配模块226访问在文档事件数据库320中所存储的文档索引，并将所捕获的图像的所提取的特征与索引匹配，来从文档的数据库识别特别的MMR个性化的文档7601，和与文档相关联的用户或个人。换言之，确定文档(目录)7601和与文档相关联的用户的身份。
履约商软件7602包括由履约商5332的计算机所运行的软件应用程序。例如，MMR个性化的文档7601为书籍目录，并且履约商5332为使用书籍目录来出售书籍的书店。履约商软件7602包括定购处理软件7610和日历同步软件7612。
一旦识别文档和相关联的用户，定购处理软件7610就访问用户信息数据库7622，来检索与所识别的用户相关联的用户信息。用户信息可以包括用户的名字、地址、电话号码、信用卡信息、和任何能够将其与个人用户相关联的其他信息。
定购处理软件7610促使定购表格(未示出)，来通过通信机制104，以将其远程地显示在捕获装置106的显示器212上。使用用于促使应用程序通过通信机制104运行于远程装置上的、已知的技术，例如使用JavaTM应用程序，来显示定购表格。能够使用已知的无线通信技术来访问捕获装置106，而所述无线通信技术使用，例如，照相手机捕获装置106的电话号码。定购处理软件7610促使定购表格，以从用户信息DB 7622检索的用户信息来将其预增加，以便用户不必输入用户信息来完成定购。对于消费者，这允许更快和更方便的购买经验。
一旦完成定购，就如以商品或服务的任何在线定购为典型的这样来处理购买定购。典型地，将诸如所期望的或实际的运送数据和所期望的或实际的交付数据这样的定购处理信息存储在运送信息数据库7624中。将定购处理信息存储在与所识别的用户相关联的运送信息数据库7624中。日历同步软件 7612访问运送信息数据库7624，并检索定购处理信息。日历同步软件7612 促使定购处理信息，来将其添加至在捕获装置106上运行的日历应用程序 228。如果在定购处理信息(诸如所期望的运送或所期望的交付数据这样的) 中有任何改变，则日历同步软件7612促使日历应用程序228更新，并还反映所述改变。在这样的方式中，用户可以有效地实时跟踪他的定购的处理和运送。
图77阐明用于使用MMR个性化的文档来定购商品或服务的方法7700的流程图，例如以识别文档和文档的用户的热点图像所嵌入的产品或服务目录。参考图76和77两者，捕获装置106捕获7702MMR个性化的文档7601的热点图像。使用热点图像，MMR系统7600识别7704特别的文档和与文档相关联的用户。定购处理软件7610以用户信息来预增加的定购表格，来远程地促使对于商品或服务的定购表格，以将其通过通信机制104显示7706在捕获装置106上，而基于在步骤7704中所获得的用户身份信息来检索用户信息。
用户填写定购表格来完成7708定购交易。日历同步软件7612跟踪7710 定购的处理(如，所估计的和实际的运送日期，或所估计的和实际的交付日期)，并将所述处理日期添加或更新至在所识别的用户的捕获装置106上运行的日历应用程序228，以便用存储在运送信息DB 7624中的定购处理信息来同步7712在日历应用程序228中的信息。
虽然图76和77阐明在购买商品或服务的场景中的MMR个性化的文档的使用，但是还可以为了其他目的来使用MMR个性化的文档。例如，想要控制非法的、已获取版权的材料的分发的出版者可以嵌入所授权的用户的信息 (如，速记代码)，而所述用户已适当地购买在所打印的MMR文档中的、已获取版权的材料。可以使用所嵌入的用户信息，来识别所授权的用户，并且因而将允许出版者来跟踪如何使用他们的文档，并潜在地识别未经许可而非法地分发或复制已获取版权的材料的那些人。
在本发明的一个实施例中，以热点图像来嵌入混合介质实境文档，而所述热点图像唯一地识别与文档和识别文档的热点相关联的用户。使用所述 “MMR个性化的”文档来识别与文档相关联的用户，并检索与用户的身份相关联的用户信息。
MMR个性化文档的一个应用程序为用于定购商品或服务。能够使用热点来识别用户并检索与所识别的用户相关联的用户信息。可以用所检索的用户信息来预增加在用户的捕获装置上显示的在线定购表格。此外，能够跟踪定购的处理信息，并且可以更新在所识别的用户的捕获装置上运行的日历应用程序，以包括相应于定购的、最新的处理信息。
在一个特定实施例中，混合介质文档还可以包括唯一地识别与混合介质文档相关联的用户的热点图像。当通过MMR系统使用混合介质文档来做对于产品或服务的定购时，使用所述个性化的混合介质文档来识别混合介质文档用户。
在下面描述另一个实施例。
动作的MMR通用触发器
如上文参考图5所提到的，除打印文档118的一部分的表示502、索引或热点506、和全部文档118的电子表示508之外，在确定的实施例中的MMR 文档500包括相关联的动作或第二介质504。由于上文已参考图5完全地描述MMR文档500的这些部件502、504、506和508，因此为了理解的简易，将不重复所述描述。因为与为了在任何介质上的特别的位置而创建许多MMR 文档500的能力相结合的、为了不同MMR文档500而指定不同动作的能力允许MMR体系结构用作为用于另外的处理的通用触发器或启动程序，所以MMR 文档500的结构为特别有利的。换言之，能够基于MMR识别来触发或启动另外的处理或动作。还能够有利地定制另外的处理以考虑：1)由MMR识别来识别的文档、2)由MMR识别来识别的页面、3)由MMR识别来识别的在页面上的位置、4)包括其地理位置的捕获装置106的使用的场景、5)对于MMR系统为已知的或存储在数据库3400中的外部因素、6)由先前的用户的动作的历史执行、7)MMR系统部件的状态或可用性、7)第三方系统和资源的状态或可用性、和8)当前用户的身份、和9)所询问的并满足给定查询的MMR数据库的身份和位置。
现在参考图78，来示出用作为通用触发器的MMR系统体系结构7800的一个实施例。将这个体系结构的描述提供为其中将MMR识别用作为通用触发器的本发明的、操作的场景的一个例子，并将对于MMR的操作的一般原理作为通用触发器来传送。本领域技术人员将认识到还能够在多种来自随后的描述的其他MMR体系结构和配置中将MMR识别用作为通用触发器。
如图78中所示，示例性的MMR系统体系结构7800包括所呈现的文档118、用户110、捕获装置106、数据库3400、MMR识别模块或软件226或610、和动作处理器7802。
上文已描述所呈现的文档118和用户110，并且其与这个示例性的场景中的相同。给定所呈现的文档118。这能够为纸张打印输出，或者它能够为如在PC屏幕或电子书籍上所示的这样的、电呈现的版本。用户使用捕获装置 106来与MMR系统7800交互，并且捕获装置106如由在图78中的虚线所表示的这样来从所呈现的文档118产生图像。上文已完全地描述对于捕获装置 106的众多的例子，而能够将其中的任何一个用于这个例子中。为了理解的简易，捕获装置106为具有相机的电话。为了分别通过信号线7808和7804 来与MMR识别模块226/610和动作处理器7802的通信，连接捕获装置106。
数据库3400与上文参考图34A至36所描述的数据库相似。为了通过信号线7806到MMR识别模块226和通过信号线7814到动作处理器7802的通信，连接数据库3400。在所述实施例中，将动作处理器7802示出为分离于或远离于数据库3400的。在其他实施例中，动作处理器7802可以为如图34A中所示的数据库3400的部分。下文参考图79来更加详细地描述数据库3400。
MMR识别软件226/610接收来自所述文档118的文本的碎片的图像，并且MMR识别软件226/610识别包含所述文档(doc.i)、在所述文档之内的页面(page j)、和在其中碎片出现的所述页面之内的x-y位置的MMR文档500。上文已描述对于MMR识别软件226/610的各种各样的实施例，而此处可以采用其中的任何一个。MMR识别软件226/610与MMR数据库3400通信，而所述 MMR数据库存储在图像和文本碎片之间的关系和附着于所述碎片的“动作”。
通过信号线7810将动作处理器7802连接至MMR识别软件226/610，通过信号线7804将其连接至捕获装置106，并且通过信号线7814将其连接至数据库3400。动作处理器7802具有上文已参考动作处理器3413所描述的并下文将参考图80-85所描述的功能。将动作处理器7802连接至捕获装置106，来发送并接收用于用户接口的生成的数据和命令，接收由动作产生的数据，并输入动作所需要的数据，而所述用户接口允许用户110为了控制如何执行动作而与MMR系统7800交互。以来自动作规范的信息来增加所述用户接口。动作规范适宜地是为需要来将其完成以执行动作的子部分或任务的一个或多个命令和相关联的参数。用户110能够输入使能进行动作的执行的数据。将有关所述动作的结果的信息存储在MMR数据库3400中，并将其呈现至用户 110。在一个实施例中，MMR系统7800存储诸如当以在文本的块中的x-y位置来在先前将其执行时这样的、有关动作的历史信息。
因为能够通过将捕获装置106，照相手机，指向文本的块来执行动作，所以MMR系统体系结构7800为有利的。例如，动作手动地点击到在所述文档的网络版本中的文本的一部分的链接，从而将以XML形式的形式的文本检索至捕获装置106。在另一个例子中，动作手动地点击链接以检索到在所述文档的网络版本中的文本的一部分的、用于动作的规范，由此检索用于动作的规范。此外，因为动作处理器7802将有关动作的历史信息存储在数据库3400 或其他存储装置中，所以所述动作处理器7802为有利的。将有关动作的历史信息存储在文本的块中的x-y位置与文档和页面的关联中。然后，能够稍后在捕获相同的文本的块的事件中检索、搜索并分析所述信息。
现在参考图79，更加详细地描述涉及动作的执行的、MMR数据库3400 的一个实施例的一部分。如上文还参考图34A已提到的，MMR数据库3400存储文档图像7902、动作7904和在文档图像和动作，换言之，MMR文档500上的x-y位置之间的关联7905。由于MMR数据库3400为可动态更新的，因此用户应用程序能够动态地添加动作。MMR数据库3400允许动作到在文本段落之内的任意的x-y位置的附着。在MMR数据库3400中的条目包含链接至动作的页面。将链接的“页面侧”注册至特定的x-y位置。“动作侧”能够包含数据或交互的、几乎任意的描述。MMR数据库3400包括将MMR特征映射至在文档之内的、它们的x-y位置7906上的索引表7908。这允许MMR识别软件 226/610来输入其在图像中探测的特征，并接收示出在其中那些特征出现的文档之内的x-y位置的输出。上文已参考图34A完全地描述所述数据结构的实施例。还如上文提到的，MMR系统7800还可以包括多个数据库3400a和 3400b。例如，MMR系统7800包括至少两个数据库：共享数据库和个人数据库。共享数据库包括对具有到它的访问权的全部用户都为可访问的信息。个人数据库对个人用户为可访问的，并包括被链接至在文档中的页面上的x-y 位置的私人信息，而所有者不希望与其他人共享所述文档。本领域技术人员将理解，还可以有在用户的组之间的、特定的基础上共享的其他数据库。虽然未示出，但是当将MMR数据库3400一般地示出为单个数据库时，这些数据库能够为相同的数据库的部分，或完全分离的数据库。
图80为用于执行根据本发明的MMR文档500的动作的方法的一个实施例的流程图。通过以捕获装置106来获得8002所呈现的文档118的图像，过程开始。当现在将过程描述为以特别的图像的捕获来开始时，本领域技术人员将理解，过程可以以用户110使用捕获装置106或另一个装置输入任何信息来开始，并且将图像的捕获仅仅作为例子来提供。然后，MMR系统7800在由系统7800在步骤8002中接收的输入上执行8004识别。其次，MMR系统7800 确定8006MMR识别过程是否已返回匹配文档，并且匹配文档是否包括将被执行的动作。MMR系统7800必须识别用户110已指定来执行的动作，以便MMR 系统7800来执行动作。这要求MMR系统7800识别文档和在所述文档之内的或与其相关联的动作两者。如果方法在步骤8006中确定不能找到对于在步骤 8002中捕获的图像的匹配文档，则系统7800产生8008指示不能找到匹配的消息，并将其显示至用户110，例如在图像捕获装置106的显示器上。相似地，如果方法在步骤8006中确定当有匹配文档时没有与所述匹配文档相关联的动作，则系统7800产生8008指示没有与匹配文档相关联的动作的消息，并将其显示至用户110。本领域技术人员将认识到所述发消息的步骤8008为可选的。当步骤8008的完成之时，方法循环回到方法的开始来捕获另外的图像。另一方面，如果MMR识别过程以将被执行的、相关联的动作产生MMR文档500，则方法从步骤8006到步骤8010继续进行。在步骤8010中，方法确定是否应该自动地执行动作。在一个实施例中，存储在MMR系统7800中的每一个动作可以具有许多相关联的设置。一个所述相关联的设置可以为是否不以另外的用户输入，或“自动地”来执行动作。方法确定8010是否为了自动的执行来设置对于将被执行的所述动作的设置。如果将自动地执行动作，则方法从步骤8010直接到步骤8018而继续。然而，如果将不自动地执行动作，则方法继续进行到步骤8012。然后，MMR系统7800产生消息来显示在捕获装置106上，并通知8012用户正由MMR系统7800执行动作。方法从用户接收 8014信息。如果不对用户要求另外的输入，则消息只通知动作的执行的用户。在一些实例中，通过MMR系统7800的、特别的动作的执行可以要求来自用户 110的、另外的输入，例如确认。在那些情形下，为了至用户110的呈现， MMR系统7800将消息发送至捕获装置106，并且捕获装置106从用户110接收被输入至MMR系统7800的、另外的信息。所述信息能够为用于动作的执行的不同参数的识别或选择，或动作的执行所需要的数据的输入。上文已描述在用户110和MMR系统7800之间的交互，并且能够交互地使用所述过程来允许用户110输入使用本发明的GUI的动作的执行所需要的、另外的信息。为了至用户的呈现，一旦用户110已完成与MMR系统7800的交互，就由系统 7800来将请求用户确认应该执行动作的、最终的消息发送至捕获装置106。
其次，方法确定8016用户110是否已确认应该执行动作。如果用户110 已选择不执行动作，则方法为完成的并结束。如果用户已选择执行动作，则方法继续进行至步骤8018，并确认8018由MMR文档500指定的动作。然后，方法执行8020由MMR文档500指定的动作。如上文已提到的，MMR文档500 可以包括一个或多个动作，而每一个具有一个或多个命令和参数。下文将参考图82A和82B，来描述这些命令和参数的例子。MMR文档500可以包括对于命令的执行为必要的一个或多个参数，或者可替代地，可以直接地由用户110 来输入参数，并在步骤8014中通过所述方法来接收所述参数。应该注意到的是，MMR文档500可以包括几个命令。如应该由本领域技术人员重视的，这提供其中可以由MMR系统7800来执行复杂的交易和用户交互的MMR编程语言，而MMR系统7800只有为对它们的执行的触发器的MMR识别。下文描述所述复杂的交易和用户交互的例子。一旦已完成动作的执行，MMR系统7800就存储8022有关动作的历史信息。例如，有关动作的历史信息可以包括：执行动作的用户、当执行动作时的时刻、用来执行动作的MMR系统部件、其中执行动作的场景(包括捕获装置106的地理位置)、被利用来执行动作的外部资源(包括商业实体5300)、对于包括所执行的命令的动作的执行踪迹、还有对于每一个命令的时间、日期、参数、和它们的完成状态(包括成功、失败、和部分的成功的各种各样的程度)。一旦已将历史信息存储在MMR系统7800 中，方法就在过程结束中为完成的。
本发明的、一个值得注意的方面为其以文本段落或文本块的使用。有使用MMR体系结构7800来基于文本段落而创建动作触发器的两个一般的方法。第一，用户110能够将捕获装置106指向在纸质文档118中的文本的段落，并且检索并执行先前被链接至所述文本段落的动作。第二，用户110能够创建诸如使用象手机这样的捕获装置106这样的动作，并且通过将捕获装置106 指向在电子文档的所打印的纸张版本中的文本的段落来将动作链接至在电子文档中的文本的段落。动作能够为静态的，其中动作处理器7802使用输入参数来执行指定的命令，或者它能够为动态的并包括以命令其来采取一系列措施的用户110的、一系列的命令，并且结果为未知的。例如，可以将有选择和附着于每一个选择的结果的、一组所链接的菜单呈现至用户110。将捕获装置106指向文档意味着由MMR系统7800来辨认捕获装置106获取的图像。这识别在文档中的页面之内的x-y位置，而正将捕获装置106指向所述文档。应该注意到的是不包括在文档中的文本，以便识别文档。MMR识别从文本的配置导出特征，而当关于碎片匹配上文已完全地描述所述文本时，所述文本允许我们来将其识别为在打印页面上的、它的二维布局的边缘效应。这从条形码识别或序列号识别来辨别MMR识别，其中明白地包括条形码或号码来识别文档。因而，因为为了MMR系统能够识别并辨认在文档中的位置，不添加或要求到打印文档的、附加的记号，所以本发明为特别有利的。
本发明的另一个值得注意的方面为给非文档图像和文本文档提供动作触发器。这相似于扩增实境，其中它将所捕获的图像与相同的场景的、数字的或电子的版本结合。以MMR体系结构7800，能够从子集的图像来识别全部的场景，或者能够从一些充分的或重要的子集(视觉上清楚的或唯一的、子集的布置)来识别场景，而所述子集与其中MMR识别来自任何文本碎片但来自空白区域的文档，或在文档之内的图像的方式相似。例如，从汽车的图像， MMR体系结构7800能够从牌照或VIN(Vehicle Identification Number，车辆识别号码)标签来识别唯一的汽车。对文本文档考虑类比，这将象从附着于所述文档的条形码识别文档一样。MMR体系结构7800还从汽车的轮胎的胎面磨损花纹的图像来识别唯一的汽车。此外，一个应用程序为从人的图像的、所述人的识别。非文档输入的MMR分析能够包括视频和音频。能够由MMR体系结构7800从他们的指尖的图像、他们的面部的图像、来自他们的头发的 DNA、他们的牙齿的构形的图像、和当步行时他们的步法的视频等的比较来识别人。MMR体系结构7800能够将个性化的动作指派至特定的手指。例如，当将右食指成像时，系统7800能够检索你用那根手指拨的电话号码的列表。相似地，对于音乐和其他声音，能够使用一组笔记以听众能够从笔记的序列来识别歌曲的、相同的方式来识别MMR文档500。
通过创建或提供将对象的图像与在那些到动作的对象之内的x-y位置相关联的数据库3400，用于执行由非文档的图像的MMR识别来触发的动作的方法开始。可替代地对于音乐或声音，数据库3400将声音的波形和在那些波形中的时间位置关联至动作。在两个情形下的数据库3400为可动态更新的，并且能够实时地添加动作。其次，提供包括存储器和可选的通信信道的捕获装置106。使用捕获装置106来捕获静态图像、视频剪辑或录音。在捕获装置 106或MMR处理器102处分析所捕获的对象。其次，识别MMR对象和在对象中的位置。对于单个图像，其为在所述图像之内的位置，对于视频剪辑，其为帧的子集，而对于录音，其为采样。对于匹配的MM对象，以匹配的位置来检索动作。最终，在图像捕获装置106上或在MMR处理器102上执行动作。执行能够与图像数据的捕获为同步的，或者它能够为异步的。同步的动作执行的例子将为从旅行指南的、博物馆营业时间的检索。在用户返回至办公室并将数据上载至它们的PC之后，异步的执行的例子将为到会议指南的图像的附着。
现在参考图81，描述用于查看有关根据本发明的动作的历史信息的方法的一个实施例。通过以捕获装置106来获取8002图像，并执行8004 MMR识别来确定文档和位置，方法开始。上文已参考图80和上文的、多种其他的图像来描述这些步骤，为此，此处将不重复所述描述。其次，方法为了有关涉及位置的动作的信息，而搜索8106数据库3400。识别过程的输出为文档和在所述文档之内的位置。将所述输出用作为产生查询来搜索数据库3400的基础。如上文已提及的，数据库3400包括关于什么时候执行与特别的MMR文档相关联的、特别的动作的历史数据。此外，数据库3400存储诸如执行动作的时间、执行动作的次数、执行动作的用户和用来执行动作的资源这样的其他信息或元数据，但不限于此。然后，能够分析用于在步骤8106中执行的、数据库3400的查询的结果，来产生关于存储的有关动作的历史信息的、确定的结论。在确定的实例中，可以以动作处理器7802为了显示而只将查询的结果发送至捕获装置106，来省略所述步骤。最终，在步骤8110中，MMR系统7800 将有关涉及位置的动作的历史信息呈现至用户110，并且方法为完成的并结束。
现在参考图82A和82B，来示出用于执行与根据本发明的动作相关联的命令的方法的一个实施例。上文已参考图34A至36来详细地描述一组示例性的命令和参数。此处参考图82A和82B所描述的命令具有相似的功能，并为此在更加一般的方式中来描述所述命令。在所述实施例中，动作指定包括对于文档、在文档之内的页面、和在页面之内的x-y位置的标识符的命令和参数。所指定的参数依赖于特别的命令，并且每一个参数不必与每一个命令都为相干的。一般地，通过确定在步骤8202、8204、8206、8208、8210、8212、 8250和8252中正被执行的动作的类型，用于执行与动作相关联的命令的方法开始；然后执行对所述命令为特别的步骤。
通过确定8202动作是否为“RETRIEVE”命令，方法开始。“RETRIEVE” 命令以文档来检索被链接至所辨认的x-y位置的数据。所述数据能够包括在捕获装置106上指定将被执行的、随后的步骤的菜单。它还能够为将被显示在捕获装置106上的静态数据。如果这样，则方法从MMR文档500或其他来源检索8214数据。在一个实施例中，将检索数据存储为MMR文档500的部分。在另一个实施例中，将检索数据存储在数据库3400中，并且MMR文档500包括到在其中存储数据的MMR数据库3400之内的位置的参考。在再一个实施例中，将检索数据存储在MMR系统7800之外的、远程的位置处，并且动作处理器7802执行必要的步骤来从远程的位置检索数据。例如，远程的位置可以为存储在MMR系统7800之外的网络服务器，或在另一个私有系统(未示出)之内的位置上的网页，而所述另一个私有系统允许通过诸如网络连接、VPN (Virtual Private Network，虚拟个人网络)连接、或安全网络接口这样的、传统的连接机制而与MMR系统7800的互连。动作处理器7802执行必要的步骤来呈现菜单、接收数据和与用户110交互。然后，为了至用户110的呈现，方法将所检索的数据发送8216至捕获装置106。在步骤8216之后，方法转换至下文将描述的步骤8242。
如果方法在步骤8202中确定动作不为“RETRIEVE”命令，则方法确定 8204动作是否为“”命令。命令将数据插入在由图像碎片所指定的x-y位置处。会议指南为其中用户将诸如在捕获装置106上所捕获的JPEG文件这样的图像文件添加至在对于纸质文档的电子原文之内的 x-y位置的例子。如果这样，则方法识别8218用于命令的数据。例如，将被插入的数据可以为使用捕获装置106来输入的文本，或由捕获装置获得的图像或视频剪辑。然后，方法识别8220应该在其处插入所接收的数据的位置。应该注意的是在其处插入所接收的数据的位置能够在MMR文档500之内，在诸如在MMR系统7800内的数据库3400中这样的位置处，或在与MMR系统7800 连接的系统的远程的位置中。然后，将数据插入8222在步骤8220中所识别的位置处。在步骤8222之后，方法转换至下文所描述的步骤8242。
如果方法在步骤8204中确定动作不为“”命令，则方法确定 8204动作是否为“”命令。“”命令将来自由图像碎片所确定的x-y位置的数据插入至另一个文档中。例如，用户能够在打印输出中选择文本短语，并将它们添加至PowerPoint文件。如果动作为 “”命令，则方法识别8218用于命令的数据来源。如上文所描述的检索步骤中的，数据来源可以为在MMR文档500中，在MMR系统7800之内的位置处或MMR系统7800的外面。一旦已识别数据来源，所述步骤就还可以包括检索所识别的数据的步骤。这与上面所讨论的步骤8214相似。在步骤 8224之后，方法继续至步骤8220和8222，分别来识别在其处将插入数据的位置并执行插入。再则，在其处将插入数据的位置可以为在这个或另一个MMR 文档500之内的、在MMR系统7800之内的位置处、或在与MMR 7800连接的系统内的远程的位置中。在步骤8222之后，方法转换至下文所描述的步骤 8242。
如果方法在步骤8206确定动作不为“”命令，则方法确定 8208动作是否为“TRANSFER”命令。“TRANSFER”命令将链接至x-y位置的数据从来源传递至目的地。来源或目的地都能够为MMR客户机装置。例子为其中检索用于给定纸质文档的PDF并将其传递至捕获装置106的文档攫取器应用程序。如果动作为“TRANSFER”命令，则方法识别8226用于传递的数据和来源，并且然后识别8228对于数据的目的地。这些识别步骤8226和8228 与上文所描述的其他识别步骤8218、8220和8224相似。然后，方法将数据发送8230至目的地。可以以诸如通过服务器至服务器通信、通过文件传递协议、或通过电子邮件这样的多种方式中的任何一种来进行在步骤8230中的数据的传递，但不限于此。在步骤8230之后，方法转换至下文所描述的步骤 8242。
如果方法在步骤8208中确定动作不为“TRANSFER”命令，则方法确定 8210动作是否为“PURCHASE”命令。“PURCHASE”命令执行链接至在文档中的x-y位置的商品的购买。如果动作为“PURCHASE”命令，则方法识别8226 正从卖方购买的项目。在一个实施例中，这个步骤可以不为必要的，其中指定购买者和项目并将其编码为到动作的参数。换言之，预定义动作来从所指定的卖方购买所指定的项目。然而，如果用户正使用捕获装置106来将商品和卖方指定为必须执行步骤5032的、他与MMR系统7800的交互的部分，则这增加在MMR系统7800中的不同命令的数目。然后，方法从卖方购买商品，例如通过万维网使用在线交易。本领域技术人员将认识到MMR系统7800可以具有与诸如银行、蜂窝式服务提供者、和信使这样的、各种各样的、现有的实体的连接，并可以与所述实体系统连接来在结合在线零售机制与传统零售机制的、许多方式中完成交易。一旦已完成交易，方法就继续至下文所描述的步骤8242。
如果方法在步骤8210确定动作不为“PURCHASE”命令，则方法确定8212 动作是否为“AUTHOR”命令。“AUTHOR”命令创建新的动作并将其添加至由图像碎片所指定的x-y位置。例如，用户能够创建声音注解，并将其添加至在文档之内的、任意的x-y位置。如果动作为“AUTHOR”命令，则方法识别8228 现在的MMR文档500。如果用户正创建新的MMR文档，则由创建MMR文档500 的步骤来替换这个识别的步骤。然后，MMR系统7800使用从用户110通过捕获装置106接收的输入，来识别新的动作和用于所述新的动作的参数。当将步骤示出为单个步骤时，本领域技术人员将认识到这个步骤可以重复地包括 GUI至用户110的呈现和从信息的用户110的、通过捕获装置106的接收。因而，MMR系统7800给用户提供实时地执行与特别的MMR文档500相关联的动作的更改或创建的能力。不管MMR文档500为现有的MMR文档500或在所述过程中已创建的一个，一旦已识别MMR文档500、动作和参数，就创建动作并将其添加至MMR文档500。在一个实施例中，通过将新的动作和参数存储在数据库3400中，并将动作链接至存储在数据库3400中的MMR文档500 来完成这个步骤。在步骤8240之后，方法转换至下文所描述的步骤8242。
如果方法在步骤8212确定动作不为“AUTHOR”命令，则方法确定8250 动作是否为“PRISTINE_PATCH”命令。“PRISTINE_PATCH”命令检索对于所指定的文档的电子表示，并提取以x-y为中心、有预定的半径的图像碎片。如果动作为“PRISTINE_PATCH”命令，则方法识别8254MMR文档500。由于MMR 文档500为文档的电子表示或到它的参考，因此将来自MMR文档500的信息用来检索文档的电子表示，并提取8256从电子表示直接地产生的图像碎片。在步骤8256之后，方法转换至下文所描述的步骤8242。
如果方法在步骤8250中确定动作不为“PRISTINE_PATCH”命令，则方法确定8252动作是否为“ACCESS_DATABASE”命令。“ACCESS_DATABASE”命令将访问控制更改至任何给定的数据库，来允许用户110使用他的捕获装置106 访问数据库。如果动作为“ACCESS_DATABASE”命令，则方法识别8259正同意到其上的访问的数据库3400，并且然后MMR系统7800更改用于所识别的数据库的访问，以便用户能够访问它。在步骤8256之后，方法转换至下文所描述的步骤8242。
最终，方法确定8242是否有与MMR文档500相关联的、另外的动作或命令。如上文已提到的，MMR文档500可以包括许多动作、命令和参数。如到计算机编程的类比这样的，可以将动作考虑为子例程，能够将命令考虑为个人的指令，并且能够将参数考虑为由指令使用的变量或数据。在步骤8242中，方法确定是否有用于匹配的MMR文档500的任何另外的动作或另外的命令。如果没有，则方法为完成的并结束。另一方面，如果MMR文档500包括任何另外的动作或命令，则方法检索8244下一个命令和它的参数，并返回至步骤 8202来处理下一个命令。
应该注意的是在用于将动作的执行排序的一个实施例中，动作处理器 7802或MMR服务器8302(还见图83)包括MMR动作执行队列。由所排序的队列来控制在MMR系统7800中的动作的执行。当在队列中输入动作时，将其与优先权和被需求来执行动作的资源相关联。队列排序功能重复地检查队列，并确定等待执行的、最高的优选权动作，对于所述动作全部所需求的资源为可利用的。如果在适当的时间周期中它的资源不变成可利用的，则在队列中的动作能够终止。
示例性的动作为由用户接口应用程序所发布的RETRIEVE命令，而所述应用程序提供有关被链接至来自股票市场列表的页面的文本的图像的股票价格的、实时更新的信息。MMR体系结构7800能够在有IMMEDIATE优选权的动作执行队列中插入这个。如果到当前的股票价格的链接为可利用的，则一接收它就能够执行动作。如果到当前的股票价格的链接为不可利用的，则能够以超时数值来在队列中插入动作。对于如股票价格这样的易失性的东西，超时可以如30秒这样少。如果在所述时间之内所需求的资源为不可利用的，则将终止动作(如，决不执行)。
将动作执行队列排序的另一个例子将为在由文本的碎片的图像来确定的电子文档中的x-y位置处插入视频剪辑的动作的添加。能够将其指派为优选权WHEN_CONNECTED，而其将包括对于所需要的数据库的规范。这能够为在用户的PC上的MMR数据库，而可以只在某个未来的时间将所述PC连接至捕获装置106。超时数值能够为无限的，因为只要它将在下一个五分钟内执行动作，它就可以为有效的并且在未来几年中执行动作。
MMR动作执行体系结构的唯一的方面为它的、由如图6和7中所示的MMR 文档指纹匹配系统来暂停的能力。控制结构714经常地监视来自质量评估模块712的输入。当它探测能够被辨认的视频帧(如，它包含出现为机器打印的文本的图像)时，它能够将中断信号发送至暂停当前运行的MMR动作的执行的处理器210。进行将对文档指纹匹配系统为可利用的计算资源最大化。
现在将描述命令的使用和它们如何允许MMR体系结构7800来提供众多的应用程序或使用。虽然这个列表不是彻底的，但是例如更合适地将其提供来阐明达到的结束的结果、通过用户110的捕获装置106的使用、和被用来执行或触发动作的命令与参数。对于每一个例子，提供动作和达到所述动作的命令。
会议指南：在这个使用情况下，用户110使用电话106来捕获诸如视频剪辑这样的多媒体文件，并通过指向在会议指南中的文本碎片来将其附着于对于文档的电子原文。使用INSERT命令来将数据和多媒体文件添加在相应的 MMR文档500的文本的碎片的位置处，来执行将多媒体添加至文档的碎片的作用。
旅行指南：在这个使用情况下，用户110通过指向文本的段落，来检索多媒体文件。例如，多媒体文件能够为有关在由文本所描述的、特别的地方处的新的展览会的剪辑，或者多媒体文件能够为指示企业的营业和关门时间的、所更新的文本。在相应的MMR文档500中的文本的碎片的位置处使用 RETRIEVE命令，来执行检索链接至碎片的多媒体文件的动作。
股票列表：在这个使用情况下，用户110通过指向报纸中的股票页面，来检索有关股票的、最新的信息。在MMR文档500的数据指回至有关用户的、个性化的信息，其包括他的佣金帐户和财产。这将从在用户的桌上型PC，MMR 计算机112上的另一个应用程序(如，)导出。由RETRIEVE命令在来自包括股票报价器的信息的共享数据库的文本的碎片的位置处，来启动或触发数据检索(股票持有物)和金融交易(股票购买)的动作。
将其与在商业打印文档中的广告集成的MMR：在这个使用情况下，将广告MMR链接至与广告相关联的产品。例如，能够将在打印杂志中的电影广告链接至其中人能够购买票的Fandango网站。动作为检索链接至广告的信息，并为了所述益处来记在用户110的帐上。在相应的MMR文档500的文本的碎片的位置处，由RETRIEVE命令来启动或触发动作，其中MMR文档为电影广告。
加标签的多媒体：在这个使用情况下，选择从打印文档所提取的短语，并将其附着于新近捕获的多媒体。动作为从MMR预备文档的选择文本短语，并正将它们附着于由捕获装置106所捕获的多媒体。由INSERT_FROM命令来触发动作，以将在文本的碎片的位置处的数据与在捕获装置106上所捕获的多媒体一起插入至MMR文档500中。
MMR文档攫取器：在这个使用情况下，用户110使用MMR体系结构7800 来选择文档，并将其传递至捕获装置106。动作为识别来自服务器114的文档的电子版本，并将其从服务器114传递至捕获装置106。以TRANSFER命令来执行动作，以将在文本的碎片的位置处的数据从服务器114发送至在捕获装置106上的MMR客户机。
制定应用程序的计划的MMR前端：在这个使用情况下，用户捕获日期，从MMR预备文档选择它，并将数据添加至日历管理器应用程序。动作为从MMR 预备文档选择“日期”，并将它们插入至在捕获装置106上的另一个软件应用程序中。在文本的碎片的位置处至在捕获装置106上的日历管理器应用程序的数据上，由INSERT_FROM命令来启动动作。
作为购买介质文件的UI的MMR：在这个使用情况下，有关诸如“Desperate Housewives”这样的电视节目的、在诸如“People Magazine”这样的杂志中的故事的扫描触发选项的、至用户110的呈现，来购买系列的情节。动作为一段情节的购买和至用户帐户(TiVo、iPOD、或在线iTunes帐户)的下载。对于在文本的碎片的位置处的数据由PURCHASE命令，和将购买文件从它们的来源传递至用户的帐户或数字视频录像机的TRANSFER命令来执行动作。
有MMR的唯一性测量：在这个使用情况下，提议标志或其他图形，并相对于在给定的MMR数据库中的数据来测量它的特殊性。将有关标志的唯一性的反馈给标志设计师。这个为其中动作能够为递归的，并且MMR动作触发其他MMR动作的例子。能够进行对于所述RETRIEVE命令的、识别接近在文本的碎片的位置处的数据的MMR文档的数目的触发器和然后进一步的分析，来确定特殊性的水平。
用于MMR的合作的注解：在这个使用情况下，多个用户110将注解添加至有关给定的文档或书籍的博客(如，孩子们交换他们的、有关Harry Potter 的章节的注释)。能够使用相同的机制来共享测验问题和回答。将在章的结束处的练习链接至他们的回答。能够由其他人来贡献回答，或者它们能够为来自书籍的作者的、官方的回答。动作为检索并/或正将多媒体添加至对于出版物的、共享MMR数据库3400。用来执行所述动作的命令为RETRIEVE命令，来检索数据和INSERT_TO命令以将数据放在文本的碎片的位置处。
中间的链接：在这个使用情况下，将Monarch Notes(或Cliff Notes) 链接至在Shakespeare中的段落，并且反之亦然。还能够将其使用来比较有关作品或理论的、各种各样的社论的或评论的注释。动作为检索至在不同的出版物的页面之内的x-y位置的指针。对于在Cliff Notes中的文本碎片的位置处使用RETRIEVE命令，并创建至在原文作品，如由Scholastic出版社印刷的Shakespeare’s Romeo and Juliet中的文本碎片的指针，来执行动作。
用于动态文档授权的MMR：在这个使用情况下，选择来自MMR预备文档的短语，并将其添加至正在点上草拟的另一个文档(如，PowerPoint文件)。动作为将数据添加至另一个文档，使用数据并存储在PowerPoint文件中的文本的碎片的位置处以INSERT_FROM命令来完成添加。
用于位置告知应用程序的MMR：在这个使用情况下，通过扫描对于餐馆链的广告，来给你提供在用户的位置近旁的那些餐馆的列表。动作为基于MMR 结果和捕获装置106的位置来检索信息。对于匹配文本碎片或处于捕获装置 106的当前的位置附近的数据，由RETRIEVE命令来触发动作。
用于MP3播放器的MMR：当MMR用户110将他们的捕获装置106指向文档时，他们的相关联的MP3播放器播放已预贮藏在他们的MP3播放器上的录音。捕获装置106通过蓝牙与MP3播放器无线地通信。动作为将启动在不是捕获装置106或MMR体系结构7800的部分的另一个装置上的动作。用来完成这个的命令为RETRIEVE命令。
加语音邮件的MMR：语音邮件为用于由MMR提供的数据的基础服务器。捕获装置106或其他MMR客户机装置通过拨语音信箱并播放存储在那里的消息，来检索它的多媒体。因为对MMR要求不分离的服务器基础设施，并且它能够使用对许多公司已可利用的其他计算资源，所以这是有利的。动作为以语音邮件系统的自动化的交易，来拨入并检索与热点相关联的多媒体。用户 110还能够将音频添加至语音信箱。用来完成这个的命令为AUTHOR命令。
与电子邮件集成的MMR：MMR动作的结果为促使电子邮件来将其交付至用户的电子邮件地址的步骤的启动。动作为导致电子邮件消息的发送的启动步骤。
与日历应用程序集成的MMR：用户110捕获并且系统7800辨认广告并从非MMR数据库实体定购商品。那个出现，并且在用户的日历中输入有关所期望的、所述交易的完成的提醒。动作为时间敏感信息至用户的日历应用程序内的插入。能够由PURCHASE命令来启动或触发动作，而在所述动作之后另外的处理对于用户为不可见的。
在商业打印文档中的、个性化的广告：在商品目录的例子中，以在广告中密写编码的个人信息(如，信用卡号码)的方式打印个人的广告。在另一个情形下，它为出版物的识别(如，商品目录的数目)。通过MMR过程来提取所述数据，并将其与如由捕获装置106所提供的这样的、用户的id一起传输至服务器。这保证MMR请求为来自为其打印商品目录的用户的。动作为身份验证和交易(购买商品目录的商品)，并且由PURCHASE命令来触发所述动作。
现在参考图83，来示出根据本发明的分布式MMR系统体系结构8300的实施例。分布式MMR系统体系结构8300包括如与上文参考图78所描述的这样的有相同的功能的相同的部件中的一些。为了理解的简易和描述的清楚，使用同类项和参考数字来表明象如上文在图78中的那些这样的装置一样。分布式MMR系统8300包括所呈现的文档118、用户110、捕获装置106、数据库3400、MMR识别模块或软件226/610、和如MMR服务器8302的部分这样的动作处理器7802。如能够看见的，分布式MMR系统8300的部件106、3400 和7802包括软件套装222a至c，并且上文已描述它提供的、全部的功能。本领域技术人员将认识到软件套装222a至n的每一个例子可以为有它的全部功能的软件套装222的全部版本、只有与能够在特别的部件上被执行的操作相关的软件套装222的那些部分、或者在两者之间的任何部分。
MMR服务器8302为服务器中的任何一个，而上文已描述所述服务器，并且其包括它们的功能中的任何部分或全部。MMR服务器8302包括如上文已描述这样的另外的逻辑和功能，来连接至其他系统并与所述其他系统交互。例如，虽然未示出，但是能够将MMR服务器8302连接至蜂窝式基础设施132、无线保真(Wi-Fi)技术134、蓝牙技术136、和/或红外线(IR)技术138。在图83中将这些或其他所述诸如通过网络128这样的连接示出为到其他装置的、直接的线，并且一般地表明所述连接为信号线8304。更具体地，为了与用户计算机112、介质服务器114、服务提供者122、机顶盒126、办公入口 120、第一个第三方(TP)服务器8306和第n个第三方服务器8308的通信而连接MMR服务器8302。象分布式MMR系统8300的部件一样，用户计算机112、介质服务器114、服务提供者122、机顶盒126、办公入口120、第一个第三方(TP)服务器8306和第n个第三方服务器8308每一个都包括MMR软件套装222d至n。再则，软件套装222d至n的每一个实例都可以为有它的全部功能的软件套装222的全部的版本，或只为与能够在特别的部件上被执行的操作相关的软件套装222的那些部分。用户计算机112、介质服务器114、服务提供者122、机顶盒126、办公入口120、第一个第三方(TP)服务器8306 和第n个第三方服务器8308每一个都具有如上文已描述的这样的相似的功能。应该注意的是第一个第三方(TP)服务器8306至第n个第三方服务器 8308表示可以为了互操作性来将MMR系统8300连接至的另一个系统。例如，第三方服务器8306、8308可以为银行、有线公司、和公司等的系统。
因为多个理由，所以分布式MMR系统8300为特别有利的。第一，有包括软件套装222的部件中的许多的、分发式体系结构允许MMR处理，来以许多方式将其越过MMR系统8300而分发，而所述方式为诸如通过将MMR处理卸下至其他系统112、114、122、126、120、8306和8308这样的。第二，由于全部装置或系统106、3400、8302、112、114、122、126、8306和8308使用软件套装222来交互，因此无论何时用户110与MMR系统8300交互，都使用单个的、一致的一组用户接口。第三，分布式MMR系统8300使能进行其他系统 114、122、126、120、8306和6838的性能的使用，来执行动作和命令，而不然分布式MMR系统8300将能够单独地执行所述动作和命令。第四，能够将 MMR匹配用作为触发器，来开始在其他系统114、122、126、120、8306和6608 上执行的过程。
用于这个分发式体系结构的一个应用程序将在捕获装置106上执行更多的计算功能。例如，当由诸如多功能打印机这样的服务器来复制文档，但将所复制的文档转储在捕获装置上时，自动地翻译所述文档。相似地，MMR服务器中的任何一个还能够翻译所复制的文档，并将文本至声音应用至所复制的文档。这能够为在复印机上的、用于为残疾人设计的技术的输出，而当他们使用复印机时，所述复印机不要求人来站在所述复印机的前面。然后，导出对于复印机的用户接口，并将所述用户接口显示在捕获装置106上。残疾的用户能够插入他们的手机的耳机并使用那个来与复印机交互。它能够以语音提示或蜂鸣声和振动来回复。在用户正站在复印机的前面之前，用户还能够在照相手机上练习使用复印机。
图84为用于使用如根据本发明的另外的第三方系统8306和8308的输入控制和输出这样的MMR系统8300的方法的一个实施例的流程图。通过如上文所描述的这样来获得8002图像并执行8004MMR识别，方法开始。其次，方法建立8402在MMR系统8300(特别是动作处理器7802)与第三方服务器8306 之间的连接。其次，方法将数据呈现8404至用户。在一个实施例中，通过将数据发送至捕获装置106的GUI来执行这个。在另一个实施例中，通过让第三方服务器8306将数据呈现至用户来完成这个。例如，如果第三方服务器 8306为有线电视基础设施，则为了在电子显示器124上至用户的呈现，可以通过第三方服务器8306将数据发送至机顶盒126来将数据呈现至用户。本领域技术人员将认识到这只为第三方服务器8306如何能够将数据呈现至用户的一个例子。有多种其他的机制，而能够使用所述机制来依赖于由第三方服务器8306所提供的性能和功能而将数据呈现至用户。然后，MMR系统8300 在捕获装置106处接收8406输入。MMR系统8300接收过程，并将输入发送至第三方服务器8306。第三方系统8306从MMR系统8300接收输入，并执行 8408与输入相关联的任务。其次，方法确定8410是否完成与第三方系统8306 的交互。如果这样，则方法为完成的并结束。另一方面，如果与第三方系统 8306的交互为未完成的，则方法返回至步骤8404来将数据呈现至用户，或将请求呈现至用户。以有线电视基础设施的、MMR的使用的例子能够使能有相机的手机为到有线TV系统的控制装置。例如，能够从捕获装置106将数据输入至MMR系统8300，然后输入至第三方系统8306(有线电视基础设施)。然后，第三方系统8306能够使用基础设施，机顶盒126来与用户110通信，或向后通过MMR系统8300和捕获装置106来通信。因而，通过捕获屏幕的图像并使用在捕获装置106上的数字按键键盘，用户100能够定购在电视上所示的产品，控制机顶盒126的操作、支付帐单、执行银行业务、定购电影或许多其他操作。这只为捕获装置106、MMR系统8300和第三方系统8306的使用。本领域技术人员将理解其中与MMR系统8300一起来使用多个第三方系统 8306和8308的可能性。
现在参考图85，来描述用于在其中系统8300与第三方系统8306交互的办公环境中使用MMR系统8300的方法。方法以正被输入8502至MMR系统8300 的请求来开始。所述请求为用于到由MMR系统8300所提供的办公环境功能的访问。由于将MMR系统8300连接至MMR计算机112和办公入口120，因此所述MMR系统8300能够诸如由它的场景这样的来提供与给定的文档相关的、另外的信息和文档。此外，能够启动与其中使用所呈现的文档的办公环境相关的、另外的动作。其次，MMR系统8300将以系统8300可利用的MMR文档处理选项呈现8504至用户110。所述选项包括，但不限于：1)以MMR来检索文档的原文的可编译的形式(如，Word文件)；2)检索至可编辑的文档的形式的路径；3)检索对于文档的编辑历史；4)在与可编辑的文档的形式相同的目录中检索其他文档；5)将声音注解添加至原文的可编辑的文档的形式； 6)查看与诸如由办公入口所捕获的这样的文档相关联的“事件”；7)物理地定位给定的文档的其他版本；8)听当所述文档在你的桌面之上时出现的会话； 9)确定打印给定的文档或它的版本的其他人；10)确定谁已在线或离线阅读文档的给定的章节；11)与最近已经阅读文档的给定的章节的其他人通信； 12)执行合作文档查阅；以及13)其他专门的操作。
其次，方法从用户110接收8506输入。通过确定8508用户110是否已输入请求来获得文档的历史，方法继续。如果用户110已请求文档的历史，则方法继续来找8510文档历史，并将其呈现至用户110。例如，通过指向文档的章节，用户110能够在捕获装置106或其他系统8300显示器上看见何时、何地和谁创建或更改文档。用户110还可以用MMR来检索原文可编辑的文档的形式(如，Word文件)。其他历史信息和操作包括：在相同的目录中检索如可编辑的文档的形式这样的其他文档；查看与文档相关联的“事件”(如，当打印文档时出现在用户的PC112附近的会话——可以由另一个装置来捕获这些事件，如办公入口120，所述装置不同于打印文档的那一个)；查看诸如网页浏览、视频查看等这样的创建包括当文档为打开的时出现的PC事件的文档的历史；在某些时间查看与现在的文档物理地相邻的其他文档，而其暗示某一个其他装置的使用来捕获桌面的图像或识别文档——它能够使用RFID 并将MMR识别应用于那些图像。检索系统提供那些文档的图像、事件和附着于它们的历史。在所述方式下，能够产生文档的物理生命周期的图形。然后，方法继续至步骤8524。
如果用户110还未输入获得历史请求，则通过8512用户110是否有将注解添加至文档的请求，方法继续。如果用户110已输入请求来将注解添加至文档，则方法捕获8514注解，并将其添加至MMR文档500。例如，用户100 能够将声音注解，或图片或视频剪辑添加至原文的可编辑的文档的形式。然后，方法继续至步骤8524。
如果用户100还未输入添加注解的请求，则通过确定8516用户110是否已选择联系其他人的请求，方法继续。如果用户110已输入联系其他人的请求，则方法确定8518已访问MMR文档500的其他人并联系他们，以便用户 110能够与最近已读取文档的给定的章节的其他人通信。例如，通过将捕获装置106指向段节，用户110得到最近读取MMR文档500的章节的人的列表，并能够立即启动与他们的会话。这能够通过触发蜂窝式电话呼叫或开始与在列表上的所选择的人的IM通话来进行。可替代地，MMR文档可以包括诸如当读取或访问特别的文档时实时地通知其他人这样的动作。然后，方法继续至步骤8524。
如果用户110还未输入联系其他人的请求，则通过8520用户110是否已选择将被执行的、专门的操作，方法继续。如果用户110已选择将被执行的专门的操作，则方法继续进行并执行8522所述专门的操作。MMR系统8300 能够执行在办公环境中为有用的、许多专门的操作。例如，此处描述少数例子来阐明MMR系统8300的性能。例如，一个专门的操作为物理地定位给定的文档的其他版本。如上文，所述操作使用诸如PTZ相机这样的、分离的图像捕获系统来观看其他用户的桌面，并将MMR识别应用于它捕获的图像。将文档的存在记在共享数据库系统的日志中。第二个专门的操作为听当所述文档在你的书桌之上时出现的会话。所述操作使用基于相机的文档追踪系统和将录音附着于相机捕获的文档的音频捕获系统。第三个专门操作为确定打印给定文档或其版本的其他人，他们何时打印它和使用什么打印机。这利用共享数据库和有确定文档与另一个有多相似的逻辑的版本匹配程序。第四个专门的操作确定谁已在线地读取文档的给定的章节。所述操作使用将在PC屏幕上写入的文本与在正在进行的基础上的数据库匹配的屏幕监视软件。匹配过程使用MMR识别算法或基于文本的匹配。可替代地，由于GDI引擎常常产生在屏幕上示出的文本，因此能够从我们当前用来捕获打印文档的GDI引擎来获取屏幕文本。第五个专门的操作确定谁已离线地读取文档的给定的章节。所述操作使用捕获用户110阅读的那些的图像的桌面视频监视系统。MMR识别算法识别文档和在它们之内的章节，并将信息存储在共享数据库中。第六个专门操作为将文档的阅读历史作为元数据(在线地或离线地)添加至网络浏览器。这提供存储并表示所述数据的不依赖于Windows应用程序的方法。第七个专门的操作将一个人的阅读历史(在线地并且离线地)产生为时间线。最终，第八个专门的操作为合作文档查阅，其中相同的纸质文档的不同版本的多于一个读者查阅由其他人通过将他们的捕获装置106指向文档的任何章节而应用的注释。将注解显示为在文档图像略图之上的覆盖层。如上文提到的，这些只为MMR系统8300能够执行的专门操作中的一些的范例。
在步骤8522或步骤8520之后，方法确定8524与第三方服务器8306的交互是否为完成的。如果交互为未完成的，则方法返回至步骤8506来从用户接收进一步的输入。然而，如果交互为完成的，则完成所述方法并且过程结束。
MMR系统8300的再一个应用程序为提供与个人计算机112或其他计算环境的交互的唯一的方式。将MMR识别用作为触发或启动在个人计算机112上所执行的活动的机制。例如，使用MMR识别来在个人计算机112上启动视频回放。当所述章节为可见的时，通过将捕获装置106指向纸质文档的章节，在个人计算机112的显示器上将示出改变的视频剪辑向用户110示出。这将桌面视频的捕获与在屏幕上显示的文本的索引标定结合。在第二个例子中，将MMR识别用作为网页提醒。通过摇摆视频相机的镜头至文档上，以当在个人计算机112的显示器上示出文档的相应的章节时查看的网页的踪迹来呈现用户110。能够在浏览器中、在照相手机的屏幕上覆盖地等来示出网页。在第三个例子中，使用MMR识别来查阅已如何完成形式的。通过指向空白的形式，将他们已在过去以所述形式来输入的全部的历史示出给用户。能够以在网络浏览器中所显示的、在线的形式来使用这个。能够以我们的屏幕捕获系统来捕获在那些文档上所输入的数据的历史。在最后的例子中，对不依赖于时间的文档的检索版本来使用MMR识别。对于过去和未来的(在文档在手中以后打印的)、文档的版本，使用MMR来检索源文件和所打印的表示。这些例子只为使用MMR来与个人计算机112交互的少数方式，并且本领域技术人员将认识到对于与个人计算机112交互，MMR能够为多么强大的工具。
在本发明的一个实施例中，MMR系统包括动作处理器和方法，和有相关联的动作的MMR文档。因为指定用于不同的MMR文档的、不同的动作的能力允许MMR体系结构来用作为用于另外的处理的通用触发器或启动程序，所以 MMR文档结构为特别有利的，而将所述能力与对于在任何介质上的、特别的位置而创建许多MMR文档的能力结合。换言之，能够基于MMR识别来触发或启动另外的处理或动作。动作处理器接收产出至少包括一个动作的MMR文档的MMR识别过程的输出。动作处理器执行包括到MMR系统或连接至MMR系统的其他系统的、各种各样的命令的动作。因为能够通过将捕获装置指向文本的块来执行动作，并且执行动作，所以MMR系统体系结构为有利的。例如，动作可以为将以电子形式的文本检索至捕获装置，检索对于动作的规范，将数据插入至MMR文档，传递在文档之间的数据，购买项目，授权动作或查阅有关动作的历史信息。动作处理器将有关动作的历史信息存储在数据库中。在与文本的块、和文档与页面中的x-y位置的关联中，存储有关动作的历史信息。然后，能够稍后在捕获相同的文本的块事件中检索、搜索和分析所述信息。
混合介质实境(MMR)系统和相关联的技术提供用于形成包括至少两种类型的介质(如，作为第一介质的打印纸张，和作为第二介质的数字内容和/ 或网络链接)的混合介质文档的技术。MMR系统包括动作处理器和方法，和有相关联的动作的MMR文档。对于不同的MMR文档，MMR文档指定不同的动作，并对于在任何介质上的、特别的位置来创建许多MMR文档，从而允许MMR 体系结构来用作为用于另外的处理的通用触发器或启动程序。动作处理器接收产出至少包括一个动作的MMR文档的MMR识别过程的输出。动作处理器执行包括到MMR系统或被连接至MMR系统的其他系统的、各种各样的命令的所述动作。MMR系统体系结构能够执行诸如将文档的电子形式检索至捕获装置、检索用于动作的规范、将数据插入至MMR文档、传递在文档之间的数据、购买项目、授权动作或查阅有关动作的历史信息这样的动作。
在本发明的一个实施例中，MMR系统包括动作处理器和方法，和有相关联的动作的MMR文档。因为指定用于不同的MMR文档的、不同的动作的能力允许MMR体系结构来用作为用于另外的处理的通用触发器或启动程序，所以 MMR文档结构为特别有利的，而将所述能力与对于在任何介质上的、特别的位置而创建许多MMR文档的能力结合。换言之，能够基于MMR识别来触发或启动另外的处理或动作。动作处理器接收产出至少包括一个动作的MMR文档的MMR识别过程的输出。动作处理器执行包括到MMR系统或连接至MMR系统的其他系统的、各种各样的命令的动作。因为能够通过将捕获装置指向文本的块来执行动作，并且执行动作，所以MMR系统体系结构为有利的。示例性的动作包括将以电子形式的文本检索至捕获装置，检索对于动作的规范，将数据插入至MMR文档，传递在文档之间的数据，购买项目，授权动作或查阅有关动作的历史信息。MMR系统包括由文本碎片的MMR识别来启动的多种用户应用程序(一个或多个动作)，例如，用于旅行指南、股票列表或广告的信息检索；诸如记录来自会议的内容，记录并存储与文档相关联的多媒体、捕获对于日历的信息并实时地授权这样的信息捕获；购买用于在MMR文档的任何部分上的存储的介质文件。
在一个特定实施例中，MMR系统包括动作处理器和方法，和有相关联的动作的MMR文档。因为指定用于不同的MMR文档的、不同的动作的能力允许 MMR体系结构来用作为用于另外的处理的通用触发器或启动程序，所以MMR 文档结构为特别有利的，而将所述能力与对于在任何介质上的、特别的位置而创建许多MMR文档的能力结合。换言之，能够基于MMR识别来触发或启动另外的处理或动作。动作处理器接收产出至少包括一个动作的MMR文档的MMR 识别过程的输出。动作处理器执行包括到MMR系统或连接至MMR系统的其他系统的、各种各样的命令的动作。因为能够通过将捕获装置指向文本的块来执行动作，并且执行动作，所以MMR系统体系结构为有利的。示例性的动作包括将以电子形式的文本检索至捕获装置，检索对于动作的规范，将数据插入至MMR文档，传递在文档之间的数据，购买项目，授权动作或查阅有关动作的历史信息。MMR系统包括由文本碎片的MMR识别来启动的多种用户应用程序(一个或多个动作)，例如，用于旅行指南、股票列表或广告的信息检索；诸如记录来自会议的内容，记录并存储与文档相关联的多媒体、捕获对于日历的信息并实时地授权这样的信息捕获；购买用于在MMR文档的任何部分上的存储的介质文件。
在本发明的一个实施例中，MMR系统包括动作处理器和方法，和有相关联的动作的MMR文档。因为指定用于不同的MMR文档的、不同的动作的能力允许MMR体系结构来用作用于另外的处理的通用触发器或启动程序，所以MMR 文档结构为特别有利的，而将所述能力与对于在任何介质上的、特别的位置而创建许多MMR文档的能力结合。换言之，能够基于MMR识别来触发或启动另外的处理或动作。动作处理器接收产出至少包括一个动作的MMR文档的MMR 识别过程的输出。动作处理器执行包括到MMR系统或连接至MMR系统的其他系统的、各种各样的命令的动作。因为能够通过将捕获装置指向所呈现的文档来执行动作，并且执行动作，所以MMR系统体系结构为有利的。示例性的动作包括检索所呈现的文档的电子形式，检索对于动作的规范，将数据插入至MMR文档，传递在文档之间的数据，购买项目，授权动作或查阅有关动作的历史信息。MMR系统使用其他系统来执行动作，并且将MMR软件分发于MMR 系统和这些其他系统之中。在另一个实施例中，将MMR系统，特别地MMR识别和捕获装置的输入/输出性能使用为对于第三方系统的控制机制。
在本发明的一个实施例中，MMR系统包括动作处理器和方法，和有相关联的动作的MMR文档。MMR文档结构指定与创建对于在任何介质上的特别的位置的许多MMR文档的能力结合的、对于不同MMR文档的不同的动作，而所述能力允许MMR体系结构来用作用于另外的处理的通用触发器或启动程序。动作处理器接收产出至少包括一个动作的MMR文档的MMR识别过程的输出。动作处理器执行包括到MMR系统或连接至MMR系统的其他系统的、各种各样的命令的动作。MMR系统使用其他系统来执行动作，并且将MMR软件分发于 MMR系统和这些其他系统之中。因为能够通过将捕获装置指向所呈现的文档来执行动作，并且执行动作，所以MMR系统体系结构为有利的。示例性的动作包括检索所呈现的文档的电子形式，检索对于动作的规范，将数据插入至 MMR文档，传递在文档之间的数据，购买项目，授权动作或查阅有关动作的历史信息。在另一个实施例中，将MMR系统，特别地MMR识别和捕获装置的输入/输出性能使用为对于第三方系统的控制机制。
于此呈现的算法不为固有地涉及任何特别的计算机或其他仪器装置的。根据本发明的实施例，可以将各种各样的一般用途的和/或专门用途的系统程序化，或配置所述系统。如根据所述公开发明将为明显的这样，能够使用众多的编程语言和/或结构来实现多种所述系统。此外，本发明的实施例能够在信息系统或网络上操作或与所述信息系统或网络一起运作。例如，本发明能够在独立的多功能打印机或有依赖于配置而变化的功能的网络打印机上操作。本发明能够以任何信息系统来操作，而所述系统从有最小的功能的那些至提供于此所公开的全部功能的那些。
为解释说明和描述的目的，已经呈现了本发明的实施例的前述描述。但并不意谓着详尽或限制本发明于所公开的精确形式。根据上述教义，许多更改和变动都是可能的。意谓着本发明的范围并不由这个详细的描述限制，而是由这个申请的权利要求限制。如熟悉本技术的技术人员将理解的，可以以其它特定的形式体现本发明，而不背离其精神或本质特性。同样，模块、例程、特征、属性、方法和其它方面的特别的命名和部分并不是强制性的或重要的，并且实现本发明或其特征的机制可以具有不同的名称、部分和/或格式。此外，如对于相关领域普通技术人员将很明显的，本发明的模块、例程、特征、属性、方法和其它方面能够作为软件、硬件、固件或这三个的任何结合而实现。同样，在其一个例子为模块的本发明的一个部件作为软件而实现的任何地方，该部件也能够作为单独的程序、作为较大的程序的一部分、作为多个分离的程序、作为静态或动态链接库、作为核心可装入模块、作为装置驱动器、和/或对于计算机编程的领域中的普通技术人员而言，现在或将来已知的每个和任何其它方式，而实现。另外，本发明决不局限于任何特定的编程语言中、或关于任何特定的操作系统或环境的实现。另外，本发明的公开发明意谓着解说性的、但并不是本发明的范围的限制，其在下列权利要求中阐述。
本发明是基于美国优先申请2006年7月31日所提交的S.N.11/461,017、 2006年7月31日所提交的S.N.11/461,024、2006年7月31日所提交的 S.N.11/461,032、2006年7月31日所提交的S.N.11/461,049、2006年7月 31日所提交的S.N.11/461,064、2006年7月31日所提交的S.N.11/461,075、 2006年7月31日所提交的S.N.11/461,090、2006年7月31日所提交的 S.N.11/461,126、2006年7月31日所提交的S.N.11/461,143、2006年7月 31日所提交的S.N.11/461,268、2006年7月31日所提交的S.N.11/461,272、 2005年8月23日所提交的S.N.60/710,767、2006年4月17日所提交的 S.N.60/792,912和2006年7月18日所提交的S.N.60/807,654，其全部内容因此结合于此，以供参考。

标题	发布/更新时间	阅读量
用条形码阅读器可读的计量表计数器	2020-05-12	428
烹饪设备及其控制方法	2020-05-16	693
模拟人眼-脑系统的条形码阅读器	2020-05-12	396
模拟人眼-脑系统的条形码阅读器	2020-05-12	340
低成本条形码阅读器	2020-05-11	511
具有移动光束仿真的成像条形码阅读器	2020-05-15	413
电子阅读装置	2020-05-18	419
条形码阅读器以及条形码阅读程序	2020-05-11	920
无线条形码阅读器的通信系统	2020-05-12	816
正交频分多路复用信号发送系统、便携式终端和电子商务系统	2020-05-17	263

混合介质环境的创建和使用的系统和方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：