多媒体聚焦专利检索-化成电池与电池专利检索查询-专利查询网

多媒体聚焦

阅读：500发布：2020-05-08

专利汇可以提供多媒体聚焦专利检索，专利查询，专利分析的服务。并且示例实施方式针对于用于个性化多媒体导航和控制的方法和系统，包括：接收一条数字内容的元数据，其中元数据包括用于描述该数字内容的主图像和文本；分析主图像以检测一个或多个对象；选择与每个检测到的对象对应的一个或多个次级图像；以及生成该数字内容的包括所述一个或多个次级图像的数据结构，其中数字内容由优选的次级图像描述。，下面是多媒体聚焦专利的具体信息内容。

权利要求

1.一种方法，包括：
接收一条数字内容的元数据，其中元数据包括用于描述所述一条数字内容的主图像和文本；
分析主图像以检测一个或多个对象；
选择与每个检测到的对象对应的一个或多个次级图像；以及
生成所述一条数字内容的数据结构，所述数据结构包括所述一个或多个次级图像，其中，响应于用户请求，所述一条数字内容将由优选的次级图像来描述。
2.如权利要求1所述的方法，其中将至少基于用户偏好来确定优选的次级图像。
3.如权利要求1所述的方法，还包括：
至少基于文本信息为每个次级图像确定标签，其中数据结构包括标签，其中至少基于与优选的次级图像相关联的标签和用户偏好来确定优选的次级图像。
4.如权利要求3所述的方法，还包括：
接收描述所述一条数字内容的请求；
接收用户信息集；
响应于数据结构包括与用户信息集中的用户偏好对应的标签，将该标签的次级图像呈现为优选的次级图像以描述所述一条数字内容。
5.如权利要求1所述的方法，
其中为每个检测到的对象选择一个或多个次级图像包括为每个检测到的对象识别图像的次级图像坐标集；以及
其中数据结构为每个次级图像存储次级图像坐标集。
6.如权利要求3所述的方法，还包括：
接收描述所述一条数字内容的请求；
接收用户信息集；
响应于数据结构包括与用户信息集中的用户偏好对应的标签，
基于次级图像坐标集，在图像中搜索标签的次级图像；
基于标签的次级图像的次级图像坐标集来呈现图像的一部分。
7.如权利要求1所述的方法，
其中为每个检测到的对象选择一个或多个次级图像包括为每个检测到的对象识别图像的一部分；以及
其中生成数据结构包括为每个次级图像存储识别出的部分。
8.如权利要求3所述的方法，
其中基于面部识别来分析图像以检测一个或多个对象；以及
其中基于将面部识别与元数据的文本信息中的姓名进行匹配来确定每个次级图像的标签。
9.如权利要求3所述的方法，其中确定标签包括计算每个次级图像与元数据中的文本的一部分的关系的置信度得分。
10.如权利要求1所述的方法，其中，基于次级图像中的对象的尺寸，鉴于从主图像检测到的其它对象，对次级图像进行排序。
11.如权利要求1所述的方法，其中数字内容是电视节目、电影、播客、体育赛事中的至少一种，所述一个或多个次级图像包括在数字内容中作为特征的人的面部；并且数字内容由作为导航数字内容的库的菜单的一部分的优选的次级图像描述。
12.如权利要求1所述的方法，其中所述用户信息包括用于确定用户偏好的启发法。
13.一种系统，包括：
存储器；
处理器，耦合到存储器，所述存储器包括指令，所述指令在被执行时使处理器：
接收描述一条数字内容的请求；
接收用户信息集；
接收所述一条数字内容的元数据，其中元数据包括描述所述数字内容的图像和文本；
分析图像以检测一个或多个对象；
选择与每个检测到的对象对应的一个或多个次级图像；以及
响应于用户请求，呈现至少基于用户信息集中的用户偏好确定的优选的次级图像以描述所述数字内容。
14.如权利要求13所述的系统，其中至少基于用户启发法来确定优选的次级图像。
15.如权利要求13所述的系统，其中处理器还：
至少基于文本信息来确定每个次级图像的标签，其中数据结构包括标签，其中至少基于与优选的次级图像相关联的标签以及用户偏好来确定优选的次级图像。
16.如权利要求13所述的系统，其中为每个检测到的对象选择所述一个或多个次级图像包括为每个检测到的对象识别图像的一部分；以及
其中生成数据结构包括为每个次级图像存储识别出的部分。
17.如权利要求15所述的系统，其中基于面部识别来分析图像以检测一个或多个对象；
以及
其中基于将面部识别与元数据的文本信息中的姓名进行匹配来确定每个次级图像的标签。
18.一种非暂态计算机可读介质，包括指令，在由处理器执行时所述指令：
接收一条数字内容的元数据，其中元数据包括用于描述数字内容的主图像和文本；
分析主图像以检测一个或多个对象；
选择与每个检测到的对象对应的一个或多个次级图像；以及
生成数字内容的数据结构，所述数据结构包括所述一个或多个次级图像，其中，响应于用户请求，数字内容将由对应于用户信息的优选的次级图像来描述。
19.如权利要求18所述的非暂态计算机可读介质，其中所述指令还：
为每个检测到的对象选择一个或多个次级图像包括为每个检测到的对象识别图像的次级图像坐标集；以及
生成包括每个次级图像的次级图像坐标集的数据结构。
20.如权利要求18所述的非暂态计算机可读介质，其中至少基于用户偏好来确定优选的次级图像。

说明书全文

多媒体聚焦

技术领域

[0001] 本公开一般而言涉及多媒体控制，并且更具体地涉及用于条件控制多媒体聚焦的图像分析。

背景技术

[0002] 过去，观看者会浏览一系列频道，以发现可用的广播内容。现代数字多媒体内容递送包括描述可用内容的每个项目的元数据，例如标题和简短描述。用户(例如，潜在的观看者)一般在文本网格或一系列菜单中导航，这些文本网格或菜单可能包含发现或导航可用内容的艺术作品(show art)。通常，用户查看表示与该内容项目相关联的流派或故事情节的艺术作品的详细项目。诸如电影制作者或电视节目创作者之类的内容提供者在内容选择阶段使用艺术作品传达内容的主题并说服观看者选择内容来争夺观看者的兴趣。

[0003] 按照惯例，管理员或制作者会花费无数小时来编辑和限制艺术作品，以吸引潜在观看者的注意力。例如，电影制作者可以开发包含不同艺术作品的小型库，以销售内容并说服观看者观看他们的电影。相关技术系统使用创造性的设计和焦点组来创建艺术作品图像，该图像传达关于内容的主题的多个方面，以吸引广大潜在观看者的注意力。例如，电影可以制作了多个不同的海报，以便吸引目标观众的大部分。例如，可以将一件艺术作品设计为传达数字内容的流派，将另一件艺术作品设计为传达数字内容中的演员或主角，而将另一件艺术作品设计为传达日程安排信息(例如，观看的日期和时间或特写的体育队)。

[0004] 相关技术研究表明，阅读有关数字内容的文本在引起潜在观看者的决策方面无效。相关研究表明，图像在选择数字内容时会极大地影响观看者的选择。例如，相关研究表明，当导航流媒体的库时，观看者通常会花一到两秒钟的时间来考虑每个标题，而大部分时间都用于访问艺术作品。另外，研究表明，相对于对象，人们能够快得多地识别面部图像。

[0005] 相关技术的内容导航系统可以直接提供由内容提供者提供的艺术作品。在相关技术的系统中，数据科学家分析用户统计信息以跟踪对图像的反应，而创意团队则修改用作艺术作品的颜色、图像和词语。此外，带有文本的图像的显示改善观看者的决策过程。但是，图像(例如，艺术作品)已经变得更加复杂，以便吸引潜在观看者的更多部分。由于图像更加复杂，因此观看者需要附加的时间来分析图像以定位感兴趣的对象，从而有助于确定是否观看该内容项目。

[0006] 在相关技术中，在相机中使用焦点检测来调整图像捕获设置。在其它相关技术中，面部识别系统能够从数字图像或来自视频源的视频帧中识别或核实人的身份。

[0007] 随着在线数字库和流式数字媒体递送服务的爆炸性增长，观看者可以访问大量的数字内容以进行导航。因而，需要工具来改善用户导航以及与基于图像的数字内容导航的交互。附图说明

[0008] 通过示例而非限制的方式示出了本公开，并且当结合附图考虑时，通过参考以下详细描述可以更充分地理解本公开，其中：

[0009] 图1图示了根据示例实施方式的聚焦系统的框图。

[0010] 图2图示了根据示例实施方式的示例聚焦引擎。

[0011] 图3图示了根据示例实施方式的用于生成兴趣点数据结构的流程图。

[0012] 图4A-B图示了根据示例实施方式的用于生成焦点图像的框图和流程图。

[0013] 图5图示了根据示例实施方式的用于接口控制的流程图。

[0014] 图6A-C图示了根据示例实施方式的示例聚焦界面。

[0015] 图7A-F图示了根据示例实施方式的示例个性化界面。

[0016] 图8A-C图示了根据示例实施方式的示例界面控制选项。

[0017] 图9图示了具有适于在示例实施方式中使用的示例计算机设备的示例服务器计算环境。

具体实施方式

[0018] 本公开针对识别多个次级图像以描述可以用于基于用户信息提供个性化菜单的一条数字内容(例如，视频、音频、文本等)。

[0019] 艺术作品图像(例如，主图像)是指用于描述一条内容的图像，例如，作为电影海报或DVD封面。对于数字内容导航，内容提供者递送艺术作业图像以描述一条可用的数字内容，以便在菜单或子菜单中显示给潜在的观看者。潜在的观看者可以浏览基于文本或基于图像的菜单，并观看艺术作品图像，以帮助确定是否选择一条数字内容。由于内容提供者按照惯例确定要使用的描述电影或电视节目的艺术作品图像，因此对所有潜在的观看者使用相同的普通艺术作品图像。按照惯例，用于一大批在线数字内容的导航界面(例如，菜单)使用普通艺术作品图像来允许潜在的观看者浏览可用的数字内容。

[0020] 如本文所述，系统和方法通过分析每个艺术作品图像以识别主图像内的多个子图像(例如，次级图像)来提供对艺术作品图像(例如，主图像)的改进的图像处理。可以基于潜在观看者的情结(affinity)或偏好将优选的子图像(例如，优选的次级图像)呈现给潜在观看者。在示例实施方式中，导航界面基于他们的用户信息来向潜在观看者呈现普通艺术作品图像的优选的子图像而不是该普通艺术作品图像。例如，可以替换由内容提供者选择的七个人的艺术作品图像或调整其尺寸，以呈现或突出在普通艺术作品图像中描绘的女演员之一的优选的子图像。与扫描普通艺术作品图像相比，潜在的观看者可以在更短的时间内识别出优选子图像中的女演员。例如，普通艺术作品图像要求潜在观看者扫描所描绘的七个人，以确定七个人中的任何一个是否可辨认，而其中一个人的优选的子图像花费较少的时间供潜在观看者处理。

[0021] 在示例实施方式中，基于与潜在观看者相关联的信息来选择优选的子图像。例如，可以使用关于潜在观看者的信息(例如，基于潜在观看者的观看历史)从艺术作品图像内的多个子图像(例如，七个人中的每个人的子图像)中选择女演员的子图像。与内容提供者或制作者预先选择的普通艺术作品图像相比，潜在观看者更有可能识别或更快地识别与其用户信息对应的优选的子图像。

[0022] 为了浏览各条数字内容，可以向导航界面呈现每条数字内容的基于用户信息选择的优选的子图像(例如，优选的次级图像)。优选的次级图像而不是普通艺术作品图像的菜单可以减少用户识别时间和用户浏览时间。因此，优选的次级图像的菜单比普通艺术作品图像更好地描述一批内容。

[0023] 在一些实施方式中，次级图像的基于图像的菜单可以包括主图像的子图像或来自数据库的补充图像。例如，可以呈现来自数据库的女演员的头像照片(例如，补充图像)，而不是来自艺术作品图像的女演员的图像。在另一个示例中，潜在的观看者可以观看基于他们的用户信息的描述一条数字内容的补充图像(例如，次级图像)而不是普通艺术作品图像。例如，可以呈现来自数据库的女演员的头像照片(例如，补充图像)来描述电影，而不是以大船为特征的普通艺术作品图像。次级图像(例如，普通艺术作品图像的子图像或用于替换普通艺术作品图像的补充图像)的基于图像的菜单可以减少用户导航时间并改善用户参与度。

[0024] 如本文所使用的，聚焦是指确定数字内容中(或数字库内)的一个或多个兴趣点以指引观看者的注意力。在示例实施方式中，图像中的一个或多个兴趣点可以是焦点。例如，具有多个面部的图片可以被聚焦以检测多个面部并确定其中一个面部以指引观看者的注意力。在示例实施方式中，通过调整尺寸(例如，缩放、裁切、截取片段(snippet)等)、模糊、滤波、取景等来将注意力指引至兴趣点。

[0025] 在另一个示例实施方式中，视频中的一个或多个兴趣点可以是帧的集合。例如，具有多个场景(例如，相机镜头、背景等)的长视频可以被聚焦以检测多个场景并确定其中一个场景以指引观看者的注意力。

[0026] 在本公开的示例方面，聚焦引擎在与一条数字内容(例如，电影或电视节目)相关联的普通艺术作品图像(例如，主图像)中检测一个或多个兴趣点、向每个兴趣点指派标签，并生成数据结构以识别每个兴趣点，以便可以将兴趣点之一呈现为次级图像(例如，普通艺术作品图像的子图像或用于替换普通艺术作品图像中的子图像的补充图像)。通过选择与用户信息对应的普通艺术作品图像的兴趣点，与整个艺术作品图像相比，观看者可以更快地处理兴趣点，并识别与次级图像相关联的数字内容的一方面(例如，普通艺术作品图像的子图像或补充图像)。在示例实施方式中，用于可用数字内容的菜单被呈现给观看者以导航(例如，浏览、滚动、点击、弹拨(flick)等)通过聚焦图像(例如，次级图像)而不是普通艺术作品图像(例如，主图像)。次级图像可以减少处理复杂图像(例如，普通艺术作品图像)所需的识别时间。具有次级图像(例如，普通艺术作品图像的子图像或补充图像)的基于图像的菜单聚焦观看者的注意力，以定位与观看者的兴趣对应的数字内容。

[0027] 聚焦引擎可以执行质量测试，以检测用于兴趣点的普通艺术作品图像的子图像太小或太模糊不清以至于无法在菜单中表示数字内容。如果普通艺术作品图像的子图像未通过质量测试，那么聚焦引擎可以访问第三方库以检索兴趣点的补充图像。例如，响应于检测到子图像的呈现像素化(例如，将图像放大到分辨率阈值以上)，聚焦引擎可以针对兴趣点检索更高质量的补充图像。聚焦引擎可以防止子图像被放大到使形成图像的各个像素可见的程度，并且避免降低次级图像的识别速度。

[0028] 本公开的各方面可以包括用于个性化的多媒体导航和控制的系统和方法，其包括接收一条数字内容的元数据，其中元数据包括用于描述数字内容的主图像和文本；分析主图像以检测一个或多个对象；基于每个检测到的对象来选择一个或多个次级图像；以及为数字内容生成包括一个或多个次级图像的数据结构。可以基于元数据或面部识别技术来确定每个次级图像的标签，以帮助选择与用户信息对应的次级图像。然后，可以通过与用户信息对应的优选的次级图像而不是主图像来描述数字内容。

[0029] 详细描述提供了本公开的附图和示例实施方式的进一步细节。为了清楚起见，在附图之间省略了冗余元件的附图标记和描述。整个说明书中使用的术语仅作为示例提供，并且不旨在进行限制。例如，术语“自动”的使用可以涉及全自动的或半自动实施方式，该实施方式涉及用户或操作者对实施方式的某些方面的控制，这取决于实践本应用的实施方式的本领域普通技术人员的期望的实施方式。

[0030] 图1图示了根据示例实施方式的与聚焦引擎110一起使用的系统100的概观。系统100包括聚焦引擎110，该聚焦引擎110被配置为分析来自本地数据存储装置103或者经由网络102来自元数据提供者105e或者内容提供者105f或经由云服务105n的元数据。聚焦引擎
110可以分析描述来自各种数据源(诸如实时流服务、数字存储库、按需服务等)的内容项的元数据。

[0031] 设备105a-105n可以包括例如移动计算设备105a-105b(例如，智能电话、膝上型计算机、平板电脑等)、演示系统105c、计算设备105d(例如，台式机、大型机、网络装备等)、元数据库105e、内容存储库105f、内容提供者105g以及云服务105n(例如，远程可用的专有或公共计算资源)。设备105a-d可以包括诸如电子书阅读器、便携式数字助理、移动电话、智能电话、膝上型计算机、便携式媒体播放器、平板计算机、相机、摄像机、上网本、笔记本等设备。用户设备105a-d还可以包括诸如机顶盒、台式计算机、游戏机、数字视频记录器(DVR)、媒体中心等设备。用户设备105a-d可以通过专用网络、WAN、LAN等连接到网络102。

[0032] 内容项目可以包括来自独立源或中间媒介的内容。例如，操作者前端服务器可以存储源内容(例如，内容提供者105n、内容数据存储装置105f等)或从一个或多个内容源提供者接收源内容。如本文中所使用的，内容提供者总指元数据提供者105e、中间内容分发者、内容源、电影制片厂、制作公司、内容经销商等。例如，流内容可以来自访问以MPEG2节目流(MPG-PS)、HTTP实时流(HLS)等组织的分组中可用的内容的运营商头端服务器105d或HTTP流服务器(HSS)。例如，内容源提供者可以提供实时体育赛事视频的数字内容。操作者前端服务器105d可以包括物理机器和/或由物理机器托管的虚拟机(例如，机架式服务器、台式计算机或其它计算设备)。

[0033] 设备105a-105n还可以从一个或多个其它设备105a-105n收集信息(例如，内容历史数据、观看者简档数据、反馈数据等)，并将收集的信息提供给聚焦引擎110。例如，设备105a-105n可以使用低功率无线局域网上的互
联网协议版本6(6LowPAN)、电力线通信(PLC)、以太网(例如，10兆字节(Mb)、100Mb和/或1千兆字节(Gb)以太网)或其它通信协议通信地连接到其它设备。

[0034] 设备105a-d可以与唯一的用户设备标识符(例如，令牌、数字版权简档、设备序列号等)相关联并且可以由其识别。在一个实施方式中，用户设备105a-d可以是具有活动跟踪服务的网络级设备，该活动跟踪服务被用于跟踪用户的激活、兴趣、行为等或跟踪设备的活动(例如，cookie、全局登录等)。跟踪服务可以为每个最终用户识别唯一的标识符(例如，令牌、数字版权简档、设备序列号等)。例如，视频点播(VOD)服务可以通过机顶盒、计算机或其它设备流式传输内容，从而允许实时观看或将内容下载到设备(诸如计算机、数字录像机或其它便携式媒体播放器)以进行观看。跟踪服务可以跟踪被访问或请求的内容以及关于用户兴趣的其它人口统计或营销信息。唯一的用户标识符可以被用于认证设备并允许VOD流式传输、按次付费流式传输、下载到DVR等。用户设备105a-d通常发送对描述可用内容的元数据的请求(本文中为“元数据请求”)，其包括将用户与用户信息相关联的标识符。

[0035] 聚焦引擎110可以与客户端设备105a-105n、元数据提供者105e、云服务105n等交互，并分析内容的元数据并基于用户信息来提供次级图像。聚焦引擎110可以以在一个或多个处理设备(诸如一个或多个设备105a-105d)上运行的软件(例如，非暂态计算机可读介质上的指令)的形式实现、作为云服务105n实现、经由网络102远程实现，或以本领域普通技术人员已知的其它配置实现。例如，聚焦引擎110可以经由客户端设备105a-105d、云服务105n托管，或作为内容递送网络102的一部分(例如，前端服务)。

[0036] 聚焦引擎110直接或间接地包括诸如(一个或多个)数据存储装置103之类的存储器(例如，RAM、ROM和/或内部存储装置，磁性、光学、固态存储装置和/或有机的)，其中任何一种都可以耦合在用于传送信息的通信机构(或总线)上。术语“计算机”、“计算机平台”、处理设备和设备旨在包括任何数据处理设备，诸如台式计算机、膝上型计算机、平板计算机、大型计算机、服务器、手持式设备、数字信号处理器(DSP)、嵌入式处理器或任何其它能够处理数据的设备。计算机/计算机平台被配置为包括可通信地连接到一个或多个非暂态计算机可读介质和一个或多个网络的一个或多个微处理器。

[0037] 在示例实施方式中，聚焦引擎110可以由云服务105n托管，并且经由网络102通信地连接到设备105a-105n，以便发送和接收数据。术语“通信地连接”旨在包括可以传送数据的任何类型的有线或无线连接。术语“通信地连接”旨在包括但不限于通过网络102在单个计算机内的设备和/或程序之间或设备和/或分开的计算机之间的连接。术语“网络”旨在包括但不限于分组交换网络，诸如局域网(LAN)、广域网(WAN)、TCP/IP、(互联网)，并且可以使用各种传输手段，诸如但不限于低功耗无线局域网上的互联网协议版本6(6LowPAN)、电力线通信(PLC)、以太网(例如，10兆字节(Mb)、
100Mb和/或1千兆字节(Gb)以太网)或其它通信协议。

[0038] 在一些实施方式中，数据存储装置103存储针对数字内容接收的元数据的重复副本或部分。在替代实施方式中，由聚焦引擎110生成用于处理元数据的数据结构并将其存储在数据存储装置103中。在另一个实施方式中，聚焦引擎110可以在云存储服务105n中存储用于处理元数据的数据结构。

[0039] 图2图示了根据示例实施方式的包括聚焦引擎210的示例系统200。聚焦引擎210包括一个或多个I/O接口212、接口模块215、用户信息模块217、兴趣点决定系统230和反馈模块260。聚焦引擎210耦合到一个或多个数据存储装置203，用于存储数据(例如，元数据207、数据结构、图像、用户数据209等)。聚焦引擎210可以分析内容项目206的具有图像的元数据207以识别一个或多个兴趣点、分析来自元数据207的内容的概要、基于元数据207确定每个兴趣点的标签，并响应于请求而基于用户数据209提供具有兴趣点之一的次级图像。可以分析与多个内容源相关联的元数据207，以向集成的用户界面提供菜单以有效地导航内容
206，其中基于用户兴趣来定制菜单。

[0040] 在示例实施方式中，I/O接口212包括与网络202或不同类型的设备205(例如，图1的设备105a-105n)通信连接的一个或多个通信接口。I/O接口212可以接收来自不同源(诸如数据存储装置203、不同类型的设备205或经由网络202)的元数据207(例如，艺术作品图像、剧集信息等)相关联的内容206(例如，视频)。在示例实施方式中，I/O接口212可以经由网络202接收元数据207而不接收内容206。这里列出的组合是说明性示例，因此本领域技术人员将理解的其它组合可以替代。

[0041] 元数据207和/或用户数据209可以由聚焦引擎210实时接收，或者可以从数据存储装置203或经由网络202从数据源中检索。例如，元数据207可以包括普通艺术作品图像，以经由来自内容选择模块215的内容选择界面来表示内容206。

[0042] 元数据207可以包括内容的文本摘要，例如，描述流派、角色或情节主题的概要。可以对来自元数据207的图像进行分析，以提取兴趣点，诸如面部或地标。可以对来自元数据207的文本进行分析以提取标签以与兴趣点(诸如角色的姓名、演员、女演员、运动员、运动队名称、拍摄地点等)相关联。

[0043] 用户数据209还可以包括关于用户的信息，诸如位置、人口统计、简档信息、内容查看历史、用户反馈、用户兴趣等。用户信息模块217可以处理接收到的用户数据以及搜索或请求附加数据。用户信息模块217可以从跟踪服务(例如，在线合约(engagement)跟踪等)请求用户信息。

[0044] 聚焦引擎210包括识别模块220和呈现器模块240，以分析元数据207、从元数据207识别兴趣点，并提供替代图像(例如，次级图像)以帮助用户导航和选择内容206。识别模块220和呈现器模块240根据参考图3-7描述的一种或多种算法与兴趣点决定系统230(POIDS)交互。

[0045] 识别模块220经由兴趣点决定系统230分析一批内容206的元数据207，以识别要提供用于内容选择的次级图像。识别模块220可以将次级图像识别为来自元数据207的子图像，或者可以从外部库获取补充图像以替换与一条内容相关联的主图像。识别模块220可以与I/O接口212、接口模块215、序列推荐系统230和反馈模块260交互，以生成和维护从元数据或数据结构中提取的子图像，以实时地从元数据中提取次级图像。如参考图3-7所描述的，识别模块220可以从主图像中识别出多个次级图像。

[0046] 呈现器模块240接收或拦截提供描述内容的元数据207的请求。呈现器模块240可以与I/O接口212、接口模块215、用户信息模块217、POIDS 230和反馈模块260交互，以在内容导航菜单中基于用户数据209来提供次级图像。呈现器模块240采用用户数据209来定制与元数据请求相关联的具有表示内容206并与基于用户数据209的用户兴趣对应的次级图像的内容导航菜单。元数据请求可以是对与来自多个数据源的一批或多批内容相关联的元数据207的请求。

[0047] 可以由聚焦引擎210自动生成或在内部请求具有次级图像的定制内容导航菜单。例如，响应于元数据请求，聚焦引擎210经由识别模块220为一条内容识别多个次级图像。呈现器模块240可以基于用户数据209选择次级图像之一，以便针对与所请求的元数据相关联的内容提供定制的内容导航菜单。

[0048] POIDS 230可以包括焦点模块233、面部识别模块235、标记模块237、质量模块239、定位模块243和/或补充图像模块245。POIDS 230根据参考图3-7A-F描述的一种或多种算法与识别模块220和呈现器模块240交互。在示例实施方式中，POIDS 230包括分析处理，以经由焦点模块233从元数据207的普通艺术作品图像中识别兴趣点、分析元数据207中的概要以经由面部识别模块235和标签模块237确定每个兴趣点的标签。

[0049] 在示例实施方式中，POIDS 230包括呈现处理，以提供具有与用户数据209对应的兴趣点的次级图像。呈现处理可以包括：经由质量模块239测试次级图像的质量；经由定位模块243选择焦点周围的区域以进行呈现；和/或确定经由补充图像模块245获取补充图像作为次级图像。

[0050] 在示例实施方式中，次级图像是从第三方数据库中选择的补充图像，其中该补充图像描绘了元数据的元素。例如，一条电视内容的元数据可以包括演员列表或特定情节中的名人客串的提及，并且聚焦引擎可以访问名人头像的第三方库以检索用于表示数字内容的男演员/女演员的次级图像。例如，对名人具有强烈情结的观看者可以快速轻松地识别出名人面部图像，并帮助将观看者的注意力集中在数字内容上。菜单可以通过聚焦图像将可用数字内容的次级图像呈现给观看者以进行导航(例如，浏览、滚动、点击、弹拨等)，其中基于观看者信息选择每个图像的子图像以表示数字内容。

[0051] 反馈模块260被配置为将评估信息提供回POIDS 230，以精炼和改善POIDS 230的功能。例如，反馈模块260可以搜集用户输入以更新用户兴趣，和/或改善对次级图像的选择。反馈模块260可以从用户收集评估信息，以随着时间的推移改变被选择为描述内容项目的次级图像。

[0052] 图3图示了根据示例实施方式的用于生成兴趣点数据结构的流程图300。图300可以包括硬件(电路系统、专用逻辑等)、软件(诸如在通用计算机系统或专用机器上操作的)，或两者的组合。图300表示与图1的聚焦引擎110和图2的210一起使用的元素和元素组合。

[0053] 在方框310处，处理设备接收一条数字内容的元数据，其中元数据包括被用于描述数字内容的主图像和文本。例如，数字内容可以是电视节目、电影、播客、体育赛事等。在方框320处，处理设备分析主图像以检测一个或多个对象。

[0054] 在方框330处，处理设备基于每个检测到的对象选择一个或多个次级图像。例如，一个或多个次级图像可以包括作为数字内容中的特征的人的面部。数字内容由作为菜单的一部分的优选的次级图像描述，以导航数字内容的库。

[0055] 在方框340处，处理设备至少基于文本信息为每个次级图像确定标签。在示例实施方式中，处理设备可以基于面部识别来分析图像以检测一个或多个对象；并基于将面部识别与元数据的文本信息中的名称进行匹配来确定每个次级图像的标签。例如，确定标签可以包括计算每个次级图像与元数据中的文本的一部分之间的关系的置信度得分，并基于检测到的对象搜索加标签的图像的库。在示例中，可以基于次级图像中对象的尺寸，鉴于从图像中检测到的其它对象，对次级图像进行排序，并且基于关联文本信息中的关键字段与次级图像的次序来确定每个次级图像的标签。

[0056] 在方框350处，处理设备为数字内容生成包括一个或多个次级图像和标签的数据结构，其中，基于与和用户信息对应的优选次级图像相关联的标签，由优选的次级图像来描述数字内容。

[0057] 在示例实施方式中，处理设备可以为每个检测到的对象选择一个或多个次级图像。处理设备可以为每个检测到的对象识别图像的一部分，并通过为每个次级图像存储识别出的部分来生成数据结构。

[0058] 在示例实施方式中，处理设备可以为每个检测到的对象选择一个或多个次级图像。处理设备可以为每个检测到的对象识别图像的次级图像坐标集，并生成数据结构。数据结构包括每个次级图像的次级图像坐标集。处理设备可以响应于数据结构包括与该用户信息集的用户偏好对应的标签而基于次级图像坐标集来在图像中搜索标签的次级图像，并基于标签的次级图像的次级图像坐标集呈现图像的一部分。

[0059] 在示例实施方式中，处理设备可以接收对一条数字内容和用户信息集的请求。响应于数据结构包括与用户信息集的用户偏好对应的标签，处理设备将标签的次级图像呈现为优选的次级图像。次级图像描述数字内容，如参考图5-8进一步详细讨论的。例如，用户信息可以包括启发法或活动跟踪以确定用户偏好。

[0060] 图4A图示了根据示例实施方式的用于生成焦点图像的框图400。在示例实施方式中，与一条数字内容相关联的元数据407由聚焦引擎410例如从内容源405或元数据提供者接收。元数据407包括普通艺术作品图像411和概要412(例如，演员表、角色、剧情摘要等)。普通艺术作品图像411可以是图像格式(例如，JPEG、JPG、PNG、EPS、PDF、PSD、AI、GIF、TIFF、BIT等)，并且包括在内容选择阶段期间表示该条数字内容的图像、艺术品、徽标、图片等。

[0061] 普通艺术作品图像411通常由数字内容的生产者、创建者、销售者等创建，以说服观看者消费数字内容。普通艺术作品图像411可以包括复杂图像，诸如拼贴画，其具有字符、徽标、地标、风格化文本、视觉效果等的图片，这需要用户花费时间来处理和理解什么主题的一个方面(例如，演员、流派、主题等)在这条数字内容中。

[0062] 概要412也可以由数字内容的生产者、创建者、销售者等创建，以说服观看者消费数字内容。概要412可以是文本或链接(例如，统一资源定位符)，以检索描述数字内容的一个或多个方面的文本。概要412通常被用于启用控制特征，诸如基于文本的搜索、父母控制、预定的记录等。在示例实施方式中，概要412与普通艺术作品图像411一起使用，以确定与用户信息对应的在内容选择阶段期间表示该条数字内容的次级图像，如参考图6-8更详细描述的。

[0063] 在400处，使用示例普通艺术作品图像411来图示用于生成焦点图像的处理，该示例普通艺术作品图像411具有在各种形状和颜色的复杂背景(未示出)前面站成一行的六个男演员和女演员的照片，以表示这条数字内容的主题。

[0064] 由于浏览大的内容库的用户可能不会花时间分析六个面部中的每个面部，识别女演员、男演员、角色等以及解释这条数字内容的流派，因此聚焦引擎410可以提取普通艺术作品图像411的多个特征以瞄准这条数字内容的表示。例如，用户可以花时间分析从左至右开始的前三个面部中的每一个，确定前三个面部不熟悉、停止处理普通艺术作品图像411，并继续处理另一条数字内容。当从左数第五个面部是用户的最爱角色时，普通艺术作品图像411无法有效地表示这条数字内容，以至于无法传达与用户相关的主题的方面。

[0065] 聚焦引擎410可以分析普通艺术作品图像411以将图片内的多个兴趣点检测为潜在的次级图像，以表示这条数字内容，从而提高普通艺术作品图像411的内容在短时间内传达与用户相关的主题的一方面的能力。在示例实施方式中，聚焦引擎410采用数据存储装置403将多个兴趣点存储为在内容选择处理期间响应于命令而要被重新调用的子图像。例如，聚焦引擎410可以检测普通艺术作品图像411中的面部特征、将普通艺术作品图像411裁剪为存储在数据存储装置403中的次级子图像423A-423F。

[0066] 在示例实施方式中，聚焦引擎410生成数据结构以存储兴趣点的图像坐标。普通艺术作品图像411中的每个兴趣点的图像坐标的集合可以定位普通艺术作品图像411中的兴趣点的中心或居中点。与一条数字内容相关联的普通艺术作品图像411的数据结构可以存储图像坐标的多个集合。可以提供数据结构中的图像坐标以与普通艺术作品图像411一起使用，以调整普通艺术作品图像411的尺寸(例如，裁剪、缩放、模糊等)以显示兴趣点，而无需存储中间子图片。数据结构可以与普通艺术作品图像411的图像异步存储和递送，以允许在内容选择处理期间向下游选择(例如，客户端设备)哪个兴趣点进行显示。

[0067] 定位兴趣点的中心或居中点的图像坐标可以被用于调整普通艺术作品图像411的尺寸，以基于客户端设备设置(例如，屏幕尺寸、分辨率、颜色设置等)和/或菜单设置(例如，主菜单选择尺寸、子菜单选择尺寸、内容详细信息菜单尺寸等)显示中心或居中点周围的区域，如参考图8详细讨论的。

[0068] 兴趣点子图像或数据结构可以包括用于每个兴趣点次级图像的标签427A-427F。概要412被用于使用评估普通艺术作品图像411中的上下文的算法来标记每个兴趣点。在示例实施方式中，聚焦引擎410使用面部检测、面部识别、对象检测等来分析普通艺术作品图像411中的上下文以对多个兴趣点进行分类和/或排名，从概要412中解析可用信息以对文本信息进行分类和/或排名，确定文本信息是否与普通艺术作品图像411的兴趣点对应，并将对应的文本作为标签427A-427F指派给次级图像423A-423F。

[0069] 在电视节目和电影的上下文中，通常为一个或多个女演员和男演员指派主角，并为其他女演员和男演员指派配角。通常在普通艺术作品图像411中将女主角描绘成最大的元素，并且配角可以在背景中看起来比女主角小。

[0070] 在该示例中，聚焦引擎410可以将普通艺术作品图像411中的六个面部检测为多个兴趣点，基于每个面部的尺寸对面部进行分类和/或排名，解析来自概要412的可用信息以基于概要412中列出的角色的重要性或次序对女演员和男演员的列表进行分类和/或排名，确定概要412列出的次序是否与普通艺术作品图像411中检测到的面部的尺寸排序或序列模式对应，并将对应的女演员或男演员姓名作为标签427A-427F指派给次级图像423A-423F。

[0071] 在体育赛事的上下文中，通常可以按照某个次序放置球队徽标、球衣、奖杯或特色运动员，以传送与概要412中的可用信息对应的赛事的地点、冠军赛或特色运动员，以将与每个兴趣点对应的文本信息分类。

[0072] 在一些实施方式中，聚焦引擎410可以采用外部资源来辅助给次级图像423A-423F加标签。例如，聚焦引擎410可以使用名人头像照片库来执行面部识别，以选择与次级图像相关联的男演员和/或女演员的候选列表，以核实概要412中的元素与普通艺术作品图像411(例如，主图像)的次级图像对应，或者计算概要412中的元素与次级图像之间的匹配的置信度得分。

[0073] 图4B图示了根据示例实施方式的用于生成焦点图像的流程图440。在方框450处，处理设备接收具有普通艺术作品图像的元数据。在方框453处，处理设备针对面部检测兴趣点。响应于在普通艺术作品图像中检测到面部，在方框455处，处理设备执行面部识别以确定检测到的面部的身份。

[0074] 如果在方框455处的面部识别能够确定检测到的面部的身份，那么处理设备在方框457处指派具有该身份的标签。如果在方框455处的面部识别无法确定检测到的面部的身份，那么处理设备在方框470处基于与元数据的关联来指派标签。例如，最大的检测到的面部可以与元数据中列出的主角相关联。概要中列出的主角还可以被用于定位来自第三方源(例如，名人头像库)的主角的补充图像。

[0075] 可以将主角的补充图像的特征与检测到的面部的特征进行比较，以计算指示是否用主角的姓名来给检测到的面部加标签的置信度得分。对于概要中的多个条目，可以重复执行基于概要来搜索补充图像、将补充图像的特征与检测到的子图像进行比较以及基于该比较计算置信度得分的处理。

[0076] 处理440可以前进到方框475以提取检测到的面部的焦点坐标集。在示例实施方式中，在方框480处，可以将包括检测到的面部的焦点坐标和标签的POI数据结构与普通艺术作品图像的标识符一起存储。可以存储和/或传输POI数据结构，以高效地在呈现处理期间从同一艺术作品图像中提取(例如，裁剪、调整尺寸、缩放等)POI(如参考图6所描述的)。

[0077] 在示例实施方式中，在方框485处，可以存储检测到的面部的POI子图像(即，经裁剪的子图像)和标签。如参考图6所描述的，可以在呈现处理期间重新调用并传输存储的POI子图像，以高效地呈现POI次级图像，而无需访问主图像(例如，艺术作品)。

[0078] 如果在方框453处没有检测到面部，那么处理440在465可以可替代地将对象检测为焦点。例如，在470处包括可检测的地标、徽标等的主图像(例如，艺术作品图像)可以基于与概要的关联而被指派标签。否则，处理440在467处可以可替代地选择主图像(例如，普通艺术作品图像)的区域或从库中选择补充图像作为次级图像。

[0079] 处理440可以继续进行以在方框480处将对象或补充图像存储为POI数据结构或在方框485处存储为POI子图像。在方框490处，方框453-485可以重复以检测用于描述一条数字内容的普通艺术作品图像中的附加兴趣点。

[0080] 图5图示了根据示例实施方式的界面控制处理500的流程图。在方框510处，处理设备接收对数字内容集合和用户标识符的请求。在方框520处，处理设备接收与用户标识符相关联的用户信息和用于描述数字内容集的数字内容的元数据，其中元数据包括描述每个数字内容项目的主图像和文本中的至少一个。

[0081] 在方框530处，处理设备确定次级图像是否与每个数字内容项的用户信息对应，其中次级图像是主图像的子图像或补充图像。在方框540处，处理设备基于用户信息提供具有描述数字内容集中的数字内容项的至少一个次级图像的菜单。

[0082] 图6A-C图示了根据示例实施方式的用于呈现聚焦界面(例如，显示器640)的示例处理。图6A图示了根据示例实施方式的用于聚焦界面(例如，内容导航菜单)的示例处理。聚焦引擎610可以接收具有与来自内容源605的一条内容相关联的元数据607，元数据607具有普通艺术作品图像411以及概要612(例如，演员表、角色、情节摘要等)。聚焦引擎610可以包括数据存储装置603，并且基于与用户信息609对应的次级图像623A-623E的标签627A-427E将次级图像623A-623E提供给显示器640。

[0083] 观看者难以导航大数量的和越来越多的选项以观看流式传输内容以及基于记录和预定的内容(例如，广播事件、现场事件等)。用户被所提供的信息量压垮，并且必须花费附加的时间来查看信息，以便识别出感兴趣的内容。否则，用户可以读取关于视频内容的文本，以了解演员、剧情、流派等。可以基于用户的观看习惯、位置信息等来确定用户信息。由于每条数字内容具有多个面，以便与潜在的观看者建立联系，本文描述的方法和系统识别可能吸引观看者的一个面，以便高效地传送这条数字内容的最吸引人的方面。聚焦引擎610用基于用户信息或偏好选择的次级图像提供了新的用户体验。

[0084] 在示例实施方式中，网络设备(例如，聚焦引擎610)可以生成用于替换响应请求中的主要图像(例如，主图像)的子图像的库。菜单信息一般从上游提供者提供给客户端设备。通常，客户端设备下载一批菜单数据，该菜单数据包括关于可用内容的主要图像和元数据。
客户端设备提供具有来自菜单数据的供观看者选择的选项集的内容导航菜单(例如，聚焦界面)和可用内容。

[0085] 在示例实施方式中，客户端设备可以包括用于处理主要图像以便选择子图像的逻辑(例如，聚焦引擎610)。在一些示例实施方式中，客户端设备可以接收用于选择次级图像的坐标，并且使用该坐标集来处理主要图像以生成次级图像的显示。在一些示例实施方式中，网络服务器在递送到客户端设备之前执行次级图像处理。执行次级图像处理的网络服务器通过减小递送到客户端设备的图像文件的尺寸来提高网络资源的带宽使用。生成次级图像的坐标的数据结构可以被递送到客户端设备。客户端设备可以从第三方提供者接收主要图像，并基于用户的偏好采用次级图像坐标来呈现艺术作品图像的定制显示。

[0086] 聚焦引擎610提供用于使用面部识别和对象检测来选择次级图像的功能。在一些示例实施方式中，次级图像可以是用于缩放或调整主要图像尺寸的图像坐标集。次级图像的定制显示包括检测到的满足用户偏好的面部或对象。通过提供主要图像的部分，观看者能够更快地导航多个图像，因为聚焦引擎610从每个主要图像中选择最相关的信息来帮助用户选择。

[0087] 在一些示例实施方式中，艺术作品图像可以是基于兴趣点的经调整尺寸的主要图像，或者可以被替换为主要图像的经裁剪的图像。聚焦引擎610可以采用面部检测处理来清点多个面部。在一些示例实施方式中，聚焦引擎610访问补充数据库，以便将面部检测图像与关于该图像的主题的附加元数据进行匹配。由于数字内容的艺术作品图像一般包括男演员和女演员或地标或通常公认的图像(诸如徽标)。补充数据库可以包括流行的图像主体的元数据的库或清单。

[0088] 主要图像可以具有不同级别的图像质量。次级图像的质量与主要图像的图像质量的级别相关。聚焦引擎610还可以使用图像质量测试来验证次级图像，以确保次级图像具有足以被显示的质量。

[0089] 显示器640可以包括内容导航菜单，用于在不同窗格641-647中描述七条不同的数字内容。在这个示例中，内容导航菜单的窗格642可以使用不同的次级图像623A-F描述一条数字内容(例如，Marvel’s Agents pf S.H.I.E.L.D)。内容导航菜单可以基于用户信息选择在窗格642中呈现不同的次级图像623A-F中的哪一个。也可以基于用户信息将显示在窗格641、643、644、645、646、647中的图像选择成描述其它数字内容。例如，在窗格645处，可以将与用户信息对应的徽标选择为次级图像来描述体育赛事。在其它示例中，可以基于数字内容的受欢迎程度、图像质量、观看者的区域、类型等来选择每个窗格的次级图像。

[0090] 内容导航菜单被设计为放大次级图像以适合菜单窗格。响应于次级图像未能通过质量测试，聚焦引擎610可以在第三方数据库中搜索与次级图像的主题相关联的替代图像。

[0091] 图6B图示了根据示例实施方式的用于显示640的聚焦界面的示例处理。在示例实施方式中，显示640可以包括多个窗格641-647，用于呈现与由不同的主图像611、629、650、660描述的不同数字内容相关联的图像。每个窗格提供主要图像或主图像611、650、660，并且聚焦引擎610为每个主图像611、650、660确定次级图像623F、653A、653B、663A-D。

[0092] 例如，用于可用体育内容的菜单的显示640可以在每个窗格641-647中为每个事件提供图像。每个图像可以包括与该窗格的事件对应的特色运动员、与事件的地点相关联的地标、其中一个队的徽标、来自主图像的对象(诸如奖杯或联赛徽标等)。另外，聚焦引擎610可以从元数据中选择相关信息以覆盖在显示的每个图像上。例如，可用体育内容的菜单可以包括指示体育赛事是被记录的、直播的还是预定的图标。覆盖的内容可以包括从元数据提取的文本(例如，电影片名)。

[0093] 图6C描绘了根据示例实施方式的示例聚焦界面680-690。聚焦界面680、685、690是基于图像的菜单，这些菜单使用与用户信息对应的次级图像而不是由内容提供者或制作者选择的普通艺术图片来描述数字内容。

[0094] 在示例中，聚焦界面680包括基于主图像681(例如，普通艺术作品图像)中检测到的面部682或683的次级图像684。主图像681可以包括多个面部682、683作为兴趣点，并且选择与用户信息对应的兴趣点。例如，如果用户信息指示用户观看的Dwayne Johnson内容多于Vin Diesel内容，那么可以选择Dwayne Johnson的检测到的面部682作为要显示给用户的次级图像684。可以基于普通艺术作品图像(例如，主图像681)的元数据或面部识别技术将检测到的面部682的身份确定为Dwayne Johnson。可以调整主图像681的尺寸，以在内容选择菜单(例如，聚焦界面680)中呈现检测到的面部682作为次级图像682呈现。

[0095] 在另一个示例中，聚焦界面685包括来自主图像686中检测到的剪影的轮廓的次级图像687。在内容选择菜单(例如，聚焦界面685)中，将主图像686调整为次级图像687的尺寸以供呈现，以聚焦在对象上。

[0096] 在另一个示例中，聚焦界面690图示了具有共同主题(例如，共同的男演员)的多条数字内容的内容选择菜单。例如，响应于搜索查询或项(例如，男演员的姓名)，聚焦界面690可以通过显示来自主图像或补充图像数据库的包括搜索项或演员的次级图像来呈现具有多条不同数字内容的搜索结果。聚焦界面690呈现不同数字内容的一组次级图像，其中每个次级图像与多条数字内容的共同主题(例如，菜单主题、搜索查询等)对应。在聚焦界面690中，共同的主题(例如，热门主题、用户偏好、菜单设置、搜索输入等)包括在每条数字内容中作为特征的可以是配角的男演员，并且可以从补充数据库中检索次级图像。在示例实施方式中，描述不同内容的菜单可以被配置为基于针对第一条数字内容的选择的优选的次级图像来选择定位不同数字内容，并基于针对第一条数字内容的优选的次级图像用每条数字内容的次级图像来描述不同的数字内容。例如，第一条数字内容可以示出男演员(例如，标签)的优选的次级图像，而命令(例如，向我展示更多)可以找到包括与标签(例如，男演员)对应的次级图像或元数据的多条其它数字内容。多条其它数字内容片段的菜单可以包括次级图像，以描述与第一条数字内容的男演员匹配的每一条数字内容。因此，菜单呈现一个主题(theme)的不同数字内容，这些数字内容由具有共同对象、标签、人物、团队等的次级图像描述。

[0097] 图7A-F图示了根据示例实施方式的示例个性化界面。图7A-F中的个性化界面图示了基于用户信息被选择作为个性化界面的一部分的不同的次级图像723A-723F。图7A-F包括描述七条不同内容的内容导航菜单740A-F。在每个内容导航菜单740A-F中，基于用户信息选择次级图像723。例如，内容导航菜单740A包括基于第一用户的用户信息选择的次级图像723A。内容导航菜单740B包括基于第二用户的用户信息选择的次级图像723B。不同的次级图像723A-F是主图像(例如，图4的普通艺术作品图像411)的子图像，每个子图像描述相同的数字内容(例如，Marvel’s Agents of S.H.I.E.L.D.)。可以基于用户的用户信息(例如，观看历史、人口统计等)为每个用户选择不同的次级图像723A-F。在这个示例中，内容导航菜单740A-F使用共同的次级图像(例如，乐高人、林肯、徽标等)描述其它六条不同的内容。

[0098] 例如，图7A可以是内容导航菜单，其中723A描述了一条数字内容。图7A-F可以是供不同用户导航一批数字内容的界面。每个用户可以响应于与观看者的用户信息对应的次级图像623A-623E之一的标签而接收与一条数字内容相关联的艺术作品的不同次级图像623A-623E。

[0099] 图8A-C图示了根据示例实施方式的用于控制个性化界面的示例界面控制选项。图8A图示了用于内容选择的个性化界面810，所述界面具有项目详情菜单以及次级图像。图8B图示了使用次级图像用于内容选择的针对不同数字内容的个性化界面820。图8C描绘了使用聚焦引擎的示例内容选择界面830-860。

[0100] 图9图示了具有适于在示例实施方式中使用的示例计算机设备的示例服务器计算环境。计算环境900中的计算设备905可以包括一个或多个处理单元、核或处理器910、存储器915(例如，RAM、ROM等)、内部存储装置920(例如，磁性、光学、固态存储装置和/或有机的)；和/或I/O接口925，它们中的任何一个都可以耦合在通信机构或总线930上以传送信息或嵌入在计算设备905中。

[0101] 在计算设备905中，可以执行用于使机器执行本文讨论的方法中的任何一个或多个的指令集。在替代实施方式中，该机器可以连接(例如，联网)到局域网(LAN)、内联网、外联网或互联网中的其它机器。机器可以在客户机-服务器网络环境中以服务器或客户端机器的能力操作，或者在对等(或分布式)网络环境中作为对等机器操作。机器可以是个人计算机(PC)、平板计算机、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、web设备、服务器、网络路由器、交换机或网桥，或能够执行指定要由机器采取的动作的指令集(顺序地或以其它方式)的任何机器。另外，虽然仅示出了单个机器，但是术语“机器”也应被认为包括单独地或联合执行一个(或多个)指令集以执行本文讨论的方法中的任何一个或多个的机器(例如，计算机)的任何集合。

[0102] 计算设备905可以可通信地耦合到输入/用户接口935和输出设备/接口940。输入/用户接口935和输出设备/接口940之一或两者可以是有线或无线接口并且可以是可拆卸的。输入/用户接口935可以包括可以用于提供输入的任何设备、部件、传感器或物理或虚拟接口(例如，按钮、触摸屏界面、键盘、指点/光标控件、麦克风、相机、布莱叶盲文、运动传感器、光学阅读器等)。

[0103] 输出设备/接口940可以包括显示器、电视、监视器、打印机、扬声器、布莱叶盲文等。在一些示例实施方式中，输入/用户接口935和输出设备/接口940可以嵌入计算设备905或与其物理耦合。在其它示例实施方式中，其它计算设备可以用作计算设备905的输入/用户接口935和输出设备/接口940或提供其功能。

[0104] 计算设备905的示例可以包括但不限于高度移动的设备(例如，智能电话、车辆和其它机器中的设备、人和动物携带的设备等)、移动设备(例如，平板电脑、笔记本、机顶盒、膝上型计算机、个人计算机、便携式电视、收音机等)以及非移动性设计的设备(例如，台式计算机、其它计算机、信息亭、具有一个或多个嵌入其中和/或与之耦合的处理器的电视、收音机等)。

[0105] 计算设备905可以通信地耦合(例如，经由I/O接口925)到外部存储装置945和网络950，用于与任何数量的联网部件、设备和系统进行通信，包括相同或不同配置的一个或多个计算设备。计算设备905或任何连接的计算设备可以用作、提供其服务、或被称为服务器、客户端、瘦服务器、通用机器、专用机器或另一个标签。

[0106] I/O接口925可以包括无线通信部件(未示出)，其促进通过语音和/或通过数据网络的无线通信。无线通信部件可以包括具有一个或多个天线的天线系统、无线电系统、基带系统或其任意组合。在无线电系统的管理下，射频(RF)信号可以由天线系统无线地被传输和接收。

[0107] I/O接口925可以包括但不限于使用任何通信或I/O协议或标准(例如，以太网、802.11x、通用系统总线、WiMax、调制解调器、蜂窝网络协议等)的有线和/或无线接口，用于向计算环境900中的至少所有连接的部件、设备和网络传送信息和/或从其接收信息。网络
950可以是任何网络或网络组合(例如，互联网、局域网、广域网、电话网络、蜂窝网络、卫星网络等)。

[0108] 计算设备905可以使用计算机可用或计算机可读介质(包括暂态介质和非暂态介质)和/或使用其进行通信。暂态介质包括传输介质(例如，金属电缆、光纤)、信号、载波等。非暂态介质包括磁性介质(例如，盘和带)、光学介质(例如，CD ROM、数字视频盘、蓝光盘)、固态媒体(例如，RAM、ROM、闪存、固态存储装置)和其它非易失性存储装置或存储器。

[0109] 计算设备905可以被用于在一些示例计算环境中实现技术、方法、应用、处理或计算机可执行指令。可以从暂态介质中检索计算机可执行指令，并将其存储在非暂态介质中并从中检索。可执行指令可以源自任何编程、脚本和机器语言(例如，C、C++、C#、Java、Visual Basic、Python、Perl、JavaScript等)中的一种或多种。

[0110] (一个或多个)处理器910可以在原生或虚拟环境中的任何操作系统(OS)(未示出)下执行。可以部署一个或多个应用，包括逻辑单元955、应用编程接口(API)单元960、输入单元965、输出单元970、聚焦引擎975、呈现器模块980和/或识别模块985。例如，输入单元965、聚焦引擎975、呈现器模块980和/或识别模块985可以实现图2-8中所示的一个或多个处理。所描述的单元和元件可以在设计、功能、配置或实现上变化，并且不限于所提供的描述。

[0111] 在一些示例实施方式中，当信息或执行指令被API单元960接收到时，它可以被传送到一个或多个其它单元(例如，逻辑单元955、输出单元970、输入单元965、聚焦引擎975、呈现器模块980，和/或识别模块985)。

[0112] 输入单元965可以经由API单元960接收图像、元数据、视频数据、音频数据、用户信息等，以经由聚焦引擎975、呈现器模块980和/或识别模块985管理兴趣点。使用API单元960，识别模块985可以分析该信息以确定数字内容中的一个或多个兴趣点。

[0113] 在一些情况下，在上述一些示例实施方式中，逻辑单元955可以被配置为控制单元之间的信息流，并引导由API单元960、输入单元965、输出单元970、聚焦引擎975、呈现器模块980和/或识别模块985提供的服务。例如，一个或多个处理或实现的流程可以由逻辑单元955单独或结合API单元960来控制。

[0114] 根据计算机内操作的算法和符号表示来呈现详细描述的一些部分。这些算法描述和符号表示是数据处理领域中技术人员用来向本领域其他技术人员传达其创新实质的手段。算法是导致期望最终状态或结果的一系列定义的操作。在示例实施方式中，所执行的操作要求对有形量进行物理操纵以实现有形结果。

[0115] 除非另有明确说明，否则如从讨论中可以明显看出的，应认识到的是，在整个描述中，使用诸如“接收”、“检测”、“确定”、“识别”、“分析”、“生成”等术语的讨论可以包括计算机系统或其它信息处理设备的动作和处理，这些动作和处理操纵表示为计算机系统的寄存器和存储器内的物理(电子)量的数据并将其变换成类似地表示为计算机系统的存储器或寄存器或其它信息存储、传输或显示设备内的物理量的其它数据。

[0116] 示例实施方式还可以涉及用于执行本文的操作的装置。这个装置可以为所需目的专门构造，或者可以包括由一个或多个计算机程序选择性地激活或重新配置的一个或多个通用计算机。此类计算机程序可以存储在计算机可读介质(诸如计算机可读存储介质或计算机可读信号介质)中。

[0117] 计算机可读存储介质可以涉及有形介质，诸如但不限于光盘、磁盘、只读存储器、随机存取存储器、固态设备和驱动器，或任何其它类型的适于存储电子信息的有形或非暂态介质。计算机可读信号介质可以包括诸如载波之类的介质。本文呈现的算法和显示与任何特定的计算机或其它装置没有固有的关联。计算机程序可以涉及纯软件实施方式，这些纯软件实施方式涉及执行期望的实施方式的操作的指令。

[0118] 各种通用系统可以与根据本文的示例的程序和模块一起使用，或者可以证明构造更专用的装置以执行期望的方法操作是方便的。此外，没有参考任何特定的编程语言来描述示例实施方式。将认识到的是，各种编程语言可以被用于实现如本文描述的示例实施方式的教导。(一种或多种)编程语言的指令可以由一个或多个处理设备(例如，中央处理单元(CPU)、处理器或控制器)执行。

[0119] 如本领域中已知的，可以通过硬件、软件或软件和硬件的某种组合来执行上述操作。可以使用电路和逻辑设备(硬件)来实现示例实施方式的各个方面，而其它方面可以使用存储在机器可读介质上的指令(软件)来实现，如果该指令由处理器执行，那么将使得处理器执行执行本申请的实施方式的方法。

[0120] 另外，本申请的一些示例实施方式可以仅在硬件中执行，而其它示例实施方式可以仅在软件中执行。而且，所描述的各种功能可以在单个单元中执行，或者可以以任何数量的方式分布在多个部件上。当由软件执行时，所述方法可以由处理器(诸如通用计算机)基于存储在计算机可读介质上的指令来执行。如果期望，那么指令可以以压缩和/或加密的格式存储在介质上。

[0121] 与现有技术相比，示例实施方式可以具有各种差异和优点。例如，但不作为限制，与如上面关于现有技术解释的用JavaScript对网页进行装配相反，可以在视频文档中检测并分析文本和鼠标(例如，指向)动作。

[0122] 而且，通过考虑本申请的说明书和实践的教导，本申请的其它实施方式对于本领域技术人员将是显而易见的。所描述的示例实施方式的各个方面和/或部件可以单独使用或以任何组合使用。意图是说明书和示例实施方式仅被认为是示例，本申请的真实范围和精神由以下权利要求指示。

标题	发布/更新时间	阅读量
具有p型导电性的指叉背接触式太阳能电池	2020-05-08	297
合成皮革的制造方法	2020-05-11	880
MEMS麦克风系统	2020-05-08	346
使用N-甲基葡糖酰胺及其衍生物灭活病毒的方法	2020-05-11	462
用于控制在机动车的电气驱动装置中的损耗热量的方法、用于机动车的电气驱动单元以及机动车	2020-05-08	988
LED单元、图像显示元件及其制造方法	2020-05-08	828
安装结构体的制造方法及其中使用的片材	2020-05-08	410
合成皮革	2020-05-11	738
用于高清地图创建的视觉测程法和成对对准	2020-05-08	440
用于混合接合的化学机械抛光	2020-05-08	211

多媒体聚焦

多媒体聚焦

技术领域

背景技术

具体实施方式

该功能需要专业版企业版VIP权限，您可以：