首页 / 专利库 / 人工智能 / 图像识别 / 用于识别文档中的对象的基于图像的搜索

用于识别文档中的对象的基于图像的搜索

阅读:213发布:2024-02-06

专利汇可以提供用于识别文档中的对象的基于图像的搜索专利检索,专利查询,专利分析的服务。并且提供基于图像的搜索以识别文档中的对象。可以处理图像以识别图像的部分内的对象。图像嵌入在文档中。图像的部分被转换为对象。对象包括图表、表格等。检测与对象相关联的可搜索内容。提供对象和可搜索内容以用于导出。,下面是用于识别文档中的对象的基于图像的搜索专利的具体信息内容。

1.一种在计算设备上执行以提供基于图像的搜索以识别文档中的对象的方法,所述方法包括:
处理图像以识别所述图像的部分内的对象;
将所述部分转换为所述对象;
检测与所述对象相关联的可搜索内容;以及
提供所述对象和所述可搜索内容以用于导出。
2.根据权利要求1所述的方法,还包括:
从文档中检索所述图像。
3.根据权利要求1所述的方法,还包括:
将所述可搜索内容提供为嵌入在所述对象内的元数据。
4.根据权利要求1所述的方法,还包括:
通过包括增强光学字符识别(OCR)的图像识别来处理所述图像,以将基于文本的数据识别为结构化格式的所述对象,所述结构化格式包括由以下项组成的组中的一个:来自所述部分的列表格式和表格格式。
5.根据权利要求1所述的方法,还包括:
将表格识别为所述对象。
6.根据权利要求5所述的方法,还包括:
检测由以下项组成的组中的一个或多个作为所述可搜索内容:所述表格的一个或多个行标题、一个或多个列标题、表格标题、一个或多个单元格值。
7.根据权利要求1所述的方法,还包括:
将图表识别为所述对象。
8.根据权利要求7所述的方法,还包括:
检测由以下项组成的组中的至少一个作为可搜索内容:图表标题、一个或多个轴标签、一个或多个数据集标签以及一个或多个图例。
9.根据权利要求7所述的方法,还包括:
呈现查询所述图表的类型的提示,其中所述类型包括由以下项组成的组中的一个或多个:条形图、饼图、线图、面积图和散点图;
接收包括所述图表的所述类型的输入;以及
基于作为所述部分的模型的所述图表的所述类型,从所述部分生成所述图表。
10.根据权利要求7所述的方法,还包括:
处理所述图表以生成与所述图表的元素相关联的值的表格;
将所述表格添加到所述图表中;以及
将所述值和所述元素包括在所述可搜索内容中。
11.一种用于提供基于图像的搜索以识别文档中的对象的计算设备,所述计算设备包括:
存储器
处理器,所述处理器被耦合到所述存储器和所述显示器,所述处理器与储存在所述存储器中的指令相结合地执行应用,其中所述应用被配置为:
处理图像以识别所述图像的部分内的对象,其中从由以下项组成的组中的一个中检索所述图像:文档和视频记录;
将所述部分转换为所述对象;
检测与所述对象相关联的可搜索内容;以及
提供所述对象和所述可搜索内容以用于导出。
12.根据权利要求11所述的计算设备,其中所述应用还被配置为:
接收作为由以下项组成的组中的一个的所述视频记录:视频文件和视频流;以及将所述视频记录的作为所述图像来分析,以针对所述视频记录的每个帧从所述帧中检测所述对象。
13.根据权利要求11所述的计算设备,其中所述应用还被配置为:
使用一组图表类型来处理所述图像,以将所述部分与所述图表类型中的一个图表类型匹配,其中所述图表类型包括由以下项组成的组中的一个或多个:条形图、饼图、线图、面积图和散点图;以及
基于作为所述部分的模型的所述图表类型,将所述部分转换为作为所述对象的图表。
14.根据权利要求11所述的计算设备,其中所述应用还被配置为:
检测所述文档的文档类型,其中所述文档类型包括由以下项组成的组中的一个:文本文档、电子表格文档和演示文档;
使用与所述文档类型相关联的对象类型来处理所述图像;
检测与所述图像的所述部分相匹配的所述对象类型中的一个对象类型;以及基于作为所述部分的模型的所匹配的所述对象类型,将所述部分转换为所述对象。
15.一种计算机可读存储设备,所述计算机可读存储设备具有储存在其上的指令,以提供基于图像的搜索以识别文档中的对象,所述指令包括:
处理图像以识别所述图像的部分内的对象,其中所述图像是从文档中检索的;
将所述部分转换为所述对象;
检测与所述对象相关联的可搜索内容;以及
提供所述对象和所述可搜索内容以用于导出。

说明书全文

用于识别文档中的对象的基于图像的搜索

背景技术

[0001] 人类通过用户界面与计算机应用交互。虽然音频、触觉和类似形式的用户界面是可用的,但是通过显示设备的可视用户界面是用户界面的最常见形式。随着用于计算设备的更快和更小的电子产品的发展,诸如手持式计算机、智能电话、平板设备和类似的设备的更小尺寸的设备已经变得普遍。这样的设备执行各种各样的应用,从通信应用到复杂的分析工具。许多这样的应用通过显示器渲染内容并使得用户能够提供与应用的操作相关联的输入。发明内容
[0002] 提供本发明内容以便以简化形式介绍下文详细描述中进一步描述的概念的选择。本发明内容不意图唯一地标识要求保护的主题的关键特征或必要特征,也不意图帮助确定要求保护的主题的范围。
[0003] 实施例涉及提供用于识别文档中的对象的基于图像的搜索。在一些示例实施例中,诸如成像应用或文档应用的应用可以处理图像以识别图像的一部分内的对象。可以从诸如基于文本的文档、电子表格文档、演示文档等的文档中检索图像。对象可以包括表格、图表等。可以将图像的部分转换为对象。可以检测与对象关联的可搜索内容。可以提供对象和可搜索内容以用于导出。可以将对象和可搜索内容导出到其它应用,以允许其它应用使用可搜索内容来搜索对象。
[0004] 通过阅读下面的详细描述和对相关联的附图的回顾,这些和其它特征以及优点将是显而易见的。应当理解,前面的一般描述和下面的详细描述都是解释性的,并且不限制所要求保护的方面。

附图说明

[0005] 图1是例示了根据实施例的提供基于图像的搜索以识别文档中的对象的方案的组件的概念图
[0006] 图2例示了根据实施例的处理文档内的图像以将表格识别为对象和对象的可搜索内容的示例;
[0007] 图3例示了根据实施例的处理文档内的图像以将图表识别为对象和对象的可搜索内容的示例;
[0008] 图4例示了根据实施例的处理来自视频记录的图像以识别图像内的对象和对象的可搜索内容的示例;
[0009] 图5是简化的联网环境,其中,可以实现根据实施例的系统;
[0010] 图6例示了通用计算设备,其可以被配置为提供基于图像的搜索以识别文档中的对象;以及
[0011] 图7例示了根据实施例的用于提供基于图像的搜索以识别文档中的对象的过程的逻辑流程图

具体实施方式

[0012] 如上简要描述的,可以提供基于图像的搜索以通过应用识别文档中的对象。应用可以处理图像以识别图像的一部分内的对象。图像的部分可以被转换为对象。可以检测与对象相关联的可搜索内容。可以提供对象和可搜索内容以用于导出。对象和可搜索内容可以被导出到其它应用,以允许其它应用使用可搜索内容来搜索对象。
[0013] 在下面的详细描述中,参考形成其一部分的附图,并且其中以实例说明的方式示出具体实施例或示例。在不背离本公开内容的精神或范围的情况下,可以组合这些方面、可以利用其它方面以及可以进行结构改变。因此,下面的详细描述不应被理解为限制性的,并且本发明的范围由所附权利要求及其等同物限定。
[0014] 虽然将在结合在计算设备上的操作系统上运行的应用执行的程序模的一般上下文中描述实施例,但是本领域技术人员将认识到各方面也可以结合其它程序模块来实现。
[0015] 通常,程序模块包括例行程序、程序、组件、数据结构和执行特定任务或实现特定的抽象数据类型的其它类型的结构。此外,本领域技术人员将理解可以用包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机和类似的计算设备的其它计算机系统配置来实践实施例。还可以在分布式计算环境中实践实施例,其中,任务由通过通信网络链接的远程处理设备来执行。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备中。
[0016] 实施例可以被实现为计算机实现的过程(方法)、计算系统或作为诸如计算机程序产品或计算机可读介质的制品。计算机程序产品可以是计算机系统可读的计算机存储介质,并且可以对计算机程序进行编码,该计算机程序包括用于使计算机或计算系统执行示例过程的指令。计算机可读的存储介质是计算机可读的存储器设备。计算机可读的存储介质例如可以经由易失性计算机存储器、非易失性存储器硬盘驱动器和闪存驱动器中的一个或多个来实现。
[0017] 在本说明书中,术语“平台”可以是软件硬件组件的组合,以提供基于图像的搜索以识别文档中的对象。平台的示例包括但不限于通过多个服务器执行的主机服务、在单个计算设备上执行的应用和类似的系统。术语“服务器”一般涉及在联网环境中典型地执行一个或多个软件程序的计算设备。然而,服务器还可以实现为虚拟服务器(软件程序),其在被视为网络上的服务器的一个或多个计算设备上执行。关于这些技术和示例实施例的更多细节可以在下面的描述中找到。
[0018] 图1是例示了根据实施例的提供基于图像的搜索以识别文档中的对象的方案的组件的概念图。
[0019] 在图解100中,应用102可以处理嵌入在文档104内的图像106。可替代地,图像106还可以从诸如白板、手写文档等非数字元素捕获。图像106可以包括诸如图表、表格、结构化文本、形状等的计算机生成对象的捕获的图片。图像还可以包括手绘图形的扫描或图片。
[0020] 应用102可以是成像应用。成像应用的示例可以包括具有使用与设备120相关联的相机硬件捕获图像的功能的相机应用,设备120执行应用102。设备120可以是移动设备,其包括平板计算机、笔记本计算机、智能电话等。
[0021] 应用102还可以是文档应用。文档应用的示例可以包括文档处理应用、电子表格应用、演示应用等。此外,应用102可以利用搜索组件来处理图像106。搜索组件可以在设备120处本地执行。可替代地,搜索组件可以在具有不受限制的计算能的远程计算设备上远程地执行以克服设备120处的潜在计算能力限制。
[0022] 应用102可以呈现搜索控件108,以允许用户112启动处理文档104的操作。可以处理文档104以识别文档104的图像106内的对象。应用102可以提供用户界面(UI)以允许用户112通过多个输入模态与应用102交互。该输入模态可以包括基于触摸的动作110、基于键盘的输入、基于鼠标的输入等。基于触摸的动作110可以包括诸如触摸动作、滑动动作等的多个手势。
[0023] 应用102可以响应于通过基于触摸的动作110激活搜索控件108来执行处理图像106以识别与图像106的部分相关联的对象的操作。可以检测与该对象相关联的可搜索内容。可以提供对象和可搜索内容以用于导出到文档104、另一应用或另一文档。
[0024] 虽然利用包括应用102、图像106和对象的具体组件描述了图1中的示例系统,但是示例不限于这些组件或系统配置并且可以利用采用更少的或附加的组件的其它系统配置来实现。
[0025] 图2例示了根据实施例的处理文档内的图像以将表格识别为对象和对象的可搜索内容的示例。
[0026] 在图解200中,应用202可以处理嵌入在文档204内的图像206,以将表格210识别为图像206的部分内的对象。可以通过扫描文档204的页面来从文档204中检索图像206,以定位图像206。图像206可以由指向图像206的文档204的元数据来识别。可替代地,图像206可以通过格式化诸如包含图像206的超文本标记语言(HTML)标签的标签来识别。图像206还可以由与图像206的容器(container)相关联的数据类型来识别。图像206的容器可以保存基于像素的数据,其可以被推测为包含图像206。
[0027] 可以通过包括增强字符识别(OCR)的图像识别模块来处理图像206,以根据图像206的部分将基于文本的数据识别为结构化格式的表格210。该结构化格式可以包括列表格式或表格格式。列表格式可以包括具有定界字符(诸如制表符、空格字符、换行符等)的基于结构化文本的数据的格式化。表格格式可以包括被划分为以行和列放置的单元格的基于结构化文本的数据的格式化。
[0028] 应用202可以提供搜索控件208,其可以执行响应于激活的搜索操作。搜索操作可以包括处理图像206以识别表格210、检测表格210中的可搜索内容以及提供对象和可搜索内容以用于导出。可搜索内容可以作为元数据嵌入在对象内。示例可以包括应用202,其检测作为可搜索内容的表格210的一个或多个行标题、一个或多个列标题、表格标题、一个或多个单元格值等。可搜索内容可以嵌入到表格210的元数据中以允许访问识别表格210的内容的基于文本的数据。
[0029] 图3例示了根据实施例的处理文档内的图像以将图表识别为对象和对象的可搜索内容的示例。
[0030] 在图解300中,应用302可以处理文档304的图像306以将图表310识别为来自图像306的部分的对象。应用可以启动对文档304的搜索操作以定位图像306。可以响应于搜索控件308的激活,从图像306的部分生成图表310和图表310的可搜索内容。
[0031] 应用302可以检测作为图表310的可搜索内容的图表标题、轴标签、数据集标签、图例等。可搜索内容可以作为元数据被嵌入到图表310以允许访问,从而通过元数据的搜索操作来识别图表310的内容。
[0032] 应用302可以呈现查询图表的类型的提示。该类型可以包括条形图、饼图、线图、面积图、散点图等。可以接收图表的类型作为输入。可以基于作为图像306的部分的模型的图表的类型,从图像306的部分生成图表310。图表的类型可以提供结构信息和范围(例如,图表310的元素的尺寸、字体和着色等),其可以用于从图像306的部分渲染图表310。可以提供与图表310相关联的可搜索内容以用于导出到文档304、另一应用或另一文档。
[0033] 在示例场景中,可以处理图表310以生成与图表310的元素相关联的值的表格。可以将图表310的数据点转换为插入到表格的单元格中的值。还可以为与图表310相关联的或与图表310的数据点相关联的搜索操作提供这些值。表格可以被添加到图表310中。表格可以被添加到与图表310相关联的元数据中。表格的值和图表的基于文本的元素(例如图表标题、轴标签、数据点值等)可以被包括在可搜索内容中。可以通过对可搜索内容执行的搜索操作来提供对识别图表310的内容的访问。
[0034] 在另一示例场景中,可以用一组图表类型来处理图像306,以将图像306的部分与图表类型中的一个进行匹配。可以基于作为部分的模型的图表的类型从图像306的部分转换图表310。图表310的属性可以基于图表类型(例如包括标签、数据元素等的图表元素的放置)的设置。
[0035] 应用302还可以检测文档304的文档类型。文档类型可以包括基于文本的文档、电子表格文档、演示文档等。可以利用与文档类型相关联的对象类型来处理图像306。在示例场景中,可以响应于将文档类型与基于文本的文档匹配的检测,利用包括表格对象、图表对象、形状对象等的对象类型来处理图像306。可以检测与文档304的文档类型相关联的对象类型中的一个以匹配图像306的部分。示例可以包括将诸如图表对象的对象类型与图像306的部分匹配。可以基于作为部分的模型的匹配的对象类型将图像306的部分转换为对象。模型可以提供与对象相关联的规范信息,以供应用302在创建对象时遵循。规范信息可以包括对象的边界、元素大小、格式化等。
[0036] 图4例示了根据实施例的处理来自视频记录的图像以识别图像内的对象和对象的可搜索内容的示例。
[0037] 在图解400中,应用402可以处理视频记录的404以从帧404内的图像406的部分识别对象410。应用402可以响应于搜索控件408的激活启动搜索操作以处理帧404。诸如摄像机、图片相机、智能电话、平板计算机等的捕获设备414可以捕获屏幕412的视频记录。屏幕412可以显示包括计算机生成或手绘图形的图形。屏幕412还可以显示图形的视频。捕获设备414可以将视频记录作为视频流实时地传输到应用402。可替代地,捕获设备414可以在完成记录会话之后将视频记录作为视频文件传输。
[0038] 应用402可以分析视频记录的每个帧以识别对象410和对象410的可搜索内容。对象410可以是图表、诸如表格的基于文本的数据等等。视频记录的每个帧可以作为图像被处理。可搜索内容和对象410可以被提供以用于导出到另一应用或文档以允许对通过搜索操作来访问识别对象410的内容。
[0039] 虽然提供了从图像中识别对象和可搜索内容的示例,但是示例场景不限于对象和从图像识别的可搜索内容。可以从图像中识别不同类型的多个对象和可搜索内容,并将其导出到不同类型的多个文档。
[0040] 提供基于图像的搜索以识别文档中的对象的技术效果可以包括搜索和检测图像中的对象的增强,该图像嵌入在诸如文档、视频文件等的容器中,在诸如移动设备的视图屏幕限制的环境中。
[0041] 图2至图4中的示例场景和图式用特定组件、数据类型和配置示出。实施例不限于根据这些示例配置的系统。提供基于图像的搜索以识别文档中的对象可以在采用应用和用户界面中的较少或附加组件的配置中实现。此外,图2至图4中所示的示例图式和组件及其子组件可以使用本文所描述的原理以类似的方式与其它值一起实现。
[0042] 图5是示例联网环境,其中可以实施实施例。被配置为提供基于图像的搜索以识别文档中的对象的应用可以经由在诸如托管服务之类的一个或多个服务器514上执行的软件来实现。平台可以通过网络510与诸如智能电话513、便携式计算机512或台式计算机511(“客户端设备”)的单独的计算设备上的客户端应用进行通信。
[0043] 在客户端设备511-513中的任意一个上执行的客户端应用可以经由由服务器514或在单独的服务器上执行的应用来促进通信。应用可以从可以嵌入在文档中的图像的部分中识别诸如图表、表格等的对象。该部分可以被转换为对象,并且可以在对象中检测可搜索内容。对象和可搜索内容可以被提供以用于导出到该文档、另一文档或另一应用。应用可以直接或通过数据库服务器518将与图像相关联的数据储存在数据存储库519中。
[0044] 网络510可以包括服务器、客户端、互联网服务提供商和通信介质的任何拓扑。根据实施例的系统可以具有静态或动态拓扑。网络510可以包括诸如企业网络的安全网络、诸如无线开放网络的不安全网络或互联网。网络510还可以协调通过诸如公共交换电话网(PSTN)或蜂窝网络的其它网络的通信。此外,网络510可以包括诸如蓝牙或类似的网络的短距离无线网络。网络510提供本文所描述的节点之间的通信。作为示例而非限制,网络510可以包括诸如声学、RF、红外和其它无线介质的无线介质。
[0045] 可以采用计算设备、应用、数据源和数据分发系统的许多其它配置来提供基于图像的搜索以识别文档中的对象。此外,图5中讨论的联网环境仅用于说明目的。实施例不限于示例应用、模块或过程。
[0046] 图6示出了根据本文描述的至少一些实施例布置的通用计算设备,其可以被配置为提供基于图像的搜索以识别文档中的对象。
[0047] 例如,计算设备600可以用于提供基于图像的搜索以识别文档中的对象。在基本配置602的示例中,计算设备600可以包括一个或多个处理器604和系统存储器606。存储器总线608可以用于处理器604与系统存储器606之间的通信。基本配置602可以通过内部虚线内的那些组件在图6中示出。
[0048] 取决于期望的配置,处理器604可以是任何类型,包括但不限于微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或其任何组合。处理器604可以包括诸如等级高速缓存存储器612、处理器核614和寄存器616的一个或多个等级的高速缓存。处理器核614可以包括算术逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核(DSP核)或其任何组合。存储器控制器618还可与处理器604一起使用,或者在一些实施方式中,存储器控制器618可为处理器604的内部部分。
[0049] 取决于期望的配置,系统存储器606可以是任何类型,包括但不限于易失性存储器(例如RAM)、非易失性存储器(诸如ROM、闪存等)或其任何组合。系统存储器606可以包括操作系统620、应用622和程序数据624。应用622可以提供基于图像的搜索以识别文档中的对象。除了其它数据之外,程序数据624可以包括图像数据628等,如本文所述。图像数据628可以包括对象和与可以被导出的对象相关联的可搜索内容。
[0050] 计算设备600可以具有附加的特征或功能,并且附加接口以促进基本配置602与任何期望的设备和接口之间的通信。例如,总线/接口控制器630可以用于促进基本配置602与一个或多个数据储存设备632之间经由储存接口总线634的通信。数据储存设备632可以是一个或多个可移动储存设备636、一个或多个不可移动储存设备638或其组合。可移动储存和不可移动储存设备的示例可以包括诸如软盘驱动器和硬盘驱动器(HDD)的磁盘设备、诸如压缩盘(CD)驱动器或数字多功能盘(DVD)驱动器的光盘驱动器、固态硬盘(SSD)和磁带驱动器,仅举几个例子。示例计算机储存介质可以包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性的和非易失性的、可移动的和不可移动的介质。
[0051] 系统存储器606、可移动储存设备636和不可移动储存设备638可以是计算机储存介质的示例。计算机储存介质可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)、固态硬盘或其它光学储存器、磁带盒、磁带、磁盘储存设备或其它磁储存设备或可以用于储存所需信息并且可以由计算设备600访问的任何其它介质。任何这样的计算机储存介质可以是计算设备600的部分。
[0052] 计算设备600还可以包括用于促进经由总线/接口控制器630从各种接口设备(例如,一个或多个输出设备642、一个或多个外围设备接口644和一个或多个通信设备666)到基本配置602的通信的接口总线640。示例输出设备642中的一些可以包括图形处理单元648和音频处理单元650,其可以被配置为经由一个或多个A/V端口652与各种外部设备(诸如显示器或扬声器)通信。一个或多个示例外围设备接口644可以包括串行接口控制器654或并行接口控制器656,其可以被配置为经由一个或多个I/O端口658与诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备等)的外围设备或其它外围设备(例如,打印机扫描仪等)进行通信。示例通信设备666可以包括网络控制器660,其可以被布置为便于经由一个或多个通信端口664通过网络通信链路与一个或多个其它计算设备662通信。一个或多个其它计算设备662可以包括服务器、客户端装置和类似设备。
[0053] 网络通信链路可以是通信介质的一个示例。通信介质可以通过计算机可读指令、数据结构、程序模块或调制数据信号(例如载波或其它传输机制)中的其它数据来体现,并且可以包括任何信息传递介质。“调制数据信号”可以是具有以对信号中的信息进行编码的方式设置或改变的一个或多个调制数据信号特性的信号。作为示例而非限制,通信介质可以包括诸如有线网络或直接有线连接的有线介质,以及诸如声学、射频(RF)、微波、红外(IR)和其它无线介质的无线介质。如本文所使用的术语计算机可读介质可以包括储存介质和通信介质。
[0054] 计算设备600可以被实现为通用或专用服务器的一部分、大型机或类似的计算机,其包括任何上述功能。计算设备600还可以被实现为包括膝上型计算机和非膝上型计算机配置的个人计算机。
[0055] 示例实施例还可以包括提供基于图像的搜索以识别文档中的对象。这些方法可以以任意数量的方式实现,包括本文所述的结构。一种这样的方式可以是使用本公开内容中描述的类型的设备由机器操作。另一可选方式可以是结合执行一些操作的一个或多个人类操作者执行方法的一个或多个单独操作,而其它操作可以由机器执行。这些人类操作者不需要彼此共存一处,而是每个人可以与执行程序的部分的机器在一起。在其它示例中,人类交互可以例如通过可以是机器自动化的预选标准而自动化。
[0056] 图7例示了根据实施例的用于提供基于图像的搜索以识别文档中的对象的过程的逻辑流程图。过程700可以在应用上实现。
[0057] 过程700开始于操作710,其中可以处理图像以识别图像的部分内的对象。图像可以嵌入在文档中。在操作720处,可以将该部分转换为对象。在操作730处,可以检测与对象相关联的可搜索内容。在操作740处,可以提供对象和可搜索内容以供导出。还可以使用可搜索内容在一个或多个数据存储库中搜索对象,以识别包围该对象的实体。一个或多个数据存储库可以包括各种数据储存解决方案,其包括本地或远程文档存储库、图像存储库等等。实体可以包括文档、图像等。
[0058] 过程700中包括的操作是出于说明的目的。根据实施例的应用可以通过具有更少或附加步骤的类似过程以及使用本文所描述的原理以不同操作顺序来实现。
[0059] 根据一些示例,可以描述在计算设备上执行以提供基于图像的搜索来识别文档中的对象的方法。该方法可以包括处理图像以识别图像的部分内的对象,将该部分转换为对象,检测与对象相关联的可搜索内容,以及提供对象和可搜索内容以用于导出。
[0060] 根据其它示例,该方法还可以包括从文档中检索图像。可搜索内容可以被提供为嵌入在对象内的元数据。可以通过包括增强光学字符识别(OCR)的图像识别模块来处理图像,以将基于文本的数据识别为结构化格式的对象,该结构化格式包括来自以下一组中的一个:来自部分的列表格式和表格格式。可以将表格识别为对象。可以检测来自以下一组中的一个或多个作为可搜索内容:表格的一个或多个行标题、一个或多个列标题、表格标题、一个或多个单元格值。
[0061] 根据另外的示例,该方法还可以包括将图表识别为对象,并检测来自以下的一组中的至少一个作为可搜索内容:图表标题、一个或多个轴标签、一个或多个数据集标签,以及一个或多个图例。可以呈现查询图表的类型的提示,其中类型包括来自以下一组中的一个或多个:条形图、饼图、线图、面积图和散点图,以及包括可以接收的图表的类型的输入。可以基于用作部分的模型的图表的类型从该部分生成图表。可以处理图表以生成与图表的元素相关联的值的表,该表可以被添加到图表中,并且值和元素可以被包括在可搜索内容中。
[0062] 根据一些示例,可以描述提供基于图像的搜索以识别文档中的对象的计算设备。计算设备可以包括存储器、耦合到存储器的处理器。处理器可以被配置为结合储存在存储器中的指令来执行应用。应用可以被配置为处理图像以识别图像的部分内的对象,其中图像从以下一组中的一个检索:文档和视频记录,将该部分转换为对象,检测与对象相关联的可搜索内容,以及提供对象和可搜索内容以用于导出。
[0063] 根据其它示例,应用还被配置为接收作为以下一组中的一个的视频记录:视频文件和视频流,并且分析作为图像的视频记录的帧,以针对视频记录的每个帧从帧中检测对象。
[0064] 根据另外的示例,应用进一步被配置为使用一组图表类型来处理图像以将部分与图表类型中的一个类型相匹配,其中图表类型包括来自以下一组的一个或多个:条形图、饼图、线图、面积图和散点图,并基于作为该部分的模型的图表类型将该部分转换为作为对象的图表。
[0065] 根据另外的示例,应用还被配置为检测文档的文档类型,其中文档类型包括来自以下的一组中的一个:文本文档、电子表格文档和演示文档,使用与文档类型相关联的对象类型来处理图像,检测与图像的部分匹配的对象类型中的一个类型,并且基于用作该部分的模型的匹配的对象类型将该部分转换为对象。
[0066] 根据一些示例,其上储存有指令的计算机可读存储器设备提供基于图像的搜索以识别文档中的对象。指令可以包括与上述方法类似的动作。
[0067] 上述说明书、示例和数据提供了对实施例的组成的制造和使用的完整描述。尽管已经用对结构特征和/或方法动作专用的语言描述了主题,但是应当理解,所附权利要求中定义的主题不一定限于上述具体特征或动作。相反,上述具体特征和动作被公开为实现权利要求和实施例的示例形式。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈