首页 / 专利库 / 制动系统 / 电子稳定程序 / 用于移动图像捕获和处理的系统和方法

用于移动图像捕获和处理的系统和方法

阅读:998发布:2021-11-04

专利汇可以提供用于移动图像捕获和处理的系统和方法专利检索,专利查询,专利分析的服务。并且在各 实施例 中,公开了用于处理由移动设备所捕获的数字图像的方法、系统和 计算机程序 产品。众多特征使能和/或促进使用移动设备对这类数字图像进行处理,否则在技术上是不可能或不实际的,并且此外,解决由使用摄像机而不是传统平板 扫描仪 、送纸式扫描仪或多功能 外围设备 所捕获的图像所呈现的独特挑战。,下面是用于移动图像捕获和处理的系统和方法专利的具体信息内容。

1.一种用于处理包括文档的数字表示的数字图像的方法,所述方法包括:
使用处理器定义多个候选边缘点,其中,定义每个候选边缘点包括:
在数字图像内定义一个或多个大分析窗口;
在所述数字图像内定义多个小分析窗口;
针对每个大分析窗口估计统计数值的一个或多个分布;
针对每个小分析窗口计算一个或多个统计数值;
确定在针对所述小分析窗口中的每一个所计算的统计数值中的一个或多个与针对所述一个或多个大分析窗口所估计的统计数值的相对应分布之间是否存在统计上的显著差异;
一旦确定所述统计上的显著差异存在,则将所述统计上的显著差异针对其存在的每个小分析窗口中的点指定为候选边缘点;以及
基于所述多个候选边缘点定义四边形的四个边;以及
将所述文档的数字表示和所述四边形输出到移动设备的显示器。
2.根据权利要求1所述的方法,进一步包括:捕获包含所述文档的数字表示的图像数据和与所述文档的数字表示有关的音频数据中的一个或多个。
3.根据权利要求2所述的方法,其中,捕获包含所述文档的数字表示的所述图像数据和与所述文档的数字表示有关的所述音频数据中的一个或多个通过使用耦连到所述移动设备的一个或多个捕获组件来实施。
4.根据权利要求2所述的方法,其中,所述图像数据和所述音频数据中的一个或多个从耦连到所述移动设备的计算机可读存储介质中捕获。
5.根据权利要求1所述的方法,进一步包括:
一旦确定所述统计上的显著差异针对所述小分析窗口之一存在,则定义新大分析窗口;
针对所述新大分析窗口重新估计所述统计数值的分布;以及
确定在针对所述小分析窗口所计算的所述一个或多个统计数值与经重新估计的统计数值的分布之间是否存在所述统计上的显著差异。
6.根据权利要求1所述的方法,其中,针对每个小分析窗口所计算的所述统计数值包括以下中的一个或多个:
最小亮度值;
最大亮度值;以及
亮度值范围;以及
其中,针对每个大分析窗口所估计的所述统计数值的分布包括以下中的一个或多个:
色彩通道值最小值的分布;
色彩通道值最大值的分布;以及
色彩通道值范围的分布。
7.根据权利要求1所述的方法,其中,所述定义所述小分析窗口包括沿路径定义每个小分析窗口,以及
其中,所述路径从所述数字图像的外区向所述数字图像的中心行进。
8.根据权利要求7所述的方法,其中,所述路径沿所述数字图像的行和列中的一个或多个行进。
9.根据权利要求1所述的方法,其中至少一个大分析窗口包括所述图像的区。
10.根据权利要求1所述的方法,进一步包括绕开所述数字图像的背景的纹理中的一个或多个变化。
11.根据权利要求1所述的方法,其中,每个大分析窗口通过大致矩形形状来表征,以及
其中,每个小分析窗口通过大致矩形形状来表征。
12.根据权利要求1所述的方法,其中,每个小分析窗口通过单个中心像素来表征,以及
其中,一旦确定所述统计上的显著差异存在,则所述中心像素被指定为候选边缘点。
13.根据权利要求1所述的方法,其中,定义所述四边形边中的每一个包括实施至少一个最小均方(LMS)逼近。
14.根据权利要求13所述的方法,进一步包括:从所述多个候选边缘点中移除一个或多个离群值候选边缘点。
15.根据权利要求14所述的方法,进一步包括实施不包括所述一个或多个离群值候选边缘点的至少一个附加的LMS逼近。
16.根据权利要求14所述的方法,
其中,所述四边形的每个边通过从一类函数所选取的等式来表征,以及
其中,实施所述至少一个LMS逼近包括针对每个等式确定一个或多个系数。
17.根据权利要求1所述的方法,其中,定义所述四边形的边包括确定所述文档的数字表示的每个边是否落在一类函数内。
18.根据权利要求1所述的方法,进一步包括定义所述四边形的一个或多个角,所述定义包括:
计算两个相邻边之间的一个或多个交点;以及
从所述一个或多个经计算的交点中指定适当的交点。
19.根据权利要求1所述的方法,其中,所述四边形的角包括所述四边形的两个弯曲相邻边的交点。
20.根据权利要求1所述的方法,其中,所述四边形的角包括两个大致直线的交点。
21.根据权利要求1所述的方法,其中,所述四边形的角包括一个大致直线和一个大致曲线的交点。
22.根据权利要求1所述的方法,其中,所述四边形的角包括一个大致直线和一个大致抛物线的交点。
23.根据权利要求1所述的方法,其中,所述四边形的角包括两个大致抛物线的交点。
24.根据权利要求1所述的方法,进一步包括定义一个或多个四边形角,所述定义包括解以下中的一个或多个:
一次多项式等式;
二次多项式等式;
三次多项式等式;以及
四次多项式等式。
25.根据权利要求1所述的方法,其中,所述四边形的面积包括所述数字图像的总面积的至少阈值百分比。
26.根据权利要求1所述的方法,其中,第一线将所述四边形的经计算的左上角连接到所述四边形的经计算的右下角,
其中,第二线将所述四边形的经计算的右上角和所述四边形的经计算的左下角连接,以及
其中,所述第一线和所述第二线在所述四边形内相交。
27.根据权利要求1所述的方法,进一步包括:
确定所述四边形是否满足一个或多个质量控制度量;以及
一旦确定所述四边形不满足所述质量控制度量中的一个或多个,则丢弃所述四边形,其中,所述质量控制度量包括以下中的一个或多个:
LMS支持度量,
最小四边形面积度量,
四边形角位置度量;以及
四边形对角线交点位置度量。
28.根据权利要求1所述的方法,进一步包括:
接收基于所述多个候选边缘点的所述四边形的四个边的所述定义未能定义有效四边形的指示;以及
重新定义所述多个候选边缘点,
其中,所述重新定义包括在所述数字图像内采样比在所述定义中所采样的点的数目更大数目的点。
29.根据权利要求28所述的方法,进一步包括:将所述数字图像的整体指定为所述文档的数字表示。
30.根据权利要求1所述的方法,其中,所述处理器是移动设备的一部分,所述移动设备具有集成的摄像机。
31.一种用于修改数字图像中的文档的数字表示的一个或多个空间特性的方法,所述方法包括:
将四边形变换为矩形,
其中,所述四边形通过多个等式来表征,
其中,每个等式与所述四边形的边相对应,以及
其中,每个等式从所选取的一类函数中选择。
32.根据权利要求31所述的方法,其中,所述变换包括所述四边形到所述矩形的平滑伸展。
33.根据权利要求31所述的方法,其中,所述变换包括:
确定所述矩形的高;
确定所述矩形的宽;
确定所述矩形的歪斜角度;以及
确定所述矩形的中心定位
34.根据权利要求31所述的方法,其中,所述变换包括:
在所述四边形内定义多个基于四边形的本征坐标对(p,q),每个本征坐标对(p,q)与以下各项的交点相对应:
顶到底曲线,其通过从与所述四边形的左边相对应的等式和与所述四边形的右边相对应的等式导出的等式来表征,以及
左到右曲线,其通过从与所述四边形的顶边相对应的等式和与所述四边形的底边相对应的等式导出的等式来表征,
其中,所述顶到底曲线等式通过以p对(1–p)的比将与所述四边形的左边相对应的所述等式的一个或多个系数和与所述四边形的右边相对应的所述等式的一个或多个系数进行组合来导出,
其中0≤p≤1,
其中,所述左到右曲线等式通过以q对(1–q)的比将与所述四边形的顶边相对应的所述等式的一个或多个系数和与所述四边形的底边相对应的所述等式的一个或多个系数进行组合来导出,并且,
其中0≤q≤1。
35.根据权利要求34所述的方法,其中,所述四边形通过大致矩形形状来表征。
36.根据权利要求34所述的方法,其中,表征所述顶到底曲线的等式是:
2
x=((1–p)*a2+p*b2)*y+((1–p)*a1+p*b1)*y+((1–p)*a0+p*b0),以及其中,表征所述左到右曲线的等式是:
2
y=((1–q)*c2+q*d2)*x+((1–q)*c1+q*d1)*x+((1–q)*c0+q*d0)。
37.根据权利要求31所述的方法,其中,所述变换进一步包括:
从所述数字图像生成经矩形化的数字图像;
针对所述经矩形化的数字图像内的多个点确定p坐标和q坐标;
其中,位于所述矩形左方的每个点具有p坐标值p<0,
其中,位于所述矩形右方的每个点具有p坐标值p>1,
其中,位于所述矩形上方的每个点具有q坐标值q<0,并且,
其中,位于所述矩形下方的每个点具有q坐标值q>1。
38.根据权利要求31所述的方法,其中,所述变换进一步包括:
从所述数字图像生成经矩形化的数字图像;
针对所述经矩形化的数字图像内的每个点确定基于矩形的坐标对;以及
将基于矩形的坐标中的每一对匹配到所述数字图像内的基于四边形的本征坐标的等同对。
39.根据权利要求38所述的方法,所述匹配包括针对所述顶到底曲线和所述左到右曲线的交点实施迭代搜索,所述迭代搜索包括:
指定起始点(x0,y0);
2
基于等式x1=u2*y0+u1*y0+u0将所述起始点(x0,y0)投影到所述左到右曲线上;以及
2
基于等式y1=v2*x1+v1*x1+v0将下一点(x1,y0)投影到所述顶到底曲线上,其中ui=(1–p)*ai+p*bi,以及
其中vi=(1–q)*ci+q*di。
40.根据权利要求39所述的方法,进一步包括:
2
基于等式xk+1=u2*yk+u1*yk+u0迭代地将多个点(xk,yk)投影到所述左到右曲线上;以及
2
基于等式yk+1=v2*xk+1+v1*xk+1+v0迭代地将多个点(xk+1,yk)投影到所述顶到底曲线上。
41.根据权利要求40所述的方法,其中所述匹配进一步包括:
确定(xk,yk)与(xk+1,yk+1)之间的距离;以及
确定所述距离是否小于预定的阈值。
42.根据权利要求41所述的方法,进一步包括一旦确定所述距离小于所述预定的阈值,则终止所述迭代搜索。
43.根据权利要求31所述的方法,
2
其中,所述四边形的左边通过二次多项式等式:x=a2*y+a1*y+a0来表征,
2
其中,所述四边形的右边通过二次多项式等式:x=b2*y+b1*y+b0来表征,
2
其中,所述四边形的顶边通过二次多项式等式:y=c2*x+c1*x+c0来表征,以及
2
其中,所述四边形的底边通过二次多项式等式:y=d2*x+d1*x+d0来表征。
44.一种用于确定文档的数字表示中是否存在光照问题的方法,所述方法包括:
使用处理器将包括所述数字图像内的文档的经检测的数字表示的四边形划分为多个区段,每个区段包括多个像素;
确定每个区段的亮度值的分布;
确定每个区段的亮度值范围;
确定每个区段的亮度值的可变性;
确定每个区段是否是过饱和的;
确定每个区段是否是欠饱和的;
确定过饱和的区段的数目;
确定欠饱和的区段的数目;
一旦确定所述过饱和的区段的数目与区段的总数目的比超过过饱和阈值,则确定所述数字图像是过饱和的;
一旦确定所述欠饱和的区段的数目与区段的总数目的比超过欠饱和阈值,则确定所述数字图像是欠饱和的;以及
一旦确定所述数字图像是欠饱和的或者是过饱和的,则确定在所述数字图像中存在所述光照问题。
45.根据权利要求44所述的方法,进一步包括:
针对每个区段确定区段过饱和比,每个区段过饱和比包括展示所述区段中的最大亮度值的像素的数目除以所述区段中的像素的总数目。
46.根据权利要求45所述的方法,进一步包括:
针对每个区段确定所述区段的过饱和级是否大于预定的阈值:以及
一旦确定所述区段的饱和级大于预定的阈值,则将所述区段表征为过饱和的。
47.根据权利要求44所述的方法,进一步包括:
确定所述每个区段的亮度值的分布的中值可变性;
确定每个中值可变性是否大于预定的可变性阈值;以及
针对每个区段,一旦确定所述区段的中值可变性大于所述预定的可变性阈值,则确定所述区段是欠饱和的。
48.根据权利要求44所述的方法,其中,所述每个区段的亮度值范围包括以下两者之间的差:
所述区段的亮度值的分布中的最大特性亮度值;以及
所述区段的亮度值的分布中的最小特性亮度值。
49.根据权利要求44所述的方法,其中,每个亮度值是范围从0到255的整数值。
50.根据权利要求44所述的方法,其中,确定所述可变性包括:
确定所述多个像素中的目标像素的亮度值;
计算所述目标像素的亮度值与用于一个或多个邻近像素的亮度值之间
的差,每个邻近像素距离所述目标像素一个或多个像素远;
针对所述多个像素中的每个像素重复所述确定和所述计算以获得每个目标像素可变性;以及
生成目标像素可变性值的分布,
其中,每个目标像素可变性值是从0到255的范围中的整数。
51.根据权利要求50所述的方法,其中,所述一个或多个邻近像素沿垂直方向位于所述目标像素的五个像素内。
52.根据权利要求50所述的方法,其中,所述一个或多个邻近像素沿平方向位于所述目标像素的五个像素内。
53.根据权利要求50所述的方法,进一步包括:
从所述目标像素可变性值的分布中移除一个或多个目标像素可变性值以生成经校正的分布;以及,
基于所述经校正的分布来定义特性背景可变性。
54.根据权利要求44所述的方法,进一步包括,针对每个区段:
通过将所述文档的高划分为预定义数目的水平区段来定义区段高;以及,通过将所述文档的宽划分为预定数目的垂直区段来定义区段宽。
55.根据权利要求44所述的方法,其中,每个区段通过区段高和区段宽来表征,其中,所述数字图像通过图像宽w和图像高h来表征,
其中,h>=w,
其中,所述区段大小通过区段宽ws和区段高hs来表征,
其中,ws=w/m,
其中,hs=h/n,
其中,定义m和n使得ws接近等于hs。
56.一种用于确定文档的数字表示中是否存在光照问题的方法,包括:
使用处理器将包括数字图像内的文档的经检测的数字表示的四边形划分为多个区段,每个区段包括多个像素;
确定每个区段的亮度值的分布;
确定每个区段的亮度值范围;
确定每个区段的亮度值的可变性;
针对每个区段确定区段过饱和比,每个区段过饱和比包括展示所述区段中的最大亮度值的像素的数目除以所述区段中的像素的总数目;
针对每个区段确定所述区段的过饱和比是否大于预定的过饱和阈值;
针对每个区段,一旦确定所述区段的饱和级大于预定的过饱和阈值,则确定所述区段是过饱和的;
针对每个区段确定所述区段的亮度值的分布的中值可变性;
确定每个中值可变性是否大于预定的中值可变性阈值;以及
针对每个区段,一旦确定所述区段的中值可变性大于所述预定的中值可变性阈值,则确定所述区段是欠饱和的;以及
一旦确定所述数字图像是欠饱和的或者是过饱和的,则确定在所述数字图像中存在所述光照问题。
57.根据权利要求44所述的方法,其中,所述处理器是移动设备的一部分,所述移动设备具有集成的摄像机。
58.一种用于校正数字图像的一个或多个区中的光照的不均匀性的方法,所述方法包括:
使用处理器从所述数字图像导出二维光照模型;以及
将所述二维光照模型应用到所述数字图像中的每个像素。
59.根据权利要求58所述的方法,所述导出包括:
使用处理器将包括所述数字图像内的文档的经检测的数字表示的四边形划分为多个区段,每个区段包括多个像素;
确定每个区段的色彩通道值的分布,色彩通道值的每个分布与多个色彩通道之一相对应;
针对色彩通道值的每个分布确定以下中的一个或多个:
相对应区段的初级背景的平均色彩,以及
所述相对应区段的二级背景的平均色彩;以及
针对每个区段指定初级背景色彩或者二级背景色彩作为所述文档的数字表示的主要背景的局部表示,每个局部表示通过所述相对应区段的初级背景的平均色彩或者所述相对应区段的二级背景的平均色彩来表征。
60.根据权利要求58所述的方法,其中,所述二维光照模型是通过等式v=
2 2
ax+bxy+cy+dx+ey+f来表征的二次多项式,
其中,v是用于所述多个色彩通道之一的平均色彩通道值,
其中,a,b,c,d,e,和f是所述二维光照模型的每个未知参数,
其中,每个未知参数a,b,c,d,e,和f使用最小均方逼近来逼近,
其中,x是所述区段中的中点像素的x坐标,以及
其中,y是所述区段中的所述中点像素的y坐标。
61.根据权利要求58所述的方法,进一步包括:
针对每个区段确定多个色彩聚类;
确定多个混色聚类,每个混色聚类与所述区段中的高频率表示相对应;
确定所述区段的总面积;
确定多个部分区段面积,每个部分区段面积与所述多个混色聚类之一所表示的面积相对应;
将每个部分区段面积除以所述总面积以获得用于每个混色聚类的聚类百分比面积;以及
基于所述聚类百分比面积将每个混色聚类分类为或者背景聚类或者非背景聚类,其中,所述分类识别:
所述区段中没有背景,
所述区段中的单个最庞大背景,或者
所述区段中的两个最庞大背景。
62.根据权利要求61所述的方法,所述应用包括:
针对多个背景聚类:
计算每个背景聚类的平均色彩通道值,
计算每个背景聚类的色调比,以及
计算用于所述多个背景聚类的中值色调比;以及
将所述每个背景聚类的色调比与所述多个聚类的中值色调比进行比较;
基于所述比较选择最可能的背景作为所述局部表示;
计算多个局部表示之上的多个平均主要背景色彩通道值;
计算一个或多个预测的背景通道值与所述多个平均主要背景色彩通道值之间的差;
将所述差乘以分数以生成分数差分;以及,
将所述分数差分添加到用于所述数字图像中的每个像素的一个或多个色彩通道值。
63.根据权利要求62所述的方法,其中,所述分数是从0到1的范围中的值。
64.根据权利要求61所述的方法,其中,所述分类包括将属于包含大于背景阈值的数目的像素的聚类的每个像素分类为背景像素
65.根据权利要求64所述的方法,其中,所述背景阈值处于从0到100%的范围中。
66.根据权利要求58所述的方法,其中,所述处理器是移动设备的一部分,所述移动设备具有集成的摄像机。
67.一种用于估计包括文档的数字表示的数字图像的分辨率的方法,所述方法包括:
检测所述数字图像中的多个非背景元素的多个连接成分;
基于所述多个连接成分来确定多个可能的字符;
基于所述多个可能的文本字符来确定一个或多个平均字符尺寸;以及
基于所述一个或多个平均字符尺寸来估计所述数字图像的分辨率。
68.根据权利要求67所述的方法,进一步包括:
基于所述数字图像的所估计的分辨率来估计所述文档的数字表示的一个或多个尺寸;
将所述文档的数字表示的所估计的一个或多个尺寸与多个已知文档类型的一个或多个已知尺寸进行比较;
基于所述比较将所述文档的数字表示匹配到所述多个已知文档类型中的一个或多个;
确定所述匹配是否满足一个或多个质量控制标准;以及
一旦确定所述匹配满足所述一个或多个质量控制标准,则基于所述已知文档类型的已知尺寸来调节所述文档的数字表示的所估计的分辨率。
69.根据权利要求67所述的方法,进一步包括,针对一个或多个连接成分,计算以下中的一个或多个:
所述连接成分内的开关转变的数目;所述连接成分内的黑像素密度
所述连接成分的长宽比;以及
基于所述黑像素密度、所述开关转变的数目和所述长宽比中的一个或多个来计算所述连接成分中的一个或多个的表示文本字符的似然性。
70.根据权利要求67所述的方法,进一步包括将所述数字图像二值化以生成双色调图像。
71.根据权利要求67所述的方法,其中,所述平均字符尺寸包括平均字符宽和平均字符高。
72.根据权利要求67所述的方法,进一步包括:
确定所述多个文本字符中的至少两个的字符高;
基于所述至少两个文本字符的每个字符高来计算平均字符高;
确定所述多个文本字符中的至少两个的字符宽;
基于所述至少两个文本字符的每个字符宽来计算平均字符宽;
实施从包括以下各项的组选择的至少一个比较:
将所述平均字符高与参考平均字符高进行比较;以及
将所述平均字符宽与参考平均字符宽进行比较;以及
基于所述至少一个比较来估计所述数字图像的分辨率,
其中,所述参考平均字符高和所述参考平均字符宽中的每一个与一个或多个参考字符相对应,每个参考字符通过已知的字符宽和已知的字符高来表征。
73.根据权利要求72所述的方法,其中,每个参考字符与从以参考分辨率扫描一个或多个文档所获得的字符的数字表示相对应,以及,
其中,每个参考字符与一个或多个常用字体相对应。
74.一种根据权利要求67所述的方法,进一步包括:
基于所述文档的数字表示的所估计的分辨率来估计所述文档的数字表示的一个或多个尺寸;
从所述平均字符尺寸计算平均字符宽;
从所述平均字符尺寸计算平均字符高;
将所述平均字符宽与所述平均字符高进行比较;
基于所述比较来估计所述文档的数字表示的定向;以及
基于所估计的尺寸和所估计的定向将所述文档的数字表示匹配到已知文档类型。
75.根据权利要求74所述的方法,其中,所述一个或多个已知文档类型包括以下中的一个或多个:
信函大小文档;
法律大小文档;
A3文档;
A4(欧洲信函大小)文档;
A5文档;
分类账/小报文档;
驾驶执照;
商业名片;
个人支票;
商业支票;
2.25英寸宽收据;以及
3.125英寸宽收据。
76.根据权利要求67所述的方法,其中,所述处理器是移动设备的一部分,所述移动设备具有集成的摄像机。
77.一种方法,包括:
使用处理器将包括数字图像中的文档的数字表示的四边形划分为多个区段,每个区段包括多个像素;
针对每个区段:
确定所述区段是否在第一方向上包含一个或多个锐利的像素到像素转变;
针对所述区段(Ss1)对第一方向锐利的像素到像素转变的总数目进行计数;
确定所述区段是否在所述第一方向上包含一个或多个模糊的像素到像素转变;
针对所述区段(SB1)对第一方向模糊的像素到像素转变的总数目进行计数;
确定所述区段是否在第二方向上包含一个或多个锐利的像素到像素转变;
针对所述区段(SS2)对第二方向锐利的像素到像素转变的总数目进行计数;
确定所述区段是否在所述第二方向上包含一个或多个模糊的像素到像素转变;
针对所述区段(SB2)对第二方向模糊的像素到像素转变的总数目进行计数;
一旦确定以下各项,则确定所述区段是空白的:
SS1小于预定的锐利转变阈值,
SB1小于预定的模糊转变阈值,
SS2小于预定的锐利转变阈值,以及
SB2小于预定的模糊转变阈值;以及,
针对所有非空白区段确定第一方向模糊比r1=SS1/SB1;
针对所有非空白区段确定第二方向模糊比r2=SS2/SB2;
一旦确定r1小于预定义的区段模糊比阈值,则确定非空白区段在所述第一方向上是模糊的;以及
一旦确定r2小于所述预定义的区段模糊比阈值,则确定非空白区段在所述第二方向上是模糊的;以及
一旦确定以下中的一个或多个,则确定非空白区段是模糊的:
所述区段在所述第一方向上是模糊的,以及
所述区段在所述第二方向上是模糊的;以及
确定模糊的区段的总数目;
计算图像模糊比R,所述R包括:所述模糊的区段的总数目比区段的总数目;以及一旦确定所述图像模糊比大于预定的图像模糊阈值,则确定所述数字图像是模糊的。
78.根据权利要求77所述的方法,进一步包括:
针对每个区段确定所述多个像素的亮度值的分布;
确定所述亮度值的分布的特性可变性v;
基于v来计算值得注意的亮度转变阈值η;
基于η来计算大亮度转变阈值μ;
针对所述多个像素内的每个像素来分析围绕所述像素的窗口中的亮度改变的方向性图;以及
基于所述分析来识别以下中的一个或多个:所述锐利的像素到像素转变和所述模糊的像素到像素转变。
79.根据权利要求78所述的方法,进一步包括:
定义多个中心像素;
顺序地分析围绕每个中心像素的像素的一个或多个小窗口内的所述多个中心像素中的每一个;
一旦确定以下各项,则识别所述锐利的像素到像素转变:
所述中心像素之一的紧邻地带内存在所述大亮度转变;
在所述大亮度转变之前存在第一小亮度变化;以及
在所述大亮度转变之后存在第二小亮度变化;
一旦确定以下各项,则检测所述锐利的像素到像素转变:
在所述小窗口的一个或多个内存在大转变;以及,
在所述大转变中存在亮度的单调改变;以及
一旦确定以下各项,则检测所述模糊的像素到像素转变:
在小窗口内发生值得注意的转变;以及
在所述值得注意的转变中存在亮度的所述单调改变。
80.根据权利要求79所述的方法,进一步包括,针对每个区段:
对一个或多个所选取方向的每一个上的锐利的转变的总数目进行计数;
对每个所选取方向上的模糊的转变的总数目进行计数;
一旦确定以下各项,则确定区段是空白的:
所述锐利的转变的总数目小于预定义的锐利转变阈值,以及
所述模糊的转变的总数目小于预定义的模糊转变阈值;
一旦确定包括所述锐利的转变的总数目对所述模糊的转变的总数目的区段模糊强度比在所述所选取方向的至少一个上小于区段模糊比阈值,则确定所述非空白区段是模糊的;以及,
一旦确定所述区段既不是空白的,也不是模糊的,则确定所述区段是锐利的。
81.根据权利要求80所述的方法,进一步包括:
确定所述多个区段内的空白区段的总数目(Nblank);
确定所述多个区段内的模糊区段的总数目(Nblur);
确定所述多个区段内的锐利区段的总数目(Nsharp);
确定模糊强度比(RB)=Nblur/(Nblur+Nsharp);以及
如果所述RB小于模糊强度阈值,则确定所述数字图像是锐利的。
82.根据权利要求77所述的方法,其中,所述处理器是移动设备的一部分,所述移动设备具有集成的摄像机。
83.一种方法,包括:
接收捕获数据的请求,所述数据包括以下中的一个或多个:
数字图像,以及
数字视频;以及
响应于接收所述捕获请求,使用移动设备的捕获组件对所述数据进行捕获;
将所捕获的数据输出到以下中的一个或多个:所述移动设备的显示器、所述移动设备的处理器以及所述移动设备的存储介质;
接收对所捕获的数据进行分析的请求;
响应于接收所述分析请求,使用所述移动设备对所捕获的数据进行分析;以及将所述分析的结果输出到以下中的一个或多个:所述移动设备的显示器、所述移动设备的处理器以及所述移动设备的存储介质。
84.根据权利要求83所述的方法,进一步包括:
接收修改一个或多个捕获数据参数的请求;以及,
响应于所述请求修改所述一个或多个捕获数据参数,
其中,所述一个或多个捕获数据参数包括以下中的一个或多个:
闪光设置;
捕获稳定性辅助设置;
捕获对齐辅助设置;
缩放等级;
捕获色彩模式;以及
捕获数据目的地等。
85.根据权利要求83所述的方法,其中,所述所捕获的数据与文档的数字表示相对应,所述分析包括:
将所述文档的数字表示的一个或多个特性与一个或多个质量控制度量进行比较;基于所述比较确定每个特性是否是可接受的;
针对每个特性:
一旦确定所述特性是可接受的,则输出所述特性是可接受的的指示,以及一旦确定所述特性不是可接受的,则输出所述特性不是可接受的的指示;以及一旦确定每个特性是可接受的,则输出所述文档的数字表示是可接受的的指示。
86.根据权利要求85所述的方法,所述一个或多个质量控制度量包括以下中的一个或多个:
页面检测度量;
光照度量;以及
模糊度量。
87.根据权利要求85所述的方法,进一步包括:
经由所述移动设备的显示器来显示所述特性不是可接受的的指示;
响应于所述显示而接收重新捕获数据的指令;
响应于接收所述指令而重新捕获所述数据;以及
输出经重新捕获的数据。
88.根据权利要求85所述的方法,进一步包括:
经由所述移动设备的显示器来显示所述特性不是可接受的的指示;
响应于所述显示而接收对所述所捕获的数据进行增强的指令;
响应于接收所述指令而对所述所捕获的数据进行增强而不重新捕获所述数据;以及输出经增强的数据。
89.根据权利要求83所述的方法,其中,所述所捕获的数据与文档的数字表示相对应,所述方法进一步包括:
将所述文档的数字表示输出到所述移动设备的显示器;以及
接收与修改所述文档的数字表示的指令相对应的用户输入。
90.根据权利要求83所述的方法,其中,所述所捕获的数据与文档的数字表示相对应,其中,所述分析进一步包括:
接收将所述文档的数字表示与一个或多个已知文档类型进行比较的请求;
响应于接收所述比较请求而估计所述文档的数字表示的分辨率;
将所估计的分辨率与一个或多个已知分辨率相关,每个已知分辨率与所述已知文档类型之一相对应;以及
基于所述相关性输出所估计的文档类型。
91.根据权利要求83所述的方法,其中,所述所捕获的数据与文档的数字表示相对应,其中,所述分析进一步包括:
处理所述文档的数字表示以确定所述文档的内容;
基于所述内容确定文档类型;以及,
基于所述文档类型确定所述文档的数字表示的分辨率。
92.根据权利要求83所述的方法,进一步包括:
接收与所述所捕获的数据相对应的元数据;以及
将所述元数据与所述所捕获的数据相关联,
其中,所述元数据与以下中的一个或多个相对应:
一个或多个字母数字字符,
一个或多个符号,
一个或多个签名;以及
一个或多个指针
93.根据权利要求83所述的方法,所述捕获包括从所述移动设备的存储介质中读取数据。
94.根据权利要求83所述的方法,其中,所述所捕获的数据与文档的数字表示相对应,并且进一步包括:校正所述文档的数字表示的一个或多个部分中的失真。
95.根据权利要求94所述的方法,其中,校正一个或多个伪影包括将与所述文档的数字表示相对应的四边形变换为矩形,
其中,所述四边形通过多个等式来表征,
其中,每个等式与所述四边形的边相对应,以及
其中,每个等式从所选取的一类函数中选择。
96.根据权利要求83所述的方法,其中,所述所捕获的数据与文档的数字表示相对应,并且进一步包括:检测所述文档的数字表示。
97.根据权利要求96所述的方法,其中,检测所述所捕获的数据中的所述文档的数字表示包括:
使用处理器来定义与所述文档的数字表示相对应的多个候选边缘点;
基于所述多个候选边缘点来定义四边形的四个边;以及
将所述文档的数字表示和所述四边形输出到所述移动设备的所述显示器。
98.根据权利要求97所述的方法,其中,定义所述多个候选边缘点包括:
在数字图像内定义一个或多个大分析窗口;
在所述数字图像内定义多个小分析窗口;
针对每个大分析窗口估计统计数值的一个或多个分布;
针对每个小分析窗口计算一个或多个统计数值;
确定在针对所述小分析窗口之一所计算的统计数值中的一个或多个与针对所述大分析窗口所估计的统计数值的相对应分布之间是否存在统计上的显著差异;以及一旦确定所述统计上的显著差异存在,则将所述小分析窗口中的点指定为候选边缘点。
99.根据权利要求83所述的方法,其中,所述所捕获的数据与文档的数字表示相对应,并且进一步包括确定所述文档的数字表示中是否存在一个或多个光照问题。
100.根据权利要求99所述的方法,其中,确定所述一个或多个光照问题是否存在包括:
使用处理器将包括经检测的文档的数字表示的四边形划分为多个区段,每个区段包括多个像素;
确定每个区段的亮度值的分布;
确定每个区段的亮度值范围;
确定每个区段的亮度值的可变性;
确定每个区段是否是过饱和的;
确定每个区段是否是欠饱和的;
确定过饱和的区段的数目;
确定欠饱和的区段的数目;
一旦确定所述过饱和的区段的数目与区段的总数目的比超过过饱和阈值,则确定所述所捕获的数据是过饱和的;
一旦确定所述欠饱和的区段的数目与区段的总数目的比超过欠饱和阈值,则确定所述所捕获的数据是欠饱和的;以及
一旦确定所述所捕获的数据是欠饱和的或者是过饱和的,则确定在所述所捕获的数据中存在一个或多个光照问题。
101.根据权利要求83所述的方法,其中,所述所捕获的数据与文档的数字表示相对应,并且进一步包括校正所述文档的数字表示的一个或多个区中的光照的不均匀性。
102.根据权利要求101所述的方法,其中,所述校正包括:
使用处理器将包括所述文档的数字表示的四边形划分为多个区段,每个区段包括多个像素;
确定每个区段的色彩通道值的分布,色彩通道值的每个分布与多个色彩通道之一相对应;
针对色彩通道值的每个分布来确定以下中的一个或多个:
相对应区段的初级背景的平均色彩;以及
所述相对应区段的二级背景的平均色彩;
针对每个区段,指定初级背景色彩或者二级背景色彩作为所述文档的数字表示的主要背景的局部表示,每个局部表示通过所述相对应区段的初级背景的平均色彩或者所述相对应区段的二级背景的平均色彩来表征;以及
将所述二维光照模型应用到所述所捕获的数据。
103.根据权利要求83所述的方法,其中,所述经捕获的数据与文档的数字表示相对应,并且进一步包括估计所述文档的数字表示的分辨率。
104.根据权利要求103所述的方法,所述估计包括:
检测所述所捕获的数据中的多个非背景元素的多个连接成分;
基于所述多个连接成分确定多个可能的字符;
基于所述多个可能的字符确定一个或多个平均字符尺寸;以及
基于所述一个或多个平均字符尺寸估计所述所捕获的数据的分辨率。
105.根据权利要求83所述的方法,其中,所述所捕获的数据与文档的数字表示相对应,并且进一步包括确定所述所捕获的数据是否包括一个或多个模糊的区。
106.根据权利要求105所述的方法,其中,确定所述所捕获的数据是否包括一个或多个模糊的区包括:
使用处理器将包括所述文档的数字表示的四边形划分为多个区段,每个区段包括多个像素;
针对每个区段:
确定所述区段是否在第一方向上包含一个或多个锐利的像素到像素转变;
针对所述区段(Ss1)对第一方向锐利的像素到像素转变的总数目进行计数;
确定所述区段是否在所述第一方向上包含一个或多个模糊的像素到像素转变;
针对所述区段(SB1)对第一方向模糊的像素到像素转变的总数目进行计数;
确定所述区段是否在第二方向上包含一个或多个锐利的像素到像素转变;
针对所述区段(SS2)对第二方向锐利的像素到像素转变的总数目进行计数;
确定所述区段是否在所述第二方向上包含一个或多个模糊的像素到像素转变;
针对所述区段(SB2)对第二方向模糊的像素到像素转变的总数目进行计数;
一旦确定以下各项,则确定所述区段是空白的:
SS1小于预定的锐利转变阈值,
SB1小于预定的模糊转变阈值,
SS2小于预定的锐利转变阈值,以及
SB2小于预定的模糊转变阈值;以及
针对所有非空白区段确定第一方向模糊比r1=Ss1/SB1;
针对所有非空白区段确定第二方向模糊比r2=Ss2/SB2;
一旦确定r1小于预定义的区段模糊比阈值,则确定非空白区段在所述第一方向上是模糊的;以及
一旦确定r2小于所述预定义的区段模糊比阈值,则确定非空白区段在所述第二方向上是模糊的;以及
一旦确定以下中的一个或多个,则确定非空白区段是模糊的:
所述区段在所述第一方向上是模糊的,以及
所述区段在所述第二方向上是模糊的;以及
确定模糊的区段的总数目;
计算图像模糊比R,所述R包括:所述模糊的区段的总数目比区段的总数目;以及一旦确定所述图像模糊比大于预定的图像模糊阈值,则确定所述所捕获的数据包括模糊的区域。
107.一种方法,包括:
将案例管理界面输出到移动设备的显示器;
经由所显示的案例管理界面接收与一个或多个案例动作相对应的一个或多个指令,每个案例动作与至少一个案例相关联;以及
响应于接收所述指令而实施所述案例动作中的一个或多个。
108.根据权利要求107所述的方法,进一步包括:
将数据捕获界面输出到所述移动设备的显示器用于捕获包括文档的数字表示的图像;
接收来自用户的经由所述数据捕获界面对所述图像进行捕获的请求;
响应于接收所述请求来对所述图像进行捕获,所述捕获使用所述移动设备的捕获组件来实施;以及
将所捕获的图像与一个或多个案例相关联。
109.根据权利要求108所述的方法,进一步包括:检测所述文档的数字表示。
110.根据权利要求109所述的方法,其中,检测所述图像中的所述文档的数字表示包括:
使用处理器来定义与所述文档的数字表示相对应的多个候选边缘点;
基于所述多个候选边缘点来定义四边形的四个边;以及
将所述文档的数字表示和所述四边形输出到所述移动设备的所述显示器。
111.根据权利要求110所述的方法,其中,定义所述多个候选边缘点包括:
在数字图像内定义一个或多个大分析窗口;
在所述数字图像内定义多个小分析窗口;
针对每个大分析窗口估计统计数值的一个或多个分布;
针对每个小分析窗口计算一个或多个统计数值;
确定在针对所述小分析窗口之一所计算的统计数值中的一个或多个与针对所述大分析窗口之一所估计的统计数值的相对应分布之间是否存在统计上的显著差异;以及一旦确定所述统计上的显著差异存在,则将所述小分析窗口中的点指定为候选边缘点。
112.根据权利要求108所述的方法,进一步包括:校正所述文档的数字表示的一个或多个部分的一个或多个失真。
113.根据权利要求112所述的方法,其中,校正所述一个或多个失真包括将与所述文档的数字表示相对应的四边形变换为矩形,
其中,所述四边形通过多个等式来表征,
其中,每个等式与所述四边形的边相对应,以及
其中,每个等式从所选取的一类函数中选择。
114.根据权利要求108所述的方法,进一步包括确定所述文档的数字表示中是否存在一个或多个光照问题。
115.根据权利要求114所述的方法,其中,确定所述一个或多个光照问题是否存在包括:
使用处理器将包括所述数字图像内的文档的经检测的数字表示的四边形划分为多个区段,每个区段包括多个像素;
确定每个区段的亮度值的分布;
确定每个区段的亮度值范围;
确定每个区段的亮度值的可变性;
确定每个区段是否是过饱和的;
确定每个区段是否是欠饱和的;
确定过饱和的区段的数目;
确定欠饱和的区段的数目;
一旦确定所述过饱和的区段的数目与区段的总数目的比超过过饱和阈值,则确定所述数字图像是过饱和的;
一旦确定所述欠饱和的区段的数目与区段的总数目的比超过欠饱和阈值,则确定所述数字图像是欠饱和的;以及
一旦确定所述数字图像是欠饱和的或者是过饱和的,则确定所述数字图像中存在所述光照问题。
116.根据权利要求108所述的方法,进一步包括校正所述文档的数字表示的一个或多个区中的光照的不均匀性。
117.根据权利要求116所述的方法,其中,所述校正包括:
从所述数字图像导出二维光照模型;以及
将所述二维光照模型应用到所述数字图像中的每个像素。
118.根据权利要求108所述的方法,进一步包括估计所述文档的数字表示的分辨率。
119.根据权利要求118所述的方法,所述估计包括:
检测所述数字图像中的多个非背景元素的多个连接成分;
基于所述多个连接成分确定多个可能的字符;
基于所述多个可能的文本字符确定一个或多个平均字符尺寸;以及
基于所述一个或多个平均字符尺寸估计所述数字图像的分辨率。
120.根据权利要求108所述的方法,进一步包括确定所述图像是否包括一个或多个模糊的区域。
121.根据权利要求120所述的方法,其中,确定所述图像是否包括一个或多个模糊的区域包括:
使用处理器将包括数字图像中的文档的数字表示的四边形划分为多个区段,每个区段包括多个像素;
针对每个区段:
确定所述区段是否在第一方向上包含一个或多个锐利的像素到像素转变;
针对所述区段(SS1)对第一方向锐利的像素到像素转变的总数目进行计数;
确定所述区段是否在所述第一方向上包含一个或多个模糊的像素到像素转变;
针对所述区段(SB1)对第一方向模糊的像素到像素转变的总数目进行计数;
确定所述区段是否在第二方向上包含一个或多个锐利的像素到像素转变;
针对所述区段(Ss2)对第二方向锐利的像素到像素转变的总数目进行计数;
确定所述区段是否在所述第二方向上包含一个或多个模糊的像素到像素转变;
针对所述区段(SB2)对第二方向模糊的像素到像素转变的总数目进行计数;
一旦确定以下各项,则确定所述区段是空白的:
SS1小于预定的锐利转变阈值,
SB1小于预定的模糊转变阈值,
SS2小于预定的锐利转变阈值,以及
SB2小于预定的模糊转变阈值;以及
针对所有非空白区段确定第一方向模糊比r1=SS1/SB1;
针对所有非空白区段确定第二方向模糊比r2=SS2/SB2;
一旦确定r1小于预定义的区段模糊比阈值,则确定非空白区段在所述第一方向上是模糊的;以及
一旦确定r2小于所述预定义的区段模糊比阈值,则确定非空白区段在所述第二方向上是模糊的;以及
一旦确定以下中的一个或多个,则确定非空白区段是模糊的:
所述区段在所述第一方向上是模糊的,以及
所述区段在所述第二方向上是模糊的;以及
确定模糊的区段的总数目;
计算图像模糊比R,所述R包括:所述模糊的区段的总数目比区段的总数目;以及一旦确定所述图像模糊比大于预定的图像模糊阈值,则确定所述数字图像是模糊的。
122.根据权利要求108所述的方法,进一步包括:
将认证界面输出到所述移动设备的显示器;
经由所述认证界面接收认证数据;
接收认证请求;
响应于接收所述认证请求来确定所述认证数据是否是有效的;
一旦确定所述认证数据是有效的,则准予对一个或多个安全案例动作的访问
一旦确定所述认证数据不是有效的,则拒绝对所述安全案例动作的访问。
123.根据权利要求107所述的方法,所述案例动作包括:
创建新案例;
打开现存案例;
删除所述现存案例中的一个或多个;
指定案例类型;
捕获案例信息;
捕获与文档的数字表示相对应的数据,所述数据包括图像数据或者视频数据;
将所捕获的数据输出到所述移动设备的所述显示器;
将所述所捕获的数据与所述新案例和所述现存案例中的一个或多个相关联;
将所述所捕获的数据从所述新案例和所述现存案例中的一个或多个分离;
处理所述所捕获的数据;
将经处理的数据输出到所述移动设备的所述显示器;
经由所述移动设备的所述显示器接收用户输入;以及
将所述新案例和所述现存案例中的一个或多个提交到远程服务器
124.根据权利要求123所述的方法,其中,所述捕获包括:
经由所述移动设备的所述显示器接收用户输入;以及
响应于所述用户输入而使用所述移动设备的捕获组件来捕获数据。
125.根据权利要求123所述的方法,其中,所述捕获包括:
经由所述移动设备的所述显示器接收用户输入;以及
响应于所述用户输入从所述移动设备的计算机可读存储介质中读取数据。
126.根据权利要求123所述的方法,其中,所述用户输入和与所述新案例和所述现存案例中的一个或多个相关的元数据相对应;以及
进一步包括将所述元数据与所述新案例和所述现存案例中的一个或多个相关联,所述元数据包括以下中的一个或多个:
一个或多个字母数字字符,
一个或多个符号,
一个或多个签名,以及
一个或多个指针。
127.根据权利要求123所述的方法,其中,指定所述案例类型包括:
将多个潜在案例类型显示在所述移动设备的所述显示器上;
经由所述移动设备的所述显示器接收用户输入,所述用户输入指示所述多个潜在案例类型之一是期望的案例类型;以及
将所述案例类型指定为所述期望的案例类型。
128.根据权利要求127所述的方法,其中,所述潜在案例类型包括:保险索赔;贷款申请;交货证明;未定义的案例类型;新账户开设;教育程序应用;医疗记录;费用管理;事故报告;以及用户定义的案例类型。
129.根据权利要求123所述的方法,其中,所述案例信息包括以下中的一个或多个:数字签名、电子签名以及手写签名。
130.根据权利要求123所述的方法,其中,所述处理包括:
删除所述所捕获的数据中的所述文档的数字表示;
确定所述文档的数字表示是否通过矩形形状来表征;
确定所述文档的数字表示是否通过歪斜角度≠0°来表征;以及
一旦确定所述文档的数字表示不通过矩形形状和所述歪斜角度≠0°来表征,则将所述文档的数字表示变换为通过歪斜角度=0°表征的、大致矩形的文档的数字表示。
131.根据权利要求130所述的方法,所述处理进一步包括:
估计所述文档的数字表示的分辨率;以及
基于所估计的分辨率将所述文档的数字表示匹配到已知文档类型。
132.根据权利要求130所述的方法,所述处理进一步包括:
确定所述大致矩形的、抗歪斜的文档的数字表示是否通过一个或多个有问题的光照区来表征;
一旦确定所述大致矩形的、抗歪斜的文档的数字表示通过一个或多个有问题的光照区来表征,则将预览界面输出到所述移动设备的所述显示器;
经由所述移动设备的所述显示器接收涉及所述一个或多个有问题的光照区的用户输入;以及
响应于涉及一个或多个不均匀光照区的用户输入而校正所述一个或多个不均匀光照区。
133.根据权利要求130所述的方法,所述处理进一步包括:
确定所述大致矩形的、抗歪斜的文档的数字表示是否通过一个或多个模糊的区来表征;
一旦确定所述大致矩形的、抗歪斜的文档的数字表示通过一个或多个模糊的区来表征,则将预览界面输出到所述移动设备的所述显示器;
经由所述移动设备的所述显示器接收涉及所述一个或多个模糊的区的用户输入;以及响应于涉及所述一个或多个模糊的区的用户输入接受、丢弃、或重新处理通过一个或多个模糊的区来表征的所述大致矩形的、抗歪斜的数字表示。
134.根据权利要求107所述的方法,所述案例动作包括打印与一个或多个案例相关的一个或多个文档,所述打印包括:
将打印请求从所述移动设备提交给远程资源,所述远程资源和所述移动设备不经由本地网络通信;以及响应于所述打印请求而在远程位置处使用所述远程资源打印所述一个或多个文档。
135.根据权利要求107所述的方法,其中,实施所述一个或多个案例动作利用所述移动设备的处理器,所述移动设备具有集成的摄像机。
136.一种系统,包括配置为执行逻辑的处理器和/或用于实施任何前述权利要求所述的方法的逻辑。
137.一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码配置为实施任何前述权利要求所述的方法。

说明书全文

用于移动图像捕获和处理的系统和方法

技术领域

[0001] 本发明涉及图像捕获和图像处理,并且更具体地,涉及使用移动设备捕获和处理数字图像。

背景技术

[0002] 在其中描绘诸如信函、支票、账单、发票等文档的数字图像常规地一直使用耦连到计算机工作站的多功能外围设备扫描仪来捕获和处理,所述计算机工作站诸如膝上型计算机或台式计算机。能够实施这类捕获和处理的方法和系统在本领域中是众所周知的并且很好地适应于它们针对其被采用的任务。
[0003] 然而,在日益使用移动设备实施日常活动、计算和商业的时代,提供用于在移动平台上部署和使用的模拟文档捕获和处理系统和方法将是非常有益的,所述移动平台诸如智能电话、数字摄像机、平板计算机等。
[0004] 转变常规文档捕获和处理技术的主要挑战是使用移动设备中当前可用的硬件可达到的有限的处理能和图像分辨率。因为以典型地比常规扫描仪可达到的分辨率低得多的分辨率来处理所捕获的图像是不可能或者不实际的,所以这些限制呈现了重大挑战。因此,常规的基于扫描仪的处理算法典型地在使用移动设备捕获的数字图像上实施欠佳。
[0005] 此外,就计算成本而言,移动设备上可用的有限的处理和存储器使针对扫描仪所采用的常规图像处理算法极其昂贵。尝试对常规的基于扫描仪的图像处理算法进行处理花费太多时间以至于不能成为现代移动平台上的实际应用。
[0006] 移动捕获组件(例如移动电话平板电脑等上的摄像头)的性质呈现又一挑战。在常规扫描仪能够如实地表示数字图像中的物理文档、精密地维持数字图像中的物理文档的长宽比、尺寸和形状,移动捕获组件往往不能够产生这类结果。
[0007] 具体地,由摄像机所捕获的的文档的图像呈现出当处置由扫描仪所捕获的图像时没遇到的一系列新的处理问题。这在某种程度上归因于文档图像的获取方式以及设备的构建方式的固有差异。一些扫描仪工作的方式是使用传输机制,所述传输机制创建纸张与传感器的线性阵列之间的相对运动。这些传感器随着它的移动而创建文档的像素值,并且这些经捕获的像素值的序列形成图像。因此,一般地存在高达传感器自身中的噪声的平或垂直一致性,并且提供行中所有像素的是同一个传感器。
[0008] 相反,摄像机具有许多以非线性阵列例如典型地以矩形排列的传感器。因此,所有这些个体传感器是独立的,并且渲染典型地不具有水平或垂直一致性的图像数据。此外,摄像机引入投影效果,所述投影效果是拍摄图片的度的函数。例如,利用像在扫描仪中那样的线性阵列,即使纸张的传输未与传感器的队列完美地正交并且引入一些歪斜,也不存在像在摄像机中那样的投影效果。此外,利用摄像机捕获,可能由于摄像机光学器件而引入非线性失真。
[0009] 考虑到以上所呈现的挑战,提供图像捕获和处理算法以及其应用是有益的,其补偿和/或校正与使用移动设备进行的图像捕获和处理相关联的问题,同时经由高效的处理方法维持低的计算成本。

发明内容

[0010] 在一个实施例中,一种用于处理包括文档的数字表示的数字图像的方法,包括:使用处理器定义多个候选边缘点,其中,定义每个候选边缘点包括:在数字图像内定义一个或多个大分析窗口;在数字图像内定义多个小分析窗口;针对每个大分析窗口估计统计数值的一个或多个分布;针对每个小分析窗口计算一个或多个统计数值;确定在针对小分析窗口中的每一个所计算的统计数值中的一个或多个与针对一个或多个大分析窗口所估计的统计数值的相对应分布之间是否存在统计上的显著差异;一旦确定统计上的显著差异存在,则将统计上的显著差异针对其存在的每个小分析窗口中的点指定为候选边缘点;以及,基于多个候选边缘点定义四边形的四个边;以及,将文档的数字表示和四边形输出到移动设备的显示器。
[0011] 在另一实施例中,一种系统,包括配置为执行逻辑的处理器;以及用于将四边形变换为矩形的逻辑,其中,四边形通过多个等式来表征,其中,每个等式与四边形的边相对应,并且其中,每个等式从所选取的一类函数中选择。
[0012] 在另一实施例中,一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码包括:配置为将四边形变换为矩形的计算机可读程序代码,其中,四边形通过多个等式来表征,其中,每个等式与四边形的边相对应,并且其中,每个等式从所选取的一类函数中选择。
[0013] 在另一实施例中,一种用于修改数字图像中的文档的数字表示的一个或多个空间特性的方法,包括将四边形变换为矩形,其中,四边形通过多个等式来表征,其中,每个等式与四边形的边相对应,并且其中,每个等式从所选取的一类函数中选择。
[0014] 在另一实施例中,一种系统,包括配置为执行逻辑的处理器;以及用于将四边形变换为矩形的逻辑,其中,四边形通过多个等式来表征,其中,每个等式与四边形的边相对应,并且其中,每个等式从所选取的一类函数中选择。
[0015] 在另一实施例中,一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码包括:配置为将四边形变换为矩形的计算机可读程序代码,其中,四边形通过多个等式来表征,其中,每个等式与四边形的边相对应,并且其中,每个等式从所选取的一类函数中选择。
[0016] 在另一实施例中,一种用于确定文档的数字表示中是否存在光照问题的方法,包括:使用处理器将包括数字图像内的经检测的文档的数字表示的四边形划分为多个区段,每个区段包括多个像素;确定每个区段的亮度值的分布;确定每个区段的亮度值范围;确定每个区段的亮度值的可变性;确定每个区段是否是过饱和的;确定每个区段是否是欠饱和的;确定过饱和的区段的数目;确定欠饱和的区段的数目;一旦确定过饱和的区段的数目与区段的总数目的比超过过饱和阈值,则确定数字图像是过饱和的;一旦确定欠饱和的区段的数目与区段的总数目的比超过欠饱和阈值,则确定数字图像是欠饱和的;一旦确定数字图像是欠饱和的或者是过饱和的,则确定在数字图像中存在光照问题。
[0017] 在另一实施例中,一种系统,包括:配置为执行逻辑的处理器;用于将包括数字图像内的经检测的文档的数字表示的四边形划分为多个区段的逻辑,每个区段包括多个像素;用于确定每个区段的亮度值的分布的逻辑;用于确定每个区段的亮度值范围的逻辑;用于确定每个区段的亮度值的可变性的逻辑;用于确定每个区段是否是过饱和的的逻辑;
用于确定每个区段是否是欠饱和的的逻辑;用于确定过饱和的区段的数目的逻辑;用于确定欠饱和的区段的数目的逻辑;用于一旦确定过饱和的区段的数目与区段的总数目的比超过过饱和阈值则确定数字图像是过饱和的的逻辑;用于一旦确定欠饱和的区段的数目与区段的总数目的比超过欠饱和阈值则确定数字图像是欠饱和的的逻辑;以及用于一旦确定数字图像是欠饱和的或者是过饱和的,则确定在数字图像中存在光照问题的逻辑。
[0018] 在另一实施例中,一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码包括:配置为将包括数字图像内的经检测的文档的数字表示的四边形划分为多个区段的计算机可读程序代码,每个区段包括多个像素;配置为确定每个区段的亮度值的分布的计算机可读程序代码;配置为确定每个区段的亮度值范围的计算机可读程序代码;配置为确定每个区段的亮度值的可变性的计算机可读程序代码;配置为确定每个区段是否是过饱和的的计算机可读程序代码;配置为确定每个区段是否是欠饱和的的计算机可读程序代码;配置为确定过饱和的区段的数目的计算机可读程序代码;配置为确定欠饱和的区段的数目的计算机可读程序代码;配置为一旦确定过饱和的区段的数目与区段的总数目的比超过过饱和阈值则确定数字图像是过饱和的的计算机可读程序代码;配置为一旦确定欠饱和的区段的数目与区段的总数目的比超过欠饱和阈值则确定数字图像是欠饱和的的计算机可读程序代码;以及配置为一旦确定数字图像是欠饱和的或者是过饱和的,则确定在数字图像中存在光照问题的计算机可读程序代码。
[0019] 在另一实施例中,一种用于校正数字图像的一个或多个区中的光照的不均匀性的方法,包括:使用处理器从数字图像导出二维光照模型;以及将二维光照模型应用到数字图像中的每个像素。
[0020] 在另一实施例中,一种系统,包括:配置为执行逻辑的处理器;用于从数字图像导出二维光照模型的逻辑;以及用于将二维光照模型应用到数字图像中的每个像素的逻辑。
[0021] 在另一实施例中,一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码包括:配置为从数字图像导出二维光照模型的计算机可读程序代码;以及配置为将二维光照模型应用到数字图像中的每个像素的计算机可读程序代码。
[0022] 在另一实施例中,一种用于估计包括文档的数字表示的数字图像的分辨率的方法,包括:检测数字图像中的多个非背景元素的多个连接成分;基于多个连接成分来确定多个可能的字符;基于多个可能的文本字符来确定一个或多个平均字符尺寸;以及基于一个或多个平均字符尺寸来估计数字图像的分辨率。
[0023] 在另一实施例中,一种系统,包括配置为执行逻辑的处理器;用于检测数字图像中的多个非背景元素的连接成分的逻辑;用于基于多个连接成分来确定多个可能的字符的逻辑;用于基于多个可能的文本字符来确定一个或多个平均字符尺寸的逻辑;以及用于基于一个或多个平均字符尺寸来估计数字图像的分辨率的逻辑。
[0024] 在另一实施例中,一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码包括:配置为检测数字图像中的多个非背景元素的多个连接成分的计算机可读程序代码;配置为基于多个连接成分来确定多个可能的字符的计算机可读程序代码;配置为基于多个可能的文本字符来确定一个或多个平均字符尺寸的计算机可读程序代码;以及配置为基于一个或多个平均字符尺寸来估计数字图像的分辨率的计算机可读程序代码。
[0025] 在另一实施例中,一种方法,包括:使用处理器将包括数字图像中的文档的数字表示的四边形划分为多个区段,每个区段包括多个像素;针对每个区段:确定区段是否在第一方向上包含一个或多个锐利的像素到像素转变;针对区段(Ss1)对第一方向锐利的像素到像素转变的总数目进行计数;确定区段是否在第一方向上包含一个或多个模糊的像素到像素转变;针对区段(SB1)对第一方向模糊的像素到像素转变的总数目进行计数;确定区段是否在第二方向上包含一个或多个锐利的像素到像素转变;针对区段(Ss2)对第二方向锐利的像素到像素转变的总数目进行计数;确定区是否段在第二方向上包含一个或多个模糊的像素到像素转变;针对区段(SB2)对第二方向模糊的像素到像素转变的总数目进行计数;一旦确定:Ss1小于预定的锐利转变阈值,SB1小于预定的模糊转变阈值,Ss2小于预定的锐利转变阈值,以及SB2小于预定的模糊转变阈值,则确定区段是空白的;以及,针对所有非空白区段确定第一方向模糊比r1=Ss1/SB1;针对所有非空白区段确定第二方向模糊比r2=Ss2/SB2;一旦确定r1小于预定义的区段模糊比阈值,则确定非空白区段在第一方向上是模糊的;以及一旦确定r2小于预定义的区段模糊比阈值,则确定非空白区段在第二方向上是模糊的;以及一旦确定以下中的一个或多个:区段在第一方向上是模糊的,以及区段在第二方向上是模糊的,则确定非空白区段是模糊的;以及确定模糊的区段的总数目;计算图像模糊比R,所述R包括:模糊的区段的总数目比区段的总数目;以及一旦确定图像模糊比大于预定的图像模糊阈值,则确定数字图像是模糊的。
[0026] 在另一实施例中,一种系统,包括配置为执行逻辑的处理器;用于使用处理器将包括数字图像中的文档的数字表示的四边形划分为多个区段的逻辑,每个区段包括多个像素;用于确定区段是否在第一方向上包含一个或多个锐利的像素到像素转变的逻辑;用于针对区段(Ss1)对第一方向锐利的像素到像素转变的总数目进行计数的逻辑;用于确定区是否段在第一方向上包含一个或多个模糊的像素到像素转变的逻辑;用于针对(SB1)对第一方向模糊的像素到像素转变的总数目进行计数的逻辑;用于确定区段是否在第二方向上包含一个或多个锐利的像素到像素转变的逻辑;用于针对区段(Ss2)对第二方向锐利的像素到像素转变的总数目进行计数的逻辑;用于确定区段是否在第二方向上包含一个或多个模糊的像素到像素转变的逻辑;用于针对区段(SB2)对第二方向模糊的像素到像素转变的总数目进行计数的逻辑;用于一旦确定:Ss1小于预定的锐利转变阈值,SB1小于预定的模糊转变阈值,Ss2小于预定的锐利的转变阈值,并且SB2小于预定的模糊转变阈值,则确定区段是空白的的逻辑;以及用于针对所有非空白区段确定第一方向模糊比r1=Ss1/SB1的逻辑;用于针对所有非空白区段确定第二方向模糊比r2=Ss2/SB2的逻辑;用于一旦确定r1小于预定义的区段模糊比阈值,则确定非空白区段在第一方向上是模糊的的逻辑;以及用于一旦确定r2小于预定义的区段模糊比阈值,则确定非空白区段在第二方向上是模糊的的逻辑;以及用于一旦确定以下中的一个或多个:区段在第一方向上是模糊的,以及区段在第二方向上是模糊的,则确定非空白区段是模糊的的逻辑;以及用于确定模糊的区段的总数目的逻辑;用于计算图像模糊比R的逻辑,所述R包括:模糊的区段的总数目比区段的总数目;以及用于一旦确定图像模糊比大于预定的图像模糊阈值,则确定数字图像是模糊的的逻辑。
[0027] 在另一实施例中,一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,计算机可读程序代码包括配置为使用处理器将包括数字图像中的文档的数字表示的四边形划分为多个区段的计算机可读程序代码,每个区段包括多个像素;配置为确定区段是否在第一方向上包含一个或多个锐利的像素到像素转变的计算机可读程序代码;配置为针对区段(Ss1)对第一方向锐利的像素到像素转变的总数目进行计数的计算机可读程序代码;配置为确定区段是否在第一方向上包含一个或多个模糊的像素到像素转变的计算机可读程序代码;配置为针对区段(SB1)对第一方向模糊的像素到像素转变的总数目进行计数的计算机可读程序代码;配置为确定区段是否在第二方向上包含一个或多个锐利的像素到像素转变的计算机可读程序代码;配置为针对区段(Ss2)对第二方向锐利的像素到像素转变的总数目进行计数的计算机可读程序代码;配置为确定区段是否在第二方向上包含一个或多个模糊的像素到像素转变的计算机可读程序代码;配置为针对区段(SB2)对第二方向模糊的像素到像素转变的总数目进行计数的计算机可读程序代码;配置为一旦确定:Ss1小于预定的锐利转变阈值,SB1小于预定的模糊转变阈值,Ss2小于预定的锐利转变阈值,以及SB2小于预定的模糊转变阈值,则确定区段是空白的的计算机可读程序代码;以及配置为针对所有非空白区段确定第一方向模糊比r1=Ss1/SB1的计算机可读程序代码;配置为针对所有空白区段确定第二方向模糊比r2=Ss2/SB2的计算机可读程序代码;配置为一旦确定r1小于预定义的区段模糊比阈值,则确定非空白区段在第一方向上是模糊的的计算机可读程序代码;以及配置为一旦确定r2小于预定义的区段模糊比阈值,则确定非空白区段在第二方向上是模糊的的计算机可读程序代码;以及配置为一旦确定以下中的一个或多个:区段在第一方向是模糊的,以及区段在第二方向上是模糊的,则确定非空白区段是模糊的的计算机可读程序代码;以及配置为确定模糊的区段的总数目的计算机可读程序代码;配置为计算图像模糊比R的计算机可读程序代码,所述R包括:模糊的区段的总数目比区段的总数目;以及配置为一旦确定图像模糊比大于预定的图像模糊阈值,则确定数字图像是模糊的的计算机可读程序代码。
[0028] 在另一实施例中,一种方法,包括:接收捕获数据的请求,所述数据包括以下中的一个或多个:数字图像,以及数字视频;以及响应于接收捕获请求,使用移动设备的捕获组件对数据进行捕获;将所捕获的数据输出到以下中的一个或多个:移动设备的显示器、移动设备的处理器以及移动设备的存储介质;接收对所捕获的数据进行分析的请求;响应于接收分析请求,使用移动设备对所捕获的数据进行分析;以及将分析的结果输出到以下中的一个或多个:移动设备的显示器、移动设备的处理器以及移动设备的存储介质。
[0029] 在另一实施例中,一种系统,包括:配置为执行逻辑的处理器;用于接收捕获数据的请求的逻辑,所述数据包括以下中的一个或多个:数字图像,以及数字视频;以及用于响应于接收捕获请求,使用移动设备的捕获组件对数据进行捕获;将所捕获的数据输出到以下中的一个或多个的逻辑:移动设备的显示器、移动设备的处理器以及移动设备的存储介质;用于接收对所捕获的数据进行分析的请求的逻辑;用于响应于接收分析请求,使用移动设备对所捕获的数据进行分析的逻辑;以及用于将分析的结果输出到以下中的一个或多个的逻辑:移动设备的显示器、移动设备的处理器以及移动设备的存储介质。
[0030] 在另一实施例中,一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码包括配置为接收捕获数据的请求的计算机可读程序代码,所述数据包括以下中的一个或多个:数字图像,以及数字视频;以及配置为响应于接收捕获请求,使用移动设备的捕获组件对数据进行捕获;将所捕获的数据输出到以下中的一个或多个的计算机可读程序代码:移动设备的显示器、移动设备的处理器以及移动设备的存储介质;配置为接收对所捕获的数据进行分析的请求的计算机可读程序代码;配置为响应于接收分析请求,使用移动设备对所捕获的数据进行分析的计算机可读程序代码;以及配置为将分析的结果输出到以下中的一个或多个的计算机可读程序代码:移动设备的显示器、移动设备的处理器,以及移动设备的存储介质。
[0031] 在另一实施例中,一种方法,包括:将案例管理界面输出到移动设备的显示器;经由所显示的案例管理界面接收与一个或多个案例动作相对应的一个或多个指令,每个案例动作与至少一个案例相关联;以及响应于接收指令实施案例动作中的一个或多个。
[0032] 在另一实施例中,一种系统,包括:配置为执行逻辑的处理器;用于将案例管理界面输出到移动设备的显示器的逻辑;用于经由所显示的案例管理界面接收与一个或多个案例动作相对应的一个或多个指令的逻辑,每个案例动作与至少一个案例相关联;以及用于响应于接收指令实施案例动作中的一个或多个的逻辑。
[0033] 在另一实施例中,一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码包括配置为将案例管理界面输出到移动设备的显示器的计算机可读程序代码;配置为经由所显示的案例管理界面接收与一个或多个案例动作相对应的一个或多个指令的计算机可读程序代码,每个案例动作与至少一个案例相关联;以及配置为响应于接收指令实施案例动作中的一个或多个的计算机可读程序代码。附图说明
[0034] 图1示出了根据一个实施例的网络架构。
[0035] 图2示出了根据一个实施例的、可以与图1的服务器和/或客户端相关联的代表性硬件环境。
[0036] 图3A是根据一个实施例的、包括文档的数字表示的数字图像的示意性表示。
[0037] 图3B是根据一个实施例的、包括文档的数字表示和多个页面检测分析窗口的数字图像的示意性表示。
[0038] 图3C是根据一个实施例的、包括通过多个候选边缘点表征的文档的数字表示的数字图像的示意性表示。
[0039] 图3D是根据一个实施例的、包括数字图像的多个像素的大分析窗口以及大分析窗口内的小分析窗口的示意性表示。
[0040] 图4是根据一个实施例的、包括以目标四边形为边界的文档的数字表示的数字图像的示意性表示。
[0041] 图5A是根据一个实施例的、页面矩形化算法的首次迭代的图形表示。
[0042] 图5B是根据一个实施例的、页面矩形化算法的输入的图形表示。
[0043] 图5C是根据一个实施例的、页面矩形化算法的输出的图形表示。
[0044] 图6是根据一个实施例的、检测和/或校正数字图像中的文档的数字表示的歪斜的一个算法方法的图形表示。
[0045] 图7A是根据一个实施例的、包括由不均匀光照表征的文档的数字表示的数字图像的图画表示。
[0046] 图7B是根据一个实施例的、在使不均匀光照规格化之后如图7A所示的数字图像的输出的图画表示。
[0047] 图8A描绘了根据一个实施例的、包括文档的数字表示的数字图像。
[0048] 图8B描绘了根据一个实施例的、在对图8A中所示的数字图像实施页面检测算法之后的数字图像,所述数字图像在其中具有文档的经检测的数字表示。
[0049] 图8C描绘根据一个实施例的、如图8B所示的文档的数字表示,数字图像的背景已被移除并且文档的数字表示的歪斜角度已被校正。
[0050] 图8D是如图8C所示的文档的数字表示,文档的数字表示已被阈值化以产生二值图像。
[0051] 图9是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的方法的流程图
[0052] 图10A是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的用户认证界面的示意性表示。
[0053] 图10B是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的主机连接用户界面的示意性表示。
[0054] 图11是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的案例创建用户界面的示意性表示。
[0055] 图12是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的案例对象管理用户界面的示意性表示。
[0056] 图13A是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的案例对象管理用户界面的示意性表示。
[0057] 图13B是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的案例对象管理动作用户界面的示意性表示。
[0058] 图13C是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的删除对象用户界面的示意性表示。
[0059] 图13D是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的编辑对象用户界面的示意性表示。
[0060] 图13E是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的编辑对象动作用户界面的示意性表示。
[0061] 图13F是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的裁剪对象用户界面的示意性表示。
[0062] 图13G是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的约束对象用户界面的示意性表示。
[0063] 图13H是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的案例类型管理用户界面的示意性表示。
[0064] 图13I是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的键入案例数据用户界面的示意性表示。
[0065] 图13J是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的捕获签名用户界面的示意性表示。
[0066] 图13K是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的提交案例用户界面的示意性表示。
[0067] 图14A是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的打印案例用户界面的示意性表示。
[0068] 图14B是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的选择打印机用户界面的示意性表示。
[0069] 图14C是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的打印细节用户界面的示意性表示。
[0070] 图14D是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的打印作业用户界面的示意性表示。
[0071] 图15A是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的图像捕获用户界面的示意性表示。
[0072] 图15B是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的图像捕获用户界面的示意性表示。
[0073] 图15C是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的图像捕获QC结果用户界面的示意性表示。
[0074] 图16A是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的捕获图像附件用户界面的示意性表示。
[0075] 图16B是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的捕获音频附件用户界面的示意性表示。
[0076] 图16C是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的捕获视频附件用户界面的示意性表示。
[0077] 图16D是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的移动扫描仪图像捕获用户界面的示意性表示。
[0078] 图17是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的设置用户界面的示意性表示。
[0079] 图18是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的通知用户界面的示意性表示。
[0080] 图19是根据一个实施例的、用于页面检测的方法的流程图。
[0081] 图20是根据一个实施例的、用于页面矩形化的方法的流程图。
[0082] 图21是根据一个实施例的、用于检测光照问题的方法的流程图。
[0083] 图22是根据一个实施例的、用于校正光照问题的方法的流程图。
[0084] 图23是根据一个实施例的、用于估计包括文档的数字表示的数字图像的分辨率的方法的流程图。
[0085] 图24是根据一个实施例的、用于检测数字图像中的模糊的方法的流程图。
[0086] 图25是根据一个实施例的、用于提供图像处理应用功能性的方法的流程图。
[0087] 图26是根据一个实施例的、用于提供案例管理应用功能性的方法的流程图。

具体实施方式

[0088] 下面的描述出于示出本发明的通用原理的目的而做出并且不旨在限制本文所主张的发明构思。进一步地,本文所描述的特定特征可以与其它所描述特征以各种可能的组合和排列的每一个结合使用。
[0089] 除非本文另外特别定义,否则所有术语将给出它们的最宽广的可能解释,包括来自说明书的隐含的意思以及本领域的技术人员所理解和/或如词典、论文等所定义的意思。
[0090] 还必须注意到,如在说明书和随附的权利要求中所使用的,除非另外指明,否则单数形式“一个”或“该”包括复数的所指对象。
[0091] 本申请涉及由摄像机、特别是移动设备的摄像机所捕获的的图像(例如,照片、图、图形示意图、电影、视频、影片、剪辑的单个等)的图像处理。如本文所理解的,移动设备是能够在不经由物理连接(例如电线、绳索、电缆等)供电的情况下接收数据、并且能够在没有物理数据连接(例如电线、绳索、电缆等)的情况下接收数据的任何设备。本公开的范围内的移动设备包括诸如移动电话、智能电话、平板电脑、个人数字助理、黑莓( )设备等的示例性设备。
[0092] 然而,如从各种功能性的描述将变得显而易见的是,可以对从扫描仪和多功能外围设备(MFP)传入的图像应用目前所公开的移动图像处理算法,有时具有某些修改。类似地,在一些方法中,可以使用常规扫描仪处理算法对使用目前所公开的处理算法所处理的图像进行进一步处理。
[0093] 当然,可以利用硬件、软件或其任何期望的组合来实现本文所阐述的各实施例。就此而言,可以利用能够实现本文所阐述的各功能性的任何类型的逻辑。
[0094] 使用移动设备的一个益处在于,利用数据计划可以以比依赖于扫描仪的存在的先前方法的方式更加方便、精益化和集成的方式进行基于所捕获的图像的图像处理和信息处理。然而,作为文档捕获和/或处理设备的移动设备的使用迄今为止出于各种原因被认为是不可行的。
[0095] 在一个方法中,可以通过移动设备的摄像机来捕获图像。术语“摄像机”应该宽广地解释为包括能够捕获设备外部的物理对象的图像的任何类型的设备,所述物理对象诸如一张纸。术语“摄像机”不包含外围扫描仪或多功能设备。可以使用任何类型的摄像机。优选实施例可以使用具有较高分辨率的摄像机,例如8MP或更多,理想地12MP或更多。可以以色彩、灰度、黑白或者利用任何其它已知的光学效果来捕获图像。如本文所提到的术语“图像”旨在包含与摄像机的输出相对应的任何类型的数据,包括原始数据、经处理的数据等。
[0096] 通用实施例
[0097] 在一个通用实施例中,一种用于处理包括文档的数字表示的数字图像的方法,包括:使用处理器定义多个候选边缘点,其中,定义每个候选边缘点包括:在数字图像内定义一个或多个大分析窗口;在数字图像内定义多个小分析窗口;针对每个大分析窗口估计统计数值的一个或多个分布;针对每个小分析窗口计算一个或多个统计数值;确定在针对小分析窗口中的每一个所计算的统计数值中的一个或多个与针对一个或多个大分析窗口所估计的统计数值的相对应分布之间是否存在统计上的显著差异;一旦确定统计上的显著差异存在,则将统计上的显著差异针对其存在的每个小分析窗口中的点指定为候选边缘点;以及,基于多个候选边缘点定义四边形的四个边;以及,将文档的数字表示和四边形输出到移动设备的显示器。
[0098] 在另一通用实施例中,一种系统,包括配置为执行逻辑的处理器;以及用于将四边形变换为矩形的逻辑,其中,四边形通过多个等式来表征,其中,每个等式与四边形的边相对应,并且其中,每个等式从所选取的一类函数中选择。
[0099] 在另一通用实施例中,一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码包括:配置为将四边形变换为矩形的计算机可读程序代码,其中,四边形通过多个等式来表征,其中,每个等式与四边形的边相对应,并且其中,每个等式从所选取的一类函数中选择。
[0100] 在另一通用实施例中,一种用于修改数字图像中的文档的数字表示的一个或多个空间特性的方法,包括将四边形变换为矩形,其中,四边形通过多个等式来表征,其中,每个等式与四边形的边相对应,并且其中,每个等式从所选取的一类函数中选择。
[0101] 在另一通用实施例中,一种系统,包括配置为执行逻辑的处理器;以及用于将四边形变换为矩形的逻辑,其中,四边形通过多个等式来表征,其中,每个等式与四边形的边相对应,并且其中,每个等式从所选取的一类函数中选择。
[0102] 在另一通用实施例中,一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码包括:配置为将四边形变换为矩形的计算机可读程序代码,其中,四边形通过多个等式来表征,其中,每个等式与四边形的边相对应,并且其中,每个等式从所选取的一类函数中选择。
[0103] 在另一通用实施例中,一种用于确定文档的数字表示中是否存在光照问题的方法,包括:使用处理器将包括数字图像内的经检测的文档的数字表示的四边形划分为多个区段,每个区段包括多个像素;确定每个区段的亮度值的分布;确定每个区段的亮度值范围;确定每个区段的亮度值的可变性;确定每个区段是否是过饱和的;确定每个区段是否是欠饱和的;确定过饱和的区段的数目;确定欠饱和的区段的数目;一旦确定过饱和的区段的数目与区段的总数目的比超过过饱和阈值,则确定数字图像是过饱和的;一旦确定欠饱和的区段的数目与区段的总数目的比超过欠饱和阈值,则确定数字图像是欠饱和的;一旦确定数字图像是欠饱和的或者是过饱和的,则确定在数字图像中存在光照问题。
[0104] 在另一通用实施例中,一种系统,包括:配置为执行逻辑的处理器;用于将包括数字图像内的经检测的文档的数字表示的四边形划分为多个区段的逻辑,每个区段包括多个像素;用于确定每个区段的亮度值的分布的逻辑;用于确定每个区段的亮度值范围的逻辑;用于确定每个区段的亮度值的可变性的逻辑;用于确定每个区段是否是过饱和的的逻辑;用于确定每个区段是否是欠饱和的的逻辑;用于确定过饱和的区段的数目的逻辑;用于确定欠饱和的区段的数目的逻辑;用于一旦确定过饱和的区段的数目与区段的总数目的比超过过饱和阈值则确定数字图像是过饱和的的逻辑;用于一旦确定欠饱和的区段的数目与区段的总数目的比超过欠饱和阈值则确定数字图像是欠饱和的的逻辑;以及用于一旦确定数字图像是欠饱和的或者是过饱和的,则确定在数字图像中存在光照问题的逻辑。
[0105] 在另一通用实施例中,一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码包括:配置为将包括数字图像内的经检测的文档的数字表示的四边形划分为多个区段的计算机可读程序代码,每个区段包括多个像素;配置为确定每个区段的亮度值的分布的计算机可读程序代码;配置为确定每个区段的亮度值范围的计算机可读程序代码;配置为确定每个区段的亮度值的可变性的计算机可读程序代码;配置为确定每个区段是否是过饱和的的计算机可读程序代码;配置为确定每个区段是否是欠饱和的的计算机可读程序代码;配置为确定过饱和的区段的数目的计算机可读程序代码;配置为确定欠饱和的区段的数目的计算机可读程序代码;配置为一旦确定过饱和的区段的数目与区段的总数目的比超过过饱和阈值则确定数字图像是过饱和的的计算机可读程序代码;配置为一旦确定欠饱和的区段的数目与区段的总数目的比超过欠饱和阈值则确定数字图像是欠饱和的的计算机可读程序代码;以及配置为一旦确定数字图像是欠饱和的或者是过饱和的,则确定在数字图像中存在光照问题的计算机可读程序代码。
[0106] 在另一通用实施例中,一种用于校正数字图像的一个或多个区中的光照的不均匀性的方法,包括:使用处理器从数字图像导出二维光照模型;以及将二维光照模型应用到数字图像中的每个像素。
[0107] 在另一通用实施例中,一种系统,包括:配置为执行逻辑的处理器;用于从数字图像导出二维光照模型的逻辑;以及用于将二维光照模型应用到数字图像中的每个像素的逻辑。
[0108] 在另一通用实施例中,一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码包括:配置为从数字图像导出二维光照模型的计算机可读程序代码;以及配置为将二维光照模型应用到数字图像中的每个像素的计算机可读程序代码。
[0109] 在另一通用实施例中,一种用于估计包括文档的数字表示的数字图像的分辨率的方法,包括:检测数字图像中的多个非背景元素的多个连接成分;基于多个连接成分来确定多个可能的字符;基于多个可能的文本字符来确定一个或多个平均字符尺寸;以及基于一个或多个平均字符尺寸来估计数字图像的分辨率。
[0110] 在另一通用实施例中,一种系统,包括配置为执行逻辑的处理器;用于检测数字图像中的多个非背景元素的连接成分的逻辑;用于基于多个连接成分来确定多个可能的字符的逻辑;用于基于多个可能的文本字符来确定一个或多个平均字符尺寸的逻辑;以及用于基于一个或多个平均字符尺寸来估计数字图像的分辨率的逻辑。
[0111] 在另一通用实施例中,一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码包括:配置为检测数字图像中的多个非背景元素的多个连接成分的计算机可读程序代码;配置为基于多个连接成分来确定多个可能的字符的计算机可读程序代码;配置为基于多个可能的文本字符来确定一个或多个平均字符尺寸的计算机可读程序代码;以及配置为基于一个或多个平均字符尺寸来估计数字图像的分辨率的计算机可读程序代码。
[0112] 在另一通用实施例中,一种方法,包括:使用处理器将包括数字图像中的文档的数字表示的四边形划分为多个区段,每个区段包括多个像素;针对每个区段:确定区段是否在第一方向上包含一个或多个锐利的像素到像素转变;针对区段(Ss1)对第一方向锐利的像素到像素转变的总数目进行计数;确定区段是否在第一方向上包含一个或多个模糊的像素到像素转变;针对区段(SB1)对第一方向模糊的像素到像素转变的总数目进行计数;确定区段是否在第二方向上包含一个或多个锐利的像素到像素转变;针对区段(Ss2)对第二方向锐利的像素到像素转变的总数目进行计数;确定区是否段在第二方向上包含一个或多个模糊的像素到像素转变;针对区段(SB2)对第二方向模糊的像素到像素转变的总数目进行计数;一旦确定:Ss1小于预定的锐利转变阈值,SB1小于预定的模糊转变阈值,Ss2小于预定的锐利转变阈值,以及SB2小于预定的模糊转变阈值,则确定区段是空白的;以及,针对所有非空白区段确定第一方向模糊比r1=Ss1/SB1;针对所有非空白区段确定第二方向模糊比r2=Ss2/SB2;一旦确定r1小于预定义的区段模糊比阈值,则确定非空白区段在第一方向上是模糊的;以及一旦确定r2小于预定义的区段模糊比阈值,则确定非空白区段在第二方向上是模糊的;以及一旦确定以下中的一个或多个:区段在第一方向上是模糊的,以及区段在第二方向上是模糊的,则确定非空白区段是模糊的;以及确定模糊的区段的总数目;计算图像模糊比R,所述R包括:模糊的区段的总数目比区段的总数目;以及一旦确定图像模糊比大于预定的图像模糊阈值,则确定数字图像是模糊的。
[0113] 在另一通用实施例中,一种系统,包括配置为执行逻辑的处理器;用于使用处理器将包括数字图像中的文档的数字表示的四边形划分为多个区段的逻辑,每个区段包括多个像素;用于确定区段是否在第一方向上包含一个或多个锐利的像素到像素转变的逻辑;用于针对区段(Ss1)对第一方向锐利的像素到像素转变的总数目进行计数的逻辑;用于确定区是否段在第一方向上包含一个或多个模糊的像素到像素转变的逻辑;用于针对(SB1)对第一方向模糊的像素到像素转变的总数目进行计数的逻辑;用于确定区段是否在第二方向上包含一个或多个锐利的像素到像素转变的逻辑;用于针对区段(Ss2)对第二方向锐利的像素到像素转变的总数目进行计数的逻辑;用于确定区段是否在第二方向上包含一个或多个模糊的像素到像素转变的逻辑;用于针对区段(SB2)对第二方向模糊的像素到像素转变的总数目进行计数的逻辑;用于一旦确定:Ss1小于预定的锐利转变阈值,SB1小于预定的模糊转变阈值,Ss2小于预定的锐利的转变阈值,并且SB2小于预定的模糊转变阈值,则确定区段是空白的的逻辑;以及用于针对所有非空白区段确定第一方向模糊比r1=Ss1/SB1的逻辑;用于针对所有非空白区段确定第二方向模糊比r2=Ss2/SB2的逻辑;用于一旦确定r1小于预定义的区段模糊比阈值,则确定非空白区段在第一方向上是模糊的的逻辑;以及用于一旦确定r2小于预定义的区段模糊比阈值,则确定非空白区段在第二方向上是模糊的的逻辑;以及用于一旦确定以下中的一个或多个:区段在第一方向上是模糊的,以及区段在第二方向上是模糊的,则确定非空白区段是模糊的的逻辑;以及用于确定模糊的区段的总数目的逻辑;用于计算图像模糊比R的逻辑,所述R包括:模糊的区段的总数目比区段的总数目;以及用于一旦确定图像模糊比大于预定的图像模糊阈值,则确定数字图像是模糊的的逻辑。
[0114] 在另一通用实施例中,一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,计算机可读程序代码包括配置为使用处理器将包括数字图像中的文档的数字表示的四边形划分为多个区段的计算机可读程序代码,每个区段包括多个像素;配置为确定区段是否在第一方向上包含一个或多个锐利的像素到像素转变的计算机可读程序代码;配置为针对区段(Ss1)对第一方向锐利的像素到像素转变的总数目进行计数的计算机可读程序代码;配置为确定区段是否在第一方向上包含一个或多个模糊的像素到像素转变的计算机可读程序代码;配置为针对区段(SB1)对第一方向模糊的像素到像素转变的总数目进行计数的计算机可读程序代码;配置为确定区段是否在第二方向上包含一个或多个锐利的像素到像素转变的计算机可读程序代码;配置为针对区段(Ss2)对第二方向锐利的像素到像素转变的总数目进行计数的计算机可读程序代码;配置为确定区段是否在第二方向上包含一个或多个模糊的像素到像素转变的计算机可读程序代码;配置为针对区段(SB2)对第二方向模糊的像素到像素转变的总数目进行计数的计算机可读程序代码;配置为一旦确定:Ss1小于预定的锐利转变阈值,SB1小于预定的模糊转变阈值,Ss2小于预定的锐利转变阈值,以及SB2小于预定的模糊转变阈值,则确定区段是空白的的计算机可读程序代码;以及配置为针对所有非空白区段确定第一方向模糊比r1=Ss1/SB1的计算机可读程序代码;配置为针对所有空白区段确定第二方向模糊比r2=Ss2/SB2的计算机可读程序代码;配置为一旦确定r1小于预定义的区段模糊比阈值,则确定非空白区段在第一方向上是模糊的的计算机可读程序代码;以及配置为一旦确定r2小于预定义的区段模糊比阈值,则确定非空白区段在第二方向上是模糊的的计算机可读程序代码;以及配置为一旦确定以下中的一个或多个:区段在第一方向是模糊的,以及区段在第二方向上是模糊的,则确定非空白区段是模糊的的计算机可读程序代码;以及配置为确定模糊的区段的总数目的计算机可读程序代码;配置为计算图像模糊比R的计算机可读程序代码,所述R包括:模糊的区段的总数目比区段的总数目;以及配置为一旦确定图像模糊比大于预定的图像模糊阈值,则确定数字图像是模糊的的计算机可读程序代码。
[0115] 在另一通用实施例中,一种方法,包括:接收捕获数据的请求,所述数据包括以下中的一个或多个:数字图像,以及数字视频;以及响应于接收捕获请求,使用移动设备的捕获组件对数据进行捕获;将所捕获的数据输出到以下中的一个或多个:移动设备的显示器、移动设备的处理器以及移动设备的存储介质;接收对所捕获的数据进行分析的请求;响应于接收分析请求,使用移动设备对所捕获的数据进行分析;以及将分析的结果输出到以下中的一个或多个:移动设备的显示器、移动设备的处理器以及移动设备的存储介质。
[0116] 在另一通用实施例中,一种系统,包括:配置为执行逻辑的处理器;用于接收捕获数据的请求的逻辑,所述数据包括以下中的一个或多个:数字图像,以及数字视频;以及用于响应于接收捕获请求,使用移动设备的捕获组件对数据进行捕获;将所捕获的数据输出到以下中的一个或多个的逻辑:移动设备的显示器、移动设备的处理器以及移动设备的存储介质;用于接收对所捕获的数据进行分析的请求的逻辑;用于响应于接收分析请求,使用移动设备对所捕获的数据进行分析的逻辑;以及用于将分析的结果输出到以下中的一个或多个的逻辑:移动设备的显示器、移动设备的处理器以及移动设备的存储介质。
[0117] 在另一通用实施例中,一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码包括配置为接收捕获数据的请求的计算机可读程序代码,所述数据包括以下中的一个或多个:数字图像,以及数字视频;以及配置为响应于接收捕获请求,使用移动设备的捕获组件对数据进行捕获;将所捕获的数据输出到以下中的一个或多个的计算机可读程序代码:移动设备的显示器、移动设备的处理器以及移动设备的存储介质;配置为接收对所捕获的数据进行分析的请求的计算机可读程序代码;配置为响应于接收分析请求,使用移动设备对所捕获的数据进行分析的计算机可读程序代码;以及配置为将分析的结果输出到以下中的一个或多个的计算机可读程序代码:移动设备的显示器、移动设备的处理器,以及移动设备的存储介质。
[0118] 在另一通用实施例中,一种方法,包括:将案例管理界面输出到移动设备的显示器;经由所显示的案例管理界面接收与一个或多个案例动作相对应的一个或多个指令,每个案例动作与至少一个案例相关联;以及响应于接收指令实施案例动作中的一个或多个。
[0119] 在另一通用实施例中,一种系统,包括:配置为执行逻辑的处理器;用于将案例管理界面输出到移动设备的显示器的逻辑;用于经由所显示的案例管理界面接收与一个或多个案例动作相对应的一个或多个指令的逻辑,每个案例动作与至少一个案例相关联;以及用于响应于接收指令实施案例动作中的一个或多个的逻辑。
[0120] 在另一通用实施例中,一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码包括配置为将案例管理界面输出到移动设备的显示器的计算机可读程序代码;配置为经由所显示的案例管理界面接收与一个或多个案例动作相对应的一个或多个指令的计算机可读程序代码,每个案例动作与至少一个案例相关联;以及配置为响应于接收指令实施案例动作中的一个或多个的计算机可读程序代码。
[0121] 一种应用,其可以安装在移动设备上,例如存储在设备的非易失性存储器中。在一个方法中,应用包括在移动设备上实施图像的处理的指令。在另一方法中,应用包括将图像发送到诸如网络服务器的远程服务器的指令。在又一方法中,应用可以包括决定是否在移动设备上实施一些或所有处理和/或将图像发送到远程站点的指令。下文更详细地呈现了可以如何处理图像的示例。
[0122] 用于校正投影和非线性光学效果的一个例示性方法是用于边缘检测的已知算法的扩展,所述算法诸如7,545,529号和6,370,277号美国专利中所描述的算法,其通过援引的方式合并入本文。这类例示性方法可以包括本文所公开的作为对已知算法的扩展的一些或所有算法特征,所述已知算法不包括本文所公开的具体功能性。
[0123] 在讨论为了处置由区域传感器(摄像机)所捕获的图像而引入的差异之前理解如何实施页面检测可能是有用的。在一个方法中,边缘检测算法从图像的边界进入图像,寻找与关于背景的性质所已知的足够不同的点。然而,即使通过同一个移动设备所捕获的的图像中的背景每一次可能是不同的,所以提供了识别图像中的文档的新技术。
[0124] 在一个实施例中,检测文档的边缘。可以使用本领域中已知的边缘检测的任何方法。例如,可以使用于2008年9月8日所提交的12/206,594号的美国专利申请中所描述的技术,并且其通过援引的方式加以合并。此外,可以使用从外到内边缘检测技术、从内到外边缘检测技术或者二者的组合。
[0125] 现在转到附图,图1示出了根据一个实施例的网络架构100。如图1所示,提供了包括第一远程网络104和第二远程网络106的多个远程网络102。网关101可以耦连在远程网络102与相邻网络108之间。在本网络架构100的环境中,网络104、106可以每个采取包括任何形式,但不限于LAN、诸如互联网的WAN、公共交换电话网络(PSTN)、内部电话网络等。
[0126] 在使用中,网关101用作从远程网络102到相邻网络108的入口点。因此,网关101可以起路由器和交换机的作用,所述路由器能够指引到达网关101的给定数据包,所述交换机针对给定包供应出入网关101的实际路径。
[0127] 进一步包括耦连到相邻网络108的至少一个数据服务器114,并且其可经由网关101从远程网络102被访问。应该注意,数据服务器114可以包括任何类型的计算设备/群件。耦连到每个数据服务器114的是多个用户设备116。这类用户设备116可以包括台式计算机、膝上型计算机、手提式计算机、移动设备、打印机或任何其它类型的逻辑。应该注意,在一个实施例中,用户设备111也可以直接耦连到任何网络。
[0128] 外围设备120或者一系列外围设备120可以耦连到网络104、106、108中的一个或多个,所述外围设备120例如传真机、打印机、联网的和/或本地的存储单元或系统等。应该注意,数据库和/或附加的组件可以被利用或集成到耦连到网络104、106、108的任何类型的网络元素中。在本描述的上下文中,网络元素可以是指网络的任何组件。
[0129] 根据一些方法,本文所描述的方法和系统可以以和/或在虚拟系统和/或仿真一个或多个其它系统的系统上实现,所述其它系统诸如仿真IBM z/OS环境的UNIX系统、事实上为MICROSOFT WINDOWS环境的主机的UNIX系统、仿真IBM z/OS环境的MICROSOFT WINDOWS系统等。在一些实施例中,可以通过VMWARE软件的使用来增强该虚拟化和/或仿真。
[0130] 在又一方法中,一个或多个网络104、106、108可以表示系统的聚类(cluster),通常被称为“”。在云计算中,诸如处理能力、外围设备、软件、数据、服务器等的共享资源以按需关系提供给云中的任何系统,从而允许访问和服务的分布遍及许多计算系统。云计算典型地涉及在云中操作的系统之间的互联网连接,但是也可以使用连接系统的其它技术。
[0131] 图2示出了根据一个实施例的、与图1的用户设备116和/或服务器114相关联的代表性硬件环境。图2示出了根据数个实施例的、具有中央处理单元(CPU)210和若干其它单元的工作站的典型硬件配置,所述中央处理单元诸如微处理器,所述其它单元经由可以是不同类型的一个或多个总线212互连,所述总线212诸如本地总线、并行总线串行总线等。
[0132] 图2示出的工作站包括随机存取存储器(RAM)214、只读存储器(ROM)216、I/O适配器218、用户接口适配器222、通信适配器234和显示适配器236。所述I/O适配器218用于将诸如磁盘存储单元220的外围设备连接到一个或多个总线212。所述用户接口适配器222用于将键盘224、鼠标226、扬声器228、麦克232和/或诸如触摸屏、数字摄像机(未示出)等的其它用户接口设备连接到一个或多个总线212。所述通信适配器234用于将工作站连接到通信网络235(例如,数据处理网络)。所述显示适配器236用于将一个或多个总线212连接到显示设备238。
[0133] 工作站可以使操作系统驻存在其上,所述操作系统诸如MICROSOFT WINDOWS操作系统(OS)、MAC OS、UNIX OS等。将理解的是,优选实施例也可以实现在除所提及的那些系统之外的平台和操作系统上。优选实施例可以使用JAVA、XML、C和/或C++语言或其它编程语言连同面向对象编程方法来书写。可以使用已日益被用来开发复杂应用的面向对象编程(OOP)。
[0134] 本文的描述被呈现为使本领域的任何技术人员能够进行和使用本发明,并且被提供在本发明的特定应用和它们的要求的环境中。对本领域的技术人员来说,对所公开的实施例的各种修改将很明显,并且本文所定义的通用原理可以应用到其它实施例和应用而不脱离本发明的精神和范围。因此,本发明不旨在限制于所示出的实施例,而是符合与本文所公开的原理和特征一致的最宽范围。
[0135] 具体来说,本文所讨论的本发明的各实施例使用互联网作为在多个计算机系统当中进行通信的工具来实现。本领域的技术人员将认识到,本发明不限于使用互联网作为通信介质,并且本发明的可替代方法可以容纳专用内部网、局域网(LAN)、广域网(WAN)或其它通信工具的使用。此外,可以利用有线、无线(例如,射频)和光学通信链路的各种组合。
[0136] 在其中可以执行本发明的一个实施例的程序环境例示性地包含一个或多个通用计算机或专用设备,如手提式计算机。这类设备(例如,处理器、存储器、数据存储、输入和输出设备)的细节是众所周知的并且出于简洁的缘故而省略。
[0137] 还应该理解,可以使用各种技术来实现本发明的技术。例如,本文所描述的方法可以在运行在计算机系统上的软件中实现,或者在利用一个或多个处理器的硬件中实现、以及在用于实施方法的操作的逻辑(硬件和/或软件)、专用集成电路、诸如现场可编程阵列(FPGA)的可编程逻辑设备和/或其各种组合中实现。在一个例示性方法中,本文所描述的方法可以通过驻留在诸如物理(非暂时性)计算机可读介质的存储介质上的一系列计算机可执行指令来实现。此外,尽管本发明的具体实施例可以采用面向对象的软件编程概念,但是本发明不限于此并且容易地适应于采用指导计算机的操作的其它形式。
[0138] 还可以以计算机程序产品的形式提供本发明,所述计算机程序产品包括其上具有计算机代码的计算机可读存储或信号介质,所述计算机代码可以由计算设备(例如,处理器)和/或系统来执行。计算机可读存储介质可以包括能够在其上存储计算机代码用于由计算设备或系统使用的任何介质,包括诸如只读和可写CD和DVD的光学介质、磁存储器或介质(例如硬盘驱动器、磁带)、半导体存储器(例如FLASH存储器和其它便携式存储器卡等)、编码在芯片中的固件等。
[0139] 计算机可读信号介质是不适合在前述存储介质类内的一种介质。例如,例示性计算机可读信号介质在系统内、例如经由物理或虚拟网络等在系统之间通信或另外转移暂时性信号。
[0140] 应该清楚,可以以任何方式结合前述方法的各特征,从上文所呈现的描述中创建多个组合。
[0141] 本领域的技术人员还应该清楚,本发明的方法可以合适地具体化在包括实施本文所呈现的方法的各步骤的逻辑的逻辑装置中,并且这类逻辑可以包括硬件组件或固件组件。
[0142] 本领域的技术人员同样应该清楚,各种方法中的逻辑布置可以合适地具体化在包括实施方法的各步骤的逻辑的逻辑装置中,并且这类逻辑可以包括诸如例如在可编程逻辑阵列中的逻辑门的组件。这类逻辑布置还可以具体化在使能工具或组件中,其用于使用例如虚拟硬件描述语言在这类阵列中暂时或永久地建立逻辑结构,所述虚拟硬件描述语言可以使用固定的或可传送的载体介质来存储。
[0143] 将领会的是,还可以完全或部分地在运行在一个或多个处理器(未示出)上的软件中合适地实行上文所描述的方法,并且软件可以提供为任何合适的数据载体(也未示出)上所承载的计算机程序元素,所述数据载体诸如磁或光学计算机盘。同样地,用于数据的传送的通道可以包括所有描述的存储介质以及信号承载介质,诸如有线或无线信号介质。
[0144] 本发明的实施例可以合适地具体化为与计算机系统一起使用的计算机程序产品。这类实现方案可以包括固定在诸如计算机可读介质的有形介质上或者可经由调制解调器或其它接口设备传送到计算机系统的一系列计算机可读指令,所述计算机可读介质例如软盘、CD-ROM、ROM或硬盘,所述传送通过有形介质或者无形地使用无线技术进行,所述有形介质包括但不限于光学或模拟通信线,所述无线技术包括但不限于微波、红外线或其它传送技术。所述一系列计算机可读指令具体化本文先前所描述的功能性的全部或一部分。
[0145] 本领域的技术人员将领会的是,这类计算机可读指令可以以若干编程语言书写用于与许多计算机架构或操作系统一起使用。进一步地,这类指令可以使用任何现在或未来的存储器技术进行存储或者使用任何现在或未来的通信技术进行传送,所述存储器技术包括但不限于半导体、磁、光学,所述通信技术包括但不限于光学、红外线或微波。将预期到,这类计算机程序产品可以分布为具有随附的打印的或电子的文档的可移动介质,例如计算机系统例如在系统ROM或固定盘上预加载的压缩打包软件,或者通过网络从服务器或电子公告板进行分布,所述网络例如互联网或万维网
[0146] 诸如输入/输出或I/O设备(包括但不限于键盘、显示器、打印设备等)的通信组件可以直接地或者通过介于中间的I/O控制器耦连到系统。
[0147] 诸如总线、接口、网络适配器等的通信组件也可以耦连到系统以使数据处理系统例如主机能够通过介于中间的专用或公用网络变得耦连到其它数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡仅是几个当前可用类型的网络适配器。
[0148] 移动图像捕获和处理算法的各实施例
[0149] 下文描述了移动图像捕获和处理算法的各实施例以及配置为促进本公开的范围内的这类算法处理的使用的数个移动应用。应该领会的是,下文每节描述可以与其它节中所公开的功能性进行任何组合而采用的功能性,包括本文所描述的任何或多达所有功能性。此外,在数个方法中,处理算法实施例的功能性以及移动应用实施例可以以任何方式跨各种计算资源和/或系统进行组合和/或分布。
[0150] 应用可以安装在移动设备上,例如存储在设备的非易失性存储器中。在一个方法中,应用包括在移动设备上实施图像的处理的指令。一旦阅读本描述,则如本领域的普通技术人员将理解的,在另一方法中,应用包括发送图像到一个或多个非移动设备的指令,所述非移动设备例如远程服务器诸如网络服务器、远程工作站、云计算环境等。在又一方法中,应用可以包括决定是否在移动设备上实施一些或所有处理和/或发送图像到远程站点的指令。下文更详细地呈现可以如何处理图像的示例。
[0151] 在一个实施例中,除处理的速度、可用存储器上的约束等之外,可以在移动设备和远程服务器上实施的处理之间可能不存在差异。此外,呈现在移动设备上的各种用户界面例如作为移动应用的一部分与呈现在与非移动设备通信的显示器上的相对应用户界面之间可能存在一些差异或没有差异。
[0152] 在其它实施例中,远程服务器可以具有较高处理能力、更多能力、更多处理算法等。在又一实施例中,除发送图像到远程服务器所要求的能力之外,移动设备可能不具有与应用相关联的图像处理能力。在又一实施例中,除从远程服务器接收经处理的图像所要求的能力之外,远程服务器可能不具有与本文所呈现的平台相关的图像处理能力。因此,图像可以部分或完全在移动设备上进行处理,和/或部分或完全在远程服务器上进行处理,和/或部分或完全在云中进行处理,和/或部分或完全在其之间的总体架构的任何部分中进行处理。此外,一些处理步骤可以在不同设备上进行重复。
[0153] 哪个设备实施处理的哪些部分可以由用户进行定义、可以进行预定、可以实时进行确定等。此外,例如一旦接收到来自用户的请求,则可以重新实施一些处理步骤。因此,原始图像数据、经部分处理的图像数据或经完全处理的图像数据可以例如使用无线数据网络从移动设备传送到远程系统。如在远程系统处所处理的图像数据可以被返回到移动设备用于输出和/或进一步处理。
[0154] 在又一方法中,可以分割图像,并且各部分的处理可以分配到各设备,例如1/2到移动设备并且1/2到远程服务器,在其之后经处理的两半进行组合。
[0155] 在一个实施例中,可以至少部分地基于移动设备上的本地处理对比与服务器的通信的相对速度来选择哪个设备实施处理。
[0156] 在一个方法中,可以存在处理函数的库,并且移动设备上的应用或远程服务器上的应用仅仅对该库进行调用,并且实质上调用的意义定义将实施什么类型的处理。然后,设备实施该处理并且输出经处理的图像,可能与一些相对应的元数据一起。
[0157] 在各实施例中,可以以任何组合实施本领域已知和/或如本文所新呈现的任何类型的图像处理。
[0158] 现在参考例示性图像处理,摄像机可被认为是捕获图像的区域传感器,其中,图像可具有任何数目的投影效果,并且有时具有非线性效果。可以处理图像以校正这类效果。此外,在处理期间可以找到图像中文档的定位和边界,例如页面周围的背景中的文件的一个或多个实际页面的边界。由于各实施例的移动性质,文件的表格可以置于任何东西上。因为扫描仪背景性质是常量并且典型地已知,而移动捕获背景可以根据文档的位置和图像背景中所捕获的的相对应的周围的纹理以及由于可变的照明条件而几乎无限地进行变化,所以与使用扫描仪处理所产生的文档的图像相比较,这使图像分析复杂。
[0159] 因此,该份文件可以在其上进行定位用于由摄像机捕获的表面的背景的非一致性呈现一个挑战,并且非线性和投影效果呈现附加的挑战。如将很快变得明显的,各实施例克服这些挑战。
[0160] 在操作的一个示例性模式中,可以例如响应于打开应用的用户请求来启动移动设备上的应用。例如,可以检测表示应用的图标的用户选择。
[0161] 在一些方法中,可以请求和/或实施用户认证。例如,可以请求和/或从用户接收用户ID和密码、或任何其它认证信息。
[0162] 在进一步的方法中,可以经由应用的图形用户界面来使能各种任务。例如,可以呈现任务的列表。在这类情况下,可以检测用户的任务之一的选择,并且可以将附加的选项呈现给用户,可以启动预定义的任务,可以启动摄像机等。
[0163] 优选地,一旦接收到某一类型的用户输入诸如检测到移动设备的屏幕上的轻击、移动设备上的按钮的压低、语音命令、手势等,则可以通过移动设备的摄像机来捕获图像。另一可能场景可以涉及例如来自视频流的顺序帧的某种程度的分析。在一些方法中,顺序帧分析之后可以是捕获单个高分辨率图像帧的开关,其可以自动触发或通过用户触发。此外,触发可以基于从一个或多个移动设备传感器所接收的信息。例如,在一个实施例中,移动设备中的加速计或耦连到移动设备的加速计可以指示摄像机的稳定性,并且应用可以分析用于文档的一个或多个低分辨率视频帧。如果检测到文档,那么应用可以实施聚焦操作并且获取所检测的文档的高分辨率图像。可以进一步处理低分辨率图像或者高分辨率图像,但是优选实施例利用高分辨率图像用于后续处理。在更多方法中,切换到如上文所讨论的单个帧模式可能是不必要的,尤其针对诸如商业名片或收据的较小文档。为了增加处理速率和减少处理资源的消耗,文件类型识别可以促进确定是否切换到单个帧模式和/或捕获高分辨率图像用于处理。对于本讨论而言,假定捕获了一个或多个文档的图像。
[0164] 考虑到移动设备典型地不具有常规非移动设备的处理能力,一个方法在移动设备上实施一些有限的处理,例如以使用户核实已经正确地找到页面、图像不是模糊的和/或照明是充足的,例如各种各样的预览。
[0165] 在一个方法中,可以找到由摄像机所捕获的的图像内的文档。
[0166] 本文也呈现了检测文档的一个或多个边界的附加的方法。如果图像中的文档具有非线性或者不是矩形的,那么可以应用校正处理。
[0167] 一旦在图像中找到页面,则一个实施例实施平滑变换以使页面为矩形的,当然,假定初始该份文件是矩形的。对图像的另一有用校正可以是减轻光照的不均匀性。
[0168] 在一个示例性方法中,可以大致如下文所描述地实施页面检测和矩形化。
[0169] 移动页面检测的各实施例
[0170] 现在将参考图3A-4描述示出用于实施页面检测的示例性方法的一个示例性实施例。参考这些描述,应该更加清楚,针对如本文所描述的移动处理算法所实现的优势如何处置由区域传感器(摄像机)所捕获的的图像以及补偿由此所呈现的固有困难。
[0171] 在一个方法中,并且特定参考图3A-3B,边缘检测算法从数字图像300的边界向图像300的中央区行进,寻找与关于背景的性质所已知的足够不同的点。
[0172] 明显地,即使通过同一移动设备所捕获的图像中的背景304每一次可能是不同的,所以提供了识别图像中的文档的新技术。
[0173] 例如与扫描仪相反,根据本公开找到摄像机捕获的图像内的页面边缘有助于容纳使用移动设备所捕获的图像的性质中的重要差异。例如,由于投影效果,所以相片中的矩形文档的图像可能不显现为真正矩形的,并且图像中的文档的对立边可能不具有相同长度。第二,即使最佳的镜头也具有一些非线性,导致对象内的直线例如大致矩形的文档的直边在该对象的经捕获的图像中显现为稍微弯曲。第三,使用摄像机所捕获的图像不可抵抗地往往在经捕获的图像内引入不均匀光照效果。该光照的不均匀性甚至使文档可以靠其放置的表面的完美一致的背景在图像中显现出具有变化的亮度且经常具有阴影,特别在页面边缘周围,如果页面不是完美地平坦的话。
[0174] 在示例性方法中,为了避免误解用于页面边缘的背景内的可变性,当前算法利用下面的功能性中的一个或多个。
[0175] 在各实施例中,图像的帧包含文档302的数字表示以及周围的背景304的裕度(margin)。在优选实现方案中,可以对从外向内分析图像的行和列的跨步(step-over)方法实施用于单独页面边缘306的搜索。在一个实施例中,跨步方法可以在数字图像300内定义多个分析窗口308,诸如图3A-3B所示。如本文所理解的,分析窗口308可以包括一个或多个“背景窗口”以及一个或多个“测试窗口”,所述“背景窗口”即仅包含描绘数字图像300的背景304的像素的窗口,所述“测试窗口”即包含描绘数字图像300的背景304的像素、文档302的数字表示或二者的窗口。
[0176] 在优选实施例中,可以通过在与文档在其上放置的表面的背景304相对应的图像的裕度中定义第一分析窗口308来在数字图像中检测文档的数字表示,所述第一分析窗口308即背景分析窗口。在第一分析窗口308内,多个小分析窗口(例如,如图3D示出的测试窗口312)可以在第一分析窗口308内进行定义。利用多个测试窗口312,可以估计描述背景304的一个或多个统计性质的一个或多个分布。
[0177] 继续参考上文所紧接讨论的优选的实施例,检测文档的数字表示的边界的下一步可以包括在数字图像内定义多个测试窗口312以及分析数字图像的相对应区。针对每个测试窗口312,可以计算描述图像的相对应区的一个或多个统计值。进一步地,可以将这些统计值与描述背景304的统计数值的相对应分布进行比较。
[0178] 在优选方法中,可以沿路径,特别是线性路径定义多个测试窗口312。在特定优选方法中,可以在水平方向和/或垂直方向上例如沿数字图像的行和列来定义多个测试窗口312。此外,可以采用逐步前进(stepwise progression)来沿路径和/或在行和/或列之间定义测试窗口312。在一些实施例中,一旦阅读本描述,则如本领域的普通技术人员将领会的,利用逐步前进可以有利地增加文档检测过程的计算效率。
[0179] 此外,在一些实施例中,可以基于图像的分辨率或像素大小来估计起始步骤的量级,但是如果对于文档边的可靠检测是有利的,则可以缩减该步骤,如下文进一步讨论的。
[0180] 在更多实施例中,算法估计在大分析窗口308中找到的描述图像性质的数个统计数值的分布,所述大分析窗口308放置在文档周围的背景内。在一个方法中,可以在大分析窗口308内定义多个小窗口312,并且可以估计描述小测试窗口312的统计数值的分布。在一个实施例中,在数字图像的背景区中定义大分析窗口308,所述背景区诸如图像的左上角。
[0181] 一旦阅读本描述,则如本领域的普通技术人员将理解的,描述背景像素的统计数值可以包括可从数字图像数据生成的任何统计值,诸如最小值、最大值、中间值、平均值、值的扩展或范围、方差、标准差等。一旦阅读本描述,则如本领域的普通技术人员将理解的,可以从描述数字图像300的任何数据对值进行采样,所述数据诸如一个或多个色彩通道中的亮度值,例如红绿蓝或RGB、青洋红色、黄色、黑色或CMYK、色调饱和度或HSV等。
[0182] 如图3D所示,小分析窗口312中的每一个可以包括大分析窗口308内的多个像素的子集。此外,小分析窗口312可以具有能够适合在大分析窗口308的边界内的任何大小和/或形状。在优选实施例中,小分析窗口312可以通过矩形形状来表征,并且甚至更优选地是由第一方向上(例如高)三个像素长和第二方向上(例如宽)七个像素长所表征的矩形。当然,其它小分析窗口大小、形状和尺寸也合适于目前所公开的处理算法中的实现方案。
[0183] 在一个实施例中,可以采用测试窗口来分析图像并且检测图像中所描绘的文档的数字表示的边界。背景窗口被用于背景的初始统计性质的估计和/或背景的局部统计性质的重新估计。重新估计可能是必要的和/或有利的,以解决诸如不均匀光照和/或背景纹理变化的伪影。
[0184] 优选地,在一些方法中,可以对文档页面之外的裕度内的大分析窗口308中的多个小分析窗口312中的一些或全部实施统计估计。可以使用大分析窗口308内的小分析窗口312的逐步移动来实施这类估计,并且所述逐步移动可以以任何合适的增量进行以便使针对给定像素取得的样值的数目变化。例如,为了提升计算效率,分析过程可以定义大分析窗口308内的小分析窗口312的数目,所述数目足以确保每个像素318被采样一次。因此,在该计算上高效的方法中所定义的多个小分析窗口312将共享公共边界,但不重叠。
[0185] 在设计为提升统计估计的健壮性的另一方法中,例如通过缩减在被顺序定义的小分析窗口312之间的给定方向上仅产生单个像素移位的步骤,分析过程可以定义大分析窗口308内的小分析窗口312的数目,所述数目足以确保每个像素318被采样最大次数。当然,一旦阅读本描述,则如本领域的普通技术人员将理解的,可以在目前所公开的处理算法的各实施例中采用任何步骤增量。
[0186] 本领域的技术人员将领会的是,重新估计数字图像中的局部背景的统计数值所利用的大分析窗口308以及测试窗口可以以任何期望的方式放置在数字图像中。
[0187] 例如,根据图3A示出的一个实施例,用于给定行i中的左侧边缘的搜索从大分析窗口308中的上文所提到的统计数值的计算开始,所述大分析窗口308与集中在给定行i周围的图像的左侧的帧边界相邻。
[0188] 在更多实施例中,随着算法从图像的外区向其内区前进,当遇到可能的非背景测试窗口(例如,针对其所估计的统计数值与最后已知的局部背景的统计数值特性的分布不相似的测试窗口)时,算法可以回溯到先前所确定的背景区中,形成新大分析窗口308并且在一些实施例中,重新估计背景统计数值的分布以重新评估小分析窗口312内的所选取统计数值与大分析窗口308内的相对应统计数值的局部分布之间的差异的有效性。
[0189] 一旦阅读本描述,则如本领域的普通技术人员将理解的,算法可以以各种方式从图像300的外区行进到图像300的内区。例如,在一个方法中,算法行进,以大致螺旋图样定义测试窗口312。在其它方法中,图样可以是大致沿垂直或者水平方向曲折行进。在更多方法中,图样可以大致是木瓦状图样。一旦阅读本描述,则如本领域的普通技术人员将理解的,图样还可以通过置于数字图像300的一部分或全部之上的“序列掩码”来定义,诸如棋盘格图样、垂直、水平或对角条纹的图样、同心形状等。一旦阅读本描述,则如本领域的普通技术人员将理解的,在其它实施例中,诸如大分析窗口308和/或小分析窗口312的分析窗口可以根据一些所定义过程以随机方式、伪随机方式、随机等贯穿数字图像300来定义。只要路径允许回溯到已知背景,并且路径利用期望的颗粒度覆盖整个图像,算法就可以以任何期望的方式继续行进测试窗口的序列。
[0190] 有利地,以该方式重新计算统计数值有助于容纳数字图像300和/或背景304固有的任何光照漂移,其否则可能导致图像中的非背景点(例如,如图3C示出的离群值候选边缘点316)的错误识别。
[0191] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在更多实施例中,当差异在统计上有效时,算法可以沿其路径更远地跳跃某个距离以再次检查并且因此绕开背景304的纹理中的小变化,诸如木纹、表面上的刮痕、表面的图样、小阴影等。
[0192] 在附加的和/或可替代实施例中,在已经找到潜在非背景点之后,算法确定点是否位于阴影的边缘上(特别是如果页面的边缘高于背景表面的可能性)并且试图到达实际页面边缘。该过程依赖于阴影通常在图像突然变亮之前向真实边缘变暗的观测。
[0193] 因为标准边缘检测器的使用出于数个原因可能是不必要的并且甚至不期望的,所以利用上文所描述的页面边缘检测的方法。第一,大多数标准边缘检测器涉及消耗时间的操作,以及第二,本算法不关心像监视边缘多薄、其跟随哪些方向等的附加的要求。更加重要的是,寻找页面边缘306不必涉及边缘检测本身,即根据本公开的页面边缘检测可以以这样的方式来实施:不搜索文档边界(例如页面边缘306),而是搜索与从背景到文档的转变相关联的图像特性。例如,转变可以通过光面纸内的灰白色亮度等级的变平即通过纹理的改变而不是平均灰度或色彩等级的改变来表征。
[0194] 因此,获得实质上是网格上的每个行和列中的第一和最后的非背景像素的候选边缘点(例如,如图3C示出的候选边缘点314)是可能的。为了消除随机离群值(例如,如图3C示出的离群值候选边缘点316)以及确定哪些候选边缘点314与页面的每个边相对应,在一个方法中,分析邻近的候选边缘点是有用的。
[0195] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在一个实施例中,“点”可被认为数字图像内的任何区,诸如像素、像素与像素的小窗口之间的定位(例如具有诸如2像素乘2像素正方形的中心的分数坐标的点)等。在优选实施例中,候选边缘点与已被找到以通过被确定与描述局部背景的统计数值的分布不同的统计数值来表征的测试窗口(例如3像素×7像素窗口)的中心相关联。
[0196] 如本文所理解的,一旦阅读本描述,则如本领域普通技术人员将理解的,“邻近”候选边缘点或“邻近”像素分别被认为是靠近感兴趣的点或像素或与感兴趣的点或像素相邻(例如像素318)的点或像素,例如至少部分地沿感兴趣的点或像素的边界定位的点或像素、在感兴趣的点或像素的阈值距离内(诸如感兴趣的点或像素的一行内、感兴趣的点或像素的一列内、给定方向上的2、10、64个像素等内)定位的点或像素等。在优选方法中,“邻近”点或像素可以是沿特定方向例如水平方向和/或垂直方向离感兴趣的点最近的候选边缘点。
[0197] 每个“良好”边缘点理想地具有至少两个直接邻居(每侧一个)并且与连接这些邻居和“良好”边缘点的直线段偏离不远,例如候选边缘点和至少两个直接邻近的点可能适2
合于线性回归,并且结果可通过不小于0.95的确定系数(R)来表征。相对于数字图像的一个或多个边界的该段的角度与其相对位置一起确定边缘点是否被分配到页面的顶边、左边、右边或底边。在优选实施例中,候选边缘点和两个邻近边缘点可以被分配到三角形的各个角。如果候选边缘点处三角形的角度接近180度,那么候选边缘点可被认为是“良好”候选边缘点。如果候选边缘点处的三角形的角度偏离远离180度超过阈值(诸如20度或更多),那么可以从“良好”候选边缘点的集合排除该候选边缘点。该启发式背后的基本原理是基于在确定行和列内的第一和最后的非背景像素时扔掉随机误差的期望。这些像素不可能在一致线中存在,因此在一些方法中依据距离和方向检查邻居是特别有利的。
[0198] 为了速度,该网格的步骤可以从大数目诸如32起始,但是它可以除以2并且重复搜索边缘点直到存在足够的它们来确定页面边的基于最小均方(LMS)的等式(参见下文)。如果甚至在使用图像中的所有行和列之后该过程不能可靠地确定边,那么它放弃,并且整个图像被视为页面。
[0199] 在一个实施例中,页面边的等式确定如下。第一,算法使用扔掉最差离群值直到所有剩余的支持边缘位于离LMS线的小距离内的策略使最佳LMS直线适合于每个边。例如,具有离沿文档的特定边界连接多个候选边缘点的大致直线最大距离的点可以被指定为“最差”离群值。可以迭代地重复该过程以从多个候选边缘点中指定和/或移除一个或多个“最差”离群值。在一些方法中,候选边缘点可以与连接多个候选边缘点的线偏离的距离至少部分地基于数字图像的大小和/或分辨率。
[0200] 如果该线在其伸展未被一直得以良好支持,那么算法可能尝试使最佳二次多项式(抛物线)适合于相同的初始候选点。找到最佳抛物线对比最佳直线之间的算法差异是较小的:取代确定线的方向和偏移的两个未知系数,存在确定抛物线的曲率、方向和偏移的三个系数;然而,在一个实施例中,在其它方面过程实质上是相同的。
[0201] 如果抛物线的支持比直线的支持更强,特别离候选边缘跨度的末端更近,那么结论是,算法应该偏好抛物线作为图像中的页面边的较好模型。否则,在各种方法中,采用线性模型。
[0202] 可以计算文档的四个所找到的边的交点以找到(可能稍弯曲的)页面四边形(例如,如图4示出并且下文进一步详细讨论的四边形400)的角。在优选实现方案中,为了做到这一点,考虑以下三种情况是有必要的:计算两个直线的交点、计算直线和抛物线的交点以及计算两个抛物线的交点。
[0203] 在第一种情况中,存在单个解(因为顶和底页面边缘306主要水平伸展,而左和右页面边缘306主要垂直伸展,所以相对应的LMS线不能是平行的)并且该解确定相对应的页面角的坐标。
[0204] 计算直线和抛物线的交点的第二种情况是稍更复杂的:可以存在产生的二次等式的0、1或2个解。如果不存在交点,那么它可指示页面检测的致命问题,并且其结果可以被丢弃。单个解某种程度上是不可能的,但不呈现进一步的问题。两个交点呈现选择,在该情况中离帧的相对应角更近的交点是较好候选—实际上,等式的其它解可能离图像帧的坐标范围非常远。
[0205] 计算两个抛物线的交点的第三种情况导致(原则上)可以分析求解的四次多项式等式。然而,实际上取得解所必要的计算的数目可能大于还保证所期望子像素精度的近似迭代算法中的计算的数目。
[0206] 根据一个方法,下文参考文档302的数字表示的矩形化详细描述了被用于该目的的一个示例性过程。
[0207] 存在关于产生的目标四边形(例如,如下文关于图4所进一步详细讨论的四边形400)的有效性的数个约束。即,四边形优选地不太小(例如,在任何所期望值的预定义的阈值以下,诸如图像的总区域的25%),四边形的角优选地不位于图像的帧之外太远(例如,离不超过100个像素),并且角自身应该优选地可解释为具有在四边形内相交的对角线的左上、右上、左下和右下等。在一些实施例中,如果这些约束未被满足,那么可以丢弃给定的页面检测结果。
[0208] 在其中文档302的数字表示的所检测的四边形为有效的一个例示性实施例中,算法可以确定目标矩形。目标矩形宽和高可以分别设置为四边形的顶边和底边的平均值以及左边和右边的平均值。
[0209] 在一个实施例中,如果实施歪斜校正,那么目标矩形的歪斜的角度可以设置为0,以便页面边将变得水平和垂直。否则,歪斜角度可以设置为对水平轴的顶边和底边的角度与对垂直轴的左边和右边的角度的平均值。
[0210] 以类似的方式,如果不实施裁剪校正,那么可以指定目标矩形的中心以便匹配四边形的四个角的坐标的平均值;否则,在附加的实施例中,可以计算中心使得目标矩形以图像帧的左上结束。
[0211] 在一些方法中,如果页面检测结果出于任何原因而被丢弃,那么可以以较小步骤增量来重复本文所描述的过程的一些或所有步骤,以获得更多候选边缘点以及有利地达到更似合理的结果。在即使利用最小允许的步骤问题仍存留的最差情况的场景中,所检测的页面可被设置为整个图像帧,并且初始图像可以原封不动。
[0212] 现在特定参考本文所描述的创造性页面检测实施例的示例性实现方案,在一种方法中,页面检测包括实施诸如图19示出的方法1900。一旦阅读本描述,则如本领域的普通技术人员将理解的,可以在包括本文所描述并且本公开提供的任何附图中表示的那些环境的任何环境中实施方法1900。
[0213] 在一个实施例中,方法1900包括操作1902,此处定义与从数字图像背景到文档的数字表示的转变相对应的多个候选边缘点。
[0214] 在各实施例中,在操作1902中定义多个候选边缘点可以包括一个或多个附加的操作,诸如下文所描述的操作1904-1920。
[0215] 在操作1904中,根据一个实施例,在数字图像300内定义大分析窗口(例如图3A-3B和3D示出的大分析窗口308)。优选地,在描绘数字图像背景304的多个像素但不描绘非背景(例如文档302的数字表示)的区域中定义第一大分析窗口,以获得数字图像背景304的信息特性用于与非背景的信息特性(例如文档302的数字表示,诸如下文参考
1910更详细讨论的背景统计数值)比较和对比。例如,可以在数字图像300的角(诸如左上角)中定义第一大分析窗口308。当然,可以在数字图像300的任何部分中定义第一大分析窗口而不脱离本公开的范围。
[0216] 此外,一旦阅读本描述,则如本领域的普通技术人员将理解的,大分析窗口308可以是任何大小和/或通过任何合适的尺寸来表征,但是在优选实施例中,大分析窗口308近似是四十个像素高并且近似四十个像素宽。
[0217] 在特定优选方法中,可以在数字图像的角区域中定义大分析窗口308。例如,参考图3A,示出了数字图像300,数字图像300包括具有多个边306和背景304的文档302的数字表示。如上文参考操作1904所描述的,可以在包括多个背景像素并且不包括与文档302的数字表示相对应的像素的区域中定义大分析窗口308。此外,在一些方法中,可以在数字图像300的角中定义大分析窗口308。
[0218] 在操作1906中,根据一个实施例,可以在数字图像300内、诸如在大分析窗口308内定义多个小分析窗口312。小分析窗口312可以至少部分地与一个或多个其它小分析窗口312重叠,诸如以通过包括如图3D示出的一个或多个重叠区域320来表征。在优选方法中,可以在大分析窗口308内定义所有可能的小分析窗口312。当然,可以在诸如图3B示出的数字图像的任何部分内定义小分析窗口,并且优选地,可以定义小分析窗口使得每个小分析窗口通过单个中心像素来表征。
[0219] 在操作1908中,根据一个实施例,针对一个或多个小分析窗口312(例如大分析窗口308内的一个或多个小分析窗口312)计算一个或多个统计数值,并且估计相对应的统计数值的一个或多个分布(例如跨多个小分析窗口312所估计的统计数值的分布)。在另一实施例中,可以跨一个或多个大分析窗口308来估计统计数值的分布并且可选地对其进行合并。
[0220] 此外,一旦阅读本描述,则如本领域的普通技术人员将理解的,值可以描述与数字图像的背景相关联的任何特征,诸如背景亮度值、背景色彩通道值、背景纹理值、背景色调值、背景对比度值、背景锐利值等。此外,统计数值还可以包括描绘数字图像背景304的多个像素的一个或多个色彩通道中的亮度值的最小值、最大值和/或范围,所述数字图像背景304在大分析窗口308内的多个小窗口312之上。
[0221] 在操作1910中,根据一个实施例,估计背景统计数值的一个或多个分布。通过估计统计数值的分布,人们可以获得例如在大分析窗口308内表征数字图像300的背景304的性质的一个或多个描述性分布。
[0222] 一旦阅读本描述,则如本领域的普通技术人员将理解的,分布优选地与针对每个小分析窗口所计算的背景统计数值相对应,并且可以包括例如亮度极小值的分布、亮度极大值的分布等,从其中,人们可以获得分布统计描述符诸如最小亮度值的最小值和/或最大值、最小亮度值的最小值和/或最大值、亮度值的最小和/或最大扩展、最小色彩通道值的最小值和/或最大值、最大色彩通道值的最小值和/或最大值、色彩通道值的最小和/或最大扩展等。当然,可以将任何经计算的背景统计数值(例如针对亮度值、色彩通道值、对比度值、纹理值、色调值、锐利值等)组装到分布中并且可以采用描述分布的任何值而不脱离本公开的范围。
[0223] 在操作1912中,根据一个实施例,在数字图像300内定义诸如如图3A-3B示出的分析窗口308的大分析窗口。
[0224] 此外,可以通过正面地将窗口的边界设置为数字图像300的一部分来定义窗口形状,可以通过反面地例如通过对数字图像300应用屏蔽并且将未屏蔽的数字图像300的区域定义为分析窗口来定义窗口形状。此外,还可以根据图样来定义窗口,尤其在其中通过对数字图像300应用屏蔽来反面地定义窗口的实施例中。当然,可以采用用于定义窗口的其它方式而不脱离本公开的范围。
[0225] 在操作1914中,根据一个实施例,针对分析窗口312计算一个或多个统计数值。此外,在优选实施例中,每个分析窗口统计数值与操作1910中针对大分析窗口308所估计的背景统计数值的分布相对应。例如,一旦阅读本描述,则如本领域的普通技术人员将理解的,在一个实施例中,最大值亮度与背景亮度极大值的分布相对应,最小值亮度与背景亮度极小值的分布相对应,亮度扩展与背景亮度扩展的分布相对应等。
[0226] 在操作1916中,根据一个实施例,确定至少一个分析窗口统计数值与背景统计数值的相对应分布之间是否存在统计上的显著差异。一旦阅读本描述,则如本领域的普通技术人员将领会的,确定统计上的显著差异是否存在可以使用任何已知的统计显著性评估方法或度量来实施,诸如p值、z测试、卡方相关性等,如技术人员阅读本描述将领会的。
[0227] 在操作1918中,根据一个实施例,将分析窗口中的一个或多个点(例如最中心的像素318或点)指定为候选边缘点,对于所述分析窗口,在描述318的值与背景统计数值的相对应分布之间存在统计上的显著差异。可以使用本领域已知的任何合适的方法来达成指定,诸如设置与像素相对应的标志、存储像素的坐标、制定像素坐标的阵列、更改描述像素318的一个或多个值(诸如亮度、色度、对比度等)或任何其它合适的手段。
[0228] 在操作1920中,根据一个实施例,操作1912-1918中的一个或多个可以重复一次或多次。在优选实施例中,可以实施多个这类重复,其中,每个重复实施在数字图像的不同部分上。优选地,可以实施重复直到已经评估文档的数字表示的每个边。一旦阅读本描述,则如本领域的普通技术人员将理解的,在各种方法中,定义分析窗口308、312可能导致共享一个或多个边界的多个分析窗口308、312、全部或部分重叠的多个分析窗口308、312和/或不共享任何公共边界并且不重叠的分析窗口308、312等。
[0229] 在特定优选实施例中,可以以一旦检测到潜在非背景窗口(例如包含候选边缘点的窗口或包含诸如不均匀光照、背景纹理变化等伪影的窗口)则重新估计局部背景统计数值的方式来实施多个重复。
[0230] 在操作1922中,根据一个实施例,基于多个候选边缘点来定义四边形400的四个边。优选地,四边形400的边包含数字图像300中文档302的数字表示的边缘306。在一些方法中,定义四边形400的边可以包括实施一个或多个最小均方(LMS)逼近。
[0231] 在更多方法中,定义四边形400的边可以包括识别一个或多个离群值候选边缘点并且将一个或多个离群值候选边缘点从多个候选边缘点中移除。进一步地,定义四边形400的边可以包括实施排除一个或多个离群值候选边缘点的至少一个附加的LMS逼近。
[0232] 更进一步地,在一个实施例中,四边形400的每个边通过从一类函数选取的等式来表征,并且实施至少一个LMS逼近包括确定用于每个等式的一个或多个系数,诸如优选实现方案中的二次多项式的最佳系数。根据这些方法,定义四边形400的边可以包括确定文档的数字表示的每个边是否落在给定类的函数内,诸如二次多项式或更简单的函数诸如替代二次多项式的线性函数。
[0233] 在优选方法中,实施方法1900可以准确地定义围绕文档的四个主导边的四边形,同时忽略与文档的主导边的一个或多个偏差,诸如如图3A-3C和4所描绘的裂口310和/或标签320。
[0234] 目前所公开的四边形400的附加和/或可替代实施例可以通过具有四个边来表征,并且每个边通过诸如上文所讨论的多项式函数的一个或多个等式来表征。例如,其中四边形400的边通过多于一个等式来表征的实施例可以涉及将一个或多个边分成多个段,每个段通过诸如上文所讨论的多项式函数来表征。
[0235] 在各实施例中,定义四边形400可以可替代地和/或附加地包括定义四边形400的一个或多个角。例如,可以通过计算四边形400的相邻边之间的一个或多个交点、并且在计算出多个交点的情况下从一个或多个所计算的交点中指定适当的交点来定义四边形400的角。一旦阅读本描述,则如本领域的普通技术人员将理解的,在更多实施例中,定义角可以包括解一个或多个等式,其中每个等式通过属于所选取类的函数诸如N次多项式等来表征。
[0236] 在各实施例中,四边形400的角可以通过以下中的一个或多个来定义:四边形400的两个弯曲相邻边的交点;两个大致直线的交点;一个大致直线和一个大致曲线的交点。
[0237] 在操作1924中,根据一个实施例,将文档302的数字表示和四边形400输出到移动设备的显示器。输出可以以任何方式来实施并且可以取决于移动设备硬件和/或软件的配置。
[0238] 此外,可以以各种方法来实施输出以便促进进一步处理和/或与输出的用户交互。例如,一旦阅读本描述,则如本领域的普通技术人员将理解的,在一个实施例中,可以以设计为将四边形400与数字图像300的其它特征进行区分的方式来显示四边形400,例如通过将四边形400边以特定色彩、图样、光照图式显示或显示为动画等。
[0239] 更进一步地,在一些实施例中,输出四边形400和文档302的数字表示可以促进用户以任何合适的方式手动调节和/或定义四边形400。例如,用户可以与移动设备的显示器交互以平移四边形400,即在一个或多个方向上移动四边形400的位置,同时维持四边形400的长宽比、形状、边缘长度、面积等。附加地和/或可替代地,用户可以与移动设备的显示器交互以手动定义或调节四边形400角的位置,例如在四边形400角上轻击并且将角拖曳到数字图像300内的期望的位置,诸如文档302的数字表示的角。
[0240] 再参考图4,描绘了页面检测的理想结果的一个特定示例,示出了数字图像300内的文档302的数字表示,并且具有包含文档302的数字表示的边缘的四边形400。
[0241] 在一些方法中,诸如上文参考图19和方法1900所描述的页面检测可以包括一个或多个附加和/或可替代操作,诸如下文将描述的。
[0242] 在一个方法中,方法1900可以进一步包括捕获包含文档的数字表示的图像数据和与文档的数字表示相关的音频数据中的一个或多个。一旦阅读本描述,则如本领域的普通技术人员将理解的,可以使用耦连到移动设备的一个或多个捕获组件诸如麦克风、摄像机、加速计、传感器等来实施捕获。
[0243] 在另一方法中,方法1900可以包括一旦确定统计上的显著差异存在,则定义新大分析窗口309并且针对新大分析窗口309重新估计背景统计数值的分布,即实质上在靠近潜在非背景点已被识别的点、诸如靠近文档的边缘306之一的数字图像300的不同区域中重复操作1908和/或1910。
[0244] 在数个示例性实施例中,可以将大分析窗口308定位在行中的最左非背景像素附近或最左非背景像素处,或者定位在行中的最右非背景像素附近或最右非背景像素处,定位在列中的最顶非背景像素附近或最顶非背景像素处,或者定位在列中的最底非背景像素附近或最底非背景像素处。
[0245] 涉及这类重新估计的方法可以进一步包括确定至少一个小分析窗口(例如测试窗口)统计数值与大分析窗口统计数值的相对应的经重新估计的分布之间是否存在统计上的显著差异。以该方式,获得统计上的显著差异是否存在的较高置信度的确定并且因此更好地区分与例如纹理的变化、光照异常和/或数字图像内的其它伪影相反的、从数字图像背景到文档的数字表示的真正转变是可能的。
[0246] 此外,实施或者不实施上文所描述的重新估计可以促进方法1900避免一个或多个伪影诸如数字图像中的光照和/或背景纹理的变化等,伪影不与从数字图像背景到文档的数字表示的真正转变相对应。在一些方法中,避免伪影可以采取绕开数字图像的一个或多个区域(例如通过将区域与真正背景进行区分的纹理、变化等表征的区域)的形式。
[0247] 在一些方法中,一旦确定针对大分析窗口308估计的统计分布与针对小分析窗口312计算的相对应统计数值之间存在统计上的显著差异、在小分析窗口附近定义新大分析窗口、针对新大分析窗口重新估计统计数值的分布、并且确定经重新估计的统计分布与针对小分析窗口312计算的相对应统计数值之间不存在统计上的显著差异,则可以绕开一个或多个区域。
[0248] 在其它方法中,可以通过以下方式来达成绕开:检查沿路径更远一些的另一分析窗口312,以及一旦确定该经检查的窗口的统计数值与背景的已知统计性质没有显著不同则继续对到非背景的转变进行搜索,所述背景的已知统计性质例如如统计显著性的测试所指示的。
[0249] 一旦阅读本公开,则如技术人员将领会的,可以通过检查沿路径更远一些的另一分析窗口来达成绕开。
[0250] 在更进一步的方法中,页面检测可以附加地和/或可替代地包括确定四边形400是否满足一个或多个质量控制度量;并且一旦确定四边形400不满足质量控制度量中的一个或多个,则丢弃四边形400。此外,质量控制度量可以包括诸如LMS支持度量、最小四边形400面积度量、四边形400角位置度量和四边形400对角线交点位置度量的量度。
[0251] 实际上,确定四边形400是否满足这些度量中的一个或多个起到对方法1900的性能的检查的作用。例如,检查可以包括确定四边形400是否至少覆盖总体数字图像面积的阈值,例如四边形400是否包括总图像面积的至少25%。此外,检查可以包括确定四边形400对角线是否在四边形400内相交,确定LMS逼近的一个或多个是否从足够数据计算以具有从其导出的统计数值的健壮性置信度,即LMS逼近是否具有足够的“支持”(诸如在各种方法中,从至少五个数据点或至少数据点的总数目的四分之一计算的逼近),和/或确定(如由表征四边形400的每个各自边的等式所定义的)四边形400角位置是否存在于数字图像的边缘的阈值距离内,例如四边形400角是否位于在给定方向上离数字图像的边缘超过100像素处。当然,一旦阅读本描述,则如本领域的普通技术人员将领会的,可以采用其它质量度量和/或检查而不脱离这些公开的范围。
[0252] 在一个方法中,质量度量和/或检查可以促进丢弃次优四边形400定义,并且进一步促进改进四边形400边的定义。例如,一个方法涉及接收基于未能定义有效四边形400即未能满足质量控制度量中的一个或多个的多个候选边缘点定义四边形400的四个边的指示;以及重新定义多个候选边缘点。显著地,在该实施例中,重新定义多个候选边缘点包括在数字图像内采样比先前失败的尝试所采样的点的数目更大数目的点。在一个方法中,这可以通过缩减数字图像的行或列中的一个或多个之上的步骤并且重复算法的所有步骤来达成,以分析更大数目的候选边缘点。可以在垂直方向、水平方向或二者上缩减步骤。当然,可以利用重新定义候选边缘点和/或对数字图像内的点进行重新采样的其它方法而不脱离本公开的范围。
[0253] 更进一步地,页面检测可以包括将整个数字图像指定为文档的数字表示,尤其在即使数字图像分析中相继利用显著缩减的步骤但是方法1900的多个重复也未能定义有效四边形400的情况下。一旦阅读本描述,则如本领域的普通技术人员将理解的,在一个方法中,将整个数字图像指定为文档的数字表示可以包括将图像角定义为文档角、将图像边定义为文档边等。
[0254] 如本文所描述的,四边形400的对角线可以通过第一线和第二线来表征,所述第一线将四边形400的经计算的左上角连接到四边形400的经计算的右下角,所述第二线将四边形400的经计算的右上角连接到四边形400的经计算的左下角。此外,第一线和第二线优选地在四边形400内相交。
[0255] 在各种方法中,可以使用处理器来实施前述操作中的一个或多个,并且所述处理器可以是移动设备,特定地具有集成摄像机的移动设备的一部分。
[0256] 移动页面矩形化的各实施例
[0257] 本描述涉及将数字图像中的文档的数字表示矩形化,下文将参考图5A-5C和20详细描述其各种方法。
[0258] 在一个实施例中,矩形化算法的目标是将(诸如上文页面检测方法1900中所定义的)四边形400平滑地变换成(诸如图5C示出的)矩形。显著地,四边形400通过多个等式来表征,每个等式与四边形400的边相对应并且选择自所选取类的函数。例如,一旦阅读本描述,则如技术人员将领会的,四边形400的每个边可以通过一次多项式、二次多项式、三次多项式等来表征。
[0259] 在一个方法中,四边形400的边可以通过等式来描述,并且在优选实施例中,四边2
形400的左边通过二次多项式等式:x=a2*y+a1*y+a0来表征;四边形400的右边通过二
2
次多项式等式:x=b2*y+b1*y+b0来表征;四边形400的顶边通过二次多项式等式:y=
2 2
c2*x+c1*x+c0来表征;以及四边形400的底边通过二次多项式等式:y=d2*x+d1*x+d0来表征。
[0260] 下文所呈现的页面矩形化算法的描述利用四边形内的多个基于四边形的本征坐标对(p,q)的定义,每个本征坐标对(p,q)与顶到底曲线和左到右曲线的交点相对应,所述顶到底曲线由通过以p比1–p的顶到底曲线系数比组合所有相对应系数从其左边和右边的等式获得的等式来表征,所述左到右曲线由通过以q比1–q的左到右曲线系数比组合所有相对应系数从其顶边和底边的等式获得的等式来表征,其中0≤p≤1,并且其中0≤q≤1。
[0261] 在优选实施例中,其中,四边形400的边通过二次多项式等式来表征,与本征坐标2
p相对应的顶到底曲线将通过等式:x=((1–p)*a2+p*b2)*y+((1–p)*a1+p*b1)*y+((1–p)*a0+p*b0)来表征;并且与本征坐标q相对应的左到右曲线将通过等式:y=
2
((1–q)*c2+q*d2)*y+((1–q)*c1+q*d1)*y+((1–q)*c0+q*d0)来表征。当然,一旦阅读本描述,则如本领域的普通技术人员将领会的,其它等式可以表征上文所描述的任何边和/或曲线。
[0262] 对于作为四边形的特定情况的矩形,本征坐标变得特别简单:在矩形内,每个本征坐标对(p,q)与平行于矩形的左边和矩形的右边中的每一个的线和平行于矩形的顶边和矩形的底边中的每一个的线的交点相对应,所述平行于矩形的左边和矩形的右边中的每一个的线例如以p比1-p的比率将顶边和底边二者分割的线,所述平行于矩形的顶边和矩形的底边中的每一个的线例如以q比1-q的比率将顶边和底边二者分割的线,其中0≤p≤1,并且其中0≤q≤1。
[0263] 下文所描述的矩形化算法的目标是将经矩形化的图像中的每个点匹配到初始图像中的相对应点,并且这样做以将四边形400的四个边中的每一个变换成大致直线,而四边形400的对边应该变得彼此平行并且与另一对的边正交;即四边形400的顶边和底边变得彼此平行;并且四边形400的左边和右边变得彼此平行并且与新顶和底正交。因此,四边形400被变换成通过四个角表征的真正矩形,每个角包括两个相交形成九十度角度的直线。
[0264] 下文所描述的矩形化算法的主要思想是通过以下达成该目标:第一,针对经矩形化的目的图像中的每个点P(未示出)计算基于矩形的本征坐标(p,q),第二,将这些匹配到初始图像中的基于四边形的本征坐标的相同对(p,q),第三,计算分别与这些本征坐标相对应的左到右曲线和顶到底曲线的交点的坐标,以及最后,将初始图像中所找到点处的色彩或灰度值指派到点P。
[0265] 现在参考图5A,其描绘根据一个实施例的页面矩形化算法的首次迭代的图形表示。如图5A所示,数字图像500中的每个点可以与顶到底曲线504和左到右曲线506(一旦阅读本描述,则如本领域的普通技术人员将理解的,曲线可以包括直线、曲线例如抛物线等)的交点相对应,其与(诸如上文所描述的)本征坐标相对应,所述本征坐标与点相关联。
[0266] 如从本描述将变得显而易见的,矩形化可以涉及定义多个这类左到右线506和顶到底线504。
[0267] 此外,矩形化可以包括将基于目标矩形的坐标匹配到文档502的数字表示的基于本征四边形的坐标。
[0268] 如图5A所示,该匹配可以包括迭代地搜索给定左到右曲线506和给定顶到底曲线504的交点。图5A示出本公开的范围内示例性迭代搜索的首次迭代。
[0269] 根据下文关于图20进一步详细讨论的一个方法的迭代搜索包括指定具有坐标(x0,y0)的起始点508。起始点508可以位于文档502的数字表示内的任何地方,但是优选地位于目标矩形的中心处或其附近。
[0270] 迭代搜索可以包括将起始点508投影到两个相交的曲线504、506之一上。虽然起始点可以投影到曲线504、506之一上,但是在一个方法中,迭代搜索中的首次迭代的第一半包括将起始点508投影到顶到底曲线以获得下一点的x坐标(x1),投影结果在图5A中通过具有坐标(x1,y0)的点510来表示。类似地,在一些实施例中,迭代搜索中的首次迭代的第二半包括将点510投影到左到右曲线506上以获得下一点的y坐标(y1),投影结果在图5A通过具有坐标(x1,y1)的点512来表示。
[0271] 图5B是根据一个实施例的、在将文档502的数字表示分为由多个顶到底曲线504和多个左到右曲线506定义的多个相等大小的区段之后的页面矩形化算法的起始点的图形表示。
[0272] 矩形化涉及将页面检测中定义的四边形400变换成真正矩形。图5C将该过程的结果示出为根据一个实施例的、在实施页面矩形化算法之后的输出的图形表示。
[0273] 在一些实施例中,进一步迭代可以利用诸如下文关于图20和方法2000进一步详细描述的类似方法。
[0274] 继续参考图5A-5C,并且现在附加参考图20,示出根据一个实施例的、用于修改数字图像中的文档的数字表示的一个或多个空间特性的方法2000。一旦阅读本描述,则如本领域的普通技术人员将领会的,可以在包括附图中示出和/或描述的那些环境和本公开的相对应描述的任何合适的环境中实施方法2000。
[0275] 在一个实施例中,方法包括操作2002,其中,将(诸如上文页面检测方法1900中所定义的)四边形400变换成(诸如图5C示出的)矩形。显著地,四边形400通过多个等式来表征,每个等式与四边形400的边相对应并且选择自所选取类的函数。例如,一旦阅读本描述,则如技术人员将领会的,四边形400的每个边可以通过一次多项式、二次多项式、三次多项式等来表征。
[0276] 在一个实施例中,四边形400的边可以通过等式来描述,并且,在优选实施例中,2
四边形400的左边通过二次多项式:x=a2*y+a1*y+a0来表征;四边形400的右边通过二次
2 2
多项式:x=b2*y+b1*y+b0来表征;四边形400的顶边通过二次多项式:y=c2*x+c1*x+c0
2
来表征;并且四边形400的底边通过二次多项式:y=d2*x+d1*x+d0来表征。此外,顶到底
2
曲线等式是:x=((1–p)*a2+p*b2)*y+((1–p)*a1+p*b1)*y+((1–p)*a0+p*b0),并且左到
2
右曲线等式是:y=((1–q)*c2+q*d2)*y+((1–q)*c1+q*d1)*y+((1–q)*c0+q*d0)。当然,一旦阅读本描述,则如本领域的普通技术人员将领会的,其它等式可以表征上文所描述的任何边和/或曲线。
[0277] 在一个实施例中,曲线504、506可以通过符合下面通用式中的一个或多个的示例性多项式函数来描述。
[0278] x1=u2*y02+u1*y0+u0;
[0279] y1=v2*x12+v1*x1+v0,
[0280] 其中,ui=(1–p)*ai+p*bi,并且vi=(1–q)*ci+q*di,并且,其中,ai是四边形的左边的等式中的系数,bi是四边形的右边的等式中的系数,ci是四边形的顶边的等式中的系数,di是四边形的底边的等式中的系数,并且p和q是与曲线504、506相对应的基于四边形的本征坐标。在一些方法中,可以从实施诸如如上文参考方法1900和图19所讨论的页面检测方法的页面检测过程中达成的计算、估计和/或确定中导出诸如ai,bi,ci,di等的系数。
[0281] 当然,如本领域的普通技术人员将理解的,将四边形400变换成矩形可以包括诸如下文将更详细描述的一个或多个附加操作。
[0282] 在一个实施例中,方法2000附加地和/或可替代地包括伸展四边形400的一个或多个区域以达成更矩形或真正矩形的形状。优选地,以足够平滑的方式实施这类伸展以避免将伪影引入矩形。
[0283] 在一些方法中,将四边形400变换成矩形可以包括确定矩形的高、矩形的宽、矩形的歪斜角度和/或矩形的中心定位。例如,这类变换可以包括将目标矩形的宽定义为四边形400的顶边的宽度和底边的宽度的平均值;将目标矩形的高定义为四边形400的左边的高和右边的高的平均值;取决于图像中期望的矩形的放置来定义目标矩形的中心;以及例如响应于抗歪斜文档的数字表示的用户请求来定义目标矩形的歪斜的角度。
[0284] 在一些方法中,变换可以附加地和/或可替代地包括从初始数字图像生成经矩形化的数字图像;针对经矩形化的数字图像内的多个点(例如目标矩形内和外二者的点)确定p坐标和q坐标,其中,位于矩形左方的每个点具有p坐标值p<0,其中,位于矩形右方的每个点具有p坐标值p>1,其中,位于矩形上方的每个点具有q坐标值q<0,并且,其中,位于矩形下方的每个点具有q坐标值q>1。
[0285] 在一些方法中,变换可以附加地和/或可替代地包括从初始数字图像生成经矩形化的数字图像;针对经矩形化的数字图像内的每个点确定基于矩形的本征坐标对;以及将基于矩形的本征坐标中的每一对匹配到初始数字图像内的基于四边形的本征坐标的等同对。
[0286] 在优选方法中,将基于矩形的本征坐标匹配到基于四边形的本征坐标可以包括:针对顶到底曲线和左到右曲线的交点实施迭代搜索。此外,迭代搜索自身可以包括指定起始点(x0,y0),例如目标矩形的中心;将起始点(x0,y0)投影到左到右曲线:x1=2 2
u2*y0+u1*y0+u0上;并且将下一点(x1,y0)投影到顶到底曲线:y1=v2*x1+v1*x1+v0上,其中ui=(1–p)*ai+p*bi,并且,其中vi=(1–q)*ci+q*di。此后,迭代搜索可以包括迭代地将
2
(xk,yk)投影到左到右曲线:xk+1=u2*yk+u1*yk+u0上;并且将(xk+1,yk)投影到顶到底曲线:
2
yk+1=v2*xk+1+v1*xk+1+v0上。
[0287] 在更多实施例中,将基于矩形的本征坐标匹配到基于四边形的本征坐标可以包括确定(xk,yk)与(xk+1,yk+1)之间的距离;确定距离是否小于预定的阈值;并且一旦确定距离小于预定的阈值,则终止迭代搜索。
[0288] 页面歪斜校正的各实施例
[0289] 在一些实施例中,本文所公开的图像处理算法可以附加地和/或可替代地包括设计为检测和/或校正数字图像中的文档的数字表示的歪斜角度的功能性。下文参考图6描述校正歪斜的一个优选方法。当然,一旦阅读本描述,则如本领域的普通技术人员将领会的,校正数字图像内的歪斜的其它方法在这些公开的范围内。
[0290] 图6是根据一个实施例的、检测和/或校正数字图像中的文档602的数字表示的歪斜的一个算法方法的图形表示。
[0291] 如图6所示,数字图像中的文档602的数字表示可以通过一个或多个歪斜角度α来表征。如技术人员阅读这些描述并且查看图6将领会的,水平歪斜角度α表示水平线612与文档的数字表示的边缘604、606之间的角度,边缘604、606在大致水平方向(即文档602的数字表示的顶边缘或者底边缘)上具有其纵轴。类似地,α可以表示垂直线614与文档的数字表示的边缘608、610之间的角度,边缘608、610在大致垂直方向(即文档602的数字表示的左边缘608或者右边缘610)上具有其纵轴。
[0292] 此外,如图6进一步所示,文档602的数字表示可以通过顶边缘604、底边缘606、右边缘610和左边缘608来定义。这些边缘中的每一个可以通过大致线性等式来表征,使得针对顶边缘604:y=-tan(α)x+dt;针对底边缘606:y=-tan(α)x+db;针对右边缘610:x=tan(α)y+dr;并且针对左边缘608:x=tan(α)y+dl,其中,dt和db分别是描述文档的数字表示的顶边缘和其底边缘的线性等式的y轴截距,并且,其中,dr和dl分别是描述文档的数字表示的右边缘和其左边缘的线性等式的x轴截距。
[0293] 在一个方法中,已定义描述文档602例如矩形文档的数字表示的每个边的线性等式,其歪斜角度可通过设置α=0来校正,使得针对顶边缘604:y=dt;针对底边缘606:y=db;针对右边缘610:x=dr;并且针对左边缘608:x=dl。
[0294] 移动页面光照检测的各实施例
[0295] 在更多实施例中,目前所描述的图像处理算法可以包括针对检测文档的数字表示是否包括一个或多个光照问题的特征。
[0296] 例如,光照问题可以包括当亮度值在图像背景内从像素到像素极大地变化时,诸如具有不足阴影色和/或所提供的光照的设置中捕获的图像的特性的数字图像的局部欠饱和的区,以及当图像内的一些区域被冲掉时,诸如在闪光的反射内的数字图像的局部过饱和的区。
[0297] 下文参考图7A和图21描述检测包括文档的数字表示的数字图像中的光照问题的一个示例性方法,所述图7A是根据一个实施例的、包括通过光照问题704表征的文档702的数字表示的数字图像700的图画表示,所述图21描绘用于确定文档的数字表示中是否存在光照问题的方法2100。一旦阅读本描述,则如本领域的普通技术人员将领会的,可以在诸如本文所描述那些环境和同此提交的各附图中表示的任何合适的环境中实施方法2100。当然,如技术人员阅读本说明书将领会的,其它环境也合适于操作本公开的范围内的方法
2100。
[0298] 在一个实施例中,方法2100包括操作2102,其涉及使用处理器将包括文档的数字表示的四边形400分为多个区段,每个区段包括多个像素。
[0299] 在更多方法中,方法2100包括操作2104,在其中确定每个区段的亮度值的分布。如本领域的普通技术人员将理解的,亮度值的分布可以以任何已知方式来编译和/或组装,并且可以符合任何已知标准分布模型,诸如高斯分布、双峰分布、歪斜分布等。
[0300] 在更多方法中,方法2100包括操作2106,在其中确定每个区段的亮度值范围。如本领域的普通技术人员将领会的,范围定义为给定分布中最大值与最小值之间的差。在这里,亮度值范围将定义为给定区段中的特性最大亮度值与相同区段中的特性最小亮度值之间的差。例如,这些特性值可以分别与整个分布的第二百分位和第九十八百分位相对应。
[0301] 在许多方法中,方法2100包括操作2108,在其中确定每个区段的亮度值的可变性。
[0302] 在各种方法中,方法2100包括操作2110,在其中确定每个区段是否过饱和。例如,操作2112可以包括确定描绘文档702的数字表示的数字图像700的区704过饱和,如根据一个实施例的图7A所示。确定每个区段是否过饱和可以包括针对每个区段确定区段过饱和比。显著地,在优选实施例中,每个区段过饱和比定义为展示区段中的最大亮度值的像素的数目除以区段中的像素的总数目。
[0303] 如图7A所示,不均匀光照的图像可以通过多个黑点708来描绘或表征,所述黑点708可以在数字图像的相对应像素、点或区域的亮度级低于图像或文档的其它区域的亮度级和/或低于图像或文档的平均亮度级的区域中更密集。在一些实施例中,不均匀光照可以通过亮度梯度来表征,诸如图7A示出有从图像的右上角(靠近区域706)行进到图像的左下角(靠近区域704)的梯度,使得亮度沿图像的右上角(靠近区域706)中的相对亮区域和图像的左下角(靠近704)中的相对暗区域的梯度减小。
[0304] 在一些方法中,确定每个区段是否过饱和可以进一步包括针对每个区段确定区段的过饱和级是否大于预定的阈值,诸如10%;并且一旦确定区段的饱和级大于预定的阈值,则将区段表征为过饱和。虽然目前所描述的实施例采用阈值10%,但是可以采用其它预定的阈值过饱和级而不脱离本描述的范围。显著地,准确值是视觉感知和专家判断的问题,并且可以由用户以各种方法来调节和/或设置。
[0305] 在更多方法中,方法2100包括操作2112,在其中确定每个区段是否欠饱和。例如,操作2112可以包括确定描绘文档702的数字表示的数字图像700的区域704欠饱和,如根据一个实施例的图7A所示。确定每个区段是否欠饱和可以包括附加的操作,诸如确定每个区段的亮度值的分布的中值可变性;确定每个中值可变性是否大于预定的可变性阈值,诸如得自0-255整数值范围的18的中值亮度可变性;并且,针对每个区段,一旦确定区段的中值可变性大于预定的可变性阈值,则确定区段欠饱和。显著地,准确值是视觉感知和专家判断的问题,并且可以由用户以各种方法来调节和/或设置。
[0306] 在一个特定方法中,确定区段的可变性可以包括确定多个像素中的目标像素的亮度值;计算目标像素的亮度值与用于一个或多个邻近像素的亮度值之间的差,每个邻近像素距离目标像素一个或多个(例如2个)像素远;针对多个像素中的每个像素重复确定和计算以获得每个目标像素可变性;并且生成目标像素可变性值的分布,其中,每个目标像素亮度值和目标像素可变性值是从0到255的范围中的整数。例如,该方法可以例如通过对在从0到255的范围中所有可能可变性值的阵列中的相对应计数器进行增量来实现,例如以生成可变性值的直方图。
[0307] 显著地,当利用邻近像素确定特定区段的可变性时,邻近像素可以在关于沿垂直方向、水平方向或者二者(例如对角线方向)的目标像素的两个像素内。当然,可以采用其它像素接近限制而不脱离本发明的范围。
[0308] 在一些方法中,方法2100可进一步包括从目标像素可变性值的分布中移除一个或多个目标像素可变性值以生成经校正的分布;并且基于经校正的分布来定义特性背景可变性。例如,在一个实施例中,生成经校正的分布并且定义特性背景可变性可以包括移除总计数值(或足以覆盖与从背景到前景的转变相关联的显著亮度改变的任何其它值)的前35%并且基于分布的剩余值来定义特性背景可变性,所述剩余值即从文档的数字表示的相对平坦背景区取得的值。
[0309] 在更多方法中,方法2100包括操作2114,在其中确定过饱和区段的数目。一旦阅读本描述,则如本领域的普通技术人员将理解的,该操作可以包括确定过饱和区段的总数目的任何方式,例如通过在图像的处理期间对计数器进行增量、通过针对每个过饱和区段设置标志并且在处理期间在某一点处对标志进行计数等。
[0310] 在更多方法中,方法2100包括操作2116,在其中确定欠饱和区段的数目。一旦阅读本描述,则如本领域的普通技术人员将理解的,该操作可以包括确定欠饱和区段的总数目的任何方式,例如通过在图像的处理期间对计数器进行增量、通过针对每个欠饱和区段设置标志并且在处理期间在某一点处对标志进行计数等。
[0311] 在更多方法中,方法2100包括操作2118,在其中一旦确定过饱和区段的数目对区段的总数目的比超过过饱和阈值,则确定数字图像过饱和,一旦阅读本描述,则如本领域的普通技术人员将理解的,所述过饱和阈值可以由用户来定义,可以是预定的值等。
[0312] 在更多方法中,方法2100包括操作2120,在其中一旦确定欠饱和区段的数目对区段的总数目的比超过欠饱和阈值,则确定数字图像欠饱和,一旦阅读本描述,则如本领域的普通技术人员将理解的,所述欠饱和阈值可以由用户来定义,可以是预定的值等。
[0313] 在更多方法中,方法2100包括操作2122,在其中一旦确定数字图像欠饱和或者过饱和,则确定数字图像中存在光照问题。
[0314] 在更多方法中,方法2100可以包括诸如下文将详细描述的一个或多个附加和/或可替代操作。
[0315] 在一个实施例中,方法2100可以包括针对每个区段实施下面的操作。通过将文档的高分为预定义的数目的水平区段来定义区段高;以及通过将文档的宽分为预定的数目的垂直区段来定义区段宽。在优选方法中,基于创建某个数目的区段以及通过将文档的高分为某个数目的水平部分并且将文档的宽分为某个(可能不同的)数目的垂直部分来使这些区段近似成直角的目标来确定区段高和宽。
[0316] 因此,参考图7A和方法2100,在一些实施例中,每个区段通过区段高和宽来表征,其中,数字图像通过图像宽w和图像高h来表征,其中h>=w,其中区段大小通过区段宽ws和区段高hs来表征,其中ws=w/m,其中hs=h/n,其中m和n被定义使得ws近似等于hs。例如,在优选实施例中,m>=3,n>=4。
[0317] 在另一方法中,用于确定文档的数字表示中是否存在光照问题的方法2200包括下面的操作,一些或所有这些操作可以在本文所描述和/或目前所公开附图中所表示的任何环境中实施。
[0318] 移动页面光照规格化的各实施例
[0319] 图7B是根据一个实施例的、在将数字图像700中的经检测的光照的不均匀性校正之后如图7A所示的数字图像700的输出的图画表示。在一些方法中,校正数字图像700中的光照的不均匀性包括将数字图像的总亮度级规格化。参考图7A,将总亮度规格化可以将由诸如上文所讨论并且图7A示出的亮度梯度所表征的数字图像变换成由诸如图7B示出的跨数字图像的亮度的相对平坦、均匀分布所表征的数字图像。注意,在图7A中,区704通过比区706显著更密集的黑点708的分布来表征,但是,在图7B中,区704、706通过大致相似的黑点708密度轮廓来表征。
[0320] 根据本公开,可以校正光照的不均匀性。具体来讲,本文提供用于校正数字图像的一个或多个区中的不均匀光照的方法2200用于在任何合适的环境中使用,包括本文所描述并且在各附图中所表示的那些环境,以及一旦阅读本描述则如本领域的普通技术人员将已知的其它合适的环境。
[0321] 在一个实施例中,方法2200包括操作2202,在其中使用处理器从数字图像导出二维光照模型。
[0322] 在一个实施例中,方法2200包括操作2204,在其中将二维光照模型应用到数字图像中的每个像素。
[0323] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在更多方法中,数字图像可以分为多个区段,并且可以基于色彩例如一个或多个色彩通道中的亮度值、中值色调值等来对区段内的一些或所有像素进行聚类。此外,可以分析数个最大量聚类来确定一个或多个可能的局部背景的特性。为了将聚类指定为区段的局部背景,属于该聚类的像素的数目必须超过某个预定义的阈值,诸如总区段面积的百分比的阈值。
[0324] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在各种方法中,可以使用任何已知方法来实施聚类,包括尔可夫链蒙特卡罗(Markov-chain Monte Carlo)方法、最近邻接、诸如最大期望的基于分布的聚类、诸如具有噪声的应用的基于密度的空间聚类(DBSCAN)的基于密度的聚类、订购点识别聚类结构(OPTICS)等。
[0325] 在一个实施例中,方法2200可以包括针对背景聚类内的色彩通道值的每个分布确定相对应区段的初级背景的平均色彩和相对应区段的二级背景的平均色彩的中的一个或多个,如果区段中存在一个或两个的话。
[0326] 在一个实施例中,方法2200包括针对每个区段指定初级背景色彩或者二级背景色彩作为文档的数字表示的主要背景的局部表示,每个局部表示通过相对应区段的初级背景的平均色彩或者相对应区段的二级背景的平均色彩来表征。
[0327] 在一个实施例中,方法2200包括使图像背景的所选取局部表示的多个平均色彩通道值符合二维光照模型。在一些方法中,二维光照模型是通过等式:v=2 2
ax+bxy+cy+dx+ey+f表征的二次多项式;其中,v是用于多个色彩通道之一的平均色彩通道值;a,b,c,d,e,和f是二维光照模型的每个未知参数,每个未知参数a,b,c,d,e,和f使用最小均方逼近来逼近,x是区段中的中点像素的x坐标,并且y是区段中的中点像素的y坐标。
[0328] 在一个方法中,二维光照模型的导出可以包括针对多个背景聚类:计算每个背景聚类的平均色彩通道值、计算每个背景聚类的色调比以及计算用于多个背景聚类的中值色调比。此外,导出还可以包括将每个背景聚类的色调比与多个聚类的中值色调比进行比较;基于比较选择更可能的可能的两个背景作为文档背景的局部表示;使至少一个二维光照模型符合局部表示的平均通道值;并且计算多个局部表示之上的多个平均主要背景色彩通道值。
[0329] 模型的应用可以包括计算一个或多个预测的背景通道值与平均主要背景色彩通道值之间的差;以及将差的分数添加到用于数字图像中的每个像素的一个或多个色彩通道值。例如,添加分数可以涉及将差的从0到1范围中的值添加到实际像素值,例如,在优选实施例中,所述值为差的3/4。
[0330] 在更多方法中,方法2200可以包括附加和/或可替代操作,诸如下文继续参考图22紧接讨论的那些操作。
[0331] 例如,在一个方法中,方法2200进一步包括以下中的一个或多个:针对每个区段确定多个色彩聚类;确定多个混色(numerous color)聚类,每个混色聚类与区段中的表示的高频率相对应(例如,色彩聚类是具有属于该色彩聚类的区段中的最高数目的像素的聚类之一);确定区段的总面积;确定多个部分区段面积,每个部分区段面积与多个混色聚类之一所表示的面积相对应;依据总面积划分每个部分区段面积以获得用于每个混色聚类的聚类百分比面积;(例如依据区段中的像素的总数目划分属于混色聚类的区段中的像素的数目以获得由相对应最大量色彩聚类所占据的区段的总面积的百分比)以及基于聚类百分比面积将每个混色聚类分类为背景聚类或者非背景聚类。
[0332] 显著地,在优选方法中,分类操作识别区段中没有背景、区段中的单个最庞大背景、或者区段中的两个最庞大背景。此外,分类包括将属于包含大于背景阈值的像素的数目的聚类的每个分类为背景像素。在一些方法中,背景阈值在从0到100%的范围中(例如,在优选方法中,15%)。一旦阅读本描述,则如本领域的普通技术人员将理解的,背景阈值可以由用户来定义,可以是预定的值等。
[0333] 移动页面分辨率估计和文档分类的各实施例
[0334] 作为目前所公开的创造性实施例的进一步的对象,移动图像处理可以包括用于估计文档的数字表示的分辨率的方法2300。当然,可以在包括本文所描述并且同此所呈现的各附图中所表示的那些环境的任何合适的环境中实施方法2300。此外,一旦阅读本描述,则如本领域的普通技术人员将理解的,方法2300可以结合本文所描述的任何其它方法加以使用,并且可以将附加和/或可替代操作包括到下文所描述的那些操作。
[0335] 在一个实施例中,方法2300包括操作2302,在其中在数字图像中检测多个非背景元素的多个连接成分。在一些方法中,数字图像可以表征为双色调图像,即仅包含两个色调的图像,并且优选地黑白图像。
[0336] 在另一实施例中,方法2300包括操作2304,在其中基于多个连接成分确定多个可能字符。可能字符可以是通过给定方向上预定的数目的明暗转变所表征的数字图像的区,诸如如针对描绘大写字母“E”的数字图像的小区所遭遇的垂直方向上的三个明暗转变,每个明暗转变与从文档的背景(明)到字母“E”的水平笔画之一的转变相对应。当然,一旦阅读本描述,则如本领域的普通技术人员将理解的,可以采用其它数目的明暗转变,诸如用于字母“o”的两个垂直和/或水平明暗转变,用于字母“1”的一个垂直明暗转变等。
[0337] 在另一实施例中,方法2300包括操作2306,在其中基于多个可能文本字符确定一个或多个平均字符尺寸。如本文所理解的,平均字符尺寸可以包括平均字符宽和平均字符高中的一个或多个,但是,当然,如技术人员阅读本描述将认识的,可以利用其它合适的字符尺寸。
[0338] 在又一实施例中,方法2300包括操作2308,在其中基于一个或多个平均字符尺寸估计数字图像的分辨率。
[0339] 在又一实施例中,方法2300可以可选地和/或可替代地包括诸如下文继续参考图23所描述的一个或多个附加操作。
[0340] 例如,在一个实施例中,方法2300可以进一步包括以下中的一个或多个:基于数字图像的所估计的分辨率来估计文档的数字表示的一个或多个尺寸;将文档的数字表示的一个或多个所估计的尺寸与多个已知文档类型的一个或多个已知尺寸进行比较;基于比较将文档的数字表示匹配到多个已知文档类型中的一个或多个;确定匹配是否满足一个或多个质量控制标准;并且一旦确定匹配满足一个或多个质量控制标准,则基于已知文档类型的已知尺寸来调节文档的数字表示的所估计的分辨率。在一些方法中,如果已经找到文档的数字表示与已知文档类型之一之间的良好匹配,则将仅调节所估计的分辨率。
[0341] 在一些方法中,一个或多个已知文档类型包括:信函大小文档(8.5×11英寸);法律大小文档(8.5×14英寸);A3文档(11.69×16.54英寸);A4(欧洲信函大小)文档(8.27×11.69英寸);A5文档(5.83×8.27英寸);分类账/小报文档(11×17英寸);驾驶执照(2.125×3.375英寸);商业名片(2×3.5英寸);个人支票(2.75×6英寸);商业支票(3×7.25英寸);商业支票(3×8.25英寸);商业支票(2.75×8.5英寸);商业支票(3.5×8.5英寸);商业支票(3.66×8.5英寸);商业支票(4×8.5英寸);2.25英寸宽收据;以及3.125英寸宽收据。
[0342] 在更多方法中,方法2300可以进一步和/或可选地包括针对一个或多个连接成分计算以下中的一个或多个:连接成分内的开关转变的数目;(例如,从字符到文档背景的转变,例如如技术人员阅读本描述将理解的从黑到白、白到黑的转变等);连接成分内的黑像素密度;连接成分的长宽比;连接成分中的一个或多个基于黑像素密度、开关转变的数目和长宽比中的一个或多个表示文本字符的似然性。
[0343] 在更多方法中,方法2300可以进一步和/或可选地包括确定多个文本字符中的至少两个的字符高;基于至少两个文本字符的每个字符高来计算平均字符高;确定多个文本字符中的至少两个的字符宽;基于至少两个文本字符的每个字符宽来计算平均字符宽;实施至少一个比较。显著地,比较可以选择自:将平均字符高与参考平均字符高进行比较;以及将平均字符宽与参考平均字符宽进行比较。
[0344] 在这类方法中,方法2300可以进一步包括基于至少一个比较来估计数字图像的分辨率,其中,参考平均字符高和参考平均字符宽中的每一个与一个或多个参考字符相对应,每个参考字符通过已知的平均字符宽和已知的平均字符高来表征。
[0345] 如技术人员阅读本描述将理解的,在各实施例中,每个参考字符与从以某个所选择的分辨率诸如300DPI扫描一个或多个商业文档中的代表性样本获得的字符的数字表示相对应,并且每个参考字符进一步与一个或多个常用字体相对应,诸如Arial、Times New Roman、Helvetica、Courier、Courier New、Tahoma等。当然,可以以其它分辨率来扫描商业文档的代表性样本,只要产生的图像分辨率合适于辨识文档上的字符。在一些方法中,分辨率必须足以提供最小字符大小,诸如在一个实施例中,最小字符不小于12个像素高。当然,本领域的普通技术人员将理解的是,最小字符高可以根据图像的性质来变化。例如,当处理灰度图像时可能要求与当处理二进制(例如双色调)图像时不同的字符高。在更多方法中,字符必须足够大以由光学字符辨识(OCR)来辨识。
[0346] 在更多实施例中,方法2300可以包括以下中的一个或多个:基于文档的数字表示的所估计的分辨率来估计文档的数字表示的一个或多个尺寸;从平均字符尺寸计算平均字符宽;从平均字符尺寸计算平均字符高;将平均字符宽与平均字符高进行比较;基于比较来估计文档的数字表示的定向;以及基于所估计的尺寸和所估计的定向将文档的数字表示匹配到已知文档类型。
[0347] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在可替代实施例中,估计分辨率可以以逆向方式来实施,即通过处理文档的数字表示来确定文档的内容,诸如用于支票的数字表示的支付金额、信件的收信人、表格的图样、条形码等。基于所确定的内容,可以确定文档的数字表示以与一个或多个已知文档类型相对应,并且利用关于已知文档类型的信息,可以确定和/或估计文档的数字表示的分辨率。
[0348] 移动模糊检测的各实施例
[0349] 现在参考图24,将根据各实施例来描述用于检测数字图像中的一个或多个模糊区的方法2400。一旦阅读本描述,则如技术人员将理解并领会的,可以在诸如本文所讨论并且同此所提交的众多附图中所表示的那些环境的任何合适的环境中实施方法2400。进一步地,方法2400可以孤立地和/或结合本文所描述的任何其它方法的任何其它操作来实施,包括但不限于图像。
[0350] 在一个实施例中,方法2400包括操作2402,其中,使用处理器将包含数字图像中的文档的数字表示的四边形分为多个区段,每个区段包含多个像素。
[0351] 在一个实施例中,方法2400包括操作2404,其中,针对每个区段确定区段是否在第一方向上包含一个或多个锐利的像素到像素转变。
[0352] 在一个实施例中,方法2400包括操作2406,其中,针对每个区段对第一方向的锐利的像素到像素转变(SS1)的总数目进行计数。
[0353] 在一个实施例中,方法2400包括操作2408,其中,针对每个区段确定区段是否在第一方向上包含一个或多个模糊的像素到像素转变。
[0354] 在一个实施例中,方法2400包括操作2410,其中,针对每个区段对第一方向的模糊的像素到像素转变(SB1)的总数目进行计数。
[0355] 在一个实施例中,方法2400包括操作2412,其中,针对每个区段确定区段是否在第二方向上包含一个或多个锐利的像素到像素转变。
[0356] 在一个实施例中,方法2400包括操作2414,其中,针对每个区段对第二方向的锐利的像素到像素转变(SS2)的总数目进行计数。
[0357] 在一个实施例中,方法2400包括操作2416,其中,针对每个区段确定区段是否在第二方向上包含一个或多个模糊的像素到像素转变。
[0358] 在一个实施例中,方法2400包括操作2418,其中,针对每个区段对第二方向的模糊的像素到像素转变(SB2)的总数目进行计数。
[0359] 在一个实施例中,方法2400包括操作2420,其中,针对每个区段,一旦确定:SS1小于预定的锐利转变阈值,SB1小于预定的模糊转变阈值,SS2小于预定的锐利转变阈值,并且SB2小于预定的模糊转变阈值,则确定区段是空白的。
[0360] 在一个实施例中,方法2400包括操作2422,其中,针对每个非空白区段,确定第一方向模糊比r1=SS1/SB1。
[0361] 在一个实施例中,方法2400包括操作2424,其中,针对每个非空白区段,确定第二方向模糊比r2=SS2/SB2。
[0362] 在一个实施例中,方法2400包括操作2426,其中,针对每个非空白区段,一旦确定r1小于预定义的区段模糊比阈值,则确定非空白区段在第一方向上是模糊的。
[0363] 在一个实施例中,方法2400包括操作2428,其中,针对每个非空白区段,一旦确定r2小于预定义的区段模糊比阈值,则确定非空白区段在第二方向上是模糊的。
[0364] 参考方法2400,在一些方法中,“第一方向”和“第二方向”可以表征为成直角的,例如垂直方向和水平方向,或正方形的成直角的对角线。在其它方法中,“第一方向”和“第二方向”可以与任何穿过数字图像的路径相对应,但是,优选地,每个与穿过数字图像的线性路径相对应。本领域的普通技术人员阅读本描述将领会的是,本文所公开的创造性实施例的范围不应该限制于仅这些示例,而是包括本领域已知的其任何等同物。
[0365] 在一个实施例中,方法2400包括操作2430,其中,针对每个非空白区段,一旦确定以下中的一个或多个:区段在第一方向上是模糊的,区段在第二方向上是模糊的,则确定非空白区段是模糊的。
[0366] 在一个实施例中,方法2400包括操作2432,其中,确定模糊的区段的总数目。
[0367] 在一个实施例中,方法2400包括操作2434,其中,计算图像模糊比R,所述R定义为:模糊的区段的总数目除以区段的总数目。
[0368] 在一个实施例中,方法2400包括操作2436,其中,一旦确定图像模糊比大于预定的图像模糊阈值,则确定数字图像是模糊的。
[0369] 在各实施例中,方法2400可以包括诸如下文继续参考图24所描述的一个或多个附加和/或可替代操作。例如,在一个实施例中,方法2400还可以包括针对每个区段确定多个像素的亮度值的分布;确定亮度值的分布的特性可变性v;基于v来计算值得注意的亮度转变阈值η(例如,η=3*v,但不超过某个值,诸如16);基于η来计算大亮度转变阈值μ(例如,μ=2*η,但不超过某个值,诸如亮度范围的一半);针对多个像素内的每个像素来分析围绕像素的窗口中的亮度改变的方向性图;(例如,水平地、垂直地、对角线地等),以及基于分析来识别以下中的一个或多个:锐利的像素到像素转变和模糊的像素到像素转变。
[0370] 在另一实施例中,方法2400还可以包括定义多个中心像素;顺序地分析围绕中心像素的像素诸如之前之后的两个像素的一个或多个小窗口内的多个中心像素中的每一个;一旦确定:中心像素的紧邻地带内存在大亮度转变,(例如从紧接地先前的像素到下面的一个像素),在大亮度转变之前存在第一小(例如小于值得注意的)亮度变化;以及在大亮度转变之后存在第二小亮度变化,则识别锐利的像素到像素转变;一旦确定:小窗口中的一个或多个内存在大转变,大转变中存在亮度的单调改变,则检测锐利的像素到像素转变;
以及,一旦确定:小窗口内发生值得注意的转变;以及值得注意的转变中存在亮度的单调改变,则检测模糊的像素到像素转变。
[0371] 在又一实施例中,方法2400还可以包括针对每个区段:对一个或多个所选取方向中的每一个上的锐利转变的总数目进行计数;对每个所选取方向上的模糊转变的总数目进行计数;一旦确定:锐利转变的总数目小于预定义的锐利转变阈值(例如,50),并且模糊转变的总数目小于预定义的模糊转变阈值,则确定区段是空白的;一旦确定包括锐利转变的总数目对模糊转变的总数目的区段模糊强度比在所选取方向的至少一个上小于区段模糊比阈值(例如,24%),则确定非空白区段是模糊的;以及,一旦确定区段既不是空白的,也不是模糊的,则确定区段是锐利的。
[0372] 在又一实施例中,方法2400还可以包括确定多个区段内的空白区段的总数目(Nblank);确定多个区段内的模糊区段的总数目(Nblur);确定多个区段内的锐利区段的总数目(Nsharp);确定模糊强度比(RB)=Nblur/(Nblur+Nsharp);以及,如果RB小于模糊强度阈值(优选地表达为百分比,例如30%),则确定数字图像是锐利的。
[0373] 现在将参考图8A-8D来描述前述算法处理操作中的一个或多个的示例性结果。如本领域的普通技术人员将领会的,在各实施例中,可以以各种顺序采用本文所描述的操作的多个组合来达成下面的结果中的一个或多个。图8A-8D描绘的特定结果和相对应的描述不应该视为对目前所公开系统和方法的范围的限制,而是应该视为与本文阐述的本公开范围相当的一个可能过程的示例性实施例。
[0374] 图8A描绘根据一个实施例的、包括文档802的数字表示的数字图像800。
[0375] 图8B描绘根据一个实施例的、在对如图8A所示的数字图像800实施页面检测算法之后的数字图像800,所述数字图像800在其中具有文档802的经检测的数字表示。
[0376] 图8C描绘根据一个实施例的、如图8B所示的文档802的数字表示,已经移除数字图像800的背景并且已经校正文档802的数字表示的歪斜角度。
[0377] 图8D是如图8C所示的文档802的数字表示,文档802的数字表示已被阈值化以产生双色调图像。
[0378] 移动捕获和处理应用的各实施例
[0379] 目前所描述的发明的数个实施例涉及提供软件应用用于在移动设备的移动计算环境中使用,软件应用包括多个用户界面,其配置为促进用户实施一个或多个动作,所述动作涉及移动图像捕获和文档的数字表示和/或相关联的数据的处理。如从下面的描述将变得显而易见的,本公开的范围内的用户界面总地涉及以下中的一个或多个:移动图像捕获、移动图像处理、移动图像与其相关联的管理案例等。
[0380] 图9描绘根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的用户界面层次的流程图900。流程图900描绘的各种操作可以以各种方法在包括图1-8和10A-19D所描绘的那些环境的任何环境中实施。用户界面层次可以特别适用于或有利于在诸如图10A-19D所特定描述的移动应用中采用。此外,流程图900描绘的操作可以以如由流程图900中的箭头所描绘的众多顺序来实施。
[0381] 在一个实施例中,用户可以在操作902中将移动应用实例化。一旦阅读本描述,则如本领域的普通技术人员将理解的,将移动应用实例化可以以任何已知方式经由来自流程图900内的另一应用或另一操作的应用调用来实施,所述方式诸如选择图标、实施手势、轻击移动设备显示器的一部分等。
[0382] 在特别安全的实施例中,可以要求将移动应用实例化的用户将认证信息提供给主机设备,诸如操作904中的服务器或网络交换机。认证可以根据任何已知协议以及通过技术人员一旦阅读本描述则理解的任何合适的手段来实施,诸如经由TCP/IP、安全套接层(SSL)、使用虚拟专用网络(VPN)连接等。
[0383] 在更多方法中,在操作906中,可以在客户端设备与主机设备之间同步用于用户界面和/或要经由用户界面被实施的算法处理的设置。可以以任何合适的方式和/或通过给定优先权到主机设备或者客户端设备来实施同步,即主机可以修改用于主机上的用户账户的设置以匹配客户端设备上的设置,客户端设备可以修改客户端侧上的设置以匹配主机设备的用户账户上的设置等。此外,同步可以是具体账户的、具体设备的或普适的。同步可以进一步包括将设置提供和/或重新设置到预配置的一组默认设置,例如如果经历客户端和/或主机系统崩溃或故障。
[0384] 无论在操作902中实施认证和/或经由操作904将设置同步与否,在操作908中,用户界面层次可以使用户能够打开一个或多个新案例或现存案例。如本文所理解的,案例可以具体化为目录、文件夹、子文件夹、关系数据库中的条目或者合适于在计算环境中使用的任何其它合适的组织结构。此外,一旦阅读本描述,则如本领域的普通技术人员将理解的,案例可以涉及各种文档相关的任务,诸如发票、车辆事故报告、保险估价、患者保健记录、装运声明和/或运单、贷款申请等。
[0385] 在一个实施例中,打开案例可以使用户能够实施落在案例管理操作910的一般伞形结构下的一个或多个案例管理操作。一旦阅读本描述,则如本领域的普通技术人员将理解的,示例性非限制性案例管理操作可以包括以下中的一个或多个:例如在操作912中改变案例类型、例如在操作914中捕获文档图像、例如在操作916中检视所捕获的图像、例如在操作918中键入案例数据、例如在操作920中签署案例以及例如在操作922中提交案例等。当然,案例管理可以包括如图9描绘的用户层次流程图900未具体示出的其它操作,并且总地包括与管理如本文所定义的案例相关的任何动作。此外,如下文将参考每个具体案例管理操作更详细描述的,上文所描述的一般案例操作914-922中的每一个可以包括一个或多个子操作。
[0386] 参考操作912中的改变案例类型,在一个实施例中,该操作许可用户操纵与特定案例文件相关联的分类。案例类型分类可以确定针对案例能够和/或被调度以实施的其它动作,并且可以促进案例的高效处置。例如,如本领域的普通技术人员将理解的,如果案例类型是贷款申请,那么要被实施的其它动作可以包括请求信用检查、首期付款或代管支付的确认收据、批准/拒绝贷款等。优选地,通过选取特定案例类型所使能的其它动作可以与如上文所提供的示例中的该案例类型特别相关,并且可以不包括特别不相关的动作。继续参考贷款申请示例,这类不相关的动作可以包括检视提交发票、调度医生的预约、联系应急当局以对事故作出反应等。如本领域普通技术人员将理解的,其他示例性案例类型可以包括事故报告、保健检视、发票、装运动作等。
[0387] 参考操作914中的捕获文档图像,本公开的范围包括各实施例,其包括捕获方法和机制。例如,图像捕获包括使用捕获组件捕获数字图像,所述捕获组件例如耦连到移动设备或与移动设备集成的摄像机。在这类方法中,可以使用本地于移动设备的照片捕获软件来实施捕获,或者可以利用内置在移动图像捕获和处理用户界面的图像捕获功能性,如下文将参考图15A-16E更详细描述的。
[0388] 当使用内置在移动图像捕获和处理用户界面的图像捕获功能性进行捕获时,用户可以在用于图像捕获和随后的处理的三个方法当中进行选择。
[0389] 在一个实施例中,经由操作924,用户可以以“全处理模式”捕获图像,所述“全处理模式”辅助用户捕获高质量图像并且随后实施包括本文所描述的任何或所有处理功能的全处理算法,如由用户所确定的,例如使用如将关于图17A-B进一步详细描述的设置用户界面。
[0390] 在一些方法中,在以“全处理模式”捕获图像并且根据本文所描述的方法对所捕获的图像进行处理之后,在操作926中,可以在移动设备的显示器上将全处理捕获页面结果输出(Full Process Capture Page Results Output)呈现给用户。
[0391] 在另一实施例中,经由操作928,用户可以以“预览模式”捕获图像,所述“预览模式”辅助用户捕获高质量图像并且随后实施质量控制(QC)分析,所述质量控制(QC)分析包括诸如检测图像中的文档、检测光照问题、检测模糊等的处理功能,如本文所描述并且一旦阅读本描述则如由本领域的普通技术人员将理解的。
[0392] 在各优选实施例中,并且为了减少在“预览模式”中生成预览所要求的处理,可以以特定高效的次序来实施图像处理操作。例如,在一个方法中,可以紧接在检测数字图像中的文档的数字表示之后来检测光照问题和/或模糊的区。类似地,在另一方法中,可以在页面检测之后、但在矩形化、抗歪斜和/或裁剪数字图像中的文档的数字表示之前来实施分辨率估计和匹配到已知文档类型。
[0393] 在一些方法中,在以“预览模式”捕获图像并且根据本文所描述的方法对所捕获的图像进行处理之后,在操作930中,可以在移动设备的显示器上经由图像捕获QC结果用户界面来呈现给用户。下文参考图15C将进一步详细描述“预览模式”界面和图像捕获QC结果用户界面。
[0394] 在一些方法中,以“全处理模式”和“预览模式”捕获图像可以利用大致同样的图像捕获用户界面,下文将关于图15A-15B对其进行进一步的详细描述。
[0395] 在又一实施例中,经由操作932,用户可以以“移动扫描仪”模式捕获图像,所述“移动扫描仪”模式从与移动设备通信的移动扫描仪捕获图像数据。“移动扫描仪模式”可以包括如上文所描述的用于“全处理模式”或“预览模式”的处理,如可以跟随默认设置或如可以由用户确定。下文将参考图16D-16E更详细地描述移动扫描仪图像捕获用户界面。
[0396] 在一些方法中,在以“移动扫描仪模式”捕获图像并且根据本文所描述的方法对所捕获的图像进行处理之后,在操作934中,可以在移动设备的显示器上将移动扫描仪图像捕获结果用户界面呈现给用户。一旦阅读本描述,则如本领域的普通技术人员将理解的,移动扫描仪图像捕获结果用户界面可以与图像捕获和处理结果用户界面、图像捕获QC结果用户界面或其组合大致相似。
[0397] 当使用本地于移动设备的界面进行捕获时,用户可以根据这类界面中所阐述的方法来对图像进行捕获。随后,在操作936中,用户可以使用诸如下文关于图16A所描述的捕获图像附件用户界面来指定所捕获的图像用于处理。可替代地,在一些方法中,可以利用图16A描绘的捕获附件用户界面以在“全处理模式”和/或“预览模式”中捕获图像。
[0398] 在一些方法中,在以“捕获附件模式”捕获图像之后,在操作938中,可以在移动设备的显示器上将捕获附件结果用户界面呈现给用户。一旦阅读本描述,则如本领域的普通技术人员将理解的,捕获附件结果用户界面可以与图像捕获和处理结果用户界面、捕获图像QC用户界面或其任何组合大致相似。
[0399] 在特定优选实施例中,用户可以附加地和/或可替代地捕获图像数据之外的数据。例如,用户可以捕获如上文所描述的图像数据、视频数据和/或与案例有关的音频数据。一旦阅读本描述,则如本领域的普通技术人员将理解的,作为非限制性示例,用户可以捕获示出事故之后对车辆的四周详细破坏的视角或者描绘不动产的情况用于保险、估价等的视频。类似地,一旦阅读本描述,则如本领域的普通技术人员将理解的,与案例有关的音频数据可以包括例如事故中涉及的个人、目击者、对事故作出反应的警官等的经记录的陈述。下文将参考图16B-16C来描述捕获视频附件用户界面和捕获音频附件用户界面的示例性实施例。
[0400] 如图9所示,要与案例相关联的图像数据通过元素940来表示,视频数据通过元素942来表示,并且音频数据通过元素944来表示,其全部可以被包括在上文所描述并且图9所描绘的任何捕获模式和/或结果输出中或与其相关联。
[0401] 现在,参考操作916中的检视所捕获的图像,在各方法中,用户可以检视所捕获的图像,无论是以如上文所描述的“全处理模式”、“预览模式”、还是以“捕获附件模式”所捕获的。操作916可以包括功能性,诸如在操作946中编辑所捕获的图像、在操作948中删除所捕获的图像和/或在操作950中增强所捕获的图像。
[0402] 如本文所理解的,在操作946中编辑所捕获的图像可以包括对图像进行手动裁剪、缩放、旋转等。编辑还可以包括根据各种方法中的已知方法手动调节图像长宽比、亮度、对比度、锐利度、色泽、色彩等。在各方法中,编辑可以进一步包括对图像进行重新捕获。在更多方法中,一旦阅读本描述,则如本领域普通技术人员将理解的,编辑可以包括指定文档类型、大小或格式,其可以包括任何已知类型、大小或格式诸如美国信函、A3、A4、A5、分类账、法律、支票、商业名片等。在优选方法中,用户可以使用诸如下文将参考图13E来描述的编辑对象动作界面来对图像进行编辑。编辑对象动作界面可以促进用户通过对进一步的界面提供访问来对图像进行编辑,所述进一步的界面诸如如下文参考图13F-13G所讨论的约束对象用户界面和/或裁剪对象用户界面。
[0403] 一旦阅读本描述,则如本领域的普通技术人员将理解的,操作948中的删除图像可以包括移除图像与案例之间的任何关联、移除图像与移动图像捕获与处理应用之间的任何关联、从移动设备的存储器中删除图像、对存储与图像相对应的数据的移动设备的存储器的一部分进行覆写等。在一个实施例中,可以使用如下文参考图13C所描述的删除对象用户界面来删除案例对象。
[0404] 一旦阅读本描述,则如本领域的普通技术人员将理解的,操作950中的增强图像可以包括使用上文所描述的一个或多个算法功能性来对图像进行处理,包括检测和/或校正光照问题、检测和/或校正模糊、检测和/或校正歪斜、渲染图像双色调等。
[0405] 参考操作918中的键入案例数据,用户可以键入涉及案例和/或所捕获的图像并且与案例相关联的信息。可以键入任何相关信息。例如,一旦阅读本描述,则如本领域的普通技术人员将理解的,如果案例类型是贷款申请,那么用户可以键入诸如贷款数目、顾客姓名、日期、位置、账户编号、顾客地址、担保人姓名、贷款数额等信息。
[0406] 此外,一旦阅读本描述,则如本领域的普通技术人员将理解的,案例数据可以包括字母数字字符、可从下拉列表或字段选择的项、可经由复选框选择的预定的选项、拨动开关、元数据、元数据标签等。在优选实施例中,用户可以经由键入案例数据界面来键入案例数据。下文将参考图13I进一步详细描述键入案例数据用户界面的一个示例性实施例。
[0407] 参考操作920中的签署案例,用户可以捕获与案例有关的签名。一旦阅读本描述,则如本领域的普通技术人员将理解的,可以使用任何已知方法来捕获签名,并且所述签名可以包括典型地与商业过程相关联的任何类型的签名,例如手写签名、电子签名、数字签名等。在优选实施例中,用户可以使用诸如下文将参考图13J根据一个实施例描述的捕获签名用户界面来对签名进行捕获。当然,捕获签名的其它方法在本公开的范围内。
[0408] 参考操作922中的提交案例,用户可以检视、删除和/或提交案例例如到中央服务器或其它主机。一旦阅读本描述,则如本领域的普通技术人员将理解的,案例提交可以是有利的,因为用户可以随后从移动设备删除案例,释放存储器用于其它诉求,可以请求针对所提交的案例实施同级检视过程,可以转送或逐步升级案例以促进其进一步处理等。此外,案例提交允许远程采取这类动作,排除了物理地出行到提交位置的需要,以及减少了完成特定案例的处理所需要的时间和资源量。在优选实施例中,用户可以通过使用诸如下文参考图13K进一步详细描述的提交案例用户界面来提交案例。
[0409] 用于移动图像捕获和处理的用户界面
[0410] 下面的描述将阐述合适于实施上文特定参考图9所描述的功能性中的一个或多个的用户界面的示例性的非限制性实施例。当然,在其它实施例中,可以采用附加、可替代和/或等同界面而不脱离本公开的范围。
[0411] 下文所描述的用户界面可以在任何环境中采用,并且可以被用于促进实施本文所描述的任何功能性,包括上文参考图1-9在各方法中所描述的那些功能性。
[0412] 在一个实施例中,用于提供移动图像捕获和处理用户界面的方法2500可以包括诸如下文所描述的多个操作。此外,可以在包括本文所描述和/或同此呈现的各附图中所表示的那些环境的任何合适的环境中实施方法2500。
[0413] 此外,一旦阅读本描述,则如本领域的普通技术人员将领会的,方法2500可以包括实施如在各方法中参考同此提交的众多附图所描述的图像处理操作的任何组合。当然,一旦阅读本描述,则如本领域的普通技术人员将领会的,也可以通过使用目前公开的用户界面的一个或多个方面来促进或实施等同于本文所描述的那些功能性的其它功能性。
[0414] 现在参考图25-27,将根据数个例示性实施例来描述用于提供用户界面功能性的两个方法。一旦阅读本公开,则技术人员将领会的是,本文所表示的创造性实施例的范围不限于图25-27所呈现的方法。
[0415] 在一个实施例中,特定地,如图25所示,用于提供移动图像捕获和处理用户界面的方法2500可以包括诸如本文所描述的多个操作。此外,可以在包括本文所描述和/或同此呈现的各附图所表示的那些环境的任何合适的环境中实施方法2500。
[0416] 此外,一旦阅读本描述,则如本领域的普通技术人员将领会的,根据各实施例,可以在任何合适的环境中实施方法2500而不脱离本公开的范围,所述环境诸如本文所描述和/或同此呈现的各附图所表示的任何环境等等。
[0417] 在一个实施例中,并且特定地,如图25所示,方法2500包括操作2502,在其中接收捕获数据的请求。如本文所理解的,捕获数据可以包括图像数据和数字视频中的一个或多个。
[0418] 在另一实施例中,方法2500包括操作2504,在其中响应于接收捕获请求而使用移动设备的捕获组件来捕获数据。显著地,在一些方法中,一旦捕获到数据,则可以实施一个或多个图像处理操作,诸如页面检测、光照校正或本文所描述的其它功能。因此,一旦阅读本描述,则如本领域的普通技术人员将领会的,所捕获的数据可以是原始图像或视频、原始图像或视频的经处理的版本、初始或经处理的图像或视频的某一部分诸如从其提取的经检测的文档的图像等。
[0419] 在又一实施例中,方法2500包括操作2506,其中,将所捕获的数据输出到以下中的一个或多个:移动设备的显示器,移动设备的处理器和移动设备的存储介质;例如到移动设备显示器,移动设备处理器和/或存储器;服务器处理器和/或存储器等。
[0420] 在又一实施例中,方法2500包括操作2508,在其中例如经由移动设备接收对所捕获的数据进行分析的请求。
[0421] 在一个方法中,方法2500包括操作2510,其中,响应于接收分析所捕获的数据的请求,使用移动设备对所捕获的数据进行分析。例如,使用移动设备分析所捕获的数据可以包括根据与例如本文所讨论的图像处理操作相对应的一个或多个指令、使用移动设备处理器对所捕获的数据进行处理。
[0422] 在方法2500的更多实施例中,所捕获的数据可以与文档的数字表示相对应,所述文档的数字表示例如文档的数字图像,并且诸如在操作2510中对数据进行分析可以包括将文档的数字表示的一个或多个特性与一个或多个质量控制(QC)度量进行比较(例如将特性值与QC阈值进行比较);基于比较确定每个特性是否是可接受的,并且,针对每个特性:一旦确定特性是可接受的,则输出特性是可接受的的指示,一旦确定特性不是可接受的,则输出特性不是可接受的的指示,以及一旦确定每个特性是可接受的,则输出文档的数字表示是可接受的的指示。
[0423] 此外,一个或多个质量控制度量可以包括以下中的一个或多个:页面检测度量(例如页面检测操作是否成功和/或产生了诸如由上文参考图19所描述的一个或多个检查所指示的足够可靠的结果),光照度量,例如是否存在诸如上文参考图21-22所描述的一个或多个光照问题;以及模糊度量,例如数字图像中是否存在一个或多个模糊区,诸如上文参考图25所描述的。
[0424] 在一些方法中,方法2500可以进一步包括经由移动设备的显示器显示特性不是可接受的的指示;响应于显示而接收重新捕获数据的指令。显著地,如本文所理解的,“重新捕获数据”不意指捕获与初始捕获的数据相同的数据,而是再次捕获数据,该数据与文档的数字表示相对应,例如拍摄目标文档的新照片、视频等以尝试使用新照片、视频等进行处理。因此,在各实施例中,方法2500可以包括响应于接收指令而重新捕获数据;以及输出所重新捕获的数据。
[0425] 附加地和/或可替代地,在显示特性不是可接受的的指示之后,可以通过以下各项来进行方法2500:响应于显示而接收增强所捕获的数据的指令;响应于接收指令而增强所捕获的数据而不重新捕获数据;例如校正模糊、光照、歪斜,利用不同设置(如与本文所提供描述一致的并且技术人员检视这些公开将理解的较小步骤、不同路径、经修改的阈值等)实施页面检测以及输出经增强的数据。
[0426] 在一个实现方案中,方法2500包括操作2512,其中,将分析的结果输出到以下中的一个或多个:移动设备的显示器、移动设备的处理器以及移动设备的存储介质。
[0427] 在各实施例中,方法2500可以包括用于提供图像处理应用功能性的附加和/或可替代操作。
[0428] 例如,在一个实施例中,方法2500可以附加地和/或可替代地包括:接收修改一个或多个捕获数据参数的请求;以及,响应于请求来修改一个或多个捕获数据参数。此外,一旦阅读本描述,则如本领域的普通技术人员将领会的,一个或多个捕获数据参数可以包括以下中的一个或多个:闪光设置(例如开、关、自动);捕获稳定性辅助设置;例如输出在文档之上保持摄像机的指令、警告摄像机正在移动、保持摄像机静止的指令等;捕获对齐辅助设置;例如网格线ON/OFF、每个方向(水平、垂直)上网格线的数目、网格尺寸等;缩放等级;捕获色彩模式;例如黑/白、色彩、RGB、CMYK、灰度等;捕获数据目的地;例如处理器、存储器等。
[0429] 在更多实施例中,所捕获的数据可以与文档的数字表示相对应;并且,方法2500可以附加地和/或可替代地包括以下中的一个或多个:将文档的数字表示输出到移动设备的显示器;以及,接收与修改文档的数字表示的指令相对应的用户输入。例如,一旦阅读本描述,则如本领域的普通技术人员将理解的,与修改文档的数字表示的指令相对应的用户输入可以包括用户的手动操纵—裁剪、旋转、缩放、亮度、对比度、锐利度、色彩、色泽、文档边界等。此外,与修改文档的数字表示的指令相对应的用户输入可以包括实施一个或多个自动操作以修改文档的数字表示的指令,所述自动操作诸如本文所描述的任何图像处理操作。
[0430] 在附加和/或可替代方法中,方法2500还可以包括:接收与所捕获的数据相对应的元数据;以及,将元数据与所捕获的数据相关联。如本领域的普通技术人员将领会的,元数据可以包括本领域已知的任何类型的元数据,并且可以通过任何合适的手段与所捕获的数据相关联。在一个特定方法中,元数据与以下中的一个或多个相对应:字母数字字符、符号、签名例如手写的、电子的、数字的等;以及指针,例如文件指针、散列/数组引用等。
[0431] 在对于方法2500的更多方法中,对数据进行捕获可以包括从移动设备的存储介质读取数据,例如读取附件。
[0432] 在对于方法2500的更多方法中,所捕获的数据可以与文档的数字表示相对应,并且方法2500可以进一步包括:通过将文档的数字表示矩形化来校正所捕获的数据中的一个或多个伪影。如本文所理解的,伪影可以包括由于使用摄像机而不是平板扫描仪进行捕获的图像上给予的任何特性,诸如文档的数字表示的一个或多个部分的失真(例如文档边缘在图像中显现弯曲但真实地是直的、鱼缸式效果、由捕获视角引起的投影效果等),以及文档的数字表示的歪斜角度。
[0433] 现在参考图26,示出根据一个实施例的、用于提供案例管理用户界面的方法2600。一旦阅读本描述,则如本领域的普通技术人员将理解的,可以在任何合适的环境中实施方法2600,所述环境诸如本文所描述和/或同此呈现的各附图中所表示的任何环境。此外,可以结合本文所描述的任何图像处理操作和/或界面来使用根据方法2600所提供的案例管理用户界面而不脱离本公开的范围。
[0434] 在一个实施例中,方法2600包括操作2602,其中,将案例管理界面输出到移动设备的显示器。
[0435] 在一个实施例中,方法2600包括操作2604,其中,经由所显示的案例管理界面接收与一个或多个案例动作相对应的一个或多个指令,每个案例动作与至少一个案例相关联。在各方法中,案例动作可以包括以下中的一个或多个:创建新案例;打开现存案例;删除现存案例中的一个或多个;指定案例类型;捕获案例信息;捕获与文档的数字表示相对应的数据,数据包括图像数据或者视频数据;将所捕获的数据输出到移动设备的显示器;将所捕获的数据与新案例和现存案例中的一个或多个相关联;将所捕获的数据从新案例和现存案例中的一个或多个中分离;处理所捕获的数据;将经处理的数据输出到移动设备的显示器;经由移动设备的显示器接收用户输入;以及将新案例和现存案例中的一个或多个提交到远程服务器;打印与新案例和现存案例中的一个或多个有关的一个或多个文档;将案例信息与新案例和现存案例中的一个或多个相关联;捕获签名;检测文档的数字表示;
以及将签名与新案例和现存案例中的一个或多个相关联。
[0436] 此外,打印与一个或多个案例有关的一个或多个文档可以包括将打印请求从移动设备提交给远程资源,远程资源和移动设备不经由本地网络通信,即连接到两个分开的LAN、WAN、WLAN,分开地连接到蜂窝网络和本地网络等;以及响应于打印请求而在远程位置处使用远程资源打印一个或多个文档。
[0437] 在一个实施例中,方法2600包括操作2606,其中,响应于接收指令来实施一个或多个案例动作。
[0438] 在各实施例中,方法2600可以包括诸如下文继续参考图26所描述的一个或多个附加和/或可替代操作。例如,在一个实施例中,方法2600还可以包括:将数据捕获界面输出到移动设备的显示器用于捕获包括文档的数字表示的图像;接收来自用户的经由数据捕获界面对图像进行捕获的请求;响应于接收请求来对图像进行捕获,该捕获使用移动设备的捕获组件来实施;以及将所捕获的图像与一个或多个案例相关联。
[0439] 在与方法2600相当的一些方法中,捕获可以包括以下中的一个或多个:经由移动设备的显示器接收用户输入;响应于用户输入使用移动设备的捕获组件来捕获数据,以及响应于用户输入从移动设备的计算机可读存储介质中读取数据。
[0440] 在更多方法中,一旦阅读本描述,则如本领域的普通技术人员将理解的,用户输入可以和与案例有关的元数据相对应,诸如字母数字字符、符号、签名例如手写的、电子的、数字的等,以及指针例如文件指针、散列/数组引用等。在这类方法中,方法2600可进一步包括将元数据与新案例和现存案例中的一个或多个相关联。
[0441] 实现方法2600的各方法可以进一步和/或可选地包括:将多个潜在案例类型显示在用户设备的显示器上;经由移动设备的显示器接收用户输入,该用户输入指示多个潜在案例类型之一是期望的案例类型;以及将案例类型指定为期望的案例类型。此外,潜在案例类型可以包括:保险索赔;贷款申请;交货证明;未定义的案例类型;新账户开设;教育程序应用;医疗记录;费用管理;事故报告;以及用户定义的案例类型。
[0442] 当然,一旦阅读本描述,则如本领域的普通技术人员将理解的,与上文参考图26和方法2600阐述的原则相似,还可以以与任何其它方法的任何组合并在本文所描述的任何环境中以及其等同物中利用方法2600。
[0443] 例如,在一个实施例中,可以结合上文参考图1-9和19-25所讨论的任何图像处理操作来利用方法2600。一旦阅读本描述,则如本领域的普通技术人员将理解的,适合于与方法2600一起使用的示例性操作和/或由此提供的相对应的案例管理界面包括页面检测、页面矩形化、光照问题检测和/或校正、分辨率估计、模糊检测等。
[0444] 在又一实施例中,方法2600可以附加地和/或可替代地包括:将认证界面输出到移动设备的显示器;经由认证界面接收认证数据;接收认证请求;响应于接收认证请求来确定认证数据是否有效;一旦确定认证数据有效,则准予对一个或多个安全案例动作的访问,其中,任何案例动作可以是特定环境中的安全案例动作;以及,一旦确定认证数据不是有效的,则拒绝对安全案例动作的访问。
[0445] 在另一实施例中,方法2600还可以包括:通过将文档的数字表示矩形化来校正图像中的一个或多个伪影。
[0446] 如本文所述,伪影可以包括由于使用摄像机而不是平板扫描仪进行捕获的图像上给予的任何特性。例如,伪影可以包括以下中的一个或多个:文档的数字表示的一个或多个部分的失真,(例如文档边缘在图像中显现弯曲但真实地是直的、鱼缸式效果、由捕获视角引起的投影效果等),以及文档的数字表示的歪斜角度。当然,一旦阅读本描述则如技术人员将已知的,其它伪影也在这些公开的范围内。
[0447] 一旦阅读本描述,则如本领域的普通技术人员将理解的,用户可以使用任何已知的交互方法与每个用户界面的各种组件进行交互,包括轻击移动设备显示器上的一个或多个区,实施一个或多个手势(例如刷(swipe)、捏、展开、滚动、淘选等),每个使用接触的一个或多个点等。
[0448] 现在参考图10A-18B,将根据数个例示性实施例来描述与本公开范围相当的移动应用用户界面的各种示意图。一旦阅读本描述,则如本领域的普通技术人员将已知的,本文所表示的创造性实施例的范围不限于图10A-18B呈现的特征和实施例,而是包括其所有等同物。
[0449] 此外,技术人员阅读本描述将领会的是,可以利用图10A-18B描绘的用户界面的各实施例来促进和/或实施本文所描述的算法过程的任何操作,包括图1-9和26-26所表示的那些操作等等。
[0450] 特定参考图10A,示出根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的用户认证界面1000的示意性表示。
[0451] 在一些方法中,用户认证界面1000可以包括多个对象,包括一个或多个数据键入字段1002、交互按钮和/或以及拨动开关1004、1006。优选地,用户认证界面还包括将目前所显示的界面描述给用户的标题栏1008。
[0452] 如本领域的普通技术人员将领会的,一旦与数据键入字段1002交互,例如通过轻击移动设备显示数据键入字段1002的区,则用户可以使用任何已知方法将数据键入数据键入字段1002。例如,一旦与数据键入字段1002交互,则可以将诸如移动设备的显示器上表示的QWERTY布局的键盘的输入界面呈现给用户。附加地和/或可替代地,在一个实施例中,用户可以从下拉列表中选择预定的一组数据条目中的一个,其可以从或可以不从由用户先前键入的数据和/或默认条目来创建和/或补充。在特定优选实施例中,用户可以将用户ID和密码中的一个或多个键入到用户认证界面1000的数据键入字段1002。
[0453] 也如本领域的普通技术人员阅读本描述将理解的,在更多实施例中,用户可以使用任何已知方法来与交互按钮1004、1006进行交互,例如轻击、刷、打手势等。特定参考用户认证界面1000,一旦与交互按钮1004、1006交互,则移动应用可以采取动作,诸如保存用户ID、使用数据字段1002中所提供的认证信息来尝试使用户登录到用户账户中,提供关于移动应用的信息和/或取消认证尝试。
[0454] 图10B是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的主机连接用户界面1010的示意性表示。如图10B所示,主机连接用户界面包括多个数据键入字段1014和交互按钮1012。数据键入字段可以以与上文关于图10A所描述的方式大致相似的方式来操作,并且在主机连接用户界面1010中优选地可以与以下中的一个或多个相关:用户ID、密码和一个或多个主机设备URL。类似地,交互按钮1012可以以与上文关于图10A所描述的方式大致相似的方式来操作,并且在主机连接用户界面1010中可以优选地辅助用户导航回到用户认证界面1000和/或如下文参考图17A-B详细描述的设置界面。可选地,交互按钮1012中的一个或多个可以使用数据字段1014中所提供的认证信息来启动认证尝试。
[0455] 图11是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的案例创建用户界面1100的示意性表示。如图11所示,案例创建用户界面1100包括标题区1106,其可以显示用户正与案例创建用户界面交互的标示,并且可以附加地和/或可替代地显示识别与一个或多个案例相关联的经认证的用户账户的信息。例如,在一些实施例中,用户认证信息可以包括键入到如上文关于图10A和/或10B所讨论的认证界面1000或1010中的用户名。
[0456] 在各方法中,案例窗口用户界面1100可以进一步包括用于促进用户的一个或多个案例创建动作的多个交互按钮1102。例如,案例创建动作可以包括以下中的一个或多个:打开新案例、打开未决案例以及检索关于所选择的案例的信息。此外,案例创建用户界面1100可以包括以列表格式布置的多个字段1104,每个字段显示涉及一个或多个现存案例的信息并且显示相关案例信息以辅助用户识别案例。例如,一旦阅读本描述,则如本领域的普通技术人员将理解的,字段1104可以显示诸如案例类型、案例编号、案例打开日期、与案例相关联的个人的姓名等。在优选实施例中,具有在多个字段1104之一中所显示的信息的案例可以表征为“未决的”案例,即先前被打开但未提交到主机设备的案例。
[0457] 在一个实施例中,一旦用户与设计为促进打开新案例的交互按钮1102交互,则可以将促使用户从其选择适当案例类型以与新打开的案例相关联的案例类型的列表呈现给用户。一旦选择案例类型,则新案例可以具有与之相关联的一个或多个案例类型的具体性质,诸如文档页面大小、页面的数目、色彩模式(例如黑白、灰度、色彩、自动等)和/或被提供用于将一个或多个附件(例如电子文档)与案例相关联的界面。
[0458] 此外,一旦通过与交互按钮1102和/或字段1104中的一个或多个交互打开新案例和/或现存案例,则显示案例创建界面的移动应用可以可选地使案例数据与存储在主机例如中央服务器上的信息同步。然而,如果移动设备未与主机连接,或者不能与主机建立或认证安全会话,那么移动应用可以利用涉及案例的经本地高速缓存的数据。在各方法中,可以使用任何已知方法来实施同步和本地数据高速缓存。
[0459] 在数个实施例中,一旦打开新案例或选择现存案例,则可将用户指引到案例对象管理用户界面,诸如大致如图12示出的案例对象管理用户界面1200。在一个实施例中,案例对象管理用户界面1200可以显示一个或多个案例对象1202-1206,其可以与或可以不与案例相关联。在其中案例对象1202-1206不与案例相关联的实施例中,案例对象1202-1206可以是存储在集成到移动设备中或耦连到移动设备的存储介质上的文件,所述存储介质例如移动设备、主机设备的存储介质或者另外耦连到移动设备的存储介质。进一步地,在其中一个或多个案例对象1202-1206不与案例相关联的实施例中,案例对象管理用户界面可以促进用户将案例对象1202-1206中的一个或多个与打开的案例相关联。在进一步的实施例中,案例对象管理用户界面1200可以通过提供交互按钮1208来促进用户使存储在移动设备、主机等的存储介质上、但不显示在案例对象管理用户界面中的数据相关联,所述交互按钮1208配置为辅助用户导航到描绘存储在存储介质上的数据的显示器(未示出)。如本领域的普通技术人员阅读本描述将领会的,这类显示器可以本地于移动设备操作系统、主机操作系统等。
[0460] 如本文所理解的,一旦阅读本描述,则如本领域的普通技术人员将理解的,案例对象可以包括以下中的一个或多个:数字图像、数字视频、音频等。此外,在一个实施例中,案例对象管理用户界面1200可以进一步包括显示案例对象1202-1206的数目和/或与案例相关联的案例对象类型的汇总1210。例如,如果案例具有与之相关联的五个图像1202、三个视频1204和两个音频片段1206(如图12所示),那么汇总1210可以显示将这些数据传达给用户的信息,例如“5个图像、3个视频、1个音频”。
[0461] 在一些方法中,并且与上文所讨论的界面相似,示例性案例对象管理用户界面1200可以包括标题区1212,其可以显示用户正与案例对象管理用户界面交互的标示,并且可以附加地和/或可替代地显示涉及一个或多个案例对象1202-1206与其相关联的案例的信息。
[0462] 用户可以优选地与一个或多个案例对象1202-1206进行交互以促进实施涉及案例对象1202-1206的一个或多个案例管理动作或对案例对象1202-1206实施一个或多个案例管理动作。例如,用户可以通过轻击渲染一案例对象1202-1206的移动设备显示器的区来选择一个或多个案例对象1202-1206。根据一个实施例,一旦选择一个或多个案例对象1202-1206,则可以修改所选择的案例对象1202-1206的经渲染的表示以提供案例对象1202-1206已被选择的标示,例如通过覆盖诸如如图13A示出的被选择的对象管理用户界面1300所描绘的记号1302的显示。
[0463] 在另一实施例中,一旦选择一个或多个案例对象1202-1206,则案例对象管理用户界面1200可以例如在如图13A所描绘的标题区1304中显示上文关于图12未描述的附加信息,诸如显示一个或多个标记1302和/或显示被选择的案例对象1202-1206的总数目。
[0464] 此外,被选择的对象管理用户界面可以显示促进对被选择的案例对象1202-1206实施一个或多个案例动作的一个或多个交互按钮1306。例如,交互按钮1306可以促进对一个或多个被选择的案例对象1202-1206实施处理算法。在优选实施例中,处理算法可以包括大致如上文所描述并且特定地如上文关于图3-9所描述的一个或多个功能。可以在后台处理、前台处理等中使用移动设备的处理器来实施处理,或者可替代地可使用主机设备的处理器来实施处理。
[0465] 在附加方法中,案例动作可以进一步包括删除一个或多个被选择的案例对象1202-1206,例如通过选择一个或多个案例对象1202-1206并且随后与删除按钮进行交互,所述删除按钮可以是交互按钮1306之一。案例动作可以进一步包括本文以及特定参考图
3-9所讨论的任何操作,并且,在各实施例中,被选择的案例对象管理界面1300可以促进对用户双击的案例对象1202-1206实施这类案例动作中的一个或多个,因此,被选择的案例对象管理界面1300可以指引用户到能够关于被双击的案例对象1202-1206被实施的案例动作的列表。
[0466] 在示例性方法中,可以经由诸如图13B示出的案例管理动作用户界面1310辅助用户对双击的案例对象1202-1206实施案例动作。在图13B描绘的实施例中,案例管理动作用户界面1310包括多个交互按钮1312,所述交互按钮1312配置为促进对被选择的案例对象1202-1206或一般针对当前打开的案例实施一个或多个案例动作。此外,案例管理动作用户界面1310可以包括标题区1314,所述标题区1314配置为显示用户当前正与案例管理动作用户界面1310交互的标示和/或涉及当前打开的案例的信息。
[0467] 如上文所描述的,案例动作可以包括本文所讨论的任何操作,并且可以优选地包括上文参考图3-9所讨论的一个或多个操作,诸如对涉及案例的图像、视频、音频等进行捕获、键入涉及案例的信息、签署案例、提交案例、修改案例类型、删除案例等。此外,在特定优选实施例中,与交互按钮1312之一交互可将用户指引到诸如下文所描述的相对应的用户界面。
[0468] 图13C是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的删除对象用户界面1320的示意性表示。在其中显示在案例管理动作用户界面1310中的交互按钮1312之一促进实施删除对象案例动作的实施例中,一旦用户和与删除对象案例动作相对应的交互按钮1312交互,则可将用户指引到诸如图13C中显示的删除对象用户界面1320。
[0469] 在一个实施例中,删除对象用户界面1320可以包括多个交互按钮1322和标题区1324。交互按钮1322可以促进一个或多个案例动作,诸如删除与案例相关联的案例对象
1202-1206,、删除整个案例和/或在删除对象用户界面1320与本文所描述的任何其它用户界面之间进行导航。一旦阅读本描述,则如本领域的普通技术人员将理解的,标题区1324可以显示正向用户呈现删除对象用户界面1320的标示、关于案例的信息等。
[0470] 图13D是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的编辑对象用户界面1330的示意性表示。在其中显示在案例管理动作用户界面1310中的交互按钮1312之一促进实施编辑对象案例动作的实施例中,一旦用户和与编辑对象案例动作相对应的交互按钮1312交互,则可将用户指引到诸如图13D中显示的编辑对象用户界面1330。
[0471] 在一个实施例中,编辑对象用户界面1330可以包括交互按钮1332和动作按钮1334,以及标题区1336。交互按钮1332可以促进一个或多个案例动作,诸如保存与案例相关联的案例对象1202-1206、撤销在案例对象1202-1206上实施的一个或多个编辑和/或在编辑对象用户界面1330与本文所描述的任何其它用户界面之间进行导航。一旦阅读本描述,则如本领域的普通技术人员将理解的,动作按钮1334可以通过使用一个或多个编辑对象动作工具使用户能够与案例对象1202-1206交互来特定地促进对案例对象1202-1206实施一个或多个编辑动作,所述工具诸如裁剪工具、约束工具等,诸如本文参考图13E和13F所描述的。
[0472] 此外,一旦阅读本描述,则如本领域的普通技术人员将理解的,标题区1336可以显示正向用户呈现编辑对象用户界面1330的标示、关于案例的信息等。
[0473] 图13E是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的编辑对象动作用户界面1340的示意性表示。在图13E描绘的示例性实施例中,编辑对象动作用户界面1340包括多个交互按钮1342和标题区1344。一旦阅读本描述,则如本领域的普通技术人员将理解的,标题区1344可以显示正向用户呈现编辑对象动作用户界面1340的标示、关于案例的信息等。
[0474] 在数个方法中,交互按钮1342可以促进一个或多个案例动作,诸如保存与案例相关联的案例对象1202-1206、撤销在案例对象1202-1206上实施的一个或多个编辑和/或在编辑对象用户界面1340与本文所描述的任何其它用户界面之间进行导航。交互按钮1342可以通过使用一个或多个编辑对象动作工具使用户能够手动与案例对象1202-1206进行交互来特定地促进对案例对象1202-1206实施一个或多个编辑动作,所述工具诸如裁剪工具、约束工具、亮度工具、锐利度工具、对比度工具、色泽工具等。
[0475] 在附加实施例中,交互按钮1342可以促进对案例对象1202-1206实施如本文所描述的一个或多个算法操作。例如,一旦阅读本描述,则如本领域的普通技术人员将理解的,用户可以与一个或多个交互按钮1342进行交互以启动光照增强过程、模糊检测过程、页面检测过程、页面变换(例如矩形化)过程、抗歪斜过程、重新捕获过程等。
[0476] 图13F是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的裁剪对象用户界面1350的示意性表示。如图13F所示,裁剪对象用户界面1350包括标题区1359、多个交互按钮1352、文档的数字表示1354、包括通过一个或多个边缘1356和多个角1358表征的窗口的裁剪工具。在任何点处,并且优选地通过与交互按钮
1352中的一个或多个进行交互,用户可以取消裁剪操作并且导航到本文所描述的用户界面中的另一个,可以保存裁剪操作的结果或可以将窗口重新设置到预定的默认位置。在一些方法中,交互按钮1352之一可以促进用户与诸如下文将参考图13G描述的约束工具进行交互。
[0477] 一旦阅读本描述,则如本领域的普通技术人员将理解的,标题区1359可以显示正向用户呈现编辑对象动作用户界面1350的标示、关于案例的信息等。
[0478] 在优选实施例中,用户可以与边缘1356和/或角1358中的一个或多个进行交互以按期望调节窗口的边界,例如以仅包括文档的数字表示1354和包括文档的数字表示1354的图像的背景的最小部分。
[0479] 图13G是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的约束对象用户界面1360的示意性表示。如图13G所示,约束对象用户界面1360包括标题区1364、多个交互按钮1362和文档的数字表示1354。在一些方法中,一旦与裁剪对象用户界面1350的交互按钮1352之一进行交互,则可以将约束对象用户界面1360呈现给用户,所述按钮配置为促进用户与约束对象用户界面1360进行交互。
[0480] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在一个实施例中,多个交互按钮1362中的每一个可以与已知文档大小相对应,诸如8.5”×11”信函、8.5”×14”法律文档、A3大小的文档、A4大小的文档、A5大小的文档、分类账、商业名片、个人支票等。当然,一旦阅读本描述,则如本领域的普通技术人员将领会的,交互按钮1362也可以与其它已知文档大小相对应。再进一步地,交互按钮1362还可以促进约束对象用户界面1360与本文所描述的任何其它用户界面之间的用户导航,以及取消/撤销诸如下文所描述的约束操作。
[0481] 在优选实施例中,一旦用户与交互按钮1362之一交互,则窗口(包括边缘1356和角1358)的大小和长宽比可以被设置到与由用户与其交互的交互按钮1362表示的文档的类型相对应的已知长宽比和大小。在一个方法中,用户随后可以调节窗口的位置以包含文档的数字表示1354。
[0482] 一旦阅读本描述,则如本领域的普通技术人员将理解的,标题区1364可以显示正向用户呈现编辑对象动作用户界面1360的标示、关于案例的信息等。
[0483] 图13H是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的案例类型管理用户界面1370的示意性表示。如图13H所示,案例类型管理用户界面1370包括一个或多个交互按钮1372、一个或多个字段1374以及标题区1376。
[0484] 在一个实施例中,交互按钮1372可以促进案例类型管理用户界面1370与本文所描述的任何其它用户界面之间的用户导航,以及取消/撤销案例类型管理操作。
[0485] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在优选实施例中,用户与案例类型管理界面1370交互可以通过与字段1374之一交互来设置和/或改变与打开的案例相关联的案例类型,每个字段优选地与具体案例类型的数据与其相关联的特定案例类型相对应,例如一个或多个文档类型、大小、长宽比、案例信息诸如顾客姓名、日期、位置、贷款数目等。
[0486] 一旦阅读本描述,则如本领域的普通技术人员将理解的,标题区1376可以显示正向用户呈现编辑对象动作用户界面1370的标示、关于案例的信息等。
[0487] 图13I是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的键入案例数据用户界面1380的示意性表示。如图13I所示,键入案例数据用户界面包括标题区1389、多个交互按钮1382、多个案例数据字段1384以及包括多个输入键1388的用户输入界面1386。在优选实施例中,用户输入界面1386可以大致表示任何数目的标准用户输入界面,诸如键盘。
[0488] 交互按钮1382可以促进键入案例数据用户界面1380与本文所描述的任何其它用户界面之间的用户导航,以及对案例数据输入操作进行保存、取消、撤销等。
[0489] 在一个实施例中,一旦与案例数据字段1384之一交互,则可以将用户输入界面1386呈现给用户以促进用户将案例数据键入到案例数据字段1384。
[0490] 一旦阅读本描述,则如本领域的普通技术人员将理解的,标题区1389可以显示正向用户呈现编辑对象动作用户界面1380的标示、关于案例的信息等。
[0491] 图13J是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的捕获签名用户界面1390的示意性表示。如图13J所示,捕获签名用户界面包括多个交互按钮1392、签名捕获区1394、案例数据显示区1396以及标题区1398。
[0492] 交互按钮1392可以促进捕获签名用户界面1390与本文所描述的任何其它用户界面之间的用户导航,以及对签名捕获操作进行保存、取消、撤销等。
[0493] 一旦阅读本描述,则如本领域的普通技术人员将理解的,签名捕获区域1394可以促进用户捕获签名,例如使用触笔的手写签名,附上和/或上传电子签名或数字签名等,或者经由捕获签名数据的任何其它已知方法。
[0494] 在一些方法中,案例数据显示区1396可配置为显示诸如可由用户利用大致如上文参考图13I所描述的案例数据键入用户界面1380所键入到案例数据字段1384之一中的案例数据。当然,可以在案例数据显示区1396中显示任何类型的案例数据。
[0495] 一旦阅读本描述,则如本领域的普通技术人员将理解的,标题区1398可以显示正向用户呈现编辑对象动作用户界面1390的标示、关于案例的信息等。
[0496] 图13K是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的提交案例用户界面13000的示意性表示。如图13K所示,提交案例用户界面13000包括多个交互按钮13002、进度条13004和一个或多个案例数据显示区13006。
[0497] 交互按钮1392可以促进捕获签名用户界面1390与本文所描述的任何其它用户界面之间的用户导航,以及对案例进行提交、删除等。
[0498] 在一个方法中,进度条13004可例如通过网络将关于提交案例的进度信息提供到远程主机。在优选方法中,进度条13004经由从左到右方向上改变外观(例如通过填充特定色彩,诸如绿色、黄色、红色等)的进度条13004来提供提交进度的视觉标示。当然,也可以采用指示提交进度的其它方法(例如通过显示完成百分比、数据上传速率和/或已上传数据量等)而不脱离本公开的范围。
[0499] 在更多实施例中,在一些方法中,案例数据显示区13006可配置为显示诸如由用户利用大致如上文参考图13I所描述的案例数据键入用户界面1380所键入到案例数据字段1384之一中的案例数据。当然,可以在案例数据显示区1396中显示任何类型的案例数据。
[0500] 在数个方法中,促进输出涉及一个或多个案例的数据对于创建案例数据的物理表示、涉及案例的图像等可以是有利的。在一个示例性方法中,移动软件应用可以包括配置为促进打印案例信息和相关联的图像的一个或多个界面,诸如下文参考图14A-14D所描述的。
[0501] 图14A是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的打印案例用户界面1400的示意性表示。如图14A所示,打印案例用户界面1400可以包括多个交互按钮1402、多个描述字段1404,每个字段可选地包括选择界面1406和标题区1408。
[0502] 在一个实施例中,交互按钮1402可以促进涉及对案例、与案例有关的图像或其它数据等进行打印的一个或多个用户动作。例如,一旦阅读本描述,则如本领域的普通技术人员将理解的,交互按钮1402可以促进打印案例用户界面1400与本文所描述的任何其它用户界面之间的用户导航,可以促进用户例如依据使用电子绘图系统的地理位置、依据先前使用(例如搜遍打印历史)来搜索打印机,可以促进用户修改一个或多个打印设置,可以促进用户结合地图查看打印机等。
[0503] 在进一步的实施例中,描述字段1404可以包括描述一个或多个打印机、打印位置等的信息,诸如打印机的地理位置(例如地址、离移动设备的距离等)、控制打印机的实体的名称,例如“联邦快递(FedEx)”、“AIM邮件中心(AIM Mail Center)”、“双树旅馆”、“金考(Kinkos)”等,和/或对促进用户定位打印机用于在对涉及案例的信息进行打印时使用有用的任何其它识别信息。在优选实施例中,一旦阅读本描述,则如本领域的普通技术人员将理解的,可以根据用户提交的搜索查询(未示出)来检索和/或组织描述字段1404中显示的一些或所有数据,所述搜索查询可被利用以使用诸如搜索引擎、关系数据库、电子服务清单等电子资源来定位涉及一个或多个打印机的信息。
[0504] 在数个实施例中,一个或多个描述字段1404可以进一步包括选择界面1406,其配置为促进用户选择与显示在各自的描述字段1404中的信息相关联的打印资源。在各方法中,一旦与选择界面1406进行交互,则打印案例用户界面可以显示关于相关联的打印资源的附加细节和/或界面,和/或可以促进用户将打印作业提交到打印源。下文参考图14B-14D描述可经由选择界面访问的附加细节和/或界面的数个示例性实施例。
[0505] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在更多实施例中,标题区1408可以显示正向用户呈现打印案例用户界面1400的标示、关于案例的信息等。
[0506] 图14B是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的选择打印机用户界面1410的示意性表示。如图14B所示,选择打印机用户界面1410可以包括多个交互按钮1412、搜索查询字段1414、打印机数据字段1416、打印机资源快捷方式界面1418以及标题区1419。
[0507] 在一个实施例中,交互按钮1402可以促进涉及打印案例、与案例有关的图像或其他数据等的一个或多个用户动作。例如,一旦阅读本描述,则如本领域的普通技术人员将理解的,交互按钮1412可以促进选择打印机用户界面1410与本文所描述的任何其它用户界面之间的用户导航,可以促进用户例如依据使用电子绘图系统的地理位置、依据先前使用(例如搜遍打印历史)来搜索打印机,可以促进用户修改一个或多个打印设置,可以促进用户结合地图查看打印资源,特别是移动设备的预定距离内的打印资源等。
[0508] 在数个实施例中,搜索查询字段1414可配置为接受来自用户的输入并且促进通过搜索过程对打印资源进行定位。一旦阅读本描述,则如本领域的普通技术人员将理解的,搜索过程可以使用诸如搜索引擎、关系数据库、电子服务清单等可选地对涉及一个或多个打印机的信息进行定位。可以连同搜索查询字段使用任何已知搜索方法,并且可以使用任何合适形式的输入,特别是接收自用户的字母数字输入来实施搜索。
[0509] 在更多实施例中,打印机数据字段1416可以显示与一个或多个打印资源相关联的数据,诸如地理位置、网络地址、打印机描述等。此外,一旦阅读本描述,则如本领域的普通技术人员将理解的,打印机数据字段1416可以促进显示先前已被用户选择的一个或多个打印资源,和/或先前已被用户指定为属于特定打印资源分类的打印资源,例如“最喜欢的”打印资源,“最后使用的”资源等。
[0510] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在更多实施例中,标题区1419可以显示正向用户呈现选择打印机用户界面1410的标示、关于案例的信息等。
[0511] 图14C是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的打印细节用户界面1420的示意性表示。如图14C所示,打印细节用户界面1420包括多个交互按钮1422、多个打印数据字段1424,每个打印数据字段1424通过以下中的一个或多个来表征:选择界面1426和/或标志界面1428,以及标题区1429。
[0512] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在一个实施例中,多个交互按钮1422可以促进打印细节用户界面1420与本文所描述的任何其它用户界面之间的用户导航,可以促进用户例如依据使用电子绘图系统的地理位置、依据先前使用(例如搜遍打印历史)来搜索打印机,可以促进用户修改一个或多个打印设置等。
[0513] 在数个实施例中,打印数据字段1424可以显示关于打印任务的一个或多个细节,例如与要打印的图像相关联的数据、打印位置等。此外,每个数据字段1424可以可选地包括以下中的一个或多个:选择界面1426和/或标志界面1428。选择界面1426可以促进用户选择数据字段1424中显示的数据用于进一步检视,例如以查看具有显示在数据字段1424中的与之相关联的数据的图像。类似地,在各实施例中,标志界面1428可以例如通过将特定打印资源、打印位置等指定为“最喜欢的”资源、位置等来促进用户将显示在数据字段1424中的数据指定为属于特定分类的数据或者与特定分类的数据相关联。
[0514] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在更多实施例中,标题区1429可以显示正向用户呈现选择打印机用户界面1420的标示、关于案例的信息等。
[0515] 图14D是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的打印作业用户界面1430的示意性表示。如图14D所示,打印作业用户界面包括多个交互按钮1432、打印作业数据字段1434、打印作业进度指示器1436、打印作业成功指示器1438以及标题区1439。
[0516] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在一个实施例中,多个交互按钮1432可以促进打印细节用户界面1430与本文所描述的任何其它用户界面之间的用户导航,可以促进用户例如依据使用电子绘图系统的地理位置、依据先前使用(例如搜遍打印历史)来搜索打印机,可以促进用户修改一个或多个打印设置等。
[0517] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在更多实施例中,打印作业数据字段1434可以显示涉及打印作业的数据,例如打印作业位置、打印作业资源、打印作业提交状态、打印作业提交日期/时间、打印作业持续时间、打印作业大小(文件大小、页数等)和/或其它打印作业数据。在一些方法中,打印作业数据字段可以包括诸如进度条的打印作业进度指示器1436,其在外观和功能上可以与上文参考图13K所描述的进度条13004大致相似。当然,一旦阅读本描述,则如本领域的普通技术人员将理解的,其它进度指示器在本公开的范围内,包括诸如显示打印作业完成百分比、打印作业剩余时间、打印作业数据转移等的进度指示器。
[0518] 如本领域的普通技术人员将理解的,在优选实施例中,打印作业用户界面1430还可以包括打印作业成功指示器1438,其可以采取任何已知形式,诸如显示图标、符号、字母数字文本等,指示打印作业已成功上传到打印资源、已成功生成数字提交的打印作业的物理表示等。
[0519] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在更多实施例中,标题区1439可以显示正向用户呈现选择打印机用户界面1430的标示、关于案例的信息等。
[0520] 现在转到图15A-16D,描绘了图像捕获用户界面的数个示例性实施例。图15A-16D示出的示例性实施例仅表示用于本公开的范围内的这类图像捕获用户界面的潜在配置,并且可以结合本文所描述的移动图像捕获和处理算法和/或应用来利用任何已知图像捕获界面或方法。
[0521] 图15A是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的图像捕获用户界面1500的示意性表示。一旦阅读本描述,则如本领域的普通技术人员将理解的,如图15A所示,图像捕获用户界面1500包括多个交互按钮1502,其配置为促进用户实施一个或多个图像捕获动作,诸如调节闪光模式(例如选择自动闪光、闪光打开、闪光关闭等之一)、捕获内容、在图像捕获用户界面1500与本文所描述的任何其它界面之间进行导航、将图像数据、视频数据和/或音频数据中的一个或多个与所捕获的图像相关联等。
[0522] 图15B是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的另一图像捕获用户界面1510的示意性表示。与上文所描述的图像捕获用户界面1500相似,图1510示出的图像捕获用户界面1510也包括具有如上文关于图15A所讨论的大致同样的功能性的多个交互按钮1502。此外,图像捕获用户界面1510可以进一步配置为辅助用户捕获高质量数字图像用于利用本文所描述的一个或多个算法处理操作的高效、准确的处理。
[0523] 例如,在一个实施例中,图像捕获用户界面1510可以配置为例如经由指引移动设备的捕获组件捕获图像的交互按钮1502之一来接收来自用户的输入。一旦接收到这类输入,则图像捕获用户界面1510可以例如在状态消息区1512中显示图像捕获辅助消息,指导用户采取一个或多个动作以促进捕获高质量的图像。在优选实施例中,移动应用可以与集成于移动设备的回转仪和/或加速计中的一个或多个通信,并且可以接收指示移动设备移动的量和/或方向的稳定性数据。在各实施例中,可以从加速计、回转仪或这二者接收这类稳定性数据。
[0524] 一旦阅读本描述,则如本领域的普通技术人员将理解的,一旦检测到移动设备移动的量和/或方向,则状态消息区1512可以指导用户保持移动设备静止、将移动设备放置在平面上、或者采取促进捕获高质量的图像的其它动作。在优选实施例中,一旦检测到移动设备移动的量和/或方向小于预定的阈值,则状态消息区1512可以显示另一消息,所述另一消息指示图像捕获处于进行中。
[0525] 图15C是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的图像捕获结果用户界面1520的示意性表示。如图15C所示,图像捕获结果用户界面包括多个交互按钮1522、包括文档的数字表示的所捕获的图像1524、以及状态消息区1526。
[0526] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在一个实施例中,多个交互按钮1522可以配置为促进用户实施一个或多个图像检视动作和/或一个或多个图像捕获动作,如捕获内容、重新捕获内容和/或在图像捕获结果用户界面1520与本文所描述的任何其它界面之间导航、将图像数据、视频数据和/或音频数据中的一个或多个与所捕获的图像相关联等。
[0527] 在一些实施例中,一旦捕获到诸如图像的内容,则可以将图像捕获结果用户界面1522输出到移动设备的显示器,并且可以在状态消息区1526中显示涉及所捕获的内容的信息。一旦阅读本描述,则如本领域的普通技术人员将理解的,在优选实施例中,涉及所捕获的内容的信息可以特定地与所捕获的内容的质量相关,例如是否在图像中检测到文档的数字表示,图像是否通过一个或多个模糊区来表征,图像的光照特性是否是可接受的等。当然,无论涉及图像质量与否,可以在状态消息区域1526中附加地和/或可替代地显示其它信息而不脱离本公开的范围。
[0528] 图16A是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的捕获图像附件用户界面1600的示意性表示。如图16A所示,捕获图像附件用户界面1600包括多个交互按钮1602和多个水平和/或垂直网格线1604。
[0529] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在各方法中,多个交互按钮1602可配置为促进用户实施一个或多个图像附件捕获动作,如捕获内容、保存所捕获的内容、重新捕获内容、调节图像捕获设置诸如闪光、缩放、亮度、色彩/灰度等以及促进图像附件捕获结果用户界面1600与本文所描述的任何其它界面之间的用户导航等。
[0530] 一旦阅读本描述,则如本领域的普通技术人员将领会的,包括多个网格线1604的捕获图像附件用户界面1600的实施例可以辅助用户将捕获组件的捕获字段与目标内容例如文档的边界对齐。在各实施例中,当与捕获附件用户界面1600交互时,用户可能能够切换移动显示器上的可见网格线1604的存在,可能能够自定义网格线(例如水平、垂直、二者或二者均不)的数目和方向,并且可能能够确定网格线1604的定位,使得例如网格内的中心区与预定的一组已知尺寸相对应。在优选实施例中,与预定的一组已知尺寸相对应的网格内的区可以与已知文档类型的尺寸相对应,所述文档类型可以包括本文所描述的任何类型以及技术人员阅读本描述将领会的其它类型。
[0531] 在附加和/或可替代实施例中,使用捕获图像附件用户界面1600,用户可以捕获存储在集成到移动设备或者耦连到移动设备的存储介质上的图像,使用移动设备的捕获组件来捕获图像,或者二者。此外,一旦接收到指导移动设备的捕获组件捕获内容并且使用移动捕获组件捕获这类内容的用户输入,则可以将描绘所捕获的内容、所重新捕获的内容等的结果输出到移动设备的显示器。在优选实施例中,以该方式显示结果促进用户检视所捕获的内容并且可以优选地促进用户根据本文所描述的任何方法或操作对所捕获的内容进行编辑。
[0532] 图16B是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的捕获音频附件用户界面1610的示意性表示。如图16B所示,捕获音频附件用户界面1610包括多个交互按钮1612、多个数据字段1614以及回放进度指示器1616。
[0533] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在各实施例中,多个交互按钮1612可以配置为促进用户实施一个或多个音频内容捕获和/或检视动作,如捕获音频内容、检视(例如回放)音频内容、删除所捕获的音频内容、将音频数据与所捕获的图像和/或视频内容相关联、和/或在捕获音频附件用户界面1620与本文所描述的任何其它界面之间进行导航等。在一些方法中,可以通过使用任何已知方法与回放进度指示器1616进行交互来促进用户检视音频内容。
[0534] 此外,数据字段1614可配置为显示一个或多个音频文件和/或与一个或多个音频文件相关联的元数据。在更多实施例中,数据字段1614可以类似地显示一个或多个视频文件和/或与一个或多个视频文件相关联的元数据。例如,一旦阅读本描述,则如本领域的普通技术人员将理解的,这类元数据可以包括捕获日期和/或时间、音频片段长度、与音频或视频片段相关联的名称、涉及与音频或视频片段相关联的案例的信息等。
[0535] 图16C是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的捕获视频附件用户界面1620的示意性表示。如图16C所示,捕获视频附件用户界面包括多个交互按钮1622、视频显示区1624、回放进度指示器1626和标题区1628。
[0536] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在各实施例中,多个交互按钮1612可配置为促进用户实施一个或多个音频内容捕获和/或检视动作,如捕获视频内容、检视(例如回放)视频显示区1624中的视频内容、删除所捕获的视频内容、将视频内容与所捕获的图像内容和/或元数据相关联、和/或在捕获视频附件用户界面1620与本文所描述的任何其它界面之间进行导航等。在一些方法中,可以通过使用任何已知方法与回放进度指示器1626进行交互来促进用户检视视频内容。
[0537] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在更多实施例中,标题区1628可以显示正向用户呈现捕获视频附件用户界面1620的标示、关于案例的信息等。
[0538] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在各实施例中,多个交互按钮1622可配置为促进用户实施一个或多个音频内容捕获和/或检视动作,如捕获视频内容、查看(例如回放)视频显示区域1624中的视频内容、删除所捕获的视频内容、将视频内容与所捕获的图像内容和/或元数据相关联和/或在捕获视频附件用户界面1620与本文所描述的任何其它界面之间进行导航等。在一些方法中,可以通过使用任何已知方法与回放进度指示器1626进行交互来促进用户检视视频内容。
[0539] 图16D是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的移动扫描仪图像捕获用户界面1630的示意性表示。如图16D所示,移动扫描仪图像捕获用户界面1630包括多个交互按钮1632、配置为接收和/或显示文档的数字表示的显示区1634和状态消息区1636。
[0540] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在各实施例中,多个交互按钮1632可配置为促进用户无线连接到移动扫描设备(未示出)、将一个或多个命令传达到移动扫描设备、接收来自移动扫描设备的数据和/或在捕获视频附件用户界面1630与本文所描述的任何其它界面之间进行导航等。
[0541] 虽然目前所描述的处理操作和用户界面特定地能够处理使用移动设备的移动捕获组件(例如摄像机)所捕获的图像,所述图像包括伪影和当对使用传统平板扫描仪、多功能设备等所捕获的图像进行分析时未遭遇的所呈现的挑战,但是本处理操作和用户界面完全合适于处理从这类传统扫描仪等捕获的图像。因此,目前所公开的实施例提供健壮的、与捕获平台无关的分析系统和方法用于处理数字图像。
[0542] 例如,在一些方法中,用户可以启动与移动扫描设备的连接,并且一旦将传送数据命令从移动设备传达到移动扫描仪则可以从移动扫描设备接收图像数据。在优选方法中,移动扫描仪随后可以将数据传送到移动设备。所传送的数据可以是存储在集成到移动扫描仪或耦连到移动扫描仪的存储介质上的数据,或者是使用移动扫描仪的捕获组件所捕获的数据。例如,一旦接收到来自移动设备的传送数据命令,则移动扫描仪可以扫描一个或多个文档,例如定位在移动扫描仪的自动文档馈送器(ADF)中的文档。
[0543] 状态消息区1636可配置为显示与经由移动扫描仪来捕获、传送、接收和/或处理数据有关的一个或多个消息。可以使用任何已知方法来显示任何已知类型的消息。
[0544] 图17是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的设置用户界面1700的示意性表示。如图17A所示,设置用户界面1700包括导航按钮1702和多个设置字段1704,每个设置字段1704可选地包括以下中的一个或多个:选择界面1706和拨动界面1708,以及标题区1710。
[0545] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在一个实施例中,导航按钮1702可配置为促进设置用户界面1700与本文所描述的任何其它界面之间的用户导航等。
[0546] 如本文所描述并且一旦阅读本描述则如本领域的普通技术人员将进一步理解的,设置字段1704可配置为促进用户定义、修改、同步和/或重新设置一个或多个设置,所述设置涉及任何导航、案例管理、界面组织、界面外观、移动设备通信、图像捕获、图像处理等功能性。
[0547] 一旦阅读本描述,则如本领域的普通技术人员将理解的,在各种方法中,可以经由用户与配置为将用户指引到更详细的界面的选择界面1706交互来配置一个或多个设定,用于修改涉及设置的选项,例如促进用户从显示在下拉列表中的数个可能设置中选择一个,将数据或元数据键入到数据键入字段等。
[0548] 附加地和/或可替代地,可以经由用户与拨动界面1708交互来配置一个或多个设置,所述拨动界面1708可以可替代地设置到用于给定设置的两个可能状态之一。一旦阅读本描述,则如本领域的普通技术人员将理解的,拨动界面1708可以特定地优选用于仅具有两个可能状态的设置,诸如使能/禁用功能性、两个可替代配置之一之间的切换等。
[0549] 一旦阅读本描述,在如本领域的普通技术人员将理解的,能够经由设置界面1710操纵的设置的具体但非限制性示例包括虚拟渲染设置诸如拨动实时分析反馈、处理模式(完全、预览等)、用于所捕获的内容的显示偏好(原始格式、增强型、黑白、灰度等)、拨动图像的地理标志、配置连接和/或认证信息、配置状态消息显示设置、确定图像处理和/或分析调度(例如紧接一旦在用户定义的日期和时间捕获、一旦检视案例等)处理位置(例如客户端设备、主机设备、云资源等)、拨动图像捕获稳定性辅助、通知设置和/或与本文所描述的任何功能性相关的其它设置。
[0550] 一旦阅读本描述,则如本领域的普通技术人员将理解的,标题区1710可以显示正向用户呈现选择设置用户界面1700的标示等。
[0551] 根据各实施例,用于在捕获和/或处理包括文档的一个或多个数字表示的数字图像中使用的本文所描述的应用可以进一步包括通知功能性,所述通知功能性能够告知用户与图像处理、案例管理等有关的任何相关信息。在优选方法中,可以进一步促进用户接收期望的的通知,不接收不期望的通知和/或经由通知用户界面来配置通知特性,诸如下文参考图18所描述的示例性实施例。
[0552] 图18是根据一个实施例的、用于捕获和/或处理包括文档的数字表示的数字图像的应用的通知用户界面1800的示意性表示。如图18所示,通知界面1800包括导航按钮1802、多个通知字段1804,每个通知字段可选地包括选择界面1806、拨动界面1808和标题区1810。
[0553] 一般地,在各方法中,可以通过与一个或多个通知字段1804交互例如经由相对应的选择界面1806来促进用户选择、创建、修改和/或删除通知。如本领域的普通技术人员阅读本描述将理解的,通知可以采取任何已知格式并且可以利用本地于移动设备操作系统的一个或多个功能性。例如,在各实施例中,通知可以包括以下中的一个或多个:电子邮件、文本消息、弹出式警报、标语、会议或使用日历界面管理的其它事件等。
[0554] 在更多实施例中,通知用户界面1800可以促进用户检视最近通知、配置通知重复频率、确定当移动设备定时是否显示通知、当移动设备显示器关闭或处于“睡眠模式”中时是否显示通知等。
[0555] 附加地和/或可替代地,可以经由用户与拨动界面1818交互来配置一个或多个设置,所述拨动界面1818可以可替代地设置到用于给定设置的两个可能状态之一。拨动界面可以特定地优选用于配置仅具有两个可能状态的通知,诸如使能/禁用通知。
[0556] 一旦阅读本描述,则如本领域的普通技术人员将理解的,标题区1808可以显示正向用户呈现通知用户界面1800的标示等。
[0557] 使用方法
[0558] 在一个例示性用法中,可以对被拍摄的文档进行验证。例如,假设文档是与费用报告一起提交的旅馆收据。那么,应用和/或服务器可以检查收据是否实际用于该用户。如果发出收据的旅馆已在收据上署上不同名称,那么可以输出警告,请求核实发票是用于该用户的。如下文更详细所讨论的,移动设备可以发送与设备和/或用户相对应的一些识别信息,从而使能这类验证。
[0559] 在另一例示性用法中,假定雇员想要对费用报告作假。雇员从朋友处借来收据并且对其进行拍照以抬高可补偿费用。如上,可以交叉检查姓名、信用卡号等。
[0560] 于2009年2月10日提交的标题为“System,Methods,and computer program products for determining document(s)validity”的12/368,685号美国专利申请公开了可以在本发明的各实施例中使用的文档验证的例示性方法,并且其通过援引的方式合并入本文。其中所公开的一些方法的优势在于,系统已经知悉它预期什么,所以一旦接收到发票,并且利用已经知悉的采购订单号码,系统容易地确定本应对什么开发票。因此,系统可以更容易地从文档提取该数据并且更容易地检查它。在本场景中,系统知悉什么实体将实施反提取、取得图像,并且该图像旨在用于什么种类的商业过程。因此,系统可以预期已使它到该商业过程的图像,并且因此,大大提高了算法能够从图像提取数据的准确性。
[0561] 在一个实施例中,便携式扫描仪可以使用任何已知连接例如使用蓝牙、WiFi、USB电缆等与移动设备进行通信,并且,取代利用摄像机拍照,便携式扫描仪扫描文档并且将文档传送到移动设备。一旦接收,则可以如本文所讨论般对图像数据进行处理。
[0562] 根据一个实施例,架构可以包含在其上具有移动应用的移动设备和一个或多个远程服务器,其可以是独立的、云服务的一部分等。任何这些可以包含Kofax Capture、Kofax变换模和/或可从美国加利福尼亚州(CA)92618-3146欧文市(Irvine)拉古那峡谷路15211号的Kofax公司购买的其它软件。
[0563] 在各种方法中,移动设备和/或远程服务器可以启动登录认证。在这类情况中,一旦打开移动应用、一旦接收到来自用户的请求、启动从移动设备到远程服务器的上传等或本文所描述的任何其它方法,则可以自动启动登录验证。下文呈现包括登录认证的实施例的示例。
[0564] 根据一个方法,当移动设备接收到来自用户的登录到远程服务器的请求时,可以发送信号到云服务。在各方法中,云服务可以由Kofax、第三方、用户等来主持。该云服务可以随后辅助将移动设备连接到相对应的远程服务器。
[0565] 在一个方法中,包括但不限于Kofax Front Office Server(KFS)的软件可以充当插件,这允许远程服务器连接到移动设备。在另一方法中,KFS还可以允许管理员、程序员等创建用户类型并且决定什么能力可用于某些移动设备。在一个方法中,可以将具有相似能力和/或用户类型的移动设备指派到组。这些组可以基于所提供的登录信息、预定的列表、所接收的关于用户的信息等来区分。
[0566] 在一个方法中,在移动设备连接到远程服务器之后,远程服务器可以连接到附加的企业资源计划(ERP)系统、顾客关系管理(CRM)系统、数据库、远程服务器等。
[0567] 根据一个方法,一旦到移动设备和/或远程服务器的登录已经完成,则用户可能能够实施任何数目的某些预定的任务。这些任务可以通过所提供的登录信息、预定的列表、所接收的关于用户的信息、所保存的用户偏好、KFS等来确定。
[0568] 在一个方法中,基于由移动设备和/或远程服务器所接收的任务请求,用户可能能够创建任何数目的预定的文档类型。在该情况中,移动设备和/或远程服务器可以从用户接收一些关于将被处理的文档的类型的信息,例如发票、贷款申请等。移动设备可以经由图形用户界面、所保存的用户偏好、登录信息等或本文所提及的任何其它方法来从用户接收该信息。
[0569] 在一个方法中,移动设备和/或远程服务器可以从用户接收关于任务和其与给定文档类型的关联的偏好。在另一方法中,可以保存这些偏好并且在将来的实施例中使用。因此,一个或多个文档类型可以定义何种图像处理将是可用的、自动实施的、禁止的等。
[0570] 在另一方法中,移动设备和/或远程服务器可以从用户接收关于要从具体文档提取的预期的信息的输入。该输入随后可以存储在移动设备和/或远程服务器上用于将来使用。预期的信息可要求可以与前述偏好相同、相似或不同的处理。可替代地,可以从云服务和/或远程服务器接收关于要从具体文档或文档类型提取的信息的输入。
[0571] 类似地,在又一方法中,移动设备可以从用户接收关于应该对用于具体文档、文档类型等的预期的信息处理哪些作业的输入。关于作业处理偏好的输入也可以保存在移动设备和/或远程服务器上。文档和/或这些文档独特的偏好可以通过使用文件名、安全密码等来与其它进行区分。
[0572] 使用上文所描述的捕获软件,移动设备的摄像机可以捕获任何数目的图像和/或录音。
[0573] 在一个方法中,上文所描述的图像处理可以对一个或多个对象启动作业,其可以在移动设备和/或远程服务器上进行处理。
[0574] 在另一方法中,如果处理速度、可用存储器、电池寿命等满足由用户、作业、远程服务器、云服务等预定的某个阈值,那么可以在移动设备上处理作业。此外,优选地,如果该阈值不被满足,那么作业部分或全部在云服务内的一个或多个远程服务器上进行处理以优化性能。在一个方法中,对于任何一个或多个作业不管任何阈值而独自在移动设备和/或远程服务器上进行处理可以由用户、云服务、远程服务器等来预定。
[0575] 在一个方法中,如果期望的话,移动设备可以经由触摸板、触笔、录音等从用户接收签名,其对正从移动设备发送到目的地的文档提供认证。在一个方法中,可以将一个或多个签名添加到(例如下文所解释的)案例或者从移动设备独自发送。
[0576] 一旦预期的作业已经完成,则移动设备可以接收将一个或多个文档发送到远程服务器的请求。包括但不限于Kofax Transformation Module(KTM)的软件可以充当对Kofax Capture(KC)软件的插件并且可以辅助数据提取。
[0577] 这些文档可以优选地进行封装并且作为案例一起发送,但是也可以单独发送。当从移动设备发送文档时,可以包括诸如确认号码、索赔号码、验证码等标识以帮助对文档进行索引。在一个方法中,移动设备可以从用户接收标识。
[0578] 可替代地,可以在没有标识的情况下发送文档使得云服务、远程服务器等可以自主地对文档进行索引。在一个方法中,可以在文档到达远程服务器之前将文档发送到云服务。在该事件中,远程服务器可以基于来自登录认证、所保存的用户偏好、文档类型、图像处理等的可用信息通过来对文档进行分类。一旦经处理,则远程服务器可以将这些文档传送到另一服务器、第三方等。
[0579] 在一个方法中,自动地确定一些或所有经捕获的文档的文档类型。在一个方法中,使用原始图像信息来确定一个或多个文档的类型。在另一方法中,在使用图像信息确定一个或多个文档的类型之前,实施本文所描述的任何数目的图像处理操作。在又一方法中,使用从图像导出的信息(例如通过使用OCR从图像导出的文本、图像中找到的条形码等)来确定一个或多个文档的类型。(本地地或远程地)实施这类确定的地方可以如本文所描述的进行配置。可以使用任何已知分类方法来确定文档类型,例如序列号为7,386,527和7,761,391的美国专利中所描述的那些方法,其通过援引的方式合并入本文。
[0580] 优选地,将自动确定输出到用户,所述用户可以核实文档的类型并且可选地改变文档的类型。在另一方法中,如果确定的置信度低于某个阈值,那么将自动确定仅输出到用户。
[0581] 可以对文档类型进行存储;例如结合文档的图像进行传送;使用其来确定文档的接收者和/或启动商业过程;等等。可以适应于这类目的的技术包括于2007年5月1日提交的、标题为“System and methods for routing facsimiles based on content”、序列号为11/743,110的美国专利申请中所描述的那些技术,并且,其通过援引的方式合并入本文。
[0582] 在一个方法中,在从移动设备发送文档之前,远程服务器和/或移动设备可以实施一些检视以确定是否要求任何附加的文档、签名、照片、录音等。在各方法中,检视参数可以由用户来预设置、由应用来预设置,取决于登录信息等。下文更详细地呈现检视的示例。
[0583] 在一个方法中,用户、移动设备、云服务和/或远程服务器以交互方式进行操作以对从图像提取的信息进行验证,例如使用诸如之前所提及的、序列号为12/368,685的美国专利申请中所公开的方法。
[0584] 在一个方法中,移动设备可以响应于经处理的文档而从远程服务器接收诸如电子邮件、消息、语音邮件、链接等通知。移动设备可以将该通知提供给用户以告知用户文档被如何处理。
[0585] 下面的示例绝不旨在限制本发明,而是意图提供将发明构思放置在环境中的例示性实施例。一旦阅读本公开,则本领域的技术人员将理解的是,本文所提供的描述包含本发明的大量置换。
[0586] 一个例示性实施例可以包括水星汽车保险(Mercury Auto Insurance)的现场索赔理算员。在给定日,现场索赔理算员可以拜访关于由客户于该日提出的特定索赔的特定车身修理厂。在车身修理厂,现场索赔理算员(用户)可以取出其移动设备并且激活如本文所描述的移动应用。一旦这样做,则移动设备可以促使现场索赔理算员进行登录。在现场索赔理算员提供其登录信息之后,移动应用可以识别其实际上是保险索赔理算员。
[0587] 这时候,移动设备可以告知现场索赔理算员其能够处理现场索赔(任务)。一旦选择现场索赔,则告知现场索赔理算员其能够处理维修报价、事故报告、保险证明、驾驶执照、一般信函以及已损坏车辆的相片(文档类型)。因此,现场索赔理算员可被允许基于他的登录信息来进行处理的是这些类型的文档。
[0588] 现场索赔理算员可以决定使用上文所描述的捕获软件并且使用其移动设备中的摄像机捕获维修报价、事故报告和驾驶执照的单独照片。因此,上文所描述的图像处理可以处理移动设备自身上的照片和/或图像可被推送到远程服务器用于处理。
[0589] 此外,当围绕已损坏车辆行走时,现场索赔理算员可以捕获图像,以及捕获来自将提交索赔的客户的音频陈述记录。此外,现场索赔理算员可以让同一个客户使用手指或诸如触笔的工具在其移动设备中的窗口上数字地签名以用于进一步授权和/或认证。
[0590] 一旦该内容已被收集,则现场索赔理算员可以创建结合所有搜集的照片、视频、录音和数字签名的案例。随后,现场索赔理算员可以将具有顾客索赔号码的该案例发送到远程服务器。
[0591] 在一个方法中,该案例可以发送到云系统,于是,其被索引到与顾客的特定索赔相对应的远程服务器。
[0592] 一旦案例被递送到远程服务器,则可以提取相关信息,并且可以将一些电子邮件或SMS发送回到现场索赔理算员和/或提出索赔的顾客,告知他们状态和/或为他们提供链接。
[0593] 在另一方法中,可以要求提出索赔的顾客利用其自己的移动设备实施所呈现的例示性实施例的前述步骤并且在水星汽车保险公司愿意派出现场索赔理算员到车辆的地点之前将案例文档提交给公司。在另一方法中,如果顾客能够自己实施任何、一些或所有前述实施例,那么可以不要求现场理算员来到车辆的地点。
[0594] 另一例示性实施例可以包括信贷员。在特定日,信贷员可以拜访希望再融资贷款的客户。一旦与客户一起,则信贷员(用户)可以取出其平板电脑(移动设备)并且激活移动应用。一旦这样做,则平板电脑可以促使信贷员进行登录。在信贷员提供其登录信息之后,移动应用可以识别其实际上是信贷员。
[0595] 这时候,平板电脑可以告知信贷员其能够处理现场贷款(任务)。一旦选择现场贷款,则信贷员被告知其能够处理性质比较、白蚁报告、居住证明以及收入验证(文档类型)。因此,可被允许基于他的登录信息进行提交和/或处理的是这些类型的文档。
[0596] 信贷员可以决定使用上文所描述的捕获软件并且使用其平板电脑中的摄像机捕获白蚁报告、居住证明和收入验证的单独照片。此后,可以将图像发送到云服务,其随后选择并且发送图像到一个或多个远程服务器以施行上文所描述的图像处理。因为平板电脑自身尚不具有足够的处理速度、存储器和/或电池寿命以成功地这样做,所以这可以优化处理时间。
[0597] 此外,在围绕客户的房子行走时,信贷员可以捕获视频,并捕获客户的音频陈述记录。此外,信贷员可以让同一个客户使用其手指或者诸如触笔的工具在他的平板电脑中的窗口上数字地签名以用于进一步授权。
[0598] 一旦该内容已被收集,则信贷员可以创建案例,所述案例结合所有搜集的照片、视频和录音,但是意外地忽略了包括数字签名。然后,信贷员随后尝试将具有顾客的贷款数目的该不完整案例发送到远程服务器。
[0599] 然而,在一些实施例中,在将案例发送到远程服务器之前,移动设备可以实施对正被发送的组件的检视。如上文所解释的,基于信贷员的登录信息,移动设备可能知悉来自客户的所有现场贷款要求签名。因此,当实施检视时,移动设备可以检测到这类签名的缺失,从而阻止将数据包发送到远程服务器。在一个方法中,可以通过移动设备的屏幕上的文本、电子邮件、通过移动设备的扬声器发出的可听声音等来告知用户检视结果。
[0600] 在信贷员将适当的签名包括到案例之后,可以将案例发送到云系统,于是,其被索引到与顾客的特定贷款相对应的远程服务器。
[0601] 一旦将案例递送到远程服务器,则可以提取相关信息,并且可以将一些电子邮件或文本消息发送回到信贷员和/或具有贷款的顾客,告知其状态和/或为其提供链接。
[0602] 在又一例示性实施例中,医生(用户)可以与患者预约,其中,医生可能需要捕获来自患者的35个分开的文档的照片。在该示例性实施例中,对于医生来说,使用其移动设备捕获所有35个文档将不是时间高效的方法。作为替代,医生可以使用移动无线扫描仪,其与医生的移动设备上的移动应用无线连接。
[0603] 在另一方法中,移动扫描仪可经由电线、电缆、可移动存储器芯片(例如USB)等来连接到移动设备。
[0604] 在一个方法中,一旦接收到来自用户的启动,则移动设备可以发送信号到移动无线扫描仪。在另一方法中,移动无线扫描仪可以直接从用户接收输入。该输入可以包括用户轻击移动设备显示器的按钮或区、给定声命令、时间推移(time lapse)等。
[0605] 一旦接收到信号,则移动无线扫描仪可以开始扫描患者的文档的图像并且将所扫描的图像无线地传送到医生的移动设备。于是,移动应用可以接收图像并且以与仿佛移动设备已简单地捕获所有文档的相片相同的方式或相似的方式来对图像进行处理和/或转发。
[0606] 一旦将扫描转移到移动设备,则可以根据本文所描述的任何实施例在移动设备上进行图像处理的剩余部分、案例的形成等。
[0607] 又一例示性实施例可以包括联邦快递快递员(用户)。快递员可以出现到住宅以取走将发送海外或到国内位置的包裹。然而,对于被发送海外的包裹来说,海关要求发送该包裹的客户在表格上声明其内容。
[0608] 一旦到达,则联邦快递快递员可以取出移动设备并且激活移动应用。一旦这样做,则移动设备可以促使联邦快递快递员进行登录。在联邦快递快递员提供登录信息之后,移动应用可以识别其实际上是联邦快递员。
[0609] 这时候,移动设备可以告知联邦快递快递员处理海关提交(任务)的能力。一旦选择海关提交,则联邦快递快递员被告知处理海关表格(文档类型)的能力。因此,联邦快递快递员可被允许基于登录信息进行处理的是该文档。
[0610] 联邦快递快递员可以决定使用上文所描述的捕获软件并且使用移动设备中的摄像机捕获海关表格的单独照片。于是,上文所描述的图像处理可以对移动设备上的照片进行处理。
[0611] 此外,联邦快递快递员可以使同一个客户使用诸如触笔的工具在他的移动设备中的窗口上数字地签名以用于进一步授权。
[0612] 一旦该内容已被收集,则联邦快递快递员可以创建结合所有经捕获的照片和数字签名的案例。随后,联邦快递快递员可以将具有顾客的包裹号码的该案例上传到远程服务器。
[0613] 因此,可以将该案例发送到云系统,于是,其被索引到与顾客的特定包裹相对应的远程服务器。
[0614] 一旦将案例递送到远程服务器,则可以提取相关信息,并且可以将一些电子邮件或文本消息发送回到联邦快递快递员和/或正发送包裹的顾客,告知其状态和/或为其提供链接。
[0615] 在另一实施例中,移动设备可以接收关于用于现存交易的进一步要求的通知。在一个方法中,通知可以包括链接,所述链接在通知被移动设备等接收时可通过检测用户轻击移动设备上的按钮、移动设备显示器的一部分等而被自动激活。一旦被激活,则链接可经由云服务、直接连接等将移动设备连接到远程服务器。
[0616] 在一个方法中,随后可以通过移动设备的方式将以某种形式的货币、免费、商品等作为交换从远程服务器下载应用的选项呈现给用户。在移动设备从用户接收到下载应用的许可的情况下,可以通过移动设备和/或远程服务器来施行下载,取决于如上文所描述的处理速度、可用存储器等。一旦被下载,则应用可以允许移动设备结合云服务和/或远程服务器来实施本文所描述和/或提议的任何实施例。
[0617] 在一个例示性实施例中,向某个学院申请的学生接收到来自学院的电子邮件,告知其要求其电子地提交某个附加类型的标识。在学生对某个类型的移动设备的不具有访问权的情况下,其可以激活来自学院的电子邮件中提供的链接,其中,所述链接对其呈现下载移动应用的选项,所述移动应用将允许其经由其移动设备提交其标识。
[0618] 如果学生选取那时下载移动应用,那么其可以捕获照片、视频、签名等并且将其成功地提交到如所请求的学院。
[0619] 在另一例示性实施例中,一旦处理图像,例如以创建一个或多个机器可读(例如经光符号识别的(OCRed))的文档,则可以启动商业过程。如上文所提及的序列号为11/743,110的美国专利申请描述了可以结合这类实施例来使用的例示性方法。
[0620] 将进一步领会的是,可以以为了提供按需服务而代表顾客部署的服务的形式来提供本发明的实施例。
[0621] 在一个实施例中,本公开的范围内的方法、系统和/或计算机程序产品可以通过下面的特征中的一个或多个来表征和/或包括实施下面的操作中的一个或多个:使用处理器定义多个候选边缘点,其中,定义每个候选边缘点包括在数字图像内定义一个或多个大分析窗口;在所述数字图像内定义多个小分析窗口;针对每个大分析窗口估计统计数值的一个或多个分布;针对每个小分析窗口计算一个或多个统计数值;确定在针对所述小分析窗口中的每一个所计算的统计数值中的一个或多个与针对所述一个或多个大分析窗口所估计的统计数值的相对应分布之间是否存在统计上的显著差异;一旦确定所述统计上的显著差异存在,则将所述统计上的显著差异针对其存在的每个小分析窗口中的点指定为候选边缘点;以及基于所述多个候选边缘点定义四边形的四个边;以及将所述文档的数字表示和所述四边形输出到移动设备的显示器;捕获包含所述文档的数字表示的图像数据和与所述文档的数字表示有关的音频数据中的一个或多个;其中,捕获包含所述文档的数字表示的所述图像数据和与所述文档的数字表示有关的所述音频数据中的一个或多个通过使用耦连到所述移动设备的一个或多个捕获组件来实施;其中,所述图像数据和所述音频数据中的一个或多个从耦连到所述移动设备的计算机可读存储介质中捕获;一旦确定所述统计上的显著差异针对所述小分析窗口之一存在,则定义新大分析窗口;针对所述新大分析窗口重新估计所述统计数值的分布;以及确定在针对所述小分析窗口所计算的所述一个或多个统计数值与经重新估计的统计数值的分布之间是否存在所述统计上的显著差异;其中,针对每个小分析窗口所计算的所述统计数值包括以下中的一个或多个:最小亮度值;最大亮度值;以及亮度值范围;以及其中,针对每个大分析窗口所估计的所述统计数值的分布包括以下中的一个或多个:色彩通道值最小值的分布;色彩通道值最大值的分布;以及色彩通道值范围的分布;其中,所述定义所述小分析窗口包括沿路径定义每个小分析窗口,以及其中,所述路径从所述数字图像的外区向所述数字图像的中心行进;其中,所述路径沿所述数字图像的行和列中的一个或多个行进;其中至少一个大分析窗口包括所述图像的角区;绕开所述数字图像的背景的纹理中的一个或多个变化;其中,每个大分析窗口通过大致矩形形状来表征,以及其中,每个小分析窗口通过大致矩形形状来表征;其中,每个小分析窗口通过单个中心像素来表征,以及其中,一旦确定所述统计上的显著差异存在,则所述中心像素被指定为候选边缘点;其中,定义所述四边形边中的每一个包括实施至少一个最小均方(LMS)逼近;从所述多个候选边缘点中移除一个或多个离群值候选边缘点;实施不包括所述一个或多个离群值候选边缘点的至少一个附加的LMS逼近;其中,所述四边形的每个边通过从一类函数所选取的等式来表征,以及其中,实施所述至少一个LMS逼近包括针对每个等式确定一个或多个系数;其中,定义所述四边形的边包括确定所述文档的数字表示的每个边是否落在一类函数内;定义所述四边形的一个或多个角,所述定义包括:计算两个相邻边之间的一个或多个交点;以及从所述一个或多个经计算的交点中指定适当的交点;其中,所述四边形的角包括所述四边形的两个弯曲相邻边的交点;其中,所述四边形的角包括两个大致直线的交点;其中,所述四边形的角包括一个大致直线和一个大致曲线的交点;其中,所述四边形的角包括一个大致直线和一个大致抛物线的交点;其中,所述四边形的角包括两个大致抛物线的交点;定义一个或多个四边形角,所述定义包括解以下中的一个或多个:一次多项式等式;二次多项式等式;三次多项式等式;以及四次多项式等式;所述四边形的面积包括所述数字图像的总面积的至少阈值百分比;其中,第一线将所述四边形的经计算的左上角连接到所述四边形的经计算的右下角,其中,第二线将所述四边形的经计算的右上角和所述四边形的经计算的左下角连接,以及其中,所述第一线和所述第二线在所述四边形内相交;确定所述四边形是否满足一个或多个质量控制度量;以及一旦确定所述四边形不满足所述质量控制度量中的一个或多个,则丢弃所述四边形,其中,所述质量控制度量包括以下中的一个或多个:LMS支持度量,最小四边形面积度量,四边形角位置度量;以及四边形对角线交点位置度量;接收基于所述多个候选边缘点的所述四边形的四个边的所述定义未能定义有效四边形的指示;以及重新定义所述多个候选边缘点,其中,所述重新定义包括在所述数字图像内采样比在所述定义中所采样的点的数目更大数目的点;将所述数字图像的整体指定为所述文档的数字表示;所述处理器是移动设备的一部分,所述移动设备具有集成的摄像机;一种系统,包括配置为执行逻辑的处理器;用于定义多个候选边缘点的逻辑,其中,用于定义每个候选边缘点的逻辑包括用于在数字图像内定义一个或多个大分析窗口的逻辑;用于在数字图像内定义多个小分析窗口的逻辑;用于针对每个大逻辑窗口估计统计数值的一个或多个分布的逻辑;用于针对每个小分析窗口计算一个或多个统计数值的逻辑;用于确定针对小分析窗口之一所计算的统计数值中的一个或多个与针对大分析窗口之一所估计的统计数值的相对应分布之间是否存在统计上的显著差异的逻辑;用于一旦确定统计上的显著差异存在则将小分析窗口中的像素指定为候选边缘点的逻辑;以及,用于基于多个候选边缘点来定义四边形的四个边的逻辑;以及,用于将文档的数字表示和四边形输出到移动设备的显示器的逻辑;一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,计算机可读程序代码包括配置为定义多个候选边缘点的计算机可读程序代码,其中,配置为定义每个候选边缘点的计算机可读程序代码包括配置为在数字图像内定义一个或多个大分析窗口的计算机可读程序代码;配置为在数字图像内定义多个小分析窗口的计算机可读程序代码;配置为针对每个大分析窗口估计统计数值的一个或多个分布的计算机可读程序代码;配置为针对每个小分析窗口计算一个或多个统计数值的计算机可读程序代码;配置为确定针对小分析窗口之一所计算的统计数值中的一个或多个与针对大分析窗口之一所估计的统计数值的相对应分布之间是否存在统计上的显著差异的计算机可读程序代码;配置为一旦确定统计上的显著差异存在则将小分析窗口中的像素指定为候选边缘点的计算机可读程序代码;以及,配置为基于多个候选边缘点来定义四边形的四个边的计算机可读程序代码;以及,配置为将文档的数字表示和四边形输出到移动设备的显示器的计算机可读程序代码;将四边形变换为矩形,其中,所述四边形通过多个等式来表征,其中,每个等式与所述四边形的边相对应,以及其中,每个等式从所选取的一类函数中选择;其中,所述变换包括所述四边形到所述矩形的平滑伸展;其中,所述变换包括:确定所述矩形的高;确定所述矩形的宽;确定所述矩形的歪斜角度;以及确定所述矩形的中心定位;其中,所述变换包括在所述四边形内定义多个基于四边形的本征坐标对(p,q),每个本征坐标对(p,q)与以下各项的交点相对应:顶到底曲线,其通过从与所述四边形的左边相对应的等式和与所述四边形的右边相对应的等式导出的等式来表征,以及左到右曲线,其通过从与所述四边形的顶边相对应的等式和与所述四边形的底边相对应的等式导出的等式来表征,其中,所述顶到底曲线等式通过以p对(1–p)的比将与所述四边形的左边相对应的所述等式的一个或多个系数和与所述四边形的右边相对应的所述等式的一个或多个系数进行组合来导出,其中0≤p≤1,其中,所述左到右曲线等式通过以q对(1–q)的比将与所述四边形的顶边相对应的所述等式的一个或多个系数和与所述四边形的底边相对应的所述等式的一个或多个系数进行组合来导出,并且,其中0≤q≤1;其中,所述四边形通过大致矩形形状来表征;其中,表征所述2
顶到底曲线的等式是:x=((1–p)*a2+p*b2)*y+((1–p)*a1+p*b1)*y+((1–p)*a0+p*b0),
2
以 及 其中,表 征 所 述 左 到 右 曲 线 的等 式 是:y=((1–q)*c2+q*d2)*x+((1–q)*c1+q*d1)*x+((1–q)*c0+q*d0);其中,所述变换进一步包括:从所述数字图像生成经矩形化的数字图像;针对所述经矩形化的数字图像内的多个点确定p坐标和q坐标;其中,位于所述矩形左方的每个点具有p坐标值p<0,其中,位于所述矩形右方的每个点具有p坐标值p>1,其中,位于所述矩形上方的每个点具有q坐标值q<0,并且,其中,位于所述矩形下方的每个点具有q坐标值q>1;其中,所述变换进一步包括:从所述数字图像生成经矩形化的数字图像;针对所述经矩形化的数字图像内的每个点确定基于矩形的坐标对;以及将基于矩形的坐标中的每一对匹配到所述数字图像内的基于四边形的本征坐标的等同对;所述匹配包括针对所述顶到底曲线和所述左到右曲线的交点实施迭代搜索,所述迭代搜索包括:
2
指定起始点(x0,y0);基于等式x1=u2*y0+u1*y0+u0将所述起始点(x0,y0)投影到所述左到
2
右曲线上;以及基于等式y1=v2*x1+v1*x1+v0将下一点(x1,y0)投影到所述顶到底曲线上,
2
其中ui=(1–p)*ai+p*bi,以及其中vi=(1–q)*ci+q*di;基于等式xk+1=u2*yk+u1*yk+u0
2
迭代地将多个点(xk,yk)投影到所述左到右曲线上;以及基于等式yk+1=v2*xk+1+v1*xk+1+v0迭代地将多个点(xk+1,yk)投影到所述顶到底曲线上;其中所述匹配进一步包括:确定(xk,yk)与(xk+1,yk+1)之间的距离;以及确定所述距离是否小于预定的阈值;一旦确定所述距离小于所述预定的阈值,则终止所述迭代搜索;其中,所述四边形的左边通过二次多项式
2
等式:x=a2*y+a1*y+a0来表征,其中,所述四边形的右边通过二次多项式等式:x=
2 2
b2*y+b1*y+b0来表征,其中,所述四边形的顶边通过二次多项式等式:y=c2*x+c1*x+c0来
2
表征,以及其中,所述四边形的底边通过二次多项式等式:y=d2*x+d1*x+d0来表征;一种系统,包括配置为执行逻辑的处理器;以及用于将四边形变换为矩形的逻辑,其中,四边形通过多个等式来表征,其中,每个等式与四边形的边相对应,并且,其中,每个等式从所选取的一类函数中选择;一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,计算机可读程序代码包括配置为将四边形变换为矩形的计算机可读程序代码,其中,四边形通过多个等式来表征,其中,每个等式与四边形的边相对应,并且,其中,每个等式从所选取的一类函数中选择;使用处理器将包括所述数字图像内的文档的经检测的数字表示的四边形划分为多个区段,每个区段包括多个像素;确定每个区段的亮度值的分布;确定每个区段的亮度值范围;确定每个区段的亮度值的可变性;确定每个区段是否是过饱和的;确定每个区段是否是欠饱和的;确定过饱和的区段的数目;确定欠饱和的区段的数目;一旦确定所述过饱和的区段的数目与区段的总数目的比超过过饱和阈值,则确定所述数字图像是过饱和的;一旦确定所述欠饱和的区段的数目与区段的总数目的比超过欠饱和阈值,则确定所述数字图像是欠饱和的;以及一旦确定所述数字图像是欠饱和的或者是过饱和的,则确定在所述数字图像中存在所述光照问题;针对每个区段确定区段过饱和比,每个区段过饱和比包括展示所述区段中的最大亮度值的像素的数目除以所述区段中的像素的总数目;针对每个区段确定所述区段的过饱和级是否大于预定的阈值:
以及一旦确定所述区段的饱和级大于预定的阈值,则将所述区段表征为过饱和的;确定所述每个区段的亮度值的分布的中值可变性;确定每个中值可变性是否大于预定的可变性阈值;以及针对每个区段,一旦确定所述区段的中值可变性大于所述预定的可变性阈值,则确定所述区段是欠饱和的;其中,所述每个区段的亮度值范围包括以下两者之间的差:所述区段的亮度值的分布中的最大特性亮度值;以及所述区段的亮度值的分布中的最小特性亮度值;其中,每个亮度值是范围从0到255的整数值;其中,确定所述可变性包括:确定所述多个像素中的目标像素的亮度值;计算所述目标像素的亮度值与用于一个或多个邻近像素的亮度值之间的差,每个邻近像素距离所述目标像素一个或多个像素远;针对所述多个像素中的每个像素重复所述确定和所述计算以获得每个目标像素可变性;以及生成目标像素可变性值的分布,其中,每个目标像素可变性值是从0到255的范围中的整数;其中,所述一个或多个邻近像素沿垂直方向位于所述目标像素的五个像素内;其中,所述一个或多个邻近像素沿水平方向位于所述目标像素的五个像素内;从所述目标像素可变性值的分布中移除一个或多个目标像素可变性值以生成经校正的分布;以及,基于所述经校正的分布来定义特性背景可变性;针对每个区段:通过将所述文档的高划分为预定义数目的水平区段来定义区段高;以及,通过将所述文档的宽划分为预定数目的垂直区段来定义区段宽;其中,每个区段通过区段高和区段宽来表征,其中,所述数字图像通过图像宽w和图像高h来表征,其中,h>=w,其中,所述区段大小通过区段宽ws和区段高hs来表征,其中,ws=w/m,其中,hs=h/n,其中,定义m和n使得ws接近等于hs;一种用于确定文档的数字表示中是否存在光照问题的方法,包括:使用处理器将包括数字图像内的文档的经检测的数字表示的四边形划分为多个区段,每个区段包括多个像素;确定每个区段的亮度值的分布;确定每个区段的亮度值范围;确定每个区段的亮度值的可变性;针对每个区段确定区段过饱和比,每个区段过饱和比包括展示所述区段中的最大亮度值的像素的数目除以所述区段中的像素的总数目;针对每个区段确定所述区段的过饱和比是否大于预定的过饱和阈值;针对每个区段,一旦确定所述区段的饱和级大于预定的过饱和阈值,则确定所述区段是过饱和的;针对每个区段确定所述区段的亮度值的分布的中值可变性;确定每个中值可变性是否大于预定的中值可变性阈值;以及针对每个区段,一旦确定所述区段的中值可变性大于所述预定的中值可变性阈值,则确定所述区段是欠饱和的;以及一旦确定所述数字图像是欠饱和的或者是过饱和的,则确定在所述数字图像中存在所述光照问题;其中,所述处理器是移动设备的一部分,所述移动设备具有集成的摄像机;一种系统,包括配置为执行逻辑的处理器;用于将包括数字图像内的文档的经检测的数字表示的四边形分为多个区段的逻辑,每个区段包括多个像素;用于确定每个区段的亮度值的分布的逻辑;用于确定每个区段的亮度值范围的逻辑;用于确定每个区段的亮度值的可变性的逻辑;用于确定每个区段是否是过饱和的的逻辑;用于确定每个区段是否是欠饱和的的逻辑;用于确定过饱和的区段的数目的逻辑;用于确定欠饱和的区段的数目的逻辑;用于一旦确定过饱和的区段的数目与区段的总数目的比超过过饱和阈值则确定数字图像是过饱和的的逻辑;用于一旦确定欠饱和的区段的数目与区段的总数目的比超过欠饱和阈值则确定数字图像是欠饱和的的逻辑;
以及一旦确定数字图像是欠饱和的或者是过饱和的,则确定数字图像中存在光照问题的逻辑;一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,计算机可读程序代码包括配置为将包括数字图像内的文档的经检测的数字表示的四边形分为多个区段的计算机可读程序代码,每个区段包括多个像素;配置为确定每个区段的亮度值的分布的计算机可读程序代码;配置为确定每个区段的亮度值范围的计算机可读程序代码;配置为确定每个区段的亮度值的可变性的计算机可读程序代码;配置为确定每个区段是否是过饱和的的计算机可读程序代码;配置为确定每个区段是否是欠饱和的的计算机可读程序代码;配置为确定过饱和的区段的数目的计算机可读程序代码;配置为确定欠饱和的区段的数目的计算机可读程序代码;配置为一旦确定过饱和的区段的数目与区段的总数目的比超过过饱和阈值则确定数字图像是过饱和的的计算机可读程序代码;配置为一旦确定欠饱和的区段的数目与区段的总数目的比超过欠饱和阈值则确定数字图像是欠饱和的的计算机可读程序代码;以及,配置为一旦确定数字图像是欠饱和的或者是过饱和的,则确定数字图像中存在光照问题的计算机可读程序代码;使用处理器从所述数字图像导出二维光照模型;以及将所述二维光照模型应用到所述数字图像中的每个像素;所述导出包括:使用处理器将包括所述数字图像内的文档的经检测的数字表示的四边形划分为多个区段,每个区段包括多个像素;确定每个区段的色彩通道值的分布,色彩通道值的每个分布与多个色彩通道之一相对应;针对色彩通道值的每个分布确定以下中的一个或多个:相对应区段的初级背景的平均色彩,以及所述相对应区段的二级背景的平均色彩;以及针对每个区段指定初级背景色彩或者二级背景色彩作为所述文档的数字表示的主要背景的局部表示,每个局部表示通过所述相对应区段的初级背景的平均色彩或者所述相对应区段的二级背景的平均色彩来表征;其中,所述二维光照模型是通过等式v=
2 2
ax+bxy+cy+dx+ey+f来表征的二次多项式,其中,v是用于所述多个色彩通道之一的平均色彩通道值,其中,a,b,c,d,e,和f是所述二维光照模型的每个未知参数,其中,每个未知参数a,b,c,d,e,和f使用最小均方逼近来逼近,其中,x是所述区段中的中点像素的x坐标,以及其中,y是所述区段中的所述中点像素的y坐标;针对每个区段确定多个色彩聚类;
确定多个混色聚类,每个混色聚类与所述区段中的高频率表示相对应;确定所述区段的总面积;确定多个部分区段面积,每个部分区段面积与所述多个混色聚类之一所表示的面积相对应;将每个部分区段面积除以所述总面积以获得用于每个混色聚类的聚类百分比面积;以及基于所述聚类百分比面积将每个混色聚类分类为或者背景聚类或者非背景聚类,其中,所述分类识别:所述区段中没有背景、所述区段中的单个最庞大背景,或者所述区段中的两个最庞大背景;所述应用包括:针对多个背景聚类:计算每个背景聚类的平均色彩通道值,计算每个背景聚类的色调比,以及计算用于所述多个背景聚类的中值色调比;以及将所述每个背景聚类的色调比与所述多个聚类的中值色调比进行比较;基于所述比较选择最可能的背景作为所述局部表示;计算多个局部表示之上的多个平均主要背景色彩通道值;计算一个或多个预测的背景通道值与所述多个平均主要背景色彩通道值之间的差;将所述差乘以分数以生成分数差分;以及,将所述分数差分添加到用于所述数字图像中的每个像素的一个或多个色彩通道值;其中,所述分数是从0到1的范围中的值;其中,所述分类包括将属于包含大于背景阈值的数目的像素的聚类的每个像素分类为背景像素;其中,所述背景阈值处于从0到100%的范围中;其中,所述处理器是移动设备的一部分,所述移动设备具有集成的摄像机;一种系统,包括配置为执行逻辑的处理器;用于从数字图像导出二维光照模型的逻辑;以及用于将二维光照模型应用到数字图像中的每个像素的逻辑;
一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,计算机可读程序代码包括配置为从数字图像导出二维光照模型的计算机可读程序代码;以及,配置为将二维光照模型应用到数字图像中的每个像素的计算机可读程序代码;
检测所述数字图像中的多个非背景元素的多个连接成分;基于所述多个连接成分来确定多个可能的字符;基于所述多个可能的文本字符来确定一个或多个平均字符尺寸;以及基于所述一个或多个平均字符尺寸来估计所述数字图像的分辨率;基于所述数字图像的所估计的分辨率来估计所述文档的数字表示的一个或多个尺寸;将所述文档的数字表示的所估计的一个或多个尺寸与多个已知文档类型的一个或多个已知尺寸进行比较;基于所述比较将所述文档的数字表示匹配到所述多个已知文档类型中的一个或多个;确定所述匹配是否满足一个或多个质量控制标准;以及一旦确定所述匹配满足所述一个或多个质量控制标准,则基于所述已知文档类型的已知尺寸来调节所述文档的数字表示的所估计的分辨率;针对一个或多个连接成分,计算以下中的一个或多个:所述连接成分内的开关转变的数目;所述连接成分内的黑像素密度;所述连接成分的长宽比;以及基于所述黑像素密度、所述开关转变的数目和所述长宽比中的一个或多个来计算所述连接成分中的一个或多个的表示文本字符的似然性;将所述数字图像二值化以生成双色调图像;其中,所述平均字符尺寸包括平均字符宽和平均字符高;确定所述多个文本字符中的至少两个的字符高;基于所述至少两个文本字符的每个字符高来计算平均字符高;确定所述多个文本字符中的至少两个的字符宽;基于所述至少两个文本字符的每个字符宽来计算平均字符宽;实施从包括以下各项的组选择的至少一个比较:将所述平均字符高与参考平均字符高进行比较;以及将所述平均字符宽与参考平均字符宽进行比较;以及基于所述至少一个比较来估计所述数字图像的分辨率,其中,所述参考平均字符高和所述参考平均字符宽中的每一个与一个或多个参考字符相对应,每个参考字符通过已知的字符宽和已知的字符高来表征;其中,每个参考字符与从以参考分辨率扫描一个或多个文档所获得的字符的数字表示相对应,以及,其中,每个参考字符与一个或多个常用字体相对应;基于所述文档的数字表示的所估计的分辨率来估计所述文档的数字表示的一个或多个尺寸;从所述平均字符尺寸计算平均字符宽;从所述平均字符尺寸计算平均字符高;将所述平均字符宽与所述平均字符高进行比较;基于所述比较来估计所述文档的数字表示的定向;以及基于所估计的尺寸和所估计的定向将所述文档的数字表示匹配到已知文档类型;其中,所述一个或多个已知文档类型包括以下中的一个或多个:信函大小文档;法律大小文档;A3文档;A4(欧洲信函大小)文档;A5文档;
分类账/小报文档;驾驶执照;商业名片;个人支票;商业支票;2.25英寸宽收据;以及
3.125英寸宽收据;其中,所述处理器是移动设备的一部分,所述移动设备具有集成的摄像机;一种系统,包括配置为执行逻辑的处理器;用于检测数字图像中的多个非背景元素的多个连接成分的逻辑;用于基于多个连接成分来确定多个可能的字符的逻辑;用于基于多个可能的文本字符来确定一个或多个平均字符尺寸的逻辑;以及,用于基于一个或多个平均字符尺寸来估计数字图像的分辨率的逻辑;一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,计算机可读程序代码包括配置为检测数字图像中的多个非背景元素的多个连接成分的计算机可读程序代码;配置为基于多个连接成分来确定多个可能的字符的计算机可读程序代码;配置为基于多个可能的文本字符来确定一个或多个平均字符尺寸的计算机可读程序代码;以及,配置为基于一个或多个平均字符尺寸来估计数字图像的分辨率的计算机可读程序代码;使用处理器将包括数字图像中的文档的数字表示的四边形划分为多个区段,每个区段包括多个像素;针对每个区段:确定所述区段是否在第一方向上包含一个或多个锐利的像素到像素转变;针对所述区段(Ss1)对第一方向锐利的像素到像素转变的总数目进行计数;确定所述区段是否在所述第一方向上包含一个或多个模糊的像素到像素转变;针对所述区段(SB1)对第一方向模糊的像素到像素转变的总数目进行计数;确定所述区段是否在第二方向上包含一个或多个锐利的像素到像素转变;针对所述区段(SS2)对第二方向锐利的像素到像素转变的总数目进行计数;确定所述区段是否在所述第二方向上包含一个或多个模糊的像素到像素转变;针对所述区段(SB2)对第二方向模糊的像素到像素转变的总数目进行计数;一旦确定以下各项,则确定所述区段是空白的:SS1小于预定的锐利转变阈值,SB1小于预定的模糊转变阈值,SS2小于预定的锐利转变阈值,以及SB2小于预定的模糊转变阈值;以及,针对所有非空白区段确定第一方向模糊比r1=SS1/SB1;针对所有非空白区段确定第二方向模糊比r2=SS2/SB2;一旦确定r1小于预定义的区段模糊比阈值,则确定非空白区段在所述第一方向上是模糊的;以及一旦确定r2小于所述预定义的区段模糊比阈值,则确定非空白区段在所述第二方向上是模糊的;以及一旦确定以下中的一个或多个,则确定非空白区段是模糊的:所述区段在所述第一方向上是模糊的,以及所述区段在所述第二方向上是模糊的;以及确定模糊的区段的总数目;计算图像模糊比R,所述R包括:所述模糊的区段的总数目比区段的总数目;以及一旦确定所述图像模糊比大于预定的图像模糊阈值,则确定所述数字图像是模糊的;针对每个区段确定所述多个像素的亮度值的分布;确定所述亮度值的分布的特性可变性v;基于v来计算值得注意的亮度转变阈值η;基于η来计算大亮度转变阈值μ;针对所述多个像素内的每个像素来分析围绕所述像素的窗口中的亮度改变的方向性图;以及基于所述分析来识别以下中的一个或多个:所述锐利的像素到像素转变和所述模糊的像素到像素转变;
定义多个中心像素;顺序地分析围绕每个中心像素的像素的一个或多个小窗口内的所述多个中心像素中的每一个;一旦确定以下各项,则识别所述锐利的像素到像素转变:所述中心像素之一的紧邻地带内存在所述大亮度转变;在所述大亮度转变之前存在第一小亮度变化;以及在所述大亮度转变之后存在第二小亮度变化;一旦确定以下各项,则检测所述锐利的像素到像素转变:在所述小窗口的一个或多个内存在大转变;以及,在所述大转变中存在亮度的单调改变;以及一旦确定以下各项,则检测所述模糊的像素到像素转变:在小窗口内发生值得注意的转变;以及在所述值得注意的转变中存在亮度的所述单调改变;针对每个区段:对一个或多个所选取方向的每一个上的锐利的转变的总数目进行计数;对每个所选取方向上的模糊的转变的总数目进行计数;一旦确定以下各项,则确定区段是空白的:所述锐利的转变的总数目小于预定义的锐利转变阈值,以及所述模糊的转变的总数目小于预定义的模糊转变阈值;一旦确定包括所述锐利的转变的总数目对所述模糊的转变的总数目的区段模糊强度比在所述所选取方向的至少一个上小于区段模糊比阈值,则确定所述非空白区段是模糊的;以及,一旦确定所述区段既不是空白的,也不是模糊的,则确定所述区段是锐利的;确定所述多个区段内的空白区段的总数目(Nblank);确定所述多个区段内的模糊区段的总数目(Nblur);确定所述多个区段内的锐利区段的总数目(Nsharp);确定模糊强度比(RB)=Nblur/(Nblur+Nsharp);以及如果所述RB小于模糊强度阈值,则确定所述数字图像是锐利的;其中,所述处理器是移动设备的一部分,所述移动设备具有集成的摄像机;一种系统,包括配置为执行逻辑的处理器;用于使用处理器将包括数字图像中的文档的数字表示的四边形划分为多个区段的逻辑,每个区段包括多个像素;用于确定区段是否在第一方向上包含一个或多个锐利的像素到像素转变的逻辑;用于针对区段(SS1)对第一方向锐利的像素到像素转变的总数目进行计数的逻辑;用于确定区段是否在所述第一方向上包含一个或多个模糊的像素到像素转变的逻辑;用于针对(SB1)对第一方向模糊的像素到像素转变的总数目进行计数的逻辑;用于确定区段是否在第二方向上包含一个或多个锐利的像素到像素转变的逻辑;用于针对区段(SS2)对第二方向锐利的像素到像素转变的总数目进行计数的逻辑;用于确定区段是否在所述第二方向上包含一个或多个模糊的像素到像素转变的逻辑;用于针对区段(SB2)对第二方向模糊的像素到像素转变的总数目进行计数的逻辑;
用于一旦确定SS1小于预定的锐利转变阈值,SB1小于预定的模糊转变阈值,SS2小于预定的锐利转变阈值,并且SB2小于预定的模糊转变阈值,则确定区段是空白的的逻辑;以及用于针对所有非空白区段确定第一方向模糊比r1=SS1/SB1的逻辑;用于针对所有非空白区段确定第二方向模糊比r2=SS2/SB2的逻辑;用于一旦确定r1小于预定义的区段模糊比阈值,则确定非空白区段在所述第一方向上是模糊的的逻辑;以及用于一旦确定r2小于预定义的区段模糊比阈值,则确定非空白区段在所述第二方向上是模糊的的逻辑;以及用于一旦确定以下中的一个或多个:区段在所述第一方向上是模糊的以及区段在所述第二方向上是模糊的,则确定非空白区段是模糊的的逻辑;以及用于确定模糊的区段的总数目的逻辑;用于计算图像模糊比R的逻辑,所述R包括:模糊的区段的总数目比区段的总数目;以及用于一旦确定图像模糊比大于预定的图像模糊阈值,则确定数字图像是模糊的的逻辑;一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,计算机可读程序代码包括配置为使用处理器将包括数字图像中的文档的数字表示的四边形划分为多个区段的计算机可读程序代码,每个区段包括多个像素;配置为确定区段是否在第一方向上包含一个或多个锐利的像素到像素转变的计算机可读程序代码;配置为针对区段(SS1)对第一方向锐利的像素到像素转变的总数目进行计数的计算机可读程序代码;配置为确定区段是否在所述第一方向上包含一个或多个模糊的像素到像素转变的计算机可读程序代码;配置为针对区段(SB1)对第一方向模糊的像素到像素转变的总数目进行计数的计算机可读程序代码;配置为确定区段是否在第二方向上包含一个或多个锐利的像素到像素转变的计算机可读程序代码;配置为针对区段(SS2)对第二方向锐利的像素到像素转变的总数目进行计数的计算机可读程序代码;配置为确定区段是否在所述第二方向上包含一个或多个模糊的像素到像素转变的计算机可读程序代码;配置为针对区段(SB2)对第二方向模糊的像素到像素转变的总数目进行计数的计算机可读程序代码;配置为一旦确定SS1小于预定的锐利转变阈值,SB1小于预定的模糊转变阈值,SS2小于预定的锐利转变阈值,并且SB2小于预定的模糊转变阈值,则确定区段是空白的的计算机可读程序代码;以及配置为针对所有非空白区段确定第一方向模糊比r1=SS1/SB1的计算机可读程序代码;配置为针对所有非空白区段确定第二方向模糊比r2=SS2/SB2的计算机可读程序代码;配置为一旦确定r1小于预定义的区段模糊比阈值,则确定非空白区段在所述第一方向上是模糊的的计算机可读程序代码;以及配置为一旦确定r2小于预定义的区段模糊比阈值,则确定非空白区段在所述第二方向上是模糊的的计算机可读程序代码;以及配置为一旦确定以下中的一个或多个:区段在所述第一方向上是模糊的以及区段在所述第二方向上是模糊的,则确定非空白区段是模糊的的计算机可读程序代码;以及配置为确定模糊的区段的总数目的计算机可读程序代码;配置为计算图像模糊比R的计算机可读程序代码,所述R包括:模糊的区段的总数目比区段的总数目;以及配置为一旦确定图像模糊比大于预定的图像模糊阈值,则确定数字图像是模糊的的计算机可读程序代码;接收捕获数据的请求,所述数据包括以下中的一个或多个:数字图像,以及数字视频;以及响应于接收所述捕获请求,使用移动设备的捕获组件对所述数据进行捕获;将所捕获的数据输出到以下中的一个或多个:所述移动设备的显示器、所述移动设备的处理器以及所述移动设备的存储介质;接收对所捕获的数据进行分析的请求;响应于接收所述分析请求,使用所述移动设备对所捕获的数据进行分析;
以及将所述分析的结果输出到以下中的一个或多个:所述移动设备的显示器、所述移动设备的处理器以及所述移动设备的存储介质;接收修改一个或多个捕获数据参数的请求;以及,响应于所述请求修改所述一个或多个捕获数据参数,其中,所述一个或多个捕获数据参数包括以下中的一个或多个:闪光设置;捕获稳定性辅助设置;捕获对齐辅助设置;缩放等级;捕获色彩模式;以及捕获数据目的地等;其中,所述所捕获的数据与文档的数字表示相对应,所述分析包括:将所述文档的数字表示的一个或多个特性与一个或多个质量控制度量进行比较;基于所述比较确定每个特性是否是可接受的;针对每个特性:一旦确定所述特性是可接受的,则输出所述特性是可接受的的指示,以及一旦确定所述特性不是可接受的,则输出所述特性不是可接受的的指示;以及一旦确定每个特性是可接受的,则输出所述文档的数字表示是可接受的的指示;所述一个或多个质量控制度量包括以下中的一个或多个:页面检测度量;光照度量;以及模糊度量;经由所述移动设备的显示器来显示所述特性不是可接受的的指示;响应于所述显示而接收重新捕获数据的指令;响应于接收所述指令而重新捕获所述数据;以及输出经重新捕获的数据;经由所述移动设备的显示器来显示所述特性不是可接受的的指示;响应于所述显示而接收对所述所捕获的数据进行增强的指令;响应于接收所述指令而对所述所捕获的数据进行增强而不重新捕获所述数据;以及输出经增强的数据;其中,所述所捕获的数据与文档的数字表示相对应,所述方法将所述文档的数字表示输出到所述移动设备的显示器;以及接收与修改所述文档的数字表示的指令相对应的用户输入;其中,所述所捕获的数据与文档的数字表示相对应,其中,所述分析进一步包括:接收将所述文档的数字表示与一个或多个已知文档类型进行比较的请求;响应于接收所述比较请求而估计所述文档的数字表示的分辨率;将所估计的分辨率与一个或多个已知分辨率相关,每个已知分辨率与所述已知文档类型之一相对应;以及基于所述相关性输出所估计的文档类型;其中,所述所捕获的数据与文档的数字表示相对应,其中,所述分析进一步包括:处理所述文档的数字表示以确定所述文档的内容;基于所述内容确定文档类型;以及,基于所述文档类型确定所述文档的数字表示的分辨率;接收与所述所捕获的数据相对应的元数据;以及将所述元数据与所述所捕获的数据相关联,其中,所述元数据与以下中的一个或多个相对应:一个或多个字母数字字符,一个或多个符号,一个或多个签名;以及一个或多个指针;所述捕获包括从所述移动设备的存储介质中读取数据;其中,所述所捕获的数据与文档的数字表示相对应,校正所述文档的数字表示的一个或多个部分中的失真;其中,校正一个或多个伪影包括将与所述文档的数字表示相对应的四边形变换为矩形,其中,所述四边形通过多个等式来表征,其中,每个等式与所述四边形的边相对应,以及其中,每个等式从所选取的一类函数中选择;其中,所述所捕获的数据与文档的数字表示相对应,检测所述文档的数字表示;其中,检测所述所捕获的数据中的所述文档的数字表示包括:使用处理器来定义与所述文档的数字表示相对应的多个候选边缘点;基于所述多个候选边缘点来定义四边形的四个边;以及将所述文档的数字表示和所述四边形输出到所述移动设备的所述显示器;其中,定义所述多个候选边缘点包括:在数字图像内定义一个或多个大分析窗口;在所述数字图像内定义多个小分析窗口;针对每个大分析窗口估计统计数值的一个或多个分布;针对每个小分析窗口计算一个或多个统计数值;确定在针对所述小分析窗口之一所计算的统计数值中的一个或多个与针对所述大分析窗口所估计的统计数值的相对应分布之间是否存在统计上的显著差异;以及一旦确定所述统计上的显著差异存在,则将所述小分析窗口中的点指定为候选边缘点;其中,所述所捕获的数据与文档的数字表示相对应,确定所述文档的数字表示中是否存在一个或多个光照问题;其中,确定所述一个或多个光照问题是否存在包括:使用处理器将包括经检测的文档的数字表示的四边形划分为多个区段,每个区段包括多个像素;确定每个区段的亮度值的分布;确定每个区段的亮度值范围;确定每个区段的亮度值的可变性;确定每个区段是否是过饱和的;确定每个区段是否是欠饱和的;确定过饱和的区段的数目;确定欠饱和的区段的数目;一旦确定所述过饱和的区段的数目与区段的总数目的比超过过饱和阈值,则确定所述所捕获的数据是过饱和的;一旦确定所述欠饱和的区段的数目与区段的总数目的比超过欠饱和阈值,则确定所述所捕获的数据是欠饱和的;以及一旦确定所述所捕获的数据是欠饱和的或者是过饱和的,则确定在所述所捕获的数据中存在一个或多个光照问题;其中,所述所捕获的数据与文档的数字表示相对应,校正所述文档的数字表示的一个或多个区中的光照的不均匀性;其中,所述校正包括:使用处理器将包括所述文档的数字表示的四边形划分为多个区段,每个区段包括多个像素;确定每个区段的色彩通道值的分布,色彩通道值的每个分布与多个色彩通道之一相对应;针对色彩通道值的每个分布来确定以下中的一个或多个:相对应区段的初级背景的平均色彩;以及所述相对应区段的二级背景的平均色彩;针对每个区段,指定初级背景色彩或者二级背景色彩作为所述文档的数字表示的主要背景的局部表示,每个局部表示通过所述相对应区段的初级背景的平均色彩或者所述相对应区段的二级背景的平均色彩来表征;以及将所述二维光照模型应用到所述所捕获的数据;其中,所述经捕获的数据与文档的数字表示相对应,估计所述文档的数字表示的分辨率;所述估计包括:检测所述所捕获的数据中的多个非背景元素的多个连接成分;基于所述多个连接成分确定多个可能的字符;基于所述多个可能的字符确定一个或多个平均字符尺寸;以及基于所述一个或多个平均字符尺寸估计所述所捕获的数据的分辨率;其中,所述所捕获的数据与文档的数字表示相对应,确定所述所捕获的数据是否包括一个或多个模糊的区;其中,确定所述所捕获的数据是否包括一个或多个模糊的区包括:使用处理器将包括所述文档的数字表示的四边形划分为多个区段,每个区段包括多个像素;针对每个区段:确定所述区段是否在第一方向上包含一个或多个锐利的像素到像素转变;针对所述区段(Ss1)对第一方向锐利的像素到像素转变的总数目进行计数;确定所述区段是否在所述第一方向上包含一个或多个模糊的像素到像素转变;针对所述区段(SB1)对第一方向模糊的像素到像素转变的总数目进行计数;确定所述区段是否在第二方向上包含一个或多个锐利的像素到像素转变;针对所述区段(SS2)对第二方向锐利的像素到像素转变的总数目进行计数;确定所述区段是否在所述第二方向上包含一个或多个模糊的像素到像素转变;针对所述区段(SB2)对第二方向模糊的像素到像素转变的总数目进行计数;一旦确定以下各项,则确定所述区段是空白的:SS1小于预定的锐利转变阈值,SB1小于预定的模糊转变阈值,SS2小于预定的锐利转变阈值,以及SB2小于预定的模糊转变阈值;以及针对所有非空白区段确定第一方向模糊比r1=SS1/SB1;针对所有非空白区段确定第二方向模糊比r2=SS2/SB2;一旦确定r1小于预定义的区段模糊比阈值,则确定非空白区段在所述第一方向上是模糊的;以及一旦确定r2小于所述预定义的区段模糊比阈值,则确定非空白区段在所述第二方向上是模糊的;以及一旦确定以下中的一个或多个,则确定非空白区段是模糊的:所述区段在所述第一方向上是模糊的,以及所述区段在所述第二方向上是模糊的;以及确定模糊的区段的总数目;计算图像模糊比R,所述R包括:所述模糊的区段的总数目比区段的总数目;以及一旦确定所述图像模糊比大于预定的图像模糊阈值,则确定所述所捕获的数据包括模糊的区域。一种系统,包括配置为执行逻辑的处理器;用于接收捕获数据的请求的逻辑,所述数据包括数字图像和数字视频中的一个或多个;以及用于响应于接收捕获请求使用移动设备的捕获组件来捕获数据的逻辑;将所捕获的数据输出到以下中的一个或多个:移动设备的显示器、移动设备的处理器以及移动设备的存储介质;用于接收对所捕获的数据进行分析的请求的逻辑;用于响应于接收分析请求使用移动设备对所捕获的数据进行分析的逻辑;以及用于将分析的结果输出到以下中的一个或多个的逻辑:移动设备的显示器、移动设备的处理器以及移动设备的存储介质;一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,计算机可读程序代码包括配置为接收捕获数据的请求的计算机可读程序代码,所述数据包括数字图像和数字视频中的一个或多个;以及配置为响应于接收捕获请求而使用移动设备的捕获组件来捕获数据的计算机可读程序代码;将所捕获的数据输出到以下中的一个或多个:移动设备的显示器、移动设备的处理器以及移动设备的存储介质;配置为接收对所捕获的数据进行分析的请求的计算机可读程序代码;配置为响应于接收分析请求而使用移动设备对所捕获的数据进行分析的计算机可读程序代码;以及,配置为将分析的结果输出到以下中的一个或多个的计算机可读程序代码:移动设备的显示器、移动设备的处理器以及移动设备的存储介质;将案例管理界面输出到移动设备的显示器;经由所显示的案例管理界面接收与一个或多个案例动作相对应的一个或多个指令,每个案例动作与至少一个案例相关联;以及响应于接收所述指令而实施所述案例动作中的一个或多个;将数据捕获界面输出到所述移动设备的显示器用于捕获包括文档的数字表示的图像;接收来自用户的经由所述数据捕获界面对所述图像进行捕获的请求;响应于接收所述请求来对所述图像进行捕获,所述捕获使用所述移动设备的捕获组件来实施;以及将所捕获的图像与一个或多个案例相关联;检测所述文档的数字表示;其中,检测所述图像中的所述文档的数字表示包括:使用处理器来定义与所述文档的数字表示相对应的多个候选边缘点;基于所述多个候选边缘点来定义四边形的四个边;以及将所述文档的数字表示和所述四边形输出到所述移动设备的所述显示器;其中,定义所述多个候选边缘点包括:在数字图像内定义一个或多个大分析窗口;在所述数字图像内定义多个小分析窗口;针对每个大分析窗口估计统计数值的一个或多个分布;针对每个小分析窗口计算一个或多个统计数值;确定在针对所述小分析窗口之一所计算的统计数值中的一个或多个与针对所述大分析窗口之一所估计的统计数值的相对应分布之间是否存在统计上的显著差异;以及一旦确定所述统计上的显著差异存在,则将所述小分析窗口中的点指定为候选边缘点;校正所述文档的数字表示的一个或多个部分的一个或多个失真;其中,校正所述一个或多个失真包括将与所述文档的数字表示相对应的四边形变换为矩形,其中,所述四边形通过多个等式来表征,其中,每个等式与所述四边形的边相对应,以及其中,每个等式从所选取的一类函数中选择;确定所述文档的数字表示中是否存在一个或多个光照问题;确定所述一个或多个光照问题是否存在包括:使用处理器将包括所述数字图像内的文档的经检测的数字表示的四边形划分为多个区段,每个区段包括多个像素;确定每个区段的亮度值的分布;确定每个区段的亮度值范围;确定每个区段的亮度值的可变性;确定每个区段是否是过饱和的;确定每个区段是否是欠饱和的;确定过饱和的区段的数目;确定欠饱和的区段的数目;
一旦确定所述过饱和的区段的数目与区段的总数目的比超过过饱和阈值,则确定所述数字图像是过饱和的;一旦确定所述欠饱和的区段的数目与区段的总数目的比超过欠饱和阈值,则确定所述数字图像是欠饱和的;以及一旦确定所述数字图像是欠饱和的或者是过饱和的,则确定所述数字图像中存在所述光照问题;校正所述文档的数字表示的一个或多个区中的光照的不均匀性;其中,所述校正包括:从所述数字图像导出二维光照模型;以及将所述二维光照模型应用到所述数字图像中的每个像素;估计所述文档的数字表示的分辨率;所述估计包括:检测所述数字图像中的多个非背景元素的多个连接成分;基于所述多个连接成分确定多个可能的字符;基于所述多个可能的文本字符确定一个或多个平均字符尺寸;以及基于所述一个或多个平均字符尺寸估计所述数字图像的分辨率;确定所述图像是否包括一个或多个模糊的区域;其中,确定所述图像是否包括一个或多个模糊的区域包括:使用处理器将包括数字图像中的文档的数字表示的四边形划分为多个区段,每个区段包括多个像素;针对每个区段:确定所述区段是否在第一方向上包含一个或多个锐利的像素到像素转变;针对所述区段(SS1)对第一方向锐利的像素到像素转变的总数目进行计数;
确定所述区段是否在所述第一方向上包含一个或多个模糊的像素到像素转变;针对所述区段(SB1)对第一方向模糊的像素到像素转变的总数目进行计数;确定所述区段是否在第二方向上包含一个或多个锐利的像素到像素转变;针对所述区段(Ss2)对第二方向锐利的像素到像素转变的总数目进行计数;确定所述区段是否在所述第二方向上包含一个或多个模糊的像素到像素转变;针对所述区段(SB2)对第二方向模糊的像素到像素转变的总数目进行计数;一旦确定以下各项,则确定所述区段是空白的:SS1小于预定的锐利转变阈值,SB1小于预定的模糊转变阈值,SS2小于预定的锐利转变阈值,以及SB2小于预定的模糊转变阈值;
以及针对所有非空白区段确定第一方向模糊比r1=SS1/SB1;针对所有非空白区段确定第二方向模糊比r2=SS2/SB2;一旦确定r1小于预定义的区段模糊比阈值,则确定非空白区段在所述第一方向上是模糊的;以及一旦确定r2小于所述预定义的区段模糊比阈值,则确定非空白区段在所述第二方向上是模糊的;以及一旦确定以下中的一个或多个,则确定非空白区段是模糊的:所述区段在所述第一方向上是模糊的,以及所述区段在所述第二方向上是模糊的;以及确定模糊的区段的总数目;计算图像模糊比R,所述R包括:所述模糊的区段的总数目比区段的总数目;以及一旦确定所述图像模糊比大于预定的图像模糊阈值,则确定所述数字图像是模糊的;将认证界面输出到所述移动设备的显示器;经由所述认证界面接收认证数据;接收认证请求;响应于接收所述认证请求来确定所述认证数据是否是有效的;一旦确定所述认证数据是有效的,则准予对一个或多个安全案例动作的访问;一旦确定所述认证数据不是有效的,则拒绝对所述安全案例动作的访问;所述案例动作包括:创建新案例;打开现存案例;删除所述现存案例中的一个或多个;指定案例类型;捕获案例信息;捕获与文档的数字表示相对应的数据,所述数据包括图像数据或者视频数据;将所捕获的数据输出到所述移动设备的所述显示器;将所述所捕获的数据与所述新案例和所述现存案例中的一个或多个相关联;将所述所捕获的数据从所述新案例和所述现存案例中的一个或多个分离;处理所述所捕获的数据;将经处理的数据输出到所述移动设备的所述显示器;经由所述移动设备的所述显示器接收用户输入;以及将所述新案例和所述现存案例中的一个或多个提交到远程服务器;其中,所述捕获包括:经由所述移动设备的所述显示器接收用户输入;以及响应于所述用户输入而使用所述移动设备的捕获组件来捕获数据;其中,所述捕获包括:经由所述移动设备的所述显示器接收用户输入;以及响应于所述用户输入从所述移动设备的计算机可读存储介质中读取数据;其中,所述用户输入和与所述新案例和所述现存案例中的一个或多个相关的元数据相对应;以及将所述元数据与所述新案例和所述现存案例中的一个或多个相关联,所述元数据包括以下中的一个或多个:一个或多个字母数字字符,一个或多个符号,一个或多个签名,以及一个或多个指针;其中,指定所述案例类型包括:将多个潜在案例类型显示在所述移动设备的所述显示器上;经由所述移动设备的所述显示器接收用户输入,所述用户输入指示所述多个潜在案例类型之一是期望的案例类型;以及将所述案例类型指定为所述期望的案例类型;其中,所述潜在案例类型包括:保险索赔;贷款申请;交货证明;未定义的案例类型;新账户开设;教育程序应用;医疗记录;费用管理;事故报告;以及用户定义的案例类型;其中,所述案例信息包括以下中的一个或多个:数字签名、电子签名以及手写签名;其中,所述处理包括:删除所述所捕获的数据中的所述文档的数字表示;确定所述文档的数字表示是否通过矩形形状来表征;确定所述文档的数字表示是否通过歪斜角度≠0°来表征;以及一旦确定所述文档的数字表示不通过矩形形状和所述歪斜角度≠0°来表征,则将所述文档的数字表示变换为通过歪斜角度=0°表征的、大致矩形的文档的数字表示;所述处理估计所述文档的数字表示的分辨率;以及基于所估计的分辨率将所述文档的数字表示匹配到已知文档类型;所述处理确定所述大致矩形的、抗歪斜的文档的数字表示是否通过一个或多个有问题的光照区来表征;一旦确定所述大致矩形的、抗歪斜的文档的数字表示通过一个或多个有问题的光照区来表征,则将预览界面输出到所述移动设备的所述显示器;经由所述移动设备的所述显示器接收涉及所述一个或多个有问题的光照区的用户输入;以及响应于涉及一个或多个不均匀光照区的用户输入而校正所述一个或多个不均匀光照区;所述处理确定所述大致矩形的、抗歪斜的文档的数字表示是否通过一个或多个模糊的区来表征;一旦确定所述大致矩形的、抗歪斜的文档的数字表示通过一个或多个模糊的区来表征,则将预览界面输出到所述移动设备的所述显示器;经由所述移动设备的所述显示器接收涉及所述一个或多个模糊的区的用户输入;以及响应于涉及所述一个或多个模糊的区的用户输入接受、丢弃、或重新处理通过一个或多个模糊的区来表征的所述大致矩形的、抗歪斜的数字表示;所述案例动作包括打印与一个或多个案例相关的一个或多个文档,所述打印包括:将打印请求从所述移动设备提交给远程资源,所述远程资源和所述移动设备不经由本地网络通信;以及响应于所述打印请求而在远程位置处使用所述远程资源打印所述一个或多个文档;其中,实施所述一个或多个案例动作利用所述移动设备的处理器,所述移动设备具有集成的摄像机;
一种系统,包括配置为执行逻辑的处理器;用于将案例管理界面输出到移动设备的显示器的逻辑;用于经由所显示的案例管理界面接收与一个或多个案例动作相对应的一个或多个指令的逻辑,每个案例动作与至少一个案例相关联;以及用于响应于接收指令而实施案例动作中的一个或多个的逻辑;一种计算机程序产品,包括具有存储在其上的计算机可读程序代码的计算机可读存储介质,计算机可读程序代码包括配置为将案例管理界面输出到移动设备的显示器的计算机可读程序代码;配置为经由所显示的案例管理界面接收与一个或多个案例动作相对应的一个或多个指令的计算机可读程序代码,每个案例动作与至少一个案例相关联;以及配置为响应于接收指令而实施案例动作中的一个或多个的计算机可读程序代码。
[0622] 在另一实施例中,本公开的范围内的方法、系统和/或计算机程序产品可以通过所有前述特征来表征和/或包括实施所有前述操作。
[0623] 尽管上文已描述各实施例,但是应该理解它们仅以示例并非限制的方式来呈现。因此,本发明的实施例的宽度和范围不应被任何上文所描述的示例性实施例所限制,而是应根据下面的权利要求和其等同物来进行限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈