首页 / 专利库 / 专利权 / 实施例 / 采用配备有传感器的智能电话的方法和配置方案

采用配备有传感器的智能电话的方法和配置方案

阅读:567发布:2021-09-19

专利汇可以提供采用配备有传感器的智能电话的方法和配置方案专利检索,专利查询,专利分析的服务。并且本 发明 涉及对智能电话和相关的配备有 传感器 的系统的改进。一些 实施例 涉及由智能电话辅助的例如通过 自行车 进行的通勤。一些实施例涉及新颖的 人机交互 ,例如利用触觉语法(这些语法中的一些可由用户定制。另一些实施例涉及口头线索,例如用户借以辅助智能电话识别应该处理智能电话摄像机所捕获的图像的哪一部分、或者识别应该进行什么类型的 图像处理 的口头线索。一些配置方案包括根据私用规则对捕获的内容信息进行衰减,这可以取决于 位置 、或基于所捕获内容的不寻常性、或响应于用户在之后对存储的内容信息的查阅。还详述了各种其他特征和配置方案。,下面是采用配备有传感器的智能电话的方法和配置方案专利的具体信息内容。

1.一种采用便携式用户装置的方法,该便携式用户装置具有捕获音频的至少一个麦克和用于捕获图像的至少一个图像传感器,所述方法包括以下动作:
(a)采用所述图像传感器捕获图像,该被捕获的图像描绘第一用户的环境中的一个或多个物理对象,并采用所述麦克风捕获第一用户讲话;
(b)向语音识别发送与所述第一用户讲话相对应的音频数据,并接收与所述音频数据相对应的识别出的第一用户讲话数据;
(c)对所述被捕获的图像进行计算机识别处理,所述识别处理使用所述识别出的第一用户讲话数据中的信息作为线索来帮助确定捕获的图像中用户感兴趣的物理对象;以及(d)向所述第一用户呈现一组的多个响应选择以供用户从中选择,
其中向用户呈现的所述一组的多个响应选择根据被确定的物理对象而发生改变。
2.如权利要求1所述的方法,还包括:至少部分地基于所述识别出的第一用户讲话数据,从较大的一组可能的操作中选择关于被确定的物理对象而应用的一个或多个操作。
3.如权利要求2所述的方法,还包括执行被选择的操作。
4.如权利要求1所述的方法,其中发送给所述语音识别模块的所述音频数据包括:与用户讲话中的动词和名词相对应的音频数据。
5.如权利要求1所述的方法,其中发送给所述语音识别模块的所述音频数据包括与用户讲话中的名词相对应的音频数据,并且所述方法还包括:查阅一数据结构以识别与所述名词相关联的视觉信息,并利用识别出的视觉信息来确定用户感兴趣的所述物理对象。
6.如权利要求1所述的方法,还包括:
采用所述麦克风捕获第二用户讲话;以及
向所述语音识别模块发送与所捕获的第二用户讲话相对应的第二音频数据,并接收与所述第二音频数据相对应的识别出的第二用户讲话数据;
其中确定动作包括:使用所述识别出的第一和第二用户讲话数据,来确定所捕获的图像中的描绘用户感兴趣的物理对象的图像部分。
7.如权利要求1所述的方法,其中所捕获的第一用户讲话包括与用户感兴趣的所述物理对象相关的词语,并且所述方法包括启动用于识别与所述词语相关的所述物理对象的处理。
8.如权利要求7所述的方法,其中所述词语描述所述物理对象的颜色
9.如权利要求7所述的方法,其中所述词语描述所述物理对象的形状。
10.如权利要求7所述的方法,其中所述词语是所述物理对象的名称。
11.一种移动装置的处理器,所述移动装置包括麦克风、图像传感器和存储器,所述处理器包括以下处理单元:
(a)采用所述图像传感器捕获图像的处理单元A,其中该被捕获的图像描绘第一用户的环境内的一个或多个物理对象;
(b)采用所述麦克风捕获第一用户讲话的处理单元B;
(c)向语音识别模块发送与所述第一用户讲话相对应的音频数据,并接收与所述音频数据相对应的识别出的第一用户讲话数据的处理单元C;
(d)对所述被捕获的图像进行计算机识别处理,所述识别处理使用所述识别出的第一用户讲话数据中的信息作为线索来帮助确定捕获的图像中用户感兴趣的物理对象的处理单元D;以及
(e)向所述第一用户呈现一组的多个响应选择以供用户从中选择的处理单元E,其中向用户呈现的所述一组的多个响应选择根据被确定的物理对象而发生改变。
12.如权利要求11所述的处理器,其中所述处理单元E至少部分地基于所述识别出的第一用户讲话数据,从较大的一组可能的操作中选择关于被确定的物理对象而应用的一个或多个操作。
13.如权利要求11所述的处理器,其中所述处理单元E执行被选择的操作。
14.如权利要求11所述的处理器,其中发送给所述语音识别模块的所述音频数据包括:与用户讲话中的动词和名词相对应的音频数据。
15.如权利要求11所述的处理器,其中发送给所述语音识别模块的所述音频数据包括与用户讲话中的名词相对应的音频数据,并且所述处理单元D查阅一数据结构以识别与所述名词相关联的视觉信息,并利用识别出的视觉信息来确定用户感兴趣的所述物理对象。
16.如权利要求11所述的处理器,其中所述处理器还包括以下处理单元:
(f)采用所述麦克风捕获第二用户讲话的处理单元F;
(g)向所述语音识别模块发送与所捕获的第二用户讲话相对应的第二音频数据,并接收与所述第二音频数据相对应的识别出的第二用户讲话数据的处理单元G;以及(h)使用所述识别出的第一和第二用户讲话数据,来确定所捕获的图像中的描绘用户感兴趣的物理对象的图像部分的处理单元H。
17.如权利要求11所述的处理器,其中所捕获的第一用户讲话包括与用户感兴趣的所述物理对象相关的词语,并且所述处理单元D启动用于识别与所述词语相关的所述物理对象的处理。
18.如权利要求17所述的处理器,其中所述词语描述所述物理对象的颜色。
19.如权利要求17所述的处理器,其中所述词语描述所述物理对象的形状。
20.如权利要求17所述的处理器,其中所述词语是所述物理对象的名称。

说明书全文

采用配备有传感器的智能电话的方法和配置方案

技术领域

[0001] 本申请涉及对智能电话和相关系统的改进。

背景技术

[0002] (2009年12月17日提交的)申请12/640,386描述了适合于供配备有传感器的智能电话使用的各种技术。
[0003] 2008年11月14日提交的(公开号为20100119208的)申请12/271,772和2009年6月24日提交的(公开号为20100205628的)申请12/490,980公开了类似于智能电话的装置可以与周围媒介进行交互的各种方式。
发明内容
[0004] 本文扩展了这些现有专利申请的工作,例如详述了这样的技术可以应用于的额外应用场合。
[0005] 根据本技术的某些方面,智能电话在通勤者上班的路上向该通勤者提供有用的引导。
[0006] 根据本技术的其他方面,智能电话在各种直觉计算操作中由用户提供的线索(例如,口述的线索)辅助。
[0007] 根据参考附图给出的以下详细说明,本技术的前述和额外方面、特征及优点将更加明了。

附图说明

[0008] 图1-9示出本文中详述的某些配置方案的各方面。

具体实施方式

[0009] 自行车通勤
[0010] 为了健康和降低足迹,Elizabeth想要尽可能多地通过自行车/列车通勤。在顺利的一天,她的通勤要花费一小时,但是如果她没有正好让两班列车衔接起来,那么她就必须在危险的交通状况下骑车或者必须在寒冷中为了下一班列车等待高达30分钟(并且上班迟到)。
[0011] 以前,Elizabeth必须做许多人工规划。当闹铃在早上6:30响起时,Elizabeth检查最新的天气预报。如果预测有大雨,那么她通常会把她的自行车放在家里而驾车出行,这会留给她额外的30分钟在家消磨。(实际上,她宁愿睡觉,但是一旦闹铃叫醒她,就这样了)。她还检查她的电子日历。如果(在她的通常到达时间8:00am之前)有晨会,那么她必须赶快行动并赶上更早的列车。
[0012] 列车会引入许多变化性。Elizabeth必须赶上一班列车,然后与另一班列车相衔接。列车的公布时间表使其看起来直接明了,但很少是这样。取决于天气、交通状况和道路灯顺序,骑车时间会增加几分钟。名义上,她赶上7:08am的第一班列车,这班列车在7:22将她送至衔接点。第二班列车在7:28离开衔接点,并在7:37到达离她工作地点几英里的车站。然而,第二班列车每30分钟才有一班,所以如果她错过这班列车,她的自行车通勤会穿过一些不利于自行车行驶的道路而加长五英里。(或者她可以在寒冷中等待下一班列车。)[0013] 在一些日子里,她会因为第一班列车晚到达几分钟而错过第二班列车。在另一些日子里,她会因为骑自行车到第一个车站时晚了一会、从而错过第一班列车(该条线路上的每八分钟发车的下一班列车即使按时到达也无法与第二班列车相衔接)而错过第二班列车。
[0014] 当Elizabeth需要早点上班(即使是早五分钟)时,她需要提前约30分钟离开家,以便赶上早30分钟的那个第二班列车。
[0015] 运输公司有一个不错的网站,该网站有实时的时间表报告,但是在骑自行车的同时使用iPhone仅适用于有自杀倾向的人。在等红灯时,Elizabeth可以掏出iPhone,但是即使这样也是不切实际的。她需要有关她的速度、以及她是否能按时到达她的目的地、或者她是否需要改变她的路线从而在更前面的车站赶上第一班车的实时反馈。
[0016] 在家中检查所有可用信息并设定计划之后,Elizabeth骑上自行车并驶向第一个车站——希望发生最好的情况、但总是有点担心某事会干扰她的计划。所以她骑得比可能应该的速度更快,只是为了确保她可以使两班列车衔接起来。
[0017] 在一些日子里,Elizabeth按时到达工作地点,只是感到有压。在另一些日子里,情况更糟。
[0018] 根据本技术的一个方面,能使Elizabeth的通勤变得容易。例如,智能电话向Elizabeth提供实时更新的、告诉她在哪里以及在何时进行各种衔接的建议,而无需Elizabeth触摸或查看装置。
[0019] 改进在家中开始。Elizabeth将智能电话的标称闹铃时间设定为6:00,但是智能电话可以基于环境和/或对Elizabeth的行为的观察来调整该标称闹铃时间。
[0020] 一种环境是要求Elizabeth在8:00am之前工作的晨会。智能电话在Elizabeth的日历中检查接下来的一天,并且如果查找到晨会在7:30和7:59之间开始,则智能电话修改闹铃时间从而提前30分钟叫醒Elizabeth。如果会议在7:00和7:29之间开始(Elizabeth担心与阿姆斯特丹办公室的电话会议),则闹铃时间被调整为进一步提前30分钟,即调整至5:00am。
[0021] 另一种环境是天气。网站(例如,雅虎天气(Yahoo!Weather))发布对接下来一天的剩余时间的峰值速和降雨量的天气预报的每小时更新(并且发布当前状况)。智能电话在发出闹铃声的前不久检查该网站,以确定(1)预报的当天峰值阵风是否超过20mph、或者(2)预报的当天降雨量是否超过0.2英寸。Elizabeth早先已经指定这些参数来表征她宁愿驾车出行的日子。如果以上两条中的任何一条成立,那么智能电话将闹铃时间推迟30分钟——从而允许Elizabeth拥有额外半小时的宝贵睡眠时间。(智能电话允许限定基本上无限数量的天气和其他标准(单独地或者作为组合),每个标准具有相应的闹铃时间改变量(向前或向后)。所以智能电话基本上决定当天是否是适合骑车出行的一天,并相应地改变闹铃时间。)
[0022] Elizabeth已经向智能电话授予独立对闹铃时间做出这些基于约定和基于天气的变化的自主权。智能电话也可以建议对闹铃时间作出另外一些调整,Elizabeth可以接受或者也可以不接受这另外一些调整。
[0023] 例如,通过感测Elizabeth过去的行为,智能电话可以回想起在星期五,Elizabeth常常在去第一班列车的路上会停留几分钟(她购买咖啡特供来纪念一周的结束)。然而,她之后必须非常努力地骑自行车以便按时赶到第一个车站。她错过第一班列车的那些天常常是星期五。
[0024] 智能电话可以感测该行为模式。通过诸如温度传感器(例如,热敏电阻器)、运动传感器(例如,3D加速计)、方向传感器(例如,3D霍尔效应装置)和位置传感器(例如,GPS)之类的传感器,智能电话注意并记录传感器数据随着日和时的变化而具有的不同模式。根据GPS传感器和运动传感器这两者,Elizabeth周五在家和第一个车站之间的通勤中的延长停留是明显可见的。
[0025] 认识到Elizabeth周五在去往车站的路程中的第二段上会非常努力地骑自行车,并且认识到GPS数据显示出她有时会赶上稍后的第一班列车并错过正常的第二班列车从而上班迟到,智能电话可以向Elizabeth建议周五早晨的闹铃应该在5:55am而不是6:00响起。Elizabeth认为这是明智的,并接受该建议。现在她几乎不会错过第一班列车,而仍然享受周五特供。
[0026] 当Elizabeth骑车赶往第一个车站时,她的智能电话在运输公司供给的实时位置信息数据中检查各列车。如果她通常的第一班列车误点时间大于两分钟(预示着错过与第二班列车相衔接),则智能电话发信号通知Elizabeth转向前面的车站,以便赶上早一班列车。(Elizabeth通常在Goose Hollow赶上第一班列车——这提供给她精力充沛的三十分钟自行车行程。但是她可骑自行车到使她能够赶上更早列车的其他车站,这要以自行车行程较短、不那么有趣为代价。)
[0027] 智能电话可以以各种方式发信号通知Elizabeth。因为她在口袋中携带智能电话,所以振动模式的工作效果很好。如果不需要对正常的通勤做出调整,那么智能电话大约每一分钟提供一个使人安心的小蜂鸣声。然而,如果Elizabeth需要转向从而赶上更早的列车,那么智能电话提供一连串四个长时间强烈振动来发信号通知该情况(至少直到Elizabeth通过其衣服轻拍智能电话两次——表明对智能电话的通知信号的确认)。另一些骑车者在背包或自行车包中携带他们的智能电话,并且通过存储的偏好数据来选择诸如通过智能电话扬声器发出的听觉信号(例如,音调或口语)。
[0028] 正常地,Elizabeth的通勤路程上的吊桥在高峰时间会放下。然而,有时,吊桥会升起——从而中断正常的交通流并耽搁Elizabeth。智能电话自然会感测到Elizabeth的运动和GPS进展中的异常中断。智能电话在所存储的Elizabeth的历史概况中调出之前在该位置附近(并且可能在该日时附近)的中断,并注意到她有时会在继续前进之前等待六分钟。为最坏的情况作准备,智能电话用外推法求出Elizabeth到达正常的Goose Hollow车站的预测时间(通过利用该点和车站之间的历史通行时间信息)。如果查找到她将错过与第二班列车相衔接所需的那班列车,则智能电话可以再次发信号通知Elizabeth,让她转向更前面的车站,从而弥补损失的时间。
[0029] Elizabeth很了解她所处的城镇的道路,但是其他用户并不这样。智能电话具有可以通过轻拍智能电话三次来触发的导航选项,从而使智能电话指引用户去往当前目的地(例如,更前面的车站)。在振动模式下,智能电话提供两次强烈振动来发信号通知在即将到来的十字路口右转,并且提供三次强烈振动来发信号通知在十字路口左转。当在正确的路线上行进时,智能电话周期性地提供令人欣慰的蜂鸣声来确认一切都顺利。(一些实现方案可以利用多个振动部件——例如,每个手腕上佩戴一个,这些部件与其他系统元件进行无线通信。在这样的实现方案中,左手腕上的装置可以振动从而发信号通知向左转,并且两个装置都可以周期性地发出蜂鸣声,以便发信号通知沿当前方向继续行进。另一些用户可以选择语音导航提示。)
[0030] 在一个月的第一个星期五,本地的民众组织会在城市公园中向骑自行车者提供免费的咖啡和点心。通常Elizabeth骑自行车经过免费赠品,以免错过列车衔接。但是智能电话也可以在这里帮助她。她轻拍智能电话上方的衣服四次。对应的运动传感器数据由智能电话处理器解释为对关于Elizabeth沿她的路线的进展的信息的请求。智能电话(通过GPS)检查Elizabeth的当前位置,并预测她何时将到达目的地(车站)。该计算主要基于所存储的从当前位置到车站的历史通行时间(以及对当前时间的认识)。关于一个星期中的当前这一天的通行时间和/或当前日时附近的通行时间会是特别相关的;其他数据可以被忽视或者在计算中给予较小的权重。预期到达时间计算也会受到其他因素的影响。例如,如果Elizabeth的自行车行程的前面一部分比正常慢10%,那么在估算自行车行程的剩余部分的长度的过程中可以应用相似的因素。
[0031] 智能电话还检查来自运输公司的最新实时数据,其表明Elizabeth期望赶上的列车到达车站的时间。然后智能电话计算Elizabeth预计多早会到达。智能电话以振动方式通过后面跟随多个短时间振动(每个短时间振动对应Elizabeth预计会早到达的一分钟)的一个长时间振动,将该信息传递给Elizabeth。在这天,智能电话表明Elizabeth预期在到达车站时有五分钟剩余时间,所以她在公园中停下来享用烤饼。
[0032] 在之前详述的环境中,智能电话预测到Elizabeth错过列车衔接的显著风险,并相应地建议备选行动路线。在其他情况下,Elizabeth仅仅需要稍微加快速度来实现安全衔接,智能电话可以通过另一种反馈形式(例如,轻柔的重复性蜂鸣声)来表明这一点。
[0033] 智能电话在Elizabeth醒来之前检查天气预报。但是智能电话也可以在Elizabeth骑自行车期间检查在线资源来了解当前状况。智能电话可以发现例如
Elizabeth正在骑自行车进入15mph或20mph的逆向的东风。智能电话可以进一步感测到她正在费力地骑车(在这样的评估中可以采用各种传感器,例如心率监测器等生物统计传感器和/或追踪Elizabeth的踏板节奏的传感器等安装在自行车上的仪器)。基于这些因素,装置可以建议Elizabeth转向更近的车站、或者转向改变她的行进方向使得风横穿她的路线而不是逆着她的路线的目的地。
[0034] 有时,Elizabeth可以决定改变她通常的路线,并且可以相应地发信号通知智能电话。她的一连串轻拍可以表明特定的备选目的地(例如,更近或更远的车站)。智能电话于是可以使其进一步的操作以该备选目的地为基础
[0035] 智能电话预先编程有用户借以向该智能电话发信号通知的轻拍和振动的默认语法,反之亦然。然而,Elizabeth更喜欢定义她自己的语法。为此目的,智能电话提供允许Elizabeth定制输入信号输出信号软件例程。在该个性化词汇表中,Elizabeth定义不同的信号来代表不同的车站,等等。
[0036] 因为智能电话具有3D加速计,所以其输出信号允许处理器区分智能电话主体上的不同位置的轻拍。例如,在前面(背面)的中心轻拍,会使智能电话主要沿一个轴振动。额外地朝一端轻拍会引起绕着另一个轴的轻微旋转运动。朝相反一端轻拍会引起绕着该轴的反方向运动。朝一个侧面轻拍会引起绕着另一个轴的轻微旋转运动,等等。
[0037] 当Elizabeth正在骑自行车时,她无法可靠地使轻拍位于智能电话主体上的特定位置。然而,智能电话可以把利用单个手指的多次轻拍与来自一些列不同手指的相同次数的轻拍区分开来。前者在固定位置敲击智能电话,而后者由不同位置的一连串轻拍构成(如同弹奏琴音阶中的一系列音符)。因此,在定义她的个人语法的过程中,Elizabeth把一个位置上的两次轻拍所构成的序列指派给一个含义,而把不同位置上的两次轻拍所构成的序列指派给另一个含义。对于三次轻拍和四次轻拍也同样如此。
[0038] 该装置也可以基于接触的不同密度(如轻拍与关节敲击的对比)来区分输入消息。全力敲击可以用于发出更紧急的消息(例如,“我现在正在绕路去往另一目的地”),而较轻的轻拍可以用于其他消息。
[0039] 轻拍词汇表可以包括停顿和轻拍。由两次轻拍、一次停顿和一次进一步的轻拍构成的序列可以表示一件事;由一次轻拍、一次停顿和两次进一步的轻拍构成的序列可以通知某件其他事。
[0040] 轻拍的速度也可以用于形成不同的信号。一秒钟跨度内的三次轻拍可以表示一件事;三秒钟跨度内的三次轻拍可以通知某件其他事。
[0041] 也可以采用前述方案的组合。
[0042] Elizabeth已经将智能电话配置成当她发出快速轻拍、轻拍、停顿、轻拍信号时智能电话说出当前时间和她接下来的列车衔接的时间。(智能电话使用已知的文本转语言软件说出当前时间和来自运输公司的实时数据。)其他轻拍模式会引起智能电话说出天气预报或其他信息。(可选地,相同的动作可以通过Elizabeth的语音命令来触发。)[0043] 智能电话发出的振动模式及其对应的含义可以类似地定义。
[0044] 上述的功能可以通过在Elizabeth离开家之前由她启动的应用程序来提供。或者智能电话可以基于背景环境线索(例如,一个星期中的一天、日时、位置、运动等)来独立地启动这样的功能。
[0045] 刚刚详述的技术可以与传感器、UI、以及和MIT的“Copenhagen Wheel(哥本哈根轮)”相关联的其他技术结合使用,从而向自行车通勤者提供另外的优点。(参见例如Chandler的“MIT’s Big Wheel in Copenhagen”,MIT News Office,2009年12月16日)。
[0046] 用户提供的线索
[0047] 前面引用的专利文献公开了可以由基于智能电话的系统执行的各种直觉计算操作。例如,智能电话可以在视觉上感测用户环境中的特征,并作为响应而自动地采取某些动作。
[0048] 如所引用的文献中所述,直觉计算中的挑战之一是确定要把努力集中于感测数据中的哪一些以及忽略感测数据中的哪一些。根据本技术的另一方面,用户帮助系统进行该处理。
[0049] 考虑聚会中的用户。用户的智能电话对堆满物体和人的场景进行成像。用户可以通过说出“看Tony”来迅速地帮助智能电话恰当地集中其处理注意力。
[0050] 语音到文本的转换很容易由智能电话完成。(Nuance Communications公司的Dragon Dictation(声龙听写)是供执行这样的操作的iPhone使用的若干应用软件之一。)智能电话可以将分析程序应用于转换出的文本,并把“看”识别为指引智能电话将其视觉处理集中于识别出的对象的命令。
[0051] 智能电话在其存储的指令列表中无法找到“Tony”,所以查阅另外的充当词汇表数据库的所存储的数据结构。根据该词汇表数据库,智能电话查找到Tony是人(而不是例如地点或东西或某种其他分类学分类的成员),并查找到与Tony相关的各种其他信息(或去往其他信息的链接)。该信息可以包括借以识别Tony的脸的面部特征向量。智能电话处理捕获的图像数据,从而寻找与存储的特征向量数据相对应的脸。一旦识别出“Tony”,智能电话就可以采取由用户指引或以其它方式指示的任何进一步的动作。(例如,智能电话可以调整摄像机的光学器件以聚焦于Tony和/或使镜头移向Tony;智能电话可以将Tony与该图像的剩余部分分割开来——使图像中的不是Tony的部分变模糊或将其剪切掉、等等。)[0052] 如果智能电话不理解词语“Tony”的含义(或者如果错误地识别了所说的话、从而引起词汇表查询失败),那么智能电话可以通过适当的输出信号向用户表明该情况。用户可以根据需要用进一步的帮助来做出响应(例如,通过说出“绿衬衫”)。智能电话的可用词汇表可能没有“衬衫”这一条目,但是具有含“绿色”条目的颜色术语表。相关联的数据表明绿色是在RGB颜色空间中具有特定色域范围的颜色。然后智能电话可以分析捕获的图像场景,从而寻找具有处于该特定范围内的值的连续像素群组。如上所述,智能电话可以将其处理资源集中于该区域,并采取在该情况下适当的任何动作。(智能电话可以简单地忽视未识别出的术语“衬衫”,因为它只基于“绿色”就能够采取响应于用户的行动。)
[0053] 以类似的方式,用户可以用诸如“正方形的东西”、“正在移动的东西”、“明亮的东西”之类的指示、以及可以帮助智能电话识别感兴趣的意图区域的其他这样的线索来为智能电话提供线索。
[0054] 有时智能电话可能会将其视觉注意力集中于不同于用户期望的对象。例如,智能电话可能正在遵循一组存储的直觉计算规则,这些规则规定:在具有人、物体和背景的帧中,意图的对象可能是人(接下来可能是物体、再接下来可能是背景)。智能电话可以通过在该智能电话的输出显示中在其正聚焦于的对象(人)周围绘出矩形边界来表明该理解结果。然而,用户可能想要智能电话将其操作不指引到人而是指引到物体。这可以通过用户说出的和“不”一样简单的命令来实现。智能电话将该术语识别为表明其当前注意的对象不是期望对象的指示。智能电话可以通过查阅存储的一组规则从而确定所存储的规则分层结构中的“下一个”对象(物体),来响应该命令。智能电话可以通过将矩形边界移动至显示器上绘出的物体来表明该情况。在没有来自用户的进一步命令的情况下,智能电话于是将其处理努力指引到该物体。(通过说出的命令“不是人”或“不是Tony”,也可以实现相同的结果。)第二次说出“不”会使智能电话的注意力被切换至图像背景。
[0055] 一些场景可能会描绘出几个对象。智能电话应该将其注意力指引到哪个物体?一种方法是将注意力聚焦于最靠近图像帧中心的物体。另一种方法是将注意力聚焦于最大的物体。(这种决定所基于的其他标准被详述在专利7,628,320中。)但是,同样,这些基于规则的方法可能不符合用户的期望。用户可以通过诸如“向左”、“向右”、“向上”、“向下”、“中间那个”和其他这样的指示之类的命令,来指引智能电话移动其注意力的焦点。
[0056] 因此,可以以各种方式利用说出的语音,诸如将智能电话的注意力指引到图像中的不同特征、或指引智能电话的注意力远离图像中的不同特征、或在图像中的不同特征之间指引智能电话的注意力,从而将智能电话的处理负担限制到视觉信息的受约束的摘选上。
[0057] 用户说出的命令不需要是单词本身。可以定义用户特定的词汇表,其允许咕哝声、喉音等触发响应性动作——即使这些声音不是任何标准词典的一部分。因此,在刚刚详述的实例中,作为“不”的替代,用户可以咕哝地说出“哦嗯(unh-h)”而产生相同的效果。现有的语音转文本程序(诸如声龙(Dragon))可以配置成将这些快捷口语翻译成指定的文本输出(例如,“哦嗯”=“不”)。或者可以采用模式匹配来识别给定的声音最匹配几个先前存储的发音中的哪一个。这些先前存储的发音可以与其标准词典含义相关联。在另一些方案中,智能电话可以简单地观察重复的用户行为(诸如说出“哦嗯,不”的模式),直到将这两个发音关联为同义词为止。
[0058] 说出的词语可以不仅用于帮助智能电话识别场景中感兴趣的对象,而且用于提供关于对象的信息——再次帮助智能电话进行进一步的处理。(所有这些口头协助也可以帮助智能电话“学习”,从而在之后当相同的视觉刺激出现在相似的情况/背景环境中时,减少智能电话对这些协助的需求。)
[0059] 考虑用户将智能电话摄像机指向珠宝商的小型陈列橱窗中的形状像树叶的红色瓷釉环。智能电话可以独立地将图像帧中的具有耳环的部分正确识别为感兴趣区域(并且可能会在该区域周围绘出边界框)。但是该形状可能是任意数目的东西:树叶、形状像树叶的耳环、绘出树叶的壁纸细节、加拿大国旗的一部分、纹身、等等。为了帮助智能电话理解所描绘的是什么,用户可以说出“耳环”。利用该信息,智能电话可以采取适合于该特定对象的动作(例如,搜索在线珠宝商发布的图像目录、寻找相似的耳环、然后将关于价格、可用性、艺术家等的信息提供回给用户)。作为对比,如果用户说出“旗帜”,那么智能电话会采取不同的动作,并将一个或多个不同的响应提供回给用户。
[0060] 有时,口头线索并不帮助智能电话理解所描绘的是什么,而是建议用户期望的响应类型。考虑汽车爱好者捕获了停车场中的Ford Shelby车的图像。她可以说出措词“Ford”或“Shelby”来帮助智能电话从可能的汽车类型范围中识别出该汽车。但是她也可以或者额外地就期望的响应类型给出口头指示或线索。“杂志”可以促使智能电话提供关于Ford Shelby车的杂志文章的列表或去往这些杂志文章的链接。“排量”可以促使智能电话搜索“排量”与“Shelby”一起出现的搜索结果。在进行这样的搜索之后(例如,利用Google),智能电话可以显示该汽车的技术统计资料,包括其引擎具有5.4L的排量的信息。“价格”可以促使智能电话获得Ford Shelby车的定价。“EBay”可以促使智能电话识别与Ford Shelby车相关的EBay列表。“所有者”可以促使智能电话尝试识别该特定Shelby车的所有者(例如,通过对汽车牌照上的字符进行光学字符识别、并访问机动车登记部以查找所有者。如果智能电话的动作与用户的期望不一致,那么用户可以根据需要指引并进一步指引智能电话。同样,用户可以穿过智能电话所输出的结果数据往下深究,从而获得更详细(或不同)的数据。
[0061] 通过这样的方案,用户可以根据期望反复地集中智能电话的注意力——在一些情况下模仿谈话,用户指示、智能电话响应、用户进一步指示、等等。
[0062] 可以对与增强现实(AR)应用程序(例如UrbanSpoon、Layar、Bionic Eye、Wikitude、Tonchidot等)的交互做出相关改进,所述AR应用程序将地理上注册的点或图标叠加到本地场景上,例如标识出餐馆和其他引人注目的地方,常常带有文本说明。假定用户轻拍了与感兴趣的特征相对应的点/图标(或文本说明)以便了解更多。但是“触摸”是拥挤的屏幕上的笨拙输入机制。更好的是,获得来自用户的口头指示。所以,如果AR应用程序表明在用户前面捕获到的街道场景包括名称为Won Foo的A+级中国餐馆、星巴克、麦当劳和C列车地站,那么用户可以简单地说出“Won Foo”而不是触摸屏幕。尽管该措词可能不在所存储的词汇表中,但是智能电话软件可将转换成文本的口头输入与由AR应用程序显示成文本说明的词语进行比较。在找到匹配者时,智能电话于是将消息发送给充当为Won Foo图标(或说明)上进行的用户轻拍服务的代理的AR应用程序。然后,智能电话提供对应的响应,诸如将Won Foo的菜单呈现在智能电话屏幕上。
[0063] 在处理捕获的图像流(例如,视频)的过程中,音频提示可以用于区分相关摘选的开始和结束。例如,智能电话可以识别出单词“开始”和“结束”从而定义出智能电话特别要投入其处理注意力的一段视频。(如在前面提到的静止图像实例中那样,有帮助的是,不仅向智能电话提示要处理什么内容、而且向智能电话提示“不”处理什么内容。)[0064] 尽管前述说明聚焦于利用音频线索帮助视觉处理(例如,对象分割和识别),但是反过来也是可以的,例如利用视觉线索帮助音频处理。此外,音频处理可以由用户提供的音频线索辅助,并且视觉处理可以由用户配合性地提供的视觉线索辅助。
[0065] 例如,用户命令“听讲话”可以指引智能电话将其音频处理集中于所捕获音频中的讲话而不是其他声音(例如,音乐)。“听电视”可以指引智能电话将其音频处理集中于电视音频的声音特性。更具体地,装置可以按照计划成服务于可能的未来用途的方式对音频进行采样。例如,智能电话中的存储数据可以表明:可以处理电视音频从而提取在2-5KHz范围内的已知频谱位置编码的Nielsen印,或者可以处理电视音频从而提取可用特定频率范围内的能量表征的Shazam指纹。滤波和采样率因此可以根据用户将智能电话的注意力指引到的音频的类型而变化。
[0066] 隐私
[0067] 随着智能电话从用户所处的环境采集到越来越多的信息,隐私将变得越来越重要。相同的问题出现在“生活记录”(关于用户的生活和旅行的信息的档案式采集)中。该领域包括诸如Facebook和Twitter之类的社交网络方案,并且还包括由Gordon Bell和Steve Mann倡导的更复杂的数据采集方案。
[0068] 微软的Gordon Bell已经通过他的技术CyberAll、SenseCam和MyLifeBits编辑了他最近生活的数字档案。包括在Bell的档案中的有:所有电话通话的记录,日常生活的视频,所有消费的电视和广播的记录,所有访问过的网页的存档,所有游览过的地方的地图数据,他的睡眠呼吸暂停的多导睡眠图,等等。(了解更多的信息,参见例如Bell的A Digital Life,Scientific American,March,2007;Gemmell的MyLifeBits:A Personal Database for Everything,Microsoft Research Technical Report MSR-TR-2006-23;Gemmell的Passive Capture and Ensuing Issues for a Personal Lifetime Store,Proceedings of The First ACM Workshop on Continuous Archival and Retrieval of Personal Experiences(CARPE'04),pp.48-55;Wilkinson的Remember This,The New Yorker,May27,2007。也参见Gordon's Bell的Microsoft Research网页以及ACM Special Interest Group网页上引用的其它文献来了解CARPE(Capture,Archival & Retrieval of Personal Experiences)。)
[0069] 关于隐私,考虑造访电子消费品零售店的用户——捕获潜在感兴趣的产品的图像以用于之后的考察和可能的购买。图像也可以包括商店的其他访问者的脸。智能电话也可以对私下地商讨给他们的女儿准备的生日礼物的一对附近夫妇的谈话进行录音。
[0070] 几星期之后,用户可能会希望调出该信息以便例如对所描绘的产品进行进一步的考察、或者找到返回商店中的正确走廊的路线从而挑选要购买的物品。
[0071] 用户可以通过回忆起日期并用日期搜索档案来访问与他先前的造访相关的信息的历史档案。但是那是缓慢的。更容易的方法可以是使用基于地图的用户界面,并在地图上轻拍零售店的近似位置。装置于是可以在(可以存储在本地或中的)带有地理标签的用户历史中搜索距该位置四分之一英里或十分之一英里内的体验,并在屏幕上向用户呈现关于每个体验的元数据。用户通过日期元数据(几个星期以前,而不是如其他地理定位的数据表明的几个月或几年以前)来识别出早先对该商店的造访,并与UI进行交互以调出所存储的信息。
[0072] 根据本技术的该方面,用户几个星期前在商店捕获的完整视频和音频不再可获得。而是,该完整视频和音频在过渡时期已经被处理(在本地和/或在云中)从而提取出某些信息。例如,通过地理坐标识别出用户穿过商店的路线,并且指示出用户在不同货架位置逗留的持续时间。也可以调出由磁力计数据表明的用户在不同时间和地理位置所面向的各种方向。在捕获的图像中感测出的条形码和水印的有效载荷,如同感测到的RFID(近场通信)标识符那样,与遇到各条形码和水印的相应地理坐标一起被存储。如果用户利用一些说出的观察结果口头地对他的造访加注释,并且讲话者识别技术允许智能电话将讲话者识别为智能电话的所有者,那么这些记录的注释可以转录成文本并被存储以供调用(或者,通过用户的准许,可以保留完整音频以供回顾)。但是不保留不与该用户(或其他已知的人,如社交网络熟人)相对应的音频。也不保留不与该用户相对应的原始图像。
[0073] 从一对象提取的信息可以充当最初捕获的信息的摘要或复述。例如,提取的信息可以充当最初捕获的数据中的对象的基本上唯一的标识符,但是不允许最初捕获的数据根据该摘要而被重新生成(例如,提取的信息充当单向函数)。已知的图像和音频指纹功能、水印解码以及其他数据提取方案可以用于此目的。专利申请12/640,386中详述的SIFT数据和关键字向量数据也可以用于此目的。(所有这些操作在本文中被视为指纹功能。)[0074] 在一些方案中,数据细节随着时间的推移而衰减。在采集到该信息的那天或那星期,该信息可以以其原始的未删节的形式得到保留。在该时刻后的下一段时间(例如,下一星期)中,面部会模糊并且不与该用户相对应的音频可能会失真。在随后的又一段时间中,可以采取进一步的匿名化动作,诸如删除图像并仅保留整理出的信息。在随后的一段时间逝去之后,整理出的信息的一部分也可以衰退。等等。
[0075] 所描述的隐私方案可以是智能电话的默认配置,但是可以允许用户改变它。例如,用户可以指示智能电话识别捕获到的图像中的所有候选面部,并尝试通过参考面部参数(例如,与用户的Picasa或Facebook账户相关联地存储的面部参数)来认出所有候选脸部。在一些方案中,仅在拥有被识别的人的准许(该准许可以由该人通过蓝牙、RFID或其他无线技术发出,并且利用该信号所传递的本地唯一的标识信息(诸如通过面部参数的不完整集合)而被验证为源自该人)的情况下才允许智能电话执行这样的面部识别。
[0076] 可应用的规则也可以对不同的数据设定不同的寿命,例如把通过RFID感测的信息保留两年(或永久保留),而在十二个月的时间段内逐渐衰减、并随后丢弃所捕获的图像。
[0077] 由系统应用的隐私程序可以取决于背景环境。例如,如果用户在家中或在用户的汽车中,那么智能电话可以自动地应用与用户处于电子消费品零售店等情况不同的隐私策略集。
[0078] 造访不同位置的频率也可以作为因素计入衰减策略中。如果一个位置不经常被造访(例如,大峡谷(Grand Canyon)),那么可应用的规则可以规定比例行地造访的地点(例如,邻近的食品杂货店)更长的保留期间。(在某些背景环境中,相反的规则可能是适当的。)[0079] 前述内容是捕获到的内容看起来越不寻常、应该保留的时间就越长这种更一般的规则的实例。(或者,用其他方式来表述,捕获到的内容越常见,其保留时间就应该越短。)可以应用直观推断或人工智能技术来产生这种内容突出性的估计。
[0080] 应认识到的是,这种基于突出性的方法也是用户特定的。在巴黎捕获的内容在由美国旅游者捕获的情况下将会比由巴黎店主捕获的情况保留更长时间,因为该内容对旅游者来说更不寻常(并且可能因此更重要)。
[0081] 在被拍摄后有时由用户从存储装置中调出的内容信息可以被授予衰减前的延长寿命,因为在其最初拍摄后该内容显然对用户有一定重要性。在存储之后用户查阅该数据越频繁,该数据的寿命就可以延长得越长。一种方法是只要一个内容摘选(例如,图像或10秒钟的音频剪辑)被调出/查阅,就重新开始该内容摘选的保留期间。可以使在时间或地理上接近的内容(诸如前面和后面的音频剪辑)的寿命延长较小的量。另一种方法向当前保留期间增加另一段期间,该另一段期间可以基于所存储的数据在保留期间内的什么时间被查阅。例如,所述另一段期间可以基于自从数据最初被捕获以来逝去的时间。如果所存储的数据在捕获后的一周被查阅,那么其寿命可以延长两周;如果所存储的数据在捕获后的一个月被查阅,那么其寿命可以延长两个月。一些方案可以包括对原始保留期间可被延长的总时间量(或者是以绝对时间(例如,月)表示,或者是以百分数表示)施加上限的规则。
[0082] 数据保留也可以部分地取决于社交网络考虑因素。例如,如果一个社交网络熟人被准许访问用户存储的内容数据、并且行使了调出这样的数据的特权,那么该动作可以使内容的寿命得到延长(虽然通常不会延长与用户调出该内容的情况一样长的时间)。类似地,如果用户和社交网络熟人都造访了特定位置(不管是分别单独地还是专门一起地)、并且都捕获了内容数据,那么该熟人之后对其存储的内容数据的调用可以使该用户的与同一位置相关的内容数据的寿命得到延长。如果一个社交网络熟人调整了对特定背景环境中捕获的内容的保留进行控制的默认规则(例如,由高于阈值7000英尺的海拔和高于99%个人标准的峰值心率表明的、在滑天捕获的内容应该保留两年而不是仅保留一年),那么该用户的关于在相似背景环境中捕获的内容的策略也可以被调整(例如,将保留期间从一年延长至14个月)。
[0083] 社交网络因素对数据保留的影响可以取决于社会联系的程度。用户的内容保留规则受到与配偶的社交网络联系的影响应该比受到与水管工人的社交网络联系的影响更大。社会联结的程度可以通过各种度量来建立,包括两个人共同拥有的第三方熟人的数量、两个人进行网络联系(例如,与另一个人的Facebook数据进行交互)的频率、等等。对用户的数据保留策略的调整可以通过包括作为因素的诸如前述度量之类的度量的等式来确定。
[0084] (通过使用允许回顾和调整用户的数据保留策略的软件工具,基于社交网络的影响可以被禁用或者被局限于特定的社交网络熟人。)
[0085] 正如某些因素可以有益于延长数据保留期间,另一些因素可以使数据保留期间缩短。(两者都可以被视为延长——后者的延长量是负值。)
[0086] 包含前述技术的方案应被认为是不同于本领域中已知的方案。例如,先前得体的衰减系统通常关注所存储的字母数字信息而不是与媒体相关的内容(例如,在一段固定的时间过去之后,将“穆赫兰大道(Mulholland Drive)”转化为“洛杉矶(Los Angeles)”)。这些得体的衰减系统通常关注其他人(例如,监管系统和服务提供商——诸如医生、电话公司、信用卡提供商等)监管下的用户信息,而不是它所涉及的人的监管下的用户信息。其他系统在一段设定的时间之后将数据完全丢弃(例如,如同微软的Bing搜索服务对用户的搜索历史所做的那样),而不是保留数据的精华。
[0087] 其他注释
[0088] 尽管本说明书早先提到其与受让人以前的专利申请的关系,但是这值得重复。这些公开应该被共同阅读并作为整体来解释。申请人的意思是每个申请中的特征应该与其它申请中的特征组合。因此,应该理解的是,本申请中公开的方法、元素和概念应该与那些相关申请中详述的方法、元素和概念组合。尽管一些组合已经特别地在本说明书中进行了详述,但是许多组合还没有进行详述——由于置换和组合的数量很大。然而,根据所提供的教导,所有这样的组合的实现方案对于本领域技术人员而言是直接了当的。
[0089] 尽管已经参考说明性特征和实例描述和举例说明了我们的发明工作的原理,但是应认识到的是,该技术并不限于此。
[0090] 例如,尽管参考了诸如智能电话之类的移动装置,但是应认识到的是,这种技术可在各式各样的便携和固定装置中得到应用。PDA、管理器、便携音乐播放器、台式计算机、膝上型计算机、平板计算机、上网本、超轻便计算机、可佩戴式计算机、服务器等全都可以利用在此详述的原理。特别考虑的智能电话包括Apple iPhone和遵循Google的Android规范的智能电话(例如由HTC公司为T-Mobile制造的G2智能电话(aka HTC Magic),摩托罗拉的Droid Pro智能电话,和Google Nexus智能电话)。术语“智能电话”(或“移动电话”)应该被解释为包括所有这样的装置,甚至是那些不是严格地被称为蜂窝电话和电话机的装置。它还包括仅包含连接到用户携带的另一装置或位于相隔一定距离的位置处的另一装置(例如,云资源)的无线头戴式耳机的通信装置。
[0091] (iPhone的某些细节(包括其触摸界面)在Apple的已公开的专利申请20080174570中有提供。)
[0092] 类似地,本技术也可以使用面部佩戴式装置(如增强现实(AR)眼镜)来实现。这样的眼镜包括显示器技术,通过该技术计算机信息能够由用户观看到——或者叠盖在用户前面的景象上,或者遮住该景象。虚拟现实护目镜是这种装置的一个实例。专利文献7,397,607和20050195128详述了该示例性技术。商业供给包括:Vuzix iWear VR920、Naturalpoint Trackir 5、和由ezGear提供的ezVision X4 Video Glasses。即将出现的备选者是AR隐形眼镜。例如专利文献20090189830和Parviz的“Augmented Reality in a Contact Lens”(IEEE Spectrum,2009年9月)详述了这种技术。一些或全部这样的装置可以例如无线地与(用户等携带的)其他计算装置通信,或者它们可以包括自含式处理能力。同样,它们可以包含根据现有的智能电话和专利文献已知的其他特征,包括电子罗盘、加速计、摄像机、投影仪、GPS等。
[0093] 在本公开内容中提到的智能电话和其他计算机装置的设计是本领域技术人员所熟悉的。一般地说,各自包括一个或更多处理器(例如,Intel、AMD或ARM种类的处理器)、一个或更多内存(例如,RAM)、存储器(例如,磁盘或闪存存储器)、用户界面(其可以包括例如键区、TFT LCD或OLED显示屏、触摸或其他手势传感器、摄像机或其他光学传感器、罗盘传感器、3D磁力计、3轴加速计(例如意法半导体公司(STMicroelectronics)的LIS331DLH)、3轴陀螺仪(例如意法半导体公司的L3G4200D)、3轴罗盘(例如AKM半导体公司的AKM8975)、一个或多个麦克风、振动电机、等等,以及用于提供图形用户界面的软件指令)、这些元件之间的互连装置(例如,总线)、以及用于与其他装置通信的接口(其可以是无线的(诸如GSM、CDMA、W-CDMA、CDMA2000、TDMA、EV-DO、HSDPA、WiFi、WiMax、网状网络、Zigbee和其他802.15方案、或蓝牙),和/或有线的(诸如通过以太局域网、T-l因特网连接、等等))。
[0094] 更一般地,本说明书中详述的处理和系统组件可以被实现为用于计算装置的指令,包括用于各种可编程处理器的通用处理器指令,所述可编程处理器包括微处理器图形处理单元(GPU,诸如nVidia Tegra APX 2600)、数字信号处理器(例如,Texas Instruments的TMS320系列器件)、等等。这些指令可以被实现为软件、固件、等等。这些指令也可以被实现到各种形式的处理器电路中,包括可编程逻辑器件、FPGA(例如Xilinx Virtex系列器件)、FPOA(例如,PicoChip品牌装置)、和专用电路——包括数字的、模拟的、和混合模拟/数字电路。指令的执行可以在处理器之间分配、和/或跨越一个装置内的多个处理器或者跨越装置网络并行地进行。内容信号数据的变换也可以在不同的处理器和存储器装置之间分配。对“处理器”或“模”的提及应该被理解为指代的是功能性、而不是需要特定的实现形式。
[0095] 用于实现详述的功能性的软件指令可以根据这里提供的描述由本领域技术人员容易地编写,例如用C、C++、Visual Basic、Java、Python、Tcl、Perl、Scheme、Ruby等编写。根据本技术的移动装置可以包括用于执行不同的功能和动作的软件模块。可以采用已知的人工智能系统和技术来做出上面提到的推断、结论和其它确定。
[0096] 通常,每个装置包括提供与硬件资源和通用功能的接口的操作系统软件,并且还包括可被选择性地调用以执行用户期望的特定任务的应用软件。已知的浏览器软件、通信软件和媒体处理软件可以适合于许多这里详述的用途。软件和硬件配置数据/指令通常被存储为可跨越网络访问的有形介质(诸如磁盘或光盘、存储卡、ROM、等等)所传递的一个或更多数据结构中的指令。一些实施例可以被实现为嵌入式系统——操作系统软件和应用软件对于用户而言无法区分的专用计算机系统(例如,基本的手机中的情况通常就是这种情况)。本说明书中详述的功能性可以以操作系统软件、应用软件和/或嵌入式系统软件来实现。
[0097] 除了存储软件之外,上面提到的各种存储器组件可以被用作用于本技术所利用的各种信息(例如,背景环境信息、参考数据、参数、等等)的数据存储库
[0098] 本技术可以在各种不同的环境中实现。一种环境是Android(在Linux内核上运行的可从Google获得的开源操作系统)。Android应用程序通常用Java编写,并且在其自己的虚拟机中运行。
[0099] 作为将应用程序构造为整体式大代码块这一方案的替代,Android应用程序通常被实现为可根据需要有选择地加载的“活动”和“服务”的集合。在本技术的某些实现方案中,仅加载最基本的活动/服务。然后,根据需要来启动其它活动/服务。这些活动/服务可以相互间发送消息,例如相互唤醒。因此,如果一个活动寻找椭圆形,那么在有前途的椭圆形得到定位的情况下它可以激活面部检测器活动。
[0100] Android活动和服务(以及Android的广播接收器)由传递消息(例如,请求服务,诸如生成特定类型的关键字向量)的“意图对象”激活。通过该构造,代码可以处于睡眠状态,直到某些条件出现。面部检测器可能会需要椭圆形来启动。它处于空闲状态,直到发现椭圆形,此时它开始进入活动状态。
[0101] 为了在活动和服务之间共享信息,Android利用“内容提供商”。这些内容提供商用来存储和检索数据,并使得该数据可由所有应用程序使用。
[0102] Android SDK和相关联的文献可从developerandroidcom/index.html获得。
[0103] 本说明书中所述的不同功能性可以在不同的装置上实现。例如,在智能电话与远程服务提供商处的服务器通信的系统中,不同的任务可以专门由一个装置或另一装置执行,或者执行可以在各装置之间分配。从图像中提取特征值数据只是这些任务中的一个实例。因此,应该理解的是,把一操作描述为由特定装置(例如,智能电话)执行这样的描述不是限制性的而是示例性的;该操作的执行由另一装置(例如,远程服务器或云)完成、或者在各装置之间分享也是可明确预期到的。(此外,多于两个装置可以共同地被采用。例如,服务提供商可以把一些任务(诸如图像搜索、对象分割、和/或图像分类)提交给专门用于执行这些任务的服务器。)
[0104] 以同样的方式,把数据描述为存储在特定装置上这样的描述也是示例性的;数据可以存储在任何地方:存储在本地装置中、存储在远程装置中、存储在云中、分布式的、等等。
[0105] 操作不需要专门由可具体识别的硬件执行。而是,一些操作可以向外提交给其他服务(例如,云计算),这些其他服务通过另外的通常是匿名的系统来完成它们对所述操作的执行。这样的分布式系统可以是大规模的(例如,涉及全球范围的计算资源),或者是本地的(例如,当便携式装置通过蓝牙通信识别出附近的装置、并且使一个或更多附近装置牵扯到一任务(诸如贡献来自本地地理位置的数据)中时;关于这一点参看Beros的专利7,254,406)。
[0106] 类似地,尽管某些功能已经被详述为由某些模块、代理、处理等执行,但是在其他实现方案中这些功能也可以由其它这样的实体执行,或者以其它方式执行(或者一起被免除)。
[0107] 在许多实施例中,由各种组件执行的功能以及这些功能的输入和输出是以标准化的元数据的形式(由例如所述组件)指定或公开的,使得所述功能以及所述输入和输出可以被例如分派处理识别。基于XML的WSDL标准可以在一些实施例中使用。(参看例如Web Services Description Language(WSDL)Version 2.0 Part 1:Core Language,W3C,2007年6月。)WSDL的被称为WSDL-S的扩展把WSDL扩展成包括语义元素,所述语义元素通过便于服务的组成而提高可重复利用性。(备选的有语意能力的标准是万维网服务本体论语言:OWL-S。)为了与基于云的服务提供商通信,可以利用基于XML的简单对象访问协议(SOAP)——通常作为万维网服务协议栈的基础层。(其他基于服务的技术也是适合的,诸如Jini、公共对象请求代理架构(CORBA)、表象化状态转换(REST)和Microsoft的窗口通信基础(WCF)。)
[0108] 万维网服务的相互配合可以利用万维网服务业务处理执行语言2.0(WS-BPEL2.0)来完成。编排可以采用W3C的万维网服务编排描述语言(WS-CDL)。JBoss的jBPM产品是适合于供WM-BPEL 2.0和WS-CDL这两者使用的开源平台。Active Endpoints提供了名称为ActiveBPEL的用于WS-BPEL 2.0的开源解决方案;SourceForge上的pi4SOA是WS-CDL的开源实现方案。万维网服务的安全性可以通过使用WS-Security(WSS)通信协议来提供,所述WS-Security通信协议的流行的Java库实现方案是Apache的WSS4J。
[0109] 本技术的某些实现方案利用现有的图像处理功能(软件)库。这些库包括CMVision(来自Carnegie Mellon大学——特别擅长彩色图像分割)、ImageJ(由国家卫生研究院开发的可自由分发的Java例程包;参看例如enWikipediaorg/wiki/ImageJ)、和OpenCV(由Intel开发的程序包;参看例如enWikipediaorg/wiki/OpenCV,以及Bradski的书“Learning OpenCV”(O’Reilly,2008))。受好评的商用视觉库程序包包括:Cognex的Vision Pro,以及Matrox Imaging Library。
[0110] 重复操作被采取的刷新速率取决于具体情况,包括计算背景环境(电池容量、其他处理需求、等等)。例如,可以对每个拍摄的帧或者几乎每个拍摄的帧采取一些图像处理操作(例如,检查镜头盖或其他障碍物是否遮蔽了摄像机的视图)。另外一些图像处理操作可以对每三帧中的第三帧、每十帧中的第十帧、每三十帧中的第三十帧、每一百帧中的第一百帧、等等采取。或者这些操作可以通过时间触发,例如在每十秒中的第十秒采取这些操作,每0.5秒、每一整秒、每三秒就执行一次这些操作,等等。或者这些操作可以通过所拍摄的景象中的变化等来触发,等等。不同的操作可以具有不同的刷新速率——使简单的操作被频繁重复,并且使复杂的操作的重复频繁度较低。
[0111] 如前所述,可以将图像数据(或基于图像数据的数据)提交给云进行分析。在一些方案中,这是代替本地装置处理完成的(或者在某些本地装置处理已经完成之后完成的)。然而,有时,这样的数据可以传给云并且同时在云和本地装置中被处理。云处理的成本通常较小,因此主要成本可能只有一个,即带宽。如果有带宽可用,那么即使数据也可以在本地处理,也可能几乎没有原因不把数据发送给云。在一些情况下,本地装置可能会更快地返回结果;在另外一些情况下,云可能会赢得该竞赛。通过同时使用这两者,始终可以向用户提供这两个响应中较快速的一个。(如果本地处理陷入困境或者变得没有前途,那么可以提早结束该本地处理。同时,云处理可以继续运行——或许能产生本地装置根本无法提供的结果。)另外,诸如Google之类的云服务提供商可以搜集通过利用基于云的数据处理机会而获得的其它益处,例如了解这样的地理环境的细节,所述云服务提供商的关于所述地理环境的数据存储被相对耗尽(当然,要受到适当的隐私保护)。
[0112] 有时,本地图像处理可以被暂停,并在后来被恢复。一个这样的实例是如果在打电话或接电话;装置的偏好可以是把它的资源专门用于为电话通话服务。智能电话也可以具有用户借以明确指引智能电话暂停图像处理的用户界面控制。在一些这样的情况下,相关数据被转移到云,由云来继续该处理并将结果返回给智能电话。
[0113] 如果本地图像处理不能产生迅速的令人满意的结果,并且图像的主题继续吸引用户的兴趣(或者如果用户不做相反指示),那么可以将图像提交给云进行更彻底且冗长的分析。书签等可以存储在智能电话上,从而允许用户核对并了解这种进一步分析的结果。或者如果这种进一步的分析达到了可引起行动得以采取的推断,那么可以提醒用户。
[0114] 应理解的是,所详述的技术的操作中所涉及的决策可以以许多不同的方式实现。一种方式是通过评分。提供与用于不同的备选者的相关输入相关联的参数,并且以不同的组合方式(例如根据多项式方程)对这些参数进行组合、加权、并求和。选择具有最大(或最小)分数的备选者,并且基于该备选者来采取行动。在其他方案中,可以采用基于规则的引擎。这样的方案可通过参考所存储的表示条件规则(例如,如果(条件)、那么行动,等等)的数据来实现。也可以采用自适应模型,其中规则例如基于使用情况的历史模式而进化。也可以采用直观推断方法。本领域技术人员将会认识到的是,仍然有另外的决定处理可以适合于特定情况。
[0115] 根据本说明书来实现各系统的本领域技术人员被假定熟悉所涉及的各种技术。
[0116] 尽管本公开内容已经在说明性实施例中详述了动作的特定排序和元素的特定组合,但应认识到的是,其它方法可以对各动作进行重新排序(可能省略一些动作并添加另外一些动作),并且其它组合可以省略一些元素并增加另外一些元素,等等。
[0117] 尽管是作为完整系统公开的,但是所详述的方案的子组合也是可分别预期到的。
[0118] 在某些实施例中提及因特网。在另外一些实施例中,还可以采用包括专用计算机网络在内的其它网络或者可以采用所述其它网络作为替代。
[0119] 人工智能技术会在本技术的实施例中起到重要的作用。该领域的最近加入者是由Wolfram Research提供的Alpha产品。Alpha通过参考所组织的数据的知识库来计算响应于构造出的输入的回答和可视化。从这里详述的方案搜集的信息可以提供给Wolfram的Alpha产品,以把响应信息提供回给用户。在一些实施例中,用户被牵扯到该信息提交过程中,诸如通过从系统搜集的词语和其他基元构造出一查询,通过从系统编制的不同查询的菜单中选择,等等。在其他方案中,这由系统来处理。附加地或备选地,来自Alpha系统的响应信息可以被提供为对其它系统(如Google)的输入,以进一步识别响应信息。Alpha技术现在可作为iPhone应用软件获得。
[0120] 另一辅助技术是Google Voice,其向传统的电话系统提供了大量改进。这样的特征可以与本技术结合使用。
[0121] 例如,由Google Voice提供的语音到文本转录服务可以被采用以便使用用户的智能电话中的麦克风从说话者的环境中捕获环境音频,并产生相应的数字数据(例如ASCII信息)。
[0122] 在另一方面中,当用户用智能电话装置捕获内容(听觉或视觉内容)并且采用本公开技术的系统返回响应时,响应信息可以从文本转换成语音,并被递送给用户,例如递送给用户在Google Voice中的语音邮件账户。用户可以从任何智能电话或从任何计算机访问该数据储存库。所存储的语音邮件可以以其听得见的形式回顾,或者用户可以选择回顾例如呈现在智能电话或计算机屏幕上的文字对应物作为替代。
[0123] 移动电话通常使用触摸屏界面——一种形式的手势界面。可以在本技术的实施例中使用的另一种形式的手势界面是通过感测智能电话的移动来工作的——通过跟踪所拍摄的图像内的特征的移动来工作。关于这种手势界面的进一步的信息在Digimarc的专利6,947,571中有详述。每当用户输入将要被提供给系统时,可以采用手势技术。
[0124] 进一步向前看,也可以采用响应于从用户检测到的面部表情(例如,眨眼等)和/或生物统计信号(例如,脑电波或EEG)的用户界面。这样的方案正日益为人们熟知;一些方案被详细记述在专利文献20010056225、20020077534、20070185697、20080218472和20090214060中。其他技术(包括仿生学和触觉装置/电子装置/机械装置/磁装置/嗅觉装置/光学装置)可以替代所详述的输入/输出方案。
[0125] 已经提及GPS作为位置确定技术。也可以采用其他定位技术。一种类型的定位技术利用通常在各装置之间交换的那种无线电信号(例如,WiFi、蜂窝等)。给定若干通信装置,信号自身和控制这些信号的不完美的数字时钟信号形成了一个参照系,从该参照系中可以抽取均高度准确的时间和位置。这样的技术被详述在已公开的专利申请2009213828、2009233621、2009313370、2010045531和2010202300中。智能电话可以与这样的网络中的其他节点合作,从而了解该智能电话的位置。
[0126] 用于对水印进行编码/解码的技术被详细记述在例如Digimarc的专利6,614,914和6,122,403、Nielsen的专利6,968,564和7,006,555、以及Arbitron的专利5,450,490、5,764,763、6,862,355和6,845,360中。
[0127] 音频指纹化的实例在专利公开20070250716、20070174059和20080300011(Digimarc),20080276265、20070274537 和 20050232411(Nielsen),20070124756(Google),7,516,074(Auditude),以及6,990,453和7,359,889(Shazam)中有详述。图像/视频指纹化的实例在专利公开7,020,304(Digimarc)、7,486,827(Seiko-Epson)、20070253594(Vobile)、20080317278(Thomson)和20020044659(NEC)中有详述。
[0128] Nokia在湾区有Philipp Schloter建立的研究视觉搜索技术(Pixto)的新成立部门,并且在其“Point & Find”项目的该领域中有持续的研究。该研究工作被详细记述在例如已公开的专利申请20070106721、20080071749、20080071750、20080071770、20080071988、20080267504、20080267521、20080268876、20080270378、20090083237、
20090083275、和20090094289中。这些文献中详述的特征和教导适合于与本申请中详述的技术和方案组合,并且反之亦然。
[0129] 如将认识到的那样,本说明书已经详述了许多新颖配置方案。由于实际限制,许多这样的配置方案还没有在本申请的原始提交时被要求保护,但是申请人意图在要求优先权的后续申请中要求保护这样的其它主题。下面的段落回顾了一些创造性配置方案的不完全样本:
[0130] 一种装置,其包括存储器、处理器和响应于来自用户的物理轻拍而产生输出信号的至少一个传感器,其中存储器含有使用户能够定义和存储自定义语法的软件指令,根据所述自定义语法,由用户轻拍构成的不同序列启动不同的装置操作(例如,讲述时间或天气)。(所述序列可以包括在相对于装置的不同位置做出的轻拍、不同强度的轻拍、和不同节奏的轻拍。)
[0131] 一种装置,其包括传感器模块和处理器模块,这些模块合作从而(a)感测由单个手指在装置上的单个位置处做出的反复轻拍,并输出表示该事件的第一信号;并且(b)感测由多个手指在装置上的不同位置处做出的轻拍,并输出表示该事件的不同的第二信号。
[0132] 一种配置方案,其采用具有捕获音频的至少一个麦克风和用于捕获图像的至少一个图像传感器的便携式用户装置。与由麦克风捕获的用户讲话相对应的音频数据被发送给语音识别模块,该语音识别模块返回相对应的识别出的用户讲话数据。通过参考识别出的用户讲话数据,确定由图像传感器捕获的图像内的用户感兴趣的图像部分。
[0133] 一种配置方案,其采用具有捕获音频的至少一个麦克风和用于捕获图像的至少一个图像传感器的便携式用户装置。与由麦克风捕获的用户讲话相对应的第一音频数据被发送给语音识别模块,该语音识别模块返回相对应的第一响应数据。系统在不确定要采取什么动作的状态下邀请用户提供进一步的口头线索。然后,与捕获的用户讲话相对应的第二音频数据被发送给语音识别模块,这一次语音识别模块返回第二响应数据。通过参考所接收的数据,系统确定由图像传感器捕获的图像内的用户感兴趣的图像部分。
[0134] 一种配置方案,其采用具有捕获音频的至少一个麦克风和用于捕获图像的至少一个图像传感器的便携式用户装置。与由麦克风捕获的用户讲话相对应的音频数据被发送给语音识别模块,该语音识别模块返回相对应的识别出的用户讲话数据。该讲话数据包括与由图像传感器捕获的图像中描绘的对象相关的一个或多个词语(例如,颜色、形状、名称等)。至少部分地基于这些词语,从较大的一组可能的操作中选择关于捕获的图像而应用的一个或多个操作。
[0135] 一种系统,其包括存储器、处理器和至少一个输出部件(例如,显示屏、扬声器等)。存储器含有将系统配置成执行包括以下内容的操作的软件指令:调出默认的唤醒闹铃时间;查阅数据储存库以识别值得使默认唤醒时间得到调整的境况;设定与调出的默认唤醒闹铃时间不同的调整后的唤醒时间的唤醒闹铃;以及在调整后的唤醒时间利用输出部件发出唤醒闹铃。
[0136] 一种系统,其包括存储器、处理器和至少一个输出部件。存储器含有将系统配置成执行包括以下内容的操作的软件指令:(a)调出与去往一目的地的一次或多次先前通勤相对应的历史数据;(b)检查与当前通勤相对应的数据(例如,关于公众运输服务的时间安排的运输公司数据、或对比当前时间的用户当前位置、或天气数据、或用户心率或踏板节奏等);(c)根据检查的数据来确定当前的通勤将可能导致到达目的地的时间迟于先前的通勤;以及(d)基于前述情况采取动作(例如,提供关于备选通勤的信息)。
[0137] 一种系统,其包括存储器、处理器和至少一个振动部件。存储器含有将系统配置成执行包括以下内容的操作的软件指令(a)感测用户的运动方向;(b)指示振动部件向用户发出第一振动信号从而发出用户应该向右转的通知;以及(c)指示振动部件向用户发出第二振动信号从而发出用户应该向左转的通知。
[0138] 一种配置方案,其包括:存储由便携式用户装置在第一位置处捕获的内容(例如,音频/图像),并且在设定的第一段时间过去之后,自动地根据与捕获内容的保留相关的一个或多个存储的隐用规则来衰减音频和/或图像内容。(“自动地”是指不需要同时发生的明确用户指示。例如,用户可能已经在先前指示、或同意某些私用规则将应用于捕获的内容,但是衰减动作不需要另外的用户干预。)衰减可以使内容的特征丢失(例如,改变分辨率),或者可以完全删除内容。然而,在衰减内容之前,可以首先提炼出某些特征,以便在下一段时间中存储。该提炼可以包括:例如,(a)从音频内容中识别已知的人(例如,用户装置的所有者、或该所有者的社交网络熟人)的语音,并产生相关联的语音转录数据;(b)从捕获的图像中识别已知的人的面部,并产生相关联的姓名信息;(c)从图像内容中提取条形码数据;(d)对来自图像或音频内容的水印数据进行解码;和/或(e)计算来自图像或音频内容的指纹函数。也可以保持相关联的地理位置数据的轨迹。这些策略的参数被存储在规则数据存储库中。这些策略可以取决于内容被捕获的位置、数据的不寻常性、用户在之后查阅/利用存储数据的用户动作、和/或社交网络影响而涉及不同的保留期间。
[0139] 图1至图9呈现了描绘前述配置方案的某些方面的图。
[0140] 也公开了基于前述配置方案的方法、系统和计算机可读介质。
[0141] 为了简明,所描述的技术的不计其数的变型和组合并没有编入本文件的目录中。本申请人认识到并且期望本说明书的各概念可以被组合、替换和互换——在这些概念本身之间,以及在这些概念与根据所引用的现有技术而已知的那些概念之间。此外,应认识到的是,所详述的技术可以与其他当前和即将出现的技术一起被包括在内,从而获得有利效果。
[0142] 为了提供全面的公开而不过渡加长本说明书,本申请人通过引用将上面提到的文献和专利公开结合在本文中。(这些文献的全部内容被结合在本文中,即使在上文中仅是关于这些文献的特定教导而引用这些文献的。)这些参考文献公开的技术和教导可以结合到这里详述的方案中,并且这里详述的技术和教导也可以结合到这些参考文献公开的技术和教导中。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈