首页 / 专利库 / 电脑图像 / 图形处理单元 / 使用有向无环图的存储器促进

使用有向无环图的存储器促进

阅读:354发布:2020-05-12

专利汇可以提供使用有向无环图的存储器促进专利检索,专利查询,专利分析的服务。并且描述了使用有向无环图的 存储器 促进,例如,其中多个有向无环图被训练以用于从人类骨架数据中进行姿势识别,或者用于从 深度图 像 中估计人体关节 位置 以用于姿势检测。在各个示例中,有向无环图在使用训练目标的训练期间增长,该训练目标将 节点 之间的连接模式与分割函数参数值两者考虑在内。例如, 子节点 层使用初始化策略增长并且与 父节点 层连接。在各示例中,各个局部搜索过程被用于寻找连接模式与分割函数参数的良好组合。,下面是使用有向无环图的存储器促进专利的具体信息内容。

1.一种在图像处理系统处的计算机实现的方法,包括:
访问多个训练图像;
将已连接的节点的图存储在所述图像处理系统的存储器处,所述节点包括多个分叉节点,每一个分叉节点具有指定用于确定图像元素通过所述图的流的测试的多个分割函数参数;以及
使用处理器,通过根据所述分割函数参数将训练目标函数应用到抵达所述图的节点的训练图像的元素来将新的节点添加到所述图,所述添加包括:
子节点的一个层添加到所述图;
通过所述训练目标函数在所述子节点的父节点和所述子节点的所述层的子节点之间选择可能连接模式;以及
通过所述训练目标函数在随机生成的可能分割函数参数值集合之间进行选择。
2.一种图像处理系统,包括:
输入,被安排成访问多个训练图像;
存储器,存储已连接的节点的图,所述节点包括多个分叉节点,每一分叉节点具有指定用于确定图像元素通过所述图的流的测试的多个分割函数参数;以及
训练逻辑,被安排成通过根据所述分割函数参数将训练目标函数应用到抵达所述图的节点的训练图像的元素来将新的节点添加到所述图,所述添加包括:
将子节点的一个层添加到所述图;
通过所述训练目标函数在所述子节点的父节点和所述子节点的所述层的子节点之间选择可能的分支指派;以及
通过所述训练目标函数在随机生成的可能分割函数参数值集合之间进行选择。
3.如权利要求2所述的图像处理系统,其特征在于,所述训练逻辑被安排成通过仅在新节点与所述图的单个父节点层之间的可能连接模式之间进行选择来向所述图增加新节点。
4.如权利要求2所述的图像处理系统,其特征在于,所述训练逻辑被安排成通过在第一搜索步骤和第二搜索步骤之间进行交替来向所述图增加新节点,所述第一搜索步骤是候选分割函数参数的选择,而所述第二搜索步骤是候选连接模式的选择。
5.如权利要求4所述的图像处理系统,其特征在于,所述第一和第二搜索步骤的顺序被随机化。
6.如权利要求2所述的图像处理系统,其特征在于,所述训练逻辑被安排成通过群集所述新节点在可能连接模式之间进行选择。
7.如权利要求6所述的图像处理系统,其特征在于,所述训练逻辑被安排成通过在所述群集的基础上计算所述新节点与所述图的父层的节点之间的距离来在可能连接模式之间进行选择。
8.如权利要求7所述的图像处理系统,其特征在于,所述训练逻辑被安排成在计算所得的距离的基础上重新指派所述父层的节点与所述新节点之间的分支。
9.如权利要求2所述的图像处理系统,其特征在于,所述训练逻辑被安排成使用初始化策略并随后重新指派所述新节点与所述图的父层之间的分支来向所述图增加新节点。
10.如权利要求2所述的图像处理系统,其特征在于,所述训练逻辑是至少部分地使用选自以下的任意一者或多者的硬件逻辑来实现的:现场可编程阵列、程序专用的集成电路、程序专用的标准产品、片上系统、复杂可编程逻辑器件图形处理单元
11.一种存储有指令的计算机可读存储介质,当所述指令被执行时使得机器执行如权利要求1所述的方法。
12.一种计算机系统,包括用于执行如权利要求1所述的方法的装置。

说明书全文

使用有向无环图的存储器促进

技术领域

[0001] 本申请涉及有向无环图,尤其是使用有向无环图的存储器促进。

背景技术

[0002] 已经开发了使用包括随机决策森林的机器学习技术的用于姿势识别、对象识别、自动器官识别以及其它任务的系统。在训练和测试时需要相对大量的存储器,并且这使得在资源受约束的设备(诸如智能电话或嵌入式设备)上部署这些系统变得极其困难。
[0003] 大量训练示例通常被用于训练决策森林以便执行分类任务(诸如从深度图像进行人体部分分类或者从人类骨架数据进行姿势识别)或者回归任务(诸如从深度图像进行关节位置估计)。训练过程通常是耗时且资源密集的。
[0004] 存在改善此类机器学习系统的准确性以及改善概括能的持续的需要。概括能力是能够准确地执行所涉及的任务,即便例如这些任务与在训练期间使用的任务不相似。还存在降低训练机器学习系统所需的时间量、存储器和处理资源的期望。例如,决策树随着深度呈指数地增长,并且因而无法在具有有限存储器的计算机上太过深度地进行训练。即便在训练期间大量存储器可用,在测试时所得的决策树也可能太大而无法容适在有限存储器设备(诸如智能电话或嵌入式设备)上。这进而限制了它们的准确性。
[0005] 以下描述的各实施例不限于解决已知机器学习系统的缺点中的任一个或全部的实现。发明内容
[0006] 下面呈现了本发明的简要概述,以便向读者提供基本理解。本概述不是本公开的穷尽概览,并且不标识本发明的关键/重要元素或描述本说明书的范围。其唯一的目的是以简化形式呈现此处所公开的精选概念,作为稍后呈现的更详细的描述的序言。
[0007] 描述了使用有向无环图的存储器促进,例如,其中多个有向无环图被训练以用于从人类骨架数据进行姿势识别,或者用于从深度图像估计人体关节位置以用于姿势检测。在各个示例中,有向无环图在使用训练目标进行训练期间增长,该训练目标将节点之间的连接模式与分割函数参数值两者考虑在内。例如,子节点层使用初始化策略增长并且与父节点层连接。在各示例中,各个局部搜索过程被用于寻找连接模式与分割函数参数的良好组合。
[0008] 通过结合附图参考以下详细描述,可易于领会并更好地理解许多附带特征。

附图说明

[0009] 根据附图阅读以下具体实施方式,将更好地理解本发明,在附图中:
[0010] 图1是其中使用具有有向无环图的机器学习系统的多个不同系统的示意图;
[0011] 图2是用于将来自两张照片的图像片分类为属于草类、类或羊类的有向无环图的示意图;
[0012] 图3是有向无环图的示意图;
[0013] 图4是用于训练有向无环图的训练示例以及在测试时使用的有向无环图的丛林的示意图;
[0014] 图5是训练有向无环图的方法的流程图
[0015] 图6是第一初始化过程的流程图;
[0016] 图7是第二初始化过程的流程图;
[0017] 图8是用于作为图5的过程的一部分的第一优化方法的流程图;
[0018] 图9是用于作为图5的过程的一部分的第二优化方法的流程图;
[0019] 图10是使用有向无环图的经训练的丛林的方法的流程图;
[0020] 图11解说可在其中实现使用有向无环图的图像处理系统的示例性的基于计算的设备。
[0021] 在所附附图中使用共同的附图标记来指代相似的部件。

具体实施方式

[0022] 下面结合附图提供的详细描述旨在作为本发明示例的描述,并不旨在表示可以构建或使用本发明示例的唯一形式。本描述阐述了本发明示例的功能,以及用于构建和操作本发明示例的步骤的序列。然而,可以通过不同的示例来实现相同或等效功能和序列。
[0023] 虽然在本文中将本发明的示例描述并示出为在图像片分类系统中实现,但是所描述的系统只是作为示例而非限制来提供的。本领域的技术人员将会明白,本发明示例适合在各种不同类型的图像处理或机器学习系统中应用。
[0024] 图1是其中使用具有有向无环图的机器学习系统的多个系统的示意图。例如,身体部位分类或关节位置检测系统104对深度图像102进行操作。深度图像可以来自游戏设备的自然用户接口(如在100处所解说的)或者可以来自其它源。身体部位分类或关节位置信息可以被用于计算姿势识别106。
[0025] 在另一示例中,具有智能电话110的人108在通信网络上将他或她所捕捉的语音112的音频记录发送到执行音素分析的机器学习系统114。音素是使用有向无环图的语音识别系统116的输入。语音识别结果被用于信息检索118。信息检索结果可以被返回到智能电话110。
[0026] 在另一示例中,来自CT扫描仪120、MRI装置或其它设备的医疗图像122被用于进行自动器官检测124。
[0027] 在图1的示例中,使用有向无环图的机器学习系统被用于进行分类或回归。这提供了与使用相等计算资源和训练时间量的先前系统相比更好的准确性和/或概括性能。在存储器资源受限(诸如在智能电话或嵌入式设备上)的情况下,这些系统也能够起作用。
[0028] 有向无环图是由边连接的多个节点,从而没有环路,并且为每一条边指定一个方向。有向无环图的示例是二元树,其中内部节点的一些被合并在一起。DAG的更正式的定义指定了对图的入度和出度节点的准则。入度是进入节点的边的数目。出度是离开节点的边的数目。在本文所述的一些示例中,使用有根的DAG。有根的DAG具有入度为0的一个根节点;入度大于或等于1且出度为2的多个分叉节点;以及入度大于或等于1的多个叶节点。作为这一拓扑结构的结果,DAG包括从根到每一叶多条路径。作为对比,随机决策树到每一叶仅包括一条路径。
[0029] 在图像处理的情形中,图像的图像元素可以在一过程中被推送通过DAG,藉由该过程在每一分叉节点处做出决策。根据图像元素的特性以及测试图像元素的特性来做出该决策,测试图像元素从图像元素位移达分叉节点处的参数所指定的空间偏移。在分叉节点处,图像元素沿着根据决定的结果来选择的分支向下前进至树的下一层。在训练期间,学习参数值以供在分叉节点处使用,并且在叶节点处累积数据。例如,经标记图像元素的分布在叶节点处被累积。
[0030] 其它类型的示例而非图像也可被使用。例如,来自语音识别预处理系统的音素或由估计来自图像的人类或动物的骨架位置的系统所产生的骨架数据。在此情形中,测试示例被推送通过DAG。根据测试示例的特性以及在分叉节点处指定参数值的分割函数的特性在每一分叉节点处做出决策。
[0031] 这些示例包括传感器数据(诸如图像)或从传感器数据计算所得的特征(诸如音素或骨架特征)。
[0032] DAG的整体可以被训练并且被统称为丛林。在测试时,图像元素(或其它测试示例)被输入到经训练的丛林以寻找每一DAG的叶节点。在训练期间在那些叶节点处累积的数据接着可以被访问并且聚集以给出预测回归或分类输出。
[0033] 图2是用于将来自两张照片的图像片分类为属于草类、牛类或羊类的有向无环图的示意图。站在草地中的牛200的照片在图2中被示意性地表示。坐在不同草地中的羊206的照片也在图2中被示意性地表示。从这些照片中取得四个图像片202、204、208、210,并且这四个图像片被输入到经训练的DGA以用于分类为属于草类、牛类或羊类。图像片彼此具有不同的颜色、强度和纹理。来自牛照片中的草的图像片202与来自羊照片中的草的图像片208不同。
[0034] 图像片被输入到DAG的根节点214,如212处所指示的。根结点处的分割函数被应用于图像片,并且羊片210以及来自牛照片202的草片202中的结果被输入到节点220,如216处所指示的。牛片204和羊草片208被输入到节点222,如218处所指示的。图2示出了每一个分叉节点处的直方图。这些是抵达这些节点的训练标记的经归一化的直方图。分叉节点220和222中的每一者处的分割函数被应用。这得到羊片抵达节点232,如224处所指示的,并且牛片抵达节点236,如230处所指示的。两张草片均抵达节点234,如226和228处所指示的。以此方式,使用DAG来代替树降低了节点的数目并且已经被发现提供更好的概括。例如,不同着色的草片因为类似的类统计而被一起合并在节点234。这可以通过表示草可以表现为黄色和绿色的混合的事实来鼓励概括。然而,配置DAG的拓扑结构以便达成准确的结果和提升的概括不是直接的。例如,合适的候选如何能够被标识以用简单且高效的方式被合并?训练随机决策树并且随后预处理该树以合并节点并且创建DAG是耗时的、复杂的,并且产生不如期望那样准确的结果并且针对其的概括可能是较差的。
[0035] 现在给出关于DAG的结构以及关于本文档中用于描述DAG的注释的更多细节。图3是具有根节点300以及随后采用二元树格式的两个节点层的有根DAG的示意图。第三节点层包括六个节点而非二元树格式所要求的八个节点。四个节点的那一层可以被认为是父节点层或父节点集Np。六个节点的那一层可以被认为是子节点层或子节点集Nc。符号θi在本文中被用于表示父节点i的分割特征函数f的参数。符号Si在本文中被用于表示抵达节点i的经标记的训练实例集(x,y)。符号li在本文中被用于表示从父节点i到子节点的左侧外向边的当前指派。因此,li是子节点集Nc的成员。符号ri在本文中被用于表示从父节点i到子节点的右侧外向边的当前指派。因此,ri是子节点集的成员。
[0036] 此处认识到,代替预处理DAG以寻找供合并的候选节点,形成DAG拓扑结构和分割节点函数的一个有原则的方式是将此作为训练的不可分割的一部分来达成。在各个示例中,新训练目标被使用,该新训练目标将DAG的拓扑结构以及DAG的分割节点函数两者考虑在内。
[0037] 图4是用于训练有向无环图404的训练示例400以及在测试时在先前未知的示例406上使用的有向无环图410、412、414的丛林的示意图。训练示例400包括对训练引擎402可用的许多经标记的训练示例(诸如在一些实施例中的图像)。经标记的训练示例对于DAG要被训练用于的特定任务而言是恰适的。例如,在图2的示例中,训练图像包括动物的照片,其中照片的图像片根据它们属于多个预先指定的类中的哪一类来被标记。这仅仅是一个示例,并且可取决于应用领域而使用许多其它类型的经标记的训练示例。在一些实施例中也可能使用未经标记的训练示例来进行训练或者使用经标记的和未经标记的训练示例的组合来进行训练。
[0038] 在训练过程期间,训练示例被传递通过图,并且训练目标被用来在分叉节点处做出选择。例如为了从每一分叉节点处的随机生成的可能分割函数参数集中选择分割函数参数。在本文所述的示例中,训练目标也被用于做出关于DAG的结构的选择。这不同于随机决策森林,在随机决策森林中,图的结构被固定为二元树。通过使用将图的结构以及分割函数参数两者考虑在内的训练目标,使具有恰用于特定应用领域的适拓扑结构的DAG以有原则且高效的方式增长是可能的。所得的DAG与对应的随机决策树相比具有更少的节点,如图4中所解说的,图4示出了其中对应于DAG 404的随机决策树的节点将在的区域406。以此方式,存储器要求被降低,从而使得经训练的DAG更好地适于在具有存储器约束的计算设备(诸如嵌入式设备、智能电话及其它设备)上使用。
[0039] 多个DAG可以使用不同的训练数据子集来训练以给出DAG 410、412、414的丛林。在测试时,先前未知的图像(或其它示例)406使用DAG丛林来处理以选择每一DAG的至少一个叶节点。与所选叶节点相关联的概率分布416被访问。这些概率分布416已经在训练阶段期间被形成。概率分布416被聚集以计算估计或预测418以及该估计或预测的确定性。例如,该预测是对图2的示例中的类成员关系的预测。
[0040] 开发将图的结构和分割函数参数两者纳入考虑且起作用的训练目标不是直接的(可以被计算并且以产生有用结果的高效方式被使用)。在本文所述的各个示例中,训练过程被使用,该训练过程通过这样一种方式一次增长一个DAG的内部层,从而使得在新层增长时已经增长的各个层不改变它们的拓扑结构。这通过使训练目标将增长的层关于先前层的拓扑结构考虑在内来达成。这限制了需要被评估的潜在DAG布局的数目。在其它实施例中,将DAG的两个以上的层考虑在内或者使得已经增长的一个或多个层能够改变它们的拓扑结构的训练目标可以被使用。
[0041] 在一些示例中,图的前几层被训练并且增长为随机决策树(如图4中的408处所指示的),并且在抵达指定数目的层之后训练过程移动到DAG训练过程中。然而,这不是必需的。也可能仅使用DAG训练过程。
[0042] 图5是用于增长并训练DAG的过程的流程图。
[0043] 经标记的真实标定的训练集被创建为可用。在一示例中,动物照片的大型数据库可被用于上文参考图2描述的分类任务。
[0044] 要在丛林中使用的图的数目被选择。在训练过程期间,图的数目是固定的。在一个示例中,图的数目是三个,然而也可以使用其他值。各个图可以并行地或分开地被训练。
[0045] 根结点被认为是父节点层(在这一情形中具有一个父节点)。DAG训练引擎从父节点层增长502子节点层。这通过选择要在子层中的节点数目来完成。例如,该数目可以根据图中的层的数目和/或根据先前层中的节点数目来预先指定。发现,较小的M(被增加的节点数目)值提供改善的准确性同时保持存储器恒定,但是必须被更深地训练。
[0046] DAG训练引擎使用初始化策略将子层连接504到父层。各种不同的初始化策略可被使用。参考图6和7来讨论两个示例。
[0047] DAG训练引擎计算506抵达父节点的训练示例。在父节点的情形中,这是直接的,因为多个训练示例被选择以推送通过DAG并且是从训练数据集中已知的。随着更多的层增长(DAG的内部层),训练引擎应用分割函数以做出关于哪些训练示例抵达父层的哪些节点的决策。
[0048] DAG训练引擎生成508父节点的随机分割函数参数集。这些被用于从在如下所述的优化过程期间选择分割函数参数值。
[0049] 在图像的情形中,分割函数参数可包括多个特征和空间偏移值。空间偏移值是两维或三维位移的形式。在其他示例中,参数可以进一步包括一个或多个附加的随机生成的空间偏移值。
[0050] 更一般地,各个示例包括保持根据图像或其它传感器数据计算所得的数据的特征向量。例如,特征向量可以保持从深度图像计算所得的骨架数据。在另一示例中,特征向量可以保持从所捕捉的声音计算所得的语音特征。分割函数可以是特征向量子集的线性或非线性函数。例如为了查找骨架特征向量的特定元素或者组合特征向量的多个元素。
[0051] DAG训练引擎搜索510以下各项的良好组合:子层与父层之间的连接模式,以及父节点处的分割函数参数值。各种不同方式的搜索可被使用。参考图8和9描述两个局部搜索示例。下面给出关于训练目标的更多细节。
[0052] 与DAG的当前(父)等级相关联的目标函数E在本文中被认为是抵达当前父等级的任何子节点的训练实例集。学习DAG参数的问题可以用方程式表示为目标函数E在分割函数参数{θi}和子指派{li},{ri}上的联合最小化。子指派是连接到给定父节点的子节点的身份。因而,学习DAG的当前等级的任务可以被表达为:
[0053]
[0054] 在其中要完成分类任务的示例中,训练目标可以是使实例的总加权熵最小化的信息增益目标,该总加权熵被定义为:
[0055]
[0056] 其中Sj表示抵达子节点j的训练实例集,而H(S)是训练实例中y标记类的Shannon熵。
[0057] 在其中要完成回归任务的示例中,训练目标可以是使非参数或参数可微熵最小化的信息增益目标。
[0058] 步骤500到510经由步骤520重复以便增长并训练DAG的更多层,直到停止512的决策激活。例如,停止的决策可以基于正被抵达的层的指定数目。抵达末端节点(DAG的最低层的节点)的训练数据示例与它们所抵达的末端节点相关联地被存储514。训练数据示例可以被单独地存储或者可以以经聚集的形式被存储。图拓扑结构以及分割函数参数也被存储512。图5的过程对于附加图重复以便形成DAG的丛林。
[0059] 图6描述了用于初始化新增长的子节点与父节点之间的连接的初始化策略的第一示例。每一父节点给出一对边。该一对边被附连600到可用的一个子节点,因为它尚未连接任何父节点。对于任何剩余的子节点,父节点与另一子节点之间的现有边之一被选择602并且被重新分配给剩余的子节点。边从其发出的父节点不被改变。对现有边的选择可以在与父节点的分割函数参数有关的能量函数的基础上来做出。对于任何剩余的父节点,子节点与另一父节点之间的现有边之一被选择604并且被重新分配给剩余的父节点。边所结束的子节点不以其它方式被改变。对现有边的选择可以在能量函数的基础上做出。
[0060] 图7描述了用于初始化新增长的子节点与父节点之间的连接的初始化策略的第二示例。父节点根据由父节点的分割函数参数给出的能量函数值来排序700。接着在父节点的能量的测量的基础上例如根据经排序的顺序将各个边分配给父节点。对于经排序的顺序702中的第一父,在能量函数的基础上,它的两条边的连接(从可被作出的可能边中)被选择。这接着对其它父节点重复704。当没有空的子节点可用时,来自父的任何剩余边被贪婪地分配给使能量函数增长最小化的子节点。贪婪分配是在不将可能影像当前分配的将来改变考虑在内的情况下执行的分配。
[0061] 图8是搜索以下各项的良好组合的第一方法的流程图:子层与父层之间的连接模式、以及父节点处的分割函数参数。这一方法在本文中也被称为L搜索。这一方法从由以上的初始化给出的参数(分割函数参数和连接模式参数)的初始指派开始,接着在两个坐标下降步骤之间交替(在一些示例中以随机的方式)直到满足停止准则。
[0062] 如图8所解说的,坐标下降步骤806中的第一个是分割优化步骤。它按顺序遍历每一个(或在一些情形中随机选择的)父节点k,并且试图寻找使目标函数最小化的分割函数参数θk,从而使所有其它节点的连接模式和分割参数保持固定。因而,一个父节点从父节点层中(在一些示例中随机地)被选择808。接着所选父节点的最佳分割函数参数(从随机生成的可能分割函数参数集)被找到810。坐标下降步骤800中的第二个是连接模式搜索。这一过程按顺序从父节点遍历一个或多个分支,并且试图将其重定向到将导致固定分割函数参数的训练目标的较低值的子节点。从父节点层发出的一个分支被选择802。所选分支的最佳端点根据具有固定分割函数参数的训练目标来找到。
[0063] 在一些示例中,分割函数搜索过程806被安排成使得各个节点能够绕开一个层,或者在没有找到针对该节点的合适的分割函数参数的情况下成为末端节点。
[0064] 坐标下降步骤交替,直到对参数作出很少改变或不作出改变。根据存储器约束、时间约束、处理资源约束或其它因素,可以使用其它停止准则。
[0065] 图9是搜索以下各项的良好组合的第二方法的一部分的流程图:子层与父层之间的连接模式、以及父节点处的分割函数参数。这一方法在本文档中被称为群集搜索。群集搜索过程包括由图9的方法来替换图8的连接模式搜索800。这给出了用于分支变量的更全局的优化。
[0066] 连接模式搜索包括使用k均值群集、基于Bregman散度的群集、或其它群集方法来群集900各个子节点。Bregman散度(或距离)将Euclidean(欧几里德)距离概括为更通用类的距离。Bregman距离被连接到分布的指数族。例如,关于抵达子节点的经标记的训练示例的信息被用于计算群集。
[0067] 在群集的基础上每一父节点与每一子节点之间的距离被计算902。Kullback-Leibler散度可以被用作计算所得的距离。在计算所得的距离的基础上各个分支接着在父节点和子节点之间被重新指派904。
[0068] 例如,抵达父节点的经标记的训练示例的直方图被计算。临时子节点的临时层从父节点增长,伴随两个临时子节点从每一父节点中分支。抵达临时子节点的经标记的训练示例的直方图被计算。子节点的第二层使用以上提及的任何初始化策略被形成并且连接到临时子节点层。子节点的第二层针对每一群集包括一个子节点。每一临时子节点被连接到就子节点的直方图与群集的直方图之间的相似性而言最接近的那个群集。例如,相似性可以使用Kullback-Leibler散度或另一相似性测量来计算。父节点的直方图接着使用从它们各自的临时子节点的直方图总和来更新。在过程的结尾处,当在图8的框812处满足停止准则时,临时子节点被删除,并且根据临时子节点的分支模式由从父节点到子节点的第二层的直接分支替换。
[0069] 图10是使用经训练的DGA丛林的方法的流程图。在这一示例中,DAG已经被训练用于图2的分类任务。然而,图10的方法还适用于被训练用于其它分类或回归任务的DAG。
[0070] 在经训练的丛林处接收1000未见的深度图像。图像被称为“未见”以将其与已经分类图像元素的训练图像区分开来。
[0071] 来自未见图像的图像元素被选择1002以供分类(或回归)。来自丛林的经训练的DAG也被选择1004。所选图像元素被推动1006通过所选择的DAG,以使得在一节点处对照经训练的参数进行测试,然后取决于该测试的结果而被传递到适当的子,并且该过程被重复直到该图像元素抵达末端节点。一旦图像元素抵达末端节点,与这一末端节点相关联的概率分布针对这一图像元素被存储1008。
[0072] 如果确定1010丛林中存在更多DAG,则新的DGA被选择1004,图像元素被推动1006通过该DAG并且概率分布被存储1008。该过程被重复直到对于该丛林中的所有DAG都执行了该过程。注意,用于推动图像元素通过丛林中的DAG的过程还可以并行执行,而不是如图10所示按序列执行。
[0073] 一旦图像元素已经被推动通过丛林中的所有DAG,则多个概率分布已经针对该图像元素(来自每一DAG至少一个)被存储。这些概率分布接着被聚集1012以形成该图像元素的的总概率分布。在一个示例中,总概率分布是来自T个不同DAG的所有个体概率分布的平均值。这由下式给出:
[0074]
[0075] 注意,也可以使用除了求平均以外的组合DAG后验概率的方法,诸如将这些概率相乘。可任选地,可以执行对个体概率分布之间的可变性的分析(未在图10中示出)。这样的分析能够提供与总概率分布的不确定度有关的信息。在一个示例中,熵可被确定为可变性的测量。
[0076] 一旦总概率分布被确定,图像元素的预测分类(或经回归的值)被计算1014并且存储。图像元素的预测值被指派给该图像元素以供将来使用(如下文所勾勒的)。在一个示例中,图下功能元素的分类c的计算可以通过确定总概率分布中的最大概率(即,Pc=maxxP(Y(x)=c))来执行。.另外,最大概率可以可任选地与阈值最小值作比较,从而使得具有类c的图像元素在最大概率大于该阈值的情况下被认为存在。在一个示例中,该阈值可以是0.5,即,在Pc>0.5的情况下,分类c被认为存在。在又一示例中,图像元素x的最大a后验(MAP)分*类可以被获得为c=argmaxcP(Y(x)=c)。
[0077] 然后确定1016未看见的深度图像中是否存在其他未分析的图像元素,并且如果存在则选择另一图像元素并且重复该过程。一旦未见图像中的所有图像元素已经被分析,则针对所有图像元素的预测值(诸如取决于应用领域的类标记、关节未知、或其它)被获得。
[0078] 作为替换或补充,本文所述的功能可至少部分地由一个或多个硬件逻辑组件来执行。例如,但非限制,可被使用的硬件逻辑组件的说明性类型包括现场可编程阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD),图形处理单元(GPU)。
[0079] 图11解说可以被实现为任何形式的计算和/或电子设备,并且其中可以实现使用有向无环图的图像处理系统的实施例的示例性基于计算的设备1118的各组件。
[0080] 基于计算的设备1118包括一个或多个处理器1100,这些处理器可以是微处理器控制器或用于处理用于控制设备操作的计算机可执行指令以训练多个有向无环图和/或使用经训练的有向无环图以用于应用于图像的分类或回归任务的任何其他合适类型的处理器。在一些示例中,例如在使用片上系统架构的示例中,处理器1100可以包括一个或多个固定功能(亦称加速器),这些块以硬件(而非软件固件)来实现训练有向无环图和/或处理图像元素的方法的一部分。可以在基于计算的设备处提供包括操作系统1122或任何其他合适的平台软件的平台软件以使得能够在该设备上执行应用软件1124。训练逻辑1130被安排成训练一个或多个有向无环图以及可任选还训练随机决策树。数据存储1128保持训练图像、训练目标、参数、经训练的有向无环图或其它数据。分类或回归逻辑1132被安排成使用经训练的有向无环图和/或随机决策树来执行关于图像的回归或分类任务。
[0081] 可以使用可由基于计算的设备1118访问的任何计算机可读介质来提供计算机可执行指令。计算机可读介质可以包括例如诸如存储器1112等计算机存储介质和通信介质。诸如存储器1112等计算机存储介质包括以用于存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于,RAM、ROM、EPROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备,或者可用于存储信息以供计算设备访问的任何其他非传输介质。相反,通信介质可以以诸如载波或其他传输机构等已调制数据信号来体现计算机可读指令、数据结构、程序模块或者其他数据。如本文所定义的,计算机存储介质不包括通信介质。因此,计算机存储介质不应被解释为本质上是传播信号。传播信号可存在于计算机存储介质中,但是传播信号本身不是计算机存储介质的示例。虽然在基于计算的设备1112中示出了计算机存储介质(存储器
1112),然而应当理解,该存储可以是分布式的或位于远处并经由网络或其他通信链路(例如,使用通信接口1113)来访问。
[0082] 基于计算的设备1118还包括输入/输出控制器,输入/输出控制器包括输入接口1102和输出接口1110。输出接口1110被安排成向显示设备1120输出显示信息,该显示设备
1120可与基于计算的设备1118分开或集成到基于计算的设备1118。该显示信息可以提供图形用户界面。输入/输出控制器还被安排成接收并处理来自一个或多个设备的输入,如用户输入设备1104、1106、1108(例如,鼠标键盘、游戏控制器)或捕捉设备1126(诸如相机、话筒或其他传感器)。在一些示例中,用户输入设备可以检测语音输入、用户姿势或其他用户动作,并且可以提供自然用户界面(NUI)。这一用户输入可被用于指定训练目标、指定停止准则、设置参数值、输入训练数据或用于其它目的。在一实施例中,如果显示设备1120是触敏显示设备,则它还可充当用户输入设备。输入/输出控制器还可向除显示设备之外的设备输出数据,例如,本地连接的打印设备。
[0083] 输入/输出控制器1102、1110、显示设备1120以及用户输入设备1104、1106、1108中的任一者可包括使用户能够按自然的、免受诸如鼠标、键盘、遥控器等输入设备所施加的人工约束的方式与基于计算的设备交互的NUI技术。可以提供的NUI技术的示例包括但不限于依赖于语音和/或话音识别、触摸和/或指示笔识别(触敏显示器)、屏幕上和屏幕附近的姿势识别、空中姿势、头部和眼睛跟踪、语音和话音、视觉、触摸、姿势以及机器智能的那些技术。可被使用NUI技术的其他示例包括意图和目的理解系统,使用深度相机(如立体相机系统、红外相机系统、rgb相机系统以及这些的组合)的运动姿势检测系统,使用加速度计/陀螺仪的运动姿势检测,面部识别,3D显示,头部、眼睛和注视跟踪,沉浸式增强现实虚拟现实系统,以及用于使用电场传感电极(EEG和相关方法)的感测大脑活动的技术。
[0084] 此处所使用的术语‘计算机’或‘基于计算的设备’是指带有处理能力以便可以执行指令的任何设备。本领域技术人员可以理解,这样的处理能力被结合到许多不同设备中,并且因此术语‘计算机’和‘基于计算的设备’各自包括个人计算机、服务器移动电话(包括智能电话)、平板计算机、机顶盒、媒体播放器、游戏控制台、个人数字助理和许多其它设备。
[0085] 本文描述的方法可由有形存储介质上的机器可读形式的软件来执行,例如计算机程序的形式,该计算机程序包括在该程序在计算机上运行时适用于执行本文描述的任何方法的所有步骤的计算机程序代码装置并且其中该计算机程序可被包括在计算机可读介质上。有形存储介质的示例包括计算机存储设备,计算机存储设备包括计算机可读介质,诸如盘(disk)、拇指型驱动器、存储器等而不包括所传播的信号。传播信号可存在于有形存储介质中,但是传播信号本身不是有形存储介质的示例。软件可适于在并行处理器或串行处理器上执行以使得各方法步骤可以按任何合适的次序或同时执行。
[0086] 这承认,软件可以是有价值的,单独地可交换的商品。它旨在包含运行于或者控制“哑”或标准硬件以实现所需功能的软件。它还旨在包含例如用于设计芯片,或者用于配置通用可编程芯片的HDL(硬件描述语言)软件等“描述”或者定义硬件配置以实现期望功能的软件。
[0087] 本领域技术人员会认识到,用于存储程序指令的存储设备可分布在网络上。例如,远程计算机可以存储被描述为软件的进程的示例。本地或终端计算机可以访问远程计算机并下载软件的一部分或全部以运行程序。可另选地,本地计算机可以根据需要下载软件的片段,或在本地终端上执行一些软件指令,并在远程计算机(或计算机网络)上执行另一些软件指令。本领域的技术人员还将认识到,通过利用本领域的技术人员已知的传统技术,软件指令的全部,或一部分可以通过诸如DSP、可编程逻辑阵列等等之类的专用电路来实现。
[0088] 对精通本技术的人显而易见的是,此处给出的任何范围或设备值可以被扩展或改变,而不会丢失寻求的效果。
[0089] 尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。更确切而言,上述具体特征和动作是作为实现权利要求的示例形式公开的。
[0090] 可以理解,上文所描述的优点可以涉及一个实施例或可以涉及多个实施例。各实施例不仅限于解决任何或全部所陈述的问题的那些实施例或具有任何或全部所陈述的优点那些实施例。进一步可以理解,对“一个”项目的引用是指那些项目中的一个或多个。
[0091] 此处所描述的方法的步骤可以在适当的情况下以任何合适的顺序,或同时实现。另外,在不偏离此处所描述的主题的精神和范围的情况下,可以从任何一个方法中删除各单独的框。上文所描述的任何示例的各方面可以与所描述的其他示例中的任何示例的各方面相结合,以构成进一步的示例,而不会丢失寻求的效果。
[0092] 此处使用了术语‘包括’旨在包括已标识的方法的框或元件,但是这样的框或元件不包括排它性的列表,方法或设备可以包含额外的框或元件。
[0093] 可以理解,上面的描述只是作为示例给出并且本领域的技术人员可以做出各种修改。以上说明、示例和数据提供了对各示例性实施例的结构和使用的全面描述。虽然上文以一定的详细度或参考一个或多个单独实施例描述了各实施例,但是,在不偏离本说明书的精神或范围的情况下,本领域的技术人员可以对所公开的实施例作出很多更改。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈