首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 半监督学习 / 神经网络的标注系统

神经网络的标注系统

阅读:34发布:2020-05-11

专利汇可以提供神经网络的标注系统专利检索,专利查询,专利分析的服务。并且本 申请 中公开了一种用于神经网络的标注系统及其方法。该标注系统包括 存储器 和可操作地耦合到该存储器的处理器。所述存储器被配置为用于存储指令,其接收包括来自一个或多个信息源的第一组未标记实例;设定该信息的学习目标;通过执行 软件 算法 从第一组未标记实例中选出第二组已筛选未标记实例;并对第二组已筛选未标记实例进行标注,用于生成已标记数据。该软件算法通过数据增强方法将半 监督学习 和迁移学习相结合,提高了在训练神经网络地标注效率,因此可用于基于 深度学习 的视频分析。该软件算法可以通过将标注量减少一个数量级来提高标注效率。,下面是神经网络的标注系统专利的具体信息内容。

1.一种用于神经网络的标注方法,包括:
·从至少一个信息源接收未标记实例作为信息;
·获得该未标记实例的学习目标;
·通过执行一个软件算法获取已筛选未标记实例;以及
·获取该已筛选未标记实例的标注作为已标记实例;
其中,所述软件算法被配置为结合了半监督学习和迁移学习,用于减少该已筛选未标记实例的数量。
2.如权利要求1所述的标注方法,还包括:
对上述已标记实例的进行验证。
3.如权利要求1或2所述的标注方法,还包括:
·在上述信息中检测上述学习目标;
·在上述信息中追踪上述学习目标;和/或
·在上述信息中检索上述学习目标。
4.如前述权利要求中任一项所述的标注方法,其中,
上述未标记实例的学习目标包括:
可搜索的属性、字符、对象、事件或以上任的何组合;
可检测的非法停车、入侵、游荡,遗弃物或以上的任何组合;
可识别的词语、车牌、面孔,车辆,物体或其任何组合;和/或
可数的车辆,人员,物体及其任何组合。
5.如前述权利要求中任一项所述的标注方法,其中,
上述软件算法包括一个输入层、一个输出层和一个位于所述输入层和所述输出层之间的隐藏层
6.如前述权利要求中任一项所述的标注方法,其中,
所述软件算法具有一个深度主动残差学习框架,可运行:
7.如前述权利要求中任一项所述的标注方法,其中,
上述软件算法被配置为进行语义查询、非语义查询或具有语义子查询和非语义子查询的复杂查询。
8.一种用于存储指令的非暂时性机器可读存储介质,所述指令在被执行时使至少一个计算设备执行操作,所述操作包括:
·从至少一个信息源接收未标记实例作为信息;
·获得该未标记实例的学习目标;
·通过执行一个软件算法获取已筛选未标记实例;以及
·获取该已筛选未标记实例的标注作为已标记实例;
其中,所述软件算法被配置为结合了半监督学习和迁移学习,用于减少该已筛选未标记实例的数量。
9.如权利要求8所述的非暂时性机器可读存储介质,其中,
上述操作还包括获得上述已标记实例的验证。
10.如权利要求8或9所述的非暂时性机器可读存储介质,其中,
上述操作还包括:
在上述信息中检测学习目标;
在上述信息中追踪学习目标;以及
在上述信息中检索学习目标。
11.根据前述权利要求8至10中任一项所述的非暂时性机器可读存储介质,其中,上述已筛选未标记实例的数量大于一个临界值。
12.根据前述权利要求8至11中任一项所述的非暂时性机器可读存储介质,其中,上述软件算法具有一个深度主动残差学习框架,可运行:
13.根据前述权利要求8至12中任一项所述的非暂时性机器可读存储介质,其中,上述软件算法被配置为在一个自洽平台上运行,以提高性能和准确性。
14.一种计算机程序产品,包括一个存储指令的非暂时性机器可读存储介质,所述指令在被执行时使至少一个计算设备执行操作,所述操作包括:
·从至少一个信息源接收未标记实例作为信息;
·获得该未标记实例的学习目标;
·通过执行一个软件算法获取已筛选未标记实例;以及
·获取该已筛选未标记实例的标注作为已标记实例;
其中,所述软件算法被配置为结合了半监督学习和迁移学习,用于减少该已筛选未标记实例的数量。
15.如权利要求14所述的计算机程序产品,其中
上述操作还包括获得上述已标记实例的验证。
16.如权利要求14或15所述的计算机程序产品,其中,
上述已筛选未标记实例的数量大于一个临界值。
17.如前述权利要求14至16中任一项所述的计算机程序产品,其中,上述软件算法具有一个深度主动残差学习框架,可运行:
18.如前述权利要求14至17中任一项所述的计算机程序产品,其中,上述软件算法被配置为在一个自洽平台上运行,以提高性能和准确性。
19.根据前述权利要求14至18中任一项所述的计算机程序产品,其中,上述软件算法被配置为具有语义查询、非语义查询或具有语义子查询和非语义子查询的复杂查询。
20.一种标注系统,包括:
存储器;和
可操作地耦合到上述存储器的处理器,其可进行如下操作:
·从至少一个信息源接收未标记实例作为信息;
·获得该未标记实例的学习目标;
·通过执行一个软件算法获取已筛选未标记实例;以及
·获取该已筛选未标记实例的标注作为已标记实例;
其中,所述软件算法被配置为结合了半监督学习和迁移学习,用于减少该已筛选未标记实例的数量。
21.如权利要求20所述的标注系统,其中,
上述软件算法在一个移动平台上运行。
22.如权利要求20或21所述的标注系统,其中,
上述处理器可操作来获得上述已标记实例的验证。
23.根据前述权利要求20至22中任一项所述的标注系统,其中,
上述未标记实例的学习目标包括:
可搜索的属性、字符、对象、事件或以上任的何组合;
可检测的非法停车、入侵、游荡,遗弃物或以上的任何组合;
可识别的词语、车牌、面孔,车辆,物体或其任何组合;和/或
可数的车辆,人员,物体及其任何组合。
24.根据前述权利要求20至23中任一项所述的标注系统,其中,
上述软件算法具有一个深度主动残差学习框架:可运行:
25.根据前述权利要求20至24中任一项所述的标注系统,其中,
上述软件算法被配置为在一个自洽平台上运行,以提高性能和准确性。

说明书全文

神经网络的标注系统

[0001] 本申请要求新加坡专利申请的优先权,其申请号为10201805864P,申请日为2018年7月7日,其标题为“结合半监督学习和迁移学习的软件算法,以提高标注效率”(Software Algorithm Combining Semi-Supervised Learning and Transfer Learning to Increase the Efficiency of Annotation)。优先权申请的所有相关内容和/或主题均包含于本申请中。
[0002] 本申请涉及用于深度学习的标注系统和/或其方法,尤其涉及视频分析中的标注领域。所述标注系统包括相关设备、方法和/或多个设备的组合及其方法。
[0003] 当今,每天都会生成大量未标记的数据,包括文本、图像、视频、声音和信号。对所述未标记数据进行手动标注而用于深度学习,实际上并不可行。因此,现有的神经网络技术被用于进行自动标注。例如,由于视频或图像中含有的未标记数据非常丰富,一些基于机器学习的视频分析算法已经被用于视频分析工业中。
[0004] 然而,为了实现高精度的视频分析,需要对大量数据进行标注,用于训练视频分析算法。如果进行人工标注,则数据标注的成本可能会非常高。特别是,在某些特定应用中,需要具有专业知识的专家才能正确标注。例如,在特定的人物追踪(Person-Of-Interest(POI))应用中,使用机器学习进行视频分析在实践中由于以下原因而被严格限制使用。首先,大型神经网络的低处理速度会导致不可接受的延迟;其次,缺乏用于训练神经网络的已标记数据会损害机器学习;第三,机器学习算法对外部因素的变化很敏感,例如照明、背光条件、人体姿势和视的变化,特别是对于户外场景。因此,在包含各种外部因素的条件下,缺乏足够数量的已标记数据成为开发视频分析引擎或算法的瓶颈。相应地,本申请旨在开发一种新且实用的用于神经网络的标注方法、设备或系统。本申请的基本特征由一个或多个独立权利要求提出,而其它特征由其相应的从属权利要求提出。
[0005] 本申请的第一方面公开了一种用于神经网络(例如,深度学习模型)的标注方法。所述标注方法中的神经网络用于标注或将元数据(meta-data)与视频内容相关联,例如作者、发布时间和视频。这样,具有视频内容的视频剪辑可以使用搜索引擎来搜索查询,所述查询包含一个或多个关键字。所述标注方法中的神经网络需要首先进行训练,接着进行测试、最后才能用于高可靠性和准确性的自动标注。尤其需要已标记实例(labeled instance)来训练神经网络。然而,获得所述已标记实例非常昂贵且数量有限。相反地,未标记实例(unlabeled instance)廉价且数量丰富。
[0006] 所述用于神经网络的标注方法可以包括步骤。第一步,从一个或多个信息源接收信息作为未标记实例(称为第一组未标记实例),例如,照片图像或视频剪辑;第二步,从未标记实例获得学习目标;第三步,通过执行软件算法获得已筛选未标记实例(selected unlabeled instances)(即,从第一组未标记实例中选择已筛选未标记实例而作为第二组未标记实例);第四步,获取所述已筛选未标记实例的标注,用于生成已标记实例或已标记数据。所述已标记数据用于训练神经网络,例如用于自动标注的深度学习模型。所述已筛选未标记实例被选择到第二组未标记实例中,因为所述已筛选未标记实例在训练神经网络时具有较大的权重。具体而言,所述软件算法被配置来结合、结合或集成半监督学习和迁移学习,用于减少已筛选未标记实例所必须的、最少的或需要的数量。
[0007] 本申请的标注方法具有一个主要优点,即通过仅标注已筛选未标记实例来减少在训练期间要求的已标记实例(即,第二组未标记实例),从而提高了标注效率。所述第一组未标记实例包括第一数量的未标记实例;而所述第二组未标记实例包括第二数量的已筛选未标记实例。通常,第一数量非常大,以至于第一组未标记实例不能被现有的标注工具(oracle)所标注,例如人类标注员。第二数量明显小于第个数量,因此大大减少了标注工具(oracle)的工作量。
[0008] 根据具体应用,所述信息源可以是自然图像数据集、地理空间数据集、人工数据集、面部数据集、视频数据集或测试数据集。例如,所述信息源与计算机视觉技术相结合,用于对象检测、多个对象跟踪图像配准和对齐、基于内容的图像检索、人员重新识别、用于人物追踪(POI)系统或车辆追踪(vehicle-of-interest(VOI))系统的属性分类。所述信息源可以是现有数据集,存储在本地计算设备(例如,个人计算机、大型计算机、笔记本型计算机、平板计算机或台式计算机),存储在包括一个或多个计算设备(例如,机架服务器(rackmount)、路由器计算机、服务器计算机、个人计算机、大型计算机、笔记本型计算机、平板计算机或台式计算机等)的平台,数据源(例如,硬盘存储器数据库),网络和/或软件构成。所述信息源也可以是实时收集的原始数据集。所述源还可以是区域性或全球性可获取的私有数据集或公共数据集。
[0009] 然后根据特定应用来设置所述学习目标。该学习目标可以是语义格式、非语义格式或语义格式和非语义格式的组合。例如,人的语义特征可以是对年龄、体形、性别或发型的描述;而非语义特征可以是人物追踪(POI)系统的图像或视频剪辑。又例如,车辆的语义特征可以是对模型、品牌或车牌的描述;而非语义特征可以是车辆追踪(VOI)系统的图像或视频剪辑。
[0010] 通过所述软件算法从第一组的未标记实例中选出第二组的已筛选未标记实例。结果,第二组的第二数量比第一组的第一数量小很多;因此,现有的标注工具(oracle)可以将第二组的已筛选未标记实例进行标注成为标记实例。例如,第一组具有550万个视频帧或图像,所述软件算法仅选出大约8千5百(8500)个视频帧或图像到第二组中。所述8千5百(8500)个视频帧或图像只需要一个人两天即可完成标注。已标记实例对于训练神经网络是必要的,尤其是对深度学习模型,例如,监督深度学习模型或半监督深度学习模型。所述深度学习模型在某些特定领域尤其有用,例如,基于深度学习的视频分析,其中人的图像或视频剪辑可以与许多因素相关,例如,不同姿势、不同角度和高度、同一天的不同时间、以及室内或室外。如果一个或多个因素改变,则人在图像上或视频剪辑中的外观会相应地显着发生改变。因此,需要通过使用已标记实例来训练深度学习模型(例如,监督模型或半监督模型),从而检测、跟踪和识别由所述因素变化而产生的类内变化(intra-class variations)。
[0011] 特别地,所述标注方法的软件算法结合了半监督学习和迁移学习,以有效地从第一组的未标记实例中选择出已筛选未标记实例,进入第二组。由于仅需要对第二组的已筛选未标记实例进行标注,因此标注的效率大大提高。同时,由于第二组的已筛选未标记实例比第一组中未被选中的未标记实例具有更大的权重;因此,如果仅对第二组的已筛选未标记实例进行标注并用于训练所述神经网络,深度学习模型基本上不会受到影响。其中,所述半监督学习利用标记实例和未标记实例进行训练。而转移学习通过将学习任务的共性概括为学习目标,可包括一组相关但不同的学习任务。因此,所述软件算法可以在许多应用中普遍使用而无需进一步修改
[0012] 所述第三步可采用以下方法。首先,通过计算第一组中的每个未标记实例的预测值;其次,确定所述预测值的方差;最后,当所述预测值的方差大于一个第一阈值时,即选中该未标记实例未已筛选未标记实例,并进行标注。换句话说,仅当未标记实例的预测具有更大的不确定性时,该未标记实例才被认为对于标注是有价值的。
[0013] 所述标注方法还可以包括一个步骤,用于获得、批准或检查已标记实例。可以从第二组的已筛选未标记实例中进一步选出第三组的未标记实例。第三组的选择过程与第二组的选择过程相同。类似地,第三组中的每个已筛选未标记实例的方差均大于一个第二阈值。所述第二阈值应该大于所述第一阈值。第三组的已筛选未标记实例由标注工具(oracle)进行标注成为标记实例,然后用于训练神经网络。由于第三组具有一个第三数量,其小于第二组的第二数量,从而进一步提高了标注的效率。
[0014] 如果神经网络包括半监督模型,则在由第三组的标记实例训练所述半监督模型之后,剩余的未标记实例仍可用于训练所述神经网络。第二组的剩余的未标记实例可输入所述神经网络,其输出结果可由标注工具(oracle)进行验证或检查。特别是,如果涉及人类标注员,则所述验证也称为人机回圈法(human-in-the-loop approach)。由于所述验证或检查标注比标注本身更快,因此神经网络中的半监督学习模型比监督学习模型具有更高的效率。
[0015] 可选地,所述标注方法的软件算法通过询问与第二组中的已筛选未标记实例有关的查询,而包括主动深度学习模型(active deep learning model)。所述主动深度学习模型也称为主动深度学习器(active deep learner)。在所述主动深度学习模型中,允许所述软件算法根据特定查询来进一步主动地从第二组中选择已筛选未标记实例的子集。所述子集可根据与已筛选未标记实例中的学习目标相关的相似性排序来选择。所述学习目标越相似,该已筛选未标记实例就越可能被选择。所述主动深度学习模型基于以下信念而构件:如果允许软件算法选择其更喜欢的未标记实例,则该软件算法可能在使用更少的未标记实例进行训练的情况下,却取得更好的准确性。所述主动深度学习模型中的软件算法也允许在训练期间提出查询。所述查询可能在几轮中均被选中;并且对于标注器(例如,人类标注员),所述查询将变得越来越困难。如此,所述软件算法可以通过使用尽可能少的已标记实例来取得最高的精度,从而使获得已标记数据的成本最小。
[0016] 可选地,顺序模型或随机模型也可用于采样和标记,以评估标注的准确性。然而,与主动深度学习模型相比,顺序模型和随机模型都具有更差的查全率(precision-recall)。换句话说,主动深度学习模型比顺序模型或随机模型需要更少的已标记实例来实现相同的准确性。例如,顺序模型或随机模型需要大约80万(800000)个未标记实例,则需要800个人/小时(man/hour)来标记。相比之下,主动深度学习模型仅需要大约3万(30000)个未标记实例。即,主动深度学习模型将标注效率提高了约27倍。
[0017] 在训练之后,所述软件算法将接收测试,用来识别未标记实例是否正确且合适地进行了标注。所述测试是半监督模型的强制要求。其采用的未标记实例可从第一组或第二组中选取。如果所述测试失败,则需要调整或重新设置软件算法的参数。例如,图像或视频帧的像素可表示为二维空间(x,y)中的空间坐标;而视频剪辑的像素可表示为三维空间(x,y,t)中的空间坐标和时间轴。所述空间坐标和时间轴用作图像或视频帧的软件算法的参数。
[0018] 可选地,所述软件算法可包括一个增强机制,用于随机扰动第二组中的已筛选未标记实例。由于学习目标受许多因素影响,因此所述增强机制可通过故意扰动第二组中的每个已筛选未标记实例,来调整所述第二组中的已筛选未标记实例的因素。因此,通过将所述可调整的因素的数量乘以所述第二组的第二数量,该第二组中的数据量将显着增加。当第二组的第二数量不足以训练神经网络时,特别是采用深度学习模型时,所述增强机制解决了一个潜在的过度拟合的问题。如果深度学习模型对细节甚至噪声进行学习,就会对深度学习模型的性能产生负面影响,因此所述过度拟合的问题是由于过度使用训练数据造成的。因此,通过向深度学习模型提供足够的训练数据,即增加第二组的第二数量,可以解决所述过度拟合的问题。此外,当所述因素改变时,软件算法还可以使深度学习模型适应各种条件。
[0019] 所述软件算法用采用C++语言、python语言或其组合进行编码。这样,该软件算法可以在任何常用的操作平台上执行或运行,而不需要重写。所述操作平台可以是传统的Windows平台,通用Windows平台(Universal Windows Platform(UWP)),也可以是安卓(Android),苹果(IOS),鸿蒙或Window Mobile等移动平台。
[0020] 所述软件算法可由一个或多个图形处理单元(GPU)执行,例如NVIDIA DGX-1超级计算机或NVIDIA DGX-II超级计算机,其专用于深度学习、人工智能加速分析。NVIDIA DGX-1超级计算机和NVIDIA DGX-II超级计算机均可访问流行的深度学习框架、NVIDIA DIGITSTM深度学习培训应用程序、第三方加速解决方案、NVIDIA深度学习SDK(例如cuDNN,cuBLAS,NCCL)、 工具包、NVIDIA Docker和NVIDIA驱动程序。因此,NVIDIA DGX-I超级计算机和NVIDIA DGX-II超级计算机不需要承担不断优化软件算法的负担,就可提供即用型且已优化的软件堆栈,从而非常容易地提高了生产。特别地,本申请的标注方法的软件算法可以极大地提高视频分析的性能和准确性。
[0021] 可选地,所述标注方法还可以包括以下步骤。首先,从信息中检测学习目标;其次,从信息中追踪学习目标;最后,从信息中检索学习目标。更加先进地,当外部因素改变时,所述标注方法可在不同条件下检测学习目标。例如,当采用不同姿势、不同角度和高度,在同一天的不同时间以及室内或室外拍摄视频剪辑或图像时,所述标注方法仍然可以检测、跟踪和识别该特定人物。
[0022] 可选地,所述未标记实例的学习目标包括可搜索的属性、字符、对象、事件或其任何组合;可检测的非法停车、入侵、游荡、遗弃物或其任何组合;可识别的词语、车牌、面孔,车辆,物体或其任何组合;以及可计数的车辆、人员、物体或其任何组合。另外,为了单个目的或多个目的,可以单独地、共同地或甚至同时地搜索、检测、识别和/或统计一个或多个前述目标。例如,在人物追踪(POI)和车辆追踪(VOI)系统中,一个车辆和使用该车辆的一个人物作为可搜索的学习目标;如果该人物非法停放该车辆,则该动作由人物追踪(POI)和车辆追踪(VOI)系统进行检测;该人通过其面部来识别,而该车辆也可通过其车牌来识别;所述人物追踪(POI)和车辆追踪(VOI)系统也计算该人物和该车辆的外观。
[0023] 所述软件算法可包括一个输入层、一个输出层和位于所述输入层与所述输出层之间的隐藏层。所述隐藏层还包括至少一个子层。所述子层的数量被称为采用深度学习模型的软件算法的深度。通常,学习目标越复杂,隐藏层需要构建的子层就越多,因此软件算法可能越复杂。可选地,所述软件算法还包括在所述输出层之后的一个softmax层,用于对所述输出层的输出进行归一化处理,从而将输出结果转换成概率。另外,所述软件算法还可以反向传递(propagate backward),以调整所述软件算法的参数,该参数包括最初输入输入层的权重和偏差。
[0024] 所述第二组中的已筛选未标记实例的数量需要大于一个临界值;即,第二组的第二数量大于该临界值。仅当第二数值大于该临界值时,所述软件算法才具有比手动设计(handcrafted algorithm)算法更好的性能。所述临界值可能变化,并由特定的应用确定。
[0025] 所述软件算法具有深度主动残差学习框架(deep active residual learning framework),其代码原理如下:
[0026] 所述输入包括已标记数据集(labeled dataset)L,未标记数据集(unlabeled dataset)U,标记预算(labelling budget)b,迭代次数(number of iterations)k和损失函数(Loss function)F(θ,D)。所述输出包括扩展标记数据集(extended labelled dataset)Lk∪L,已训练的残差网络参数(trained residual net parameters); θ0←argminθF(θ,L∪Li)。此外,所述深度主动残差学习框架(deep active residual learning framework)还提供了一个通用功能,其可通过附加代码而选择性的改变,因此所述深度主动残差学习框架可以适应各种特定应用。
[0027] 所述软件算法在一个自洽平台(Principled Methods)上运行,以提高其性能和准确性。所述自洽平台(Principled Methods)采用概率论、信息论和贝叶斯决策理论(Bayesian decision theory)的一套连贯的数学原理集。所述连贯的数学原理集具有使所述软件算法具有保持透明和可解释的主要优点。因此,与传统的深度神经网络采用的黑盒方法(black-box approach)相比,所述软件算法能更好地量化不确定性。可选地,所述自洽平台(Principled Methods)普遍适用于多个行业,例如,物流、零售以及监视。
[0028] 所述软件算法可用于语义查询、非语义查询或同时具有语义子查询和非语义子查询的混合查询。当查询对象的图片(例如,人物追踪(POI)系统的人物或车辆追踪(VOI)系统的车辆)不可用时,例如描述文本的语义查询是适用的。例如,我们可以通过受害者的描述来了解查询对象的年龄、性别、种族、体形和肤色。受害者可能已经看到了汽车颜色和品牌,但没有拍到嫌疑人汽车的照片。这是所述人物追踪(POI)系统的语义部分,我们需要将图像与其标签和语义属性联系起来。非语义查询允许基于内容的查询(content-based query),例如,图像或图像序列;因此也称为内容查询。混合查询通常用于处理复杂查询,以及帮助人物追踪(POI)优化结果。
[0029] 特别地,上述软件算法可以从诸如图像或视频剪辑的非语义信息中提取精细的语义信息。这样,非语义信息被转换成为更容易被搜索引擎搜索的语义信息。
[0030] 本申请的第二方面公开了一种可存储指令的非暂时性机器可读存储介质(non-transitory machine-readable storage medium),所述指令会使一个或多个计算设备执行操作。所述操作可包括以下步骤。第一步,从一个或多个信息源接收未标记实例(即第一组未标记实例)作为信息(例如,照片图像或视频剪辑);第二步,获得所述未标记实例的学习目标;第三步,通过执行软件算法获得已筛选未标记实例(即从第一组未标记实例中选出第二组的已筛选未标记实例);第四步,获取所选择的未标记实例的标注,用于产生已标记实例或已标记数据。特别地,所述软件算法的深度学习模型被配置为结合、结合或集成半监督学习和迁移学习。所述操作符合本申请第一方面所述的神经网络的标注方法。可选地,所述软件算法在移动平台上执行,例如,安卓(Android)、苹果(IOS)或鸿蒙系统。
[0031] 所述计算设备可以是个人计算机(PC)、笔记本电脑移动电话、智能电话、平板电脑或上网本电脑等。所述非暂时性机器可读存储介质(或称为计算机可用(computer-usable)或计算机可读(computer readable)介质)包含能够存储、通信、传播或传输所述程序,以供指令执行系统使用或与结合的任何装置或设备,例如,软盘(floppy disk)、光盘(optical disk)、多媒体光盘(CD-ROM)和磁盘(magnetic disk)、只读存储器(ROM)、随机存取存储器(RAM)、电动程控只读存储器(EPROM)、带电可擦可编程只读存储器(EEPROM)、磁卡(magnetic card)或光卡(optical card)、闪存(flash memory)或前述设备的任意组合,其可耦合到计算设备的总线。所述操作符合本申请的第一方面所述的神经网络的标注方法。
[0032] 所述已筛选未标记实例由以下方法获得。首先,计算第一组中的每个未标记实例的预测值;其次,确定所述预测值的方差;最后,当预测值的方差大于一个阈值时,该未标记实例被选出作为已筛选未标记实例。所述操作符合本申请的第一方面所述的神经网络的标注方法。
[0033] 所述计算设备的操作还可以包括一个增强机制,用于随机扰动第二组中的筛选未标记数据。所述操作符合本申请第一方面所述的神经网络的标注方法。
[0034] 可选地,所述计算设备的操作包括获得、批准或检查已标记实例。
[0035] 可选地,所述计算设备的操作还包括:首先,从信息中检测学习目标;其次,从信息中追踪学习目标;最后,从信息中检索学习目标。所述操作符合本申请第一方面所述的神经网络的标注方法。
[0036] 可选地,所述未标记实例的学习目标包括可搜索的属性、字符、对象、事件或前述任何组合;可检测的非法停车、入侵、游荡、遗弃物或前述任何组合;可识别的词语、车牌、面孔、车辆、物体或前述任何组合;和/或可计数的车辆、人员、物体和前述任何组合。
[0037] 可选地,上述软件算法包括一个输入层,一个输出层和一个位于所述输入层与所述输出层之间的隐藏层。
[0038] 可选地,所述软件算法包括一个输入层、一个输出层和位于所述输入层和所述输出层之间的隐藏层。
[0039] 所述软件算法具有深度主动残差学习框架(deep active residual learning framework),其代码原理如下:
[0040] 所述输入包括已标记数据集(labeled dataset)L,未标记数据集(unlabeled dataset)U,标记预算(labelling budget)b,迭代次数(number of iterations)k和损失函数(Loss function)F(θ,D)。所述输出包括扩展标记数据集(extended labelled dataset)Lk∪L,已训练的残差网络参数(trained residual net parameters); θ0←argminθF(θ,L∪Li)。上述软件算法存储在非暂时性机器可读存储介质中,并且可在计算设备上操作。上述操作符合本申请的第一方面的神经网络的标注方法。
[0041] 与本申请的第一方面类似,所述软件算法可以被配置为在自洽平台(principled platform)上运行,以提高性能和准确性。
[0042] 所述软件算法可以被配置为进行语义查询、非语义查询或具有语义子查询和非语义子查询的复杂查询。
[0043] 本申请的第三方面公开了一种计算机程序产品,其含有所述可存储指令的非暂时性机器可读存储介质(non-transitory machine-readable storage medium),所述指令会使一个或多个计算设备执行操作。所述操作可包括以下步骤。第一步,从一个或多个信息源接收未标记实例(即第一组未标记实例)作为信息(例如,照片图像或视频剪辑);第二步,获得所述未标记实例的学习目标;第三步,通过执行软件算法获得已筛选未标记实例(即从第一组未标记实例中选出第二组的已筛选未标记实例);第四步,获取所选择的未标记实例的标注,用于产生已标记实例或已标记数据。特别地,所述软件算法的深度学习模型被配置为结合、结合或集成半监督学习和迁移学习。所述操作符合本申请第一方面所述的神经网络的标注方法。所述操作符合本申请第一方面或第二方面所述的神经网络的标注方法。
[0044] 所述计算机程序产品可从本申请的第二方面所述的非暂时性机器可读存储介质(也称为计算机可用或计算机可读存储介质)处进行访问。所述计算机程序产品提供由计算设备或任何指令执行系统使用或结合的程序代码。
[0045] 可选地,所述软件算法在移动平台上执行,例如,安卓(Android)、苹果(IOS)或鸿蒙系统。
[0046] 类似于本申请的第一方面或第二方面,所述操作可以进一步包括获得、批准或检查已标记实例。
[0047] 所述选取过程包括:首先,计算第一组中的每个未标记实例的预测值;其次,确定预测值的方差;最后,当预测值的方差大于一个阈值时,选出该未标记实例作为已筛选未标记实例。该操作符合本申请的第一方面所述的神经网络的标注方法和第二方面所述的非暂时性机器可读存储介质。
[0048] 计算设备的操作还可以包括用于随机扰动第二组未标记数据的增强装置。该操作符合本申请的第一方面所述的神经网络的标注方法和第二方面所述的非暂时性机器可读存储介质。
[0049] 可选地,所述计算设备的操作还包括:首先,从信息中检测学习目标;其次,从信息中追踪学习目标;最后,从信息中检索学习目标。该操作符合本申请的第一方面所述的神经网络的标注方法和第二方面所述的非暂时性机器可读存储介质。
[0050] 可选地,所述未标记实例的学习目标包括可搜索的属性、字符、对象、事件或前述任何组合;可检测的非法停车、入侵、游荡、遗弃物或前述任何组合;可识别的单词、车牌、面孔、车辆、物体或前述任何组合;和/或可计数的车辆、人员、物体和前述任何组合。
[0051] 可选地,所述软件算法有时包括一个输入层、一个输出层和一个位于输入层和输出层之间的隐藏层。
[0052] 类似于本申请的第一方面或第二方面,所选出的已筛选未标记实例的数量需要大于临界值或预定临界值。
[0053] 所述软件算法具有深度主动残差学习框架(deep active residual learning framework),其代码原理如下:
[0054] 所述输入包括已标记数据集(labeled dataset)L,未标记数据集(unlabeled dataset)U,标记预算(labelling budget)b,迭代次数(number of iterations)k和损失函数(Loss function)F(θ,D)。所述输出包括扩展标记数据集(extended labelled dataset)Lk∪L,已训练的残差网络参数(trained residual net parameters); θ0←argminθF(θ,L∪Li)。所述软件算法存储在所述非暂时性机器可读存储介质中,并且可在计算设备上操作。该操作符合本申请的第一方面所述的神经网络的标注方法和第二方面所述的非暂时性机器可读存储介质。
[0055] 所述软件算法可以被配置为在自洽平台上运行以提高性能和准确性。所述软件算法还可以被配置为进行语义查询、非语义查询或具有语义子查询和非语义子查询的复杂查询。
[0056] 本申请的第四方面公开了一种标注系统(也称为标注平台),其采用本申请第一方面所述的标注方法。所述标注系统包括一个存储器和一个可操作地耦合到该存储器的处理器。所述存储器可进行以下操作:首先,从一个或多个信息源接收未标记实例(称为第一组未标记实例)作为信息(例如,照片图像或视频剪辑);其次,获得所述未标记实例的学习目标;第三,通过执行软件算法获得已筛选未标记实例(即,从第一组未标记实例中选出第二组中的已筛选未标记实例);最后,获取所选未标记实例的标注,以生成已标记实例或已标记数据。该软件算法通过一种数据增强方法,将半监督学习和迁移学习相结合,提高了对神经网络标注的训练效率,其基于深度学习来进行视频分析。上述软件算法可通过将标注量减少一个数量级来提高标注的效率。
[0057] 可选地,所述存储器包括只读存储器(ROM)、闪存(flash memory),动态随机存取存储器(DRAM)(例如,同步动态随机存取存储器(SDRAM),Rambus动态随机存取存储器(RDRAM))、静态存储器(static memory)(例如,静态随机存取存储器(SRAM)),或被配置为可与计算设备的总线通信的任何数据存储设备。所述存储器还可以包括前述存储器的任何组合。
[0058] 所述处理器可以包括一个或多个通用处理设备,例如,微处理器(microprocessor)、中央处理单元(central processing unit)、复杂指令集计算(CISC)微处理器,精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器或进行其它指令集的处理器,或前述处理器的任意组合。所述处理器还可以包括一个或多个专用处理设备,例如,专用集成电路(ASIC),现场可编程门阵列(FPGA)、数字信号处理器(DSP)或网络处理器(network processor)。所述处理器还可以包括上述一个或多个通用处理设备和上述一个或多个专用处理设备。
[0059] 可选地,上述标注系统或标注平台还可提供应用程序编程接口(API),用于提供执行上述软件算法的环境。所述应用程序编程接口(API)还包括一组子程序定义、通信协议和用于开发软件算法的工具(例如,构建模(building block))。可选地,所述应用程序编程接口(API)提供各种形式的规范,例如,例程(routine)、数据结构(data structure)、对象类(object classe)、变量(variables)或远程调用(remote call)。
[0060] 所述选取方法可如下操作:首先,计算第一组中的每个未标记实例的预测值;其次,确定所述预测值的方差;最后,当预测值的方差大于一个阈值时,则选出该未标记实例作为已筛选未标记实例。该操作符合本申请第一方面所述的神经网络的标注方法,第二方面所述的非暂时性机器可读存储介质和第三方面所述的计算机程序产品。
[0061] 可选地,所述计算设备的操作还包括一个增强机制,用于随机扰动第二组中的未标记数据。该操作符合本申请第一方面所述的神经网络的标注方法,第二方面所述的非暂时性机器可读存储介质和第三方面所述的计算机程序产品。
[0062] 可选地,所述软件算法在移动平台上执行,例如,安卓(Android)、苹果(IOS)或鸿蒙系统。
[0063] 可选地,所述处理器可操作进行获得、批准或检查已标记实例。
[0064] 可选地,所述计算设备的操作还包括:首先,从信息中检测学习目标;其次,从信息中追踪学习目标;最后,从信息中检索学习目标。该操作符合本申请第一方面所述的神经网络的标注方法,第二方面所述的非暂时性机器可读存储介质和第三方面所述的计算机程序产品。
[0065] 可选地,所述未标记实例的学习目标包括可搜索的属性、字符、对象、事件或前述任何组合;可检测的非法停车、入侵、游荡、遗弃物或前述任何组合;可识别的词语、车牌、面孔、车辆、物体或前述任何组合;和/或可计数的车辆、人员、物体和前述任何组合。
[0066] 可选地,所述软件算法包括一个输入层、一个输出层和位于所述输入层与所述输出层之间的隐藏层。
[0067] 所选出的已筛选未标记实例的数量需要大于一个临界值或预定临界值。
[0068] 所述软件算法具有深度主动残差学习框架(deep active residual learning framework),其代码原理如下:
[0069] 所述输入包括已标记数据集(labeled dataset)L,未标记数据集(unlabeled dataset)U,标记预算(labelling budget)b,迭代次数(number of iterations)k和损失函数(Loss function)F(θ,D)。所述输出包括扩展标记数据集(extended labelled dataset)Lk∪L,已训练的残差网络参数(trained residual net parameters); θ0←argminθF(θ,L∪Li)。所述软件算法存储在所述非暂时性机器可读存储介质中,并且可在计算设备上操作。该操作符合本申请的第一方面所述的神经网络的标注方法和第二方面所述的非暂时性机器可读存储介质。
[0070] 所述软件算法可配置为在自洽平台上运行,以提高性能和准确性。
[0071] 可选地,所述软件算法被配置为语义查询、非语义查询或具有语义子查询和非语义子查询的复杂查询。
[0072] 附图(图)表示了实施例并用于解释所公开的实施例的原理。然而,应该理解,这些图仅出于说明的目的而给出,而不是对相关特征进行限制。图1示出了包括一个标注系统的整体系统架构。
图2示出了上述标注系统的第一实施例,其中软件算法包括一个基本主动深度学习模型。
图3示出了上述标注系统的第二实施例,其中软件算法包括一个基于内容的主动深度学习模型。
图4示出了人物追踪(POI)方案,其使用了上述标注系统的第二实施例。
图5示出了说明三种样品选择和标记的方法。
图6示出了上述标注系统的标注方法的操作流程。
图7示出了计算机装置的操作流程。
[0073] 图1示出了包括标注系统102在内的的整体系统架构100。所述系统架构100还包括一个或多个数据源104和一个或多个客户端设备106。所述数据源104被配置为通过一个第一网络108连接到所述标注系统102;而标注系统102被配置为通过一个第二网络110连接到所述客户端设备106。
[0074] 可选地,所述数据源104可实时收集数据,使得数据被无延迟地传送到所述标注系统102。或者,所述数据源106可以包括一个存储器112,用于存储收集到的数据。所述存储器112可以是计算存储器(computing memory)(例如,随机存取存储器(RAM))、高速缓存(cache)、驱动器(drive)(例如,硬盘驱动器(hard drive))、闪存驱动器(flash drive)、数据库系统或能够存储数据的其他类型的组件或设备。
[0075] 特别地,当所述标注系统102用于视频分析时,所述数据源104可以是视频内容的存储库。所述数据源104可以包括多个存储组件(例如,多个驱动器或多个数据库),其也可以跨越多个计算设备(例如,多个服务器计算机)。
[0076] 所述客户端设备106可以包括一个或多个计算设备,例如个人计算机(PC)、笔记本计算机、移动电话、智能电话、平板计算机、上网本计算机等。所述客户端设备106还可以包括媒体查看器(media viewer)114。所述媒体查看器114允许用户查看内容,例如,图像、视频、网页和文档等。例如,所述媒体查看器114是网络浏览器,其能够访问、检索、呈现和/或导航由网页服务器(例如,超文本标记语言(HTML)页面、数字媒体项目等的网页)提供的内容。所述媒体查看器114可以向用户呈现、显示和/或展示内容(例如,网页)。所述媒体查看器114还可以显示嵌入在网页中的嵌入式媒体播放器(例如,Flash、RTM播放器或HTML5播放器)。例如,所述网页可以提供商家在线销售产品信息的网页。或者,媒体查看器114还可是允许用户查看数字媒体项目(例如,数字视频、数字图像和电子书等)的独立应用程序(例如,移动应用程序)。
[0077] 可选地,所述网络108,110包括公共网络(例如,因特网)、专用网络(例如,局域网(LAN)或广域网(WAN))、有线网络(例如,以太网网络)、无线网络(例如,802.11网络或Wi-Fi网络)、蜂窝网络(例如,长期演进(LTE)网络)、路由器、集线器、交换机、服务器计算机和/或其任意组合。
[0078] 所述标注系统102包括一个标注存储器116和一个可操作地耦合到所述标注存储器116的处理器118。具体而言,所述标注存储器116包括非暂时性机器可读存储介质(non-transitory machine-readable storage medium),其中存储了一系列指令,用于引起所述处理器118执行操作。所述处理器118被指示进行如下操作:首先,从数据源104接收信息,其包括第一组120的未标记实例(例如,视频内容);其次,设置所述信息的学习目标122;第三,通过执行软件算法124,从第一组122的未标记实例中选出第二组124的已筛选未标记实例;最后,对第二组124的已筛选未标记实例进行标注,从而构成第三组126的已标记实例。所述软件算法124结合了半监督学习128和迁移学习130。
[0079] 具体而言,当用于视频分析时,所述标注系统102将原始视频内容(例如,存储在所述数据源104中的内容)转换为已标注的视频内容,以进行视频分类、视频搜索、广告定位、垃圾电邮和滥用检测以及内容评级等。
[0080] 所述数据源104可用来收集个人信息,例如,关于某人的社交网络、社交动作或活动,职业、偏好或当前位置。所述标注系统102可以控制是否接收以及如何接收个人信息。或者,个人信息可以在被存储在数据源104或被标注系统102使用之前,以一种或多种方式进行处理,从而移除个人识别。例如,可以对某人的身份进行处理,使其个人身份信息不能被确定,或者可以在获得位置信息的地方(例如,城市、邮政编码或州级别)对其地理位置进行扩大,这样就无法确定其具体的位置。
[0081] 图2和图3示出了标注系统102的实施例。其中,图2示出了第一实施例200,其包括第一软件算法202,基本主动深度学习模型204和人工标注员206。所述基本主动深度学习模型202普遍适用于各种学习目标122,因此所述标注系统102的第一实施例200可以应用于几乎所有的场景。换句话说,所述第一实施例200可以标注语义查询、非语义查询、以及具有语义查询和非语义查询的复杂查询。
[0082] 来自于所述数据源104(未示出)的第一组120中的未标记实例被传送到所述第一软件算法202。根据具体应用(例如,视频分析),所述第一软件算法202选出所述第二组124的已筛选未标记实例。然后,所述基本主动深度学习模型204进行一轮或多轮的询问208,以供人工标注员206进行标记。如果进行两轮或更多轮的所述查询208,则对于所述人工标注员206来说,所述查询208可能变得越来越困难,因为所述基本主动深度学习模型204会通过多轮的查询208而逐渐学习。如此,第二组124的未标记实例被转换为第三组126的已标记实例220,其进一步被馈送到所述基本活动深度学习模型204。而第一组120中未被选中的未标记实例也可用于训练所述基本主动深度学习模型204中的半监督学习方法。
[0083] 所述第二组124的选择可如下进行:首先,计算第一组120中的每个未标记实例的预测值210;其次,确定所述预测值210的方差212;最后,当所述方差212大于第一阈值214时,则选中该未标记实例用于标注。经过上述第二组124的选择过程,明显减少了待标注的未标记实例,因此解决了所述标注系统102中的大型网络的处理速度较慢的长期问题。
[0084] 另外,如果第二组124的已筛选未标记实例数量不足,则第二组124的已筛选未标记实例可以在标注之前被一个增强机制218所扰动。所述增强机制216对第二组124的每个已筛选未标记实例都故意扰乱,从而每个已筛选未标记实例都可生成许多不同方面。所述不同方面的数量被称为未标记实例的因子218,其由学习目标122的性质确定。例如,如果未标记实例的学习目标122是汽车,则汽车的图像或视频剪辑将从前侧、左侧、右侧、后侧和顶侧被扰动。结果是,所述增强机制216产生了该汽车的5个不同方面。因此,第二组124通过乘以因子218可显着增加其数量,以解决所述基本主动深度学习模型204可能的过度拟合问题。
[0085] 图3示出了第二实施例300,其包括第二软件算法302,基于内容的主动深度学习模型304和人工标注员306。所述第二软件算法302专门用于非语义或内容查询;因此,第二实施例300和第一实施例200的操作不同。
[0086] 所述未标记实例(例如,图像或视频帧)被收集并传送到所述第二软件算法302。所述第二软件算法302执行推断(inference)322,用于将未标记实例汇集到第一组120中。第一组120的未标记实例根据相关性(relevance)方面的相似性排名(similarity ranking)324来排序。因此,可获得相关图像或视频帧326,作为所述相似性排序324的输出。另外,当未标记实例数量较少或具有其它导致相关图像326不适合于后续操作的问题时,所述相关图像或视频帧326可被改进为优化相关图像或视频帧328。
[0087] 所述相关图像或视频帧326可被选出进入第二组124,其选择过程与第一实施例200类似。首先,将所述相关图像或视频帧326作为未标记实例,计算每个相关图像或视频帧
326的预测值310;其次,确定所述预测值310的方差312;最后,当预测值310的方差312大于第二阈值314时,选择相关的图像或视频帧326进行标注。
[0088] 然后,基于内容的主动深度学习模型304将向人工标注员306提出一轮或多轮的查询308,用于标记相关图像326。因此,第二组124中的未标记实例被转换为第三组126的已标记实例320,并进一步被馈送到所述基于内容的主动深度学习模型304。第一组120中未被选出的未标记实例也可用于训练所述基于内容的主动深度学习模型304中的半监督学习方法。
[0089] 类似于第一实施例200,如果第二组124没有足够数量的未标记实例,则可采用一个增强机制316,在标注之前对第二组124中的未标记实例进行扰动。
[0090] 所述第二实施例300可适用于各种工业应用。换句话说,所述第二实施例200的学习目标122可包括可搜索的属性、字符、对象、事件或上述的任意组合;可检测的非法停车、入侵、游荡、遗弃物或上述的任何组合;可识别的词语、车牌、面孔、车辆、物体或上述的任何组合;以及可计数的车辆、人员、物体和上述的任何组合。另外,为了一个或多个目的,可以单独地、共同地或甚至同时地搜索、检测、识别和/或计数一个或多个前述目标。
[0091] 图4示出了第二实施例300的一个应用,即人物追踪(POI)方案400。人物追踪(POI)方案400是一个概念上基于人工智能(AI)的搜索和推荐引擎,其可以向用户提供关于该“人物”的所有相关信息。所述搜索和推荐引擎可仅通过一次搜索查询来完成,所述搜索查询可以是文本、语音以及图像或视频剪辑。
[0092] 所述人物追踪(POI)方案400包括一个标注系统102和一个计算机视觉系统402,所述标注系统102可为本申请的第一实施例200或第二实施例300。所述计算机视觉系统402可以从数字图像或视频剪辑获得高级理解。因此,所述计算机视觉系统402可适用于各种任务,包括获取、处理、分析和理解数字图像,以及从现实世界中提取高维数据以便产生数字或符号信息。
[0093] 所述人物追踪(POI)方案400的标注系统102包括一个语义查询单元404,用于处理语义查询,和一个非语义查询单元406,用于处理非语义查询的。例如,当被追踪人物的图片不可用时,所述语义查询可以是描述的文本。所述描述可以包括该人物的年龄组、性别、种族、体形和肤色。所述非语义查询可以是该人物的图像或视频剪辑。另外,所述语义查询单元404和非语义查询单元406可以结合工作,用于处理复杂查询并帮助细化所述人物追踪(POI)方案400的输出结果。
[0094] 特别地,所述标注系统102的语义查询单元404可以从例如图像和视频剪辑的非语义信息中提取精细语义信息。所述非语义信息可以是年龄、性别、发型、时尚物品(例如,裙子、短裙、衬衫)和所述时尚物品的属性(例如颜色、图案、形状、纹理)。当用户通过使用文本输入在监视视频剪辑中搜索该人物时,将非语义信息转化为语义信息是至关重要的。所述标注系统102在安全行业中特别有用,其中,长视频剪辑的语义索引(semantic indexing)提供了与时间相关的结构化信息;这样,对于长视频剪辑的视频帧的而言,基于文本或描述的搜索比基于视频帧的搜索更加有效。
[0095] 然而,一些非语义信息不能由所述语义查询单元404转换为语义信息。例如,如果搜索所述人物产生了数万个图像或视频剪辑作为检索结果,则该检索结果不可能转换为语义结果。然后,所述非语义查询单元406可以非语义方式用于基于内容的搜索和检索,即,由非语义查询单元406在图像或视频帧中直接搜索所述人物。所述非语义查询更加有效,因为所述图像或视频帧包含了比语义查询更多的信息。例如,所述人物追踪(POI)方案400可以针对一个或多个可疑人物,对超过两万(20000)个监视摄像机进行搜索,并返回所述可疑人物出现的时间和位置。
[0096] 所述第一实施例200的基本主动深度学习模型204或所述第二实施例300的基于内容的主动深度学习模型304均适用于各种外部因素318,例如,照明、背光条件、人体姿势和视角。因此,即使由于外部因素318的任何变化而导致同一人物的外观显着不同,所述人物追踪(POI)系统400仍能运行良好。换句话说,所述人物追踪(POI)方案400提供了通用视频分析引擎,其可以在不需要定制和调整的情况下就适用于各种不同场景。
[0097] 所述人物追踪(POI)系统400具有人物检索和识别的功能;因此,所述人物追踪(POI)系统400可以显示该人物行走的路径、该人物出现的位置、该人物的身份、与该人物交互的其他人、该人物停放其汽车的地点,该人物是否表现出异常行为等。因此,所述人物追踪(POI)方案400在安全和监视行业中非常有用。
[0098] 与当前技术相比,本申请的人物追踪(POI)方案400已经有一系列分析应用,并且显示出对准确度的改进。例如,所述人物追踪(POI)方案400在一万(10000)个任务追踪(POI)测试中显示出百分之九十二(92%)的准确度;面部遮罩(face masking)的准确率为百分之九十七(97%),人数统计(people counting)的准确率为九十四(94%)。
[0099] 类似地,还可以构建和操作车辆追踪(VOI)方案,作为上述人物追踪(POI)方案400。所述车辆追踪(VOI)方案可由语义查询单元404和非语义查询单元406搜索车辆的各种属性,例如,型号、品牌、甚至车辆的年份。所述车辆追踪(VOI)方案显示百分之九十六(96%)的准确度。
[0100] 图5示出了三种样本选择和标记方法500,即传统的顺序选择和标记方法502、随机采样和标记方法504以及基于主动学习的选择和标记方法506。所述三种选择和标记方法502、504、506通过对超过270万(2.7million)的未标记人口数据集进行采样来深度地比较,包括人体上身的正图像和负图像。
[0101] 图5示出了基于主动学习的选择和标记方法506对准确性的显着改进。对于相同数量的标记样本,所述基于主动学习的选择和标记方法506(在图5中以平方曲线表示)总是具有比所述传统顺序选择和标记方法502(在图5以圆圈曲线表示)和随机采样和标记方法504(以加号表示)更高的精确度。
[0102] 基于所述主动学习的选择和标记方法506还具有比其它两个选择和标记方法502、504更高的效率。例如,为了实现相同的准确度,所述选择和标记方法502、504大致需要约80万(800000)个样本,需要800个人/小时来标记。相反地,基于主动学习的选择和标记方法
506仅需要3万(30000)个样本,仅需30个人/小时来进行标记。因此,所述基于主动学习的选择和标记方法506将效率提高了大约27倍。
[0103] 图6示出了所述标注系统102的标注方法600。所述标注方法600包括第一步602,接收信息,该信息包括第一组120的未标记实例,例如,来自一个或多个数据源104的视频内容;第二步604,设置该信息的学习目标122;第三步骤606,通过执行软件算法202、302,从第一组124的未标记实例中选出第二组124的已筛选未标记实例;以及第四步608,对第二组124中已筛选未标记实例进行标注,以生成已标记实例220、320。
[0104] 可选地,所述第三步606可具体地包括以下过程:第一过程610,计算第一组120中的每个未标记实例的预测值;第二过程612,确定该预测值的方差;以及第三过程614,当该预测值的方差大于一个第一阈值时,选择该未标记实例为已筛选未标记实例用于标注。
[0105] 图7示出了计算机配置700的操作流程。所述计算机配置700在一组指令702驱动下执行标注方法600。所述计算机配置700可以连接(例如,联网)到局域网(LAN)、内联网(intranet)、外联网(extranet)或因特网(Internet)。所述计算机配置700可作为服务器或客户端-服务器网络环境中的客户端来执行操作,或者作为对等(peer-to-peer)(或分布式(distributed))网络环境中的单个机器(peer machine)来操作。所述计算机配置700可以是个人计算机(PC)、平板电脑、机顶盒(set-top box(STB))、个人掌上电脑(PDA)、蜂窝电话、网络设备、服务器、网络路由器、交换机或桥(switch or bridge)、或任何能够执行所述指令集702的机器。
[0106] 所述计算机配置700包括处理器(或处理装置)118、主存储器718和数据存储设备714,其通过总线720相互通信。可选地,所述主存储器为只读存储器(ROM)、闪存(flash memory)、动态随机存取存储器(DRAM)(例如,同步DRAM(SDRAM)或Rambus DRAM(RDRAM)等)、或静态存储器(例如,静态随机存取存储器(SRAM))。
[0107] 所述处理器118表示一个或多个通用处理设备(general-purpose processing devices),例如,微处理器或中央处理单元等。更具体地,所述处理器118可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器,超长指令字(VLIW)微处理器、处理其他指令集的处理器、或处理以上指令集的组合的处理器。所述处理器118还可以是一个或多个专用处理设备(special-purpose processing device),例如,专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP),或网络处理器等。所述处理器118被配置为用于执行上述所讨论的操作和步骤的指令702。
[0108] 所述计算机配置700还可以包括网络接口设备704。所述计算机装置700还可以包括视频显示单元706(例如,液晶显示器(LCD)、阴极射线管(CRT)或触摸屏)、字母数字输入设备708(例如,键盘),光标控制设备710(例如,鼠标)和信号生成设备712(例如,扬声器)。
[0109] 所述数据存储设备714可以包括计算机可读存储介质716,其存储有一个或多个指令集702(例如,软件),其包含上述任何一个或多个方法或功能(例如,标注方法600的指令)。在其被执行期间,所述指令702还可以由所述计算机配置700完全地或至少部分地存储在所述主存储器718内和/或处理器118内。所述主存储器718和所述处理器118构成了所述计算机可读存储介质716。所述指令702还可以经由所述网络接口设备704在网络上被发送或接收。
[0110] 在上述实施例中,虽然所述计算机可读存储介质716被示为单个介质,但是该术语“计算机可读存储介质”应当被视为包括单个介质或多个介质(例如,集中式或分布式数据库、以及存储一组或多组指令的/或相关的高速缓存和服务器)。该术语“计算机可读存储介质”还应被视为包括能够存储、编码或携带一组指令的任何介质,以供机器执行任何一种或多种方法。因此,在本申请中,所述术语“计算机可读存储介质”应被视为包括但不限于固态存储器(solid-state memories)、光学介质(optical media)和磁介质(magnetic media)。
[0111] 实际应用中,“包含(comprising或comprise)”这一词汇及其语法变化均表示“开放性”或“包容性”语言,不仅包括陈述要素,还允许包含附加非明确性陈述要素,除非另有规定。
[0112] 本文在表述构成组分浓度时所用的“大约”一词通常是指偏差不超过所述数值的+/-5%,甚至是+/-4%、+/-3%、+/-2%、+/-1%或+/-0.5%。
[0113] 此次披露的内容中,部分实施例可能会采用范围格式。范围描述仅仅是为了表述的方便和简洁,不能视为对披露范围的硬性限制。相应地,范围表述既涵盖所有可能的子范围,又包含范围内的单个数值。例如,范围“1-6”应理解为既涵盖子范围1-3、1-4、1-5、2-4、2-6、3-6等,又包含范围内的单个数值,如1、2、3、4、5和6。无论范围大小均适用此项规则。
[0114] 显而易见,所属技术领域专业人员阅读上述披露内容后可在不偏离应用精神和范围的条件下理解应用的各种修改和调整,且所述各种修改和调整均不得超出所附权利要求范围。附图标号:
100 整体系统构架
102 注释系统
104 数据源
106 客户端设备
108 第一网络
110 第二网络
112 存储器
114 媒体查看器
116 注释存储器
118 处理器
120 第一组(数据)
122 学习目标
124 第二组(数据)
126 第三组(数据)
128 半监督学习
130 迁移学习
200 第一实施例
202 第一软件算法
204 基本主动深度学习模型
206 人工注释员
208 询问
210 预测值
212 方差
214 第一阈值
216 增强机制
218因子
220 已标记实例
300 第二实施例
302 第二软件算法
304 基于内容的主动深度学习模型
306 人工注释员
308 查询
310 预测值
312 方差
314 第二阈值
316 增强机制
318 外部因素
320 已标记实例
322 推断
324 相似性排名
326 相关图像或视频帧
328 优化相关图像或视频帧
400 人物追踪(POI)方案
402 计算机视觉系统
404 语义查询单元
406 非语义查询单元
500 样本选择和标记方法
502 传统的顺序选择和标记方法
504 随机采样和标记方法
506 基于主动学习的选择和标记方法
600 注释方法
602 第一步
604 第二步
606 第三步
608 第四步
610 第一过程
612 第二过程
614 第三过程
700 计算机配置
702 指令(集)
704 网络接口设备
706 视频显示单
708 字母数字输入设备
710 光标控制设备
712 信号生成设备
714 数据存储设备
716 计算机可读存储介质
718 主存储器
720 总线
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈