首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 半监督学习 / 不均衡感知数据下的移动应用分类方法

不均衡感知数据下的移动应用分类方法

阅读:501发布:2020-10-07

专利汇可以提供不均衡感知数据下的移动应用分类方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种不均衡 感知 数据下的移动应用分类方法,其首先通过次 采样 ,从大量的负类带标签数据中采样出与正类样本数量一致的数据子集;然后利用无标签数据与带标签数据特征的相似性,对无标签数据进行基于相似度的采样,生成无标签数据子集;在每个带标签和无标签数据子集上,利用半 监督学习 方式训练得到一个子分类器;最后由多个子分类器集成为总分类器。本发明的优点是:可用于当前智能手机应用上的事件、活动以及背景的推断,使得设计的分类器可以适应实际感知数据中正类和负类数据数量不均衡的场景,为手机感知应用提供鲁棒准确的推断服务。,下面是不均衡感知数据下的移动应用分类方法专利的具体信息内容。

1.不均衡感知数据下的移动应用分类方法,其特征是,首先通过次采样,从大量的负类带标签数据中采样出与正类样本数量一致的数据子集;然后利用无标签数据与带标签数据特征的相似性,对无标签数据进行基于相似度的采样,生成无标签数据子集;在每个带标签和无标签数据子集上,利用半监督学习方式训练得到一个子分类器;最后由多个子分类器集成为总分类器。
2.如权利要求1所述不均衡感知数据下的移动应用分类方法,其特征是,所述次采样从负类样本中随机采样出一个数据子集,使得该数据子集中样本数量与正类样本数量相当,方法为:对原本负类样本进行多轮次采样,每一轮次采样之后,便将相应采样过的样本从原本负类样本集中删除;经过多轮次采样得到的每一个数据子集分别作为训练子分类器的数据集。
3.如权利要求1所述不均衡感知数据下的移动应用分类方法,其特征是,所述相似度采样计算无标签数据与带标签数据的相似度,并生成近似均衡的无标签数据子集。
4.如权利要求3所述不均衡感知数据下的移动应用分类方法,其特征是,所述生成近似均衡的无标签数据子集的方法为:
a)计算每一个无标签数据样本xu,j与每一个带标签数据样本xl,j∈P∪Nt的相似度,赋予xu,j一个潜在标签yu,j=yi,使得xu,j和xl,j具有最大相似度。经过潜在标签赋值之后,便获得了两个带标签的数据集,正类UP和负类UN,并且|UP|<<|UN|;
b)在负类UN上进行次采样,生成数据子集Ut,使得|Ut|=|UP|,便获得了近似均衡的无标签数据子集。
5.如权利要求1所述不均衡感知数据下的移动应用分类方法,其特征是,所述子分类器集成包括两个方面:多个传感器和多个均衡数据子集;一方面,在每个传感器维度上训练子分类器 然后通过加权和的形式集成多个传感器子分类器:
其中 表示子分类器 的推断置信度,而εk表示的分类误差率
另一方面,用生成的T个数据子集并行的训练子分类器Ht,通过多数表决的方法来集成最终的分类器:
其中sgn(h)是符号函数:如果h>0则sgn(h)=1;如果h≤0则sgn(h)=-1;θ是一个阈值参数,用来衡量分类器的松弛度。

说明书全文

不均衡感知数据下的移动应用分类方法

技术领域

[0001] 本发明属于移动计算领域,具体涉及一种不均衡感知数据下移动应用分类方法。

背景技术

[0002] 近年来,智能手机变得日益流行,据国际著名的数据统计公司IDC统计,2012年智能手机的销量达到了七亿多部,比2011年的销量增长了44.1%。另一方面,智能手机上的内嵌传感器也日益丰富,使得智能手机在不断提高的计算和通信能基础上,增加了多维度的感知环境的能力。这些条件让移动应用开发如火如荼。
[0003] 大量的移动应用中都有一个重要的组件,称为推断模或者分类器,该组件负责从手机传感器的感知数据中提取特征向量,并根据移动应用的目的对感知数据进行分类。通常来说,感知数据可以分为正类和负类。正类表示移动应用感兴趣的感知数据,而负类表示该应用不感兴趣的感知数据。因此,分类器的目标就是从采集的大量感知数据中准确的识别出属于正类的数据。尽管分类器模型多种多样,但是他们都可以分为两个阶段:训练阶段和实施阶段。在训练阶段,移动应用开发者采集一定数量的感知数据以及对应的类标签,通过某种方法进行模型训练;而在实施阶段,训练好的模型则可以部署到智能手机中进行感知数据分类。
[0004] 现有移动应用中的分类器往往利用采集到的全部带标签感知数据进行训练,并且以分类准确率作为性能指标。这些分类器忽略了感知数据正负类数量不均衡的特征。实际上,这些传统的分类器本身适用于正负类均衡的数据集,如果在不均衡数据集上训练,得到的分类器倾向于将数量少的类样本误分到数量多的类。具体到感知应用中,传统的分类器就容易将感兴趣的类样本(正类)误分到不感兴趣的类(负类),造成不能识别感兴趣的类样本的情况。
[0005] 另一方面,训练一个性能良好的分类器通常需要大量的带标签数据,而获取带标签数据耗费大量人力物力,如果能利用现有移动应用已经采集的感知数据作为无标签数据,辅助训练新应用的分类器,那么就可以减少所需要的带标签数据。然而,这些无标签数据也是两类样本数量不均衡的,因此不能直接给分类器训练带来便利。以下在不产生歧义的情况下将感知数据简称为数据。

发明内容

[0006] 本发明设计了一种适用于不均衡感知数据的、基于采样和半监督学习机制的分类器(SLIM)和分类方法,其目的是提高手机应用在实际使用中对感兴趣事件的识别率,从而提高手机应用的可用性。
[0007] 按照本发明提供的技术方案,所述不均衡感知数据下的移动应用分类方法,其首先通过次采样,从大量的负类带标签数据中采样出与正类样本数量一致的数据子集;然后利用无标签数据与带标签数据特征的相似性,对无标签数据进行基于相似度的采样,生成无标签数据子集;在每个带标签和无标签数据子集上,利用半监督学习方式训练得到一个子分类器;最后由多个子分类器集成为总分类器。
[0008] 进一步的,所述次采样从负类样本中随机采样出一个数据子集,使得该数据子集中样本数量与正类样本数量相当,方法为:对原本负类样本进行多轮次采样,每一轮次采样之后,便将相应采样过的样本从原本负类样本集中删除;经过多轮次采样得到的每一个数据子集分别作为训练子分类器的数据集。
[0009] 进一步的,所述相似度采样计算无标签数据与带标签数据的相似度,并生成近似均衡的无标签数据子集。
[0010] 进一步的,所述生成近似均衡的无标签数据子集的方法为:
[0011] a)计算每一个无标签数据样本xu,j与每一个带标签数据样本xl,j∈P∪Nt的相似度,赋予xu,j一个潜在标签yu,j=yi,使得xu,j和xl,j具有最大相似度。经过潜在标签赋值之后,便获得了两个带标签的数据集,正类UP和负类UN,并且|UP|<<|UN|;
[0012] b)在负类UN上进行次采样,生成数据子集Ut,使得|Ut|=|UP|,便获得了近似均衡的无标签数据子集。
[0013] 进一步的,所述子分类器集成包括两个方面:多个传感器和多个均衡数据子集;一方面,在每个传感器维度上训练子分类器 然后通过加权和的形式集成多个传感器子分类器:
[0014]
[0015] 其中 表示子分类器 的推断置信度,而εk表示的分类误差率
[0016] 另一方面,用生成的T个数据子集并行的训练子分类器Ht,通过多数表决的方法来集成最终的分类器:
[0017]
[0018] 其中sgn(h)是符号函数:如果h>0则sgn(h)=1;如果h≤0则sgn(h)=-1;θ是一个阈值参数,用来衡量分类器的松弛度。
[0019] 本发明的优点是:可用于当前智能手机应用上的事件、活动以及背景的推断,使得设计的分类器可以适应实际感知数据中正类和负类数据数量不均衡的场景,为手机感知应用提供鲁棒准确的推断服务。附图说明
[0020] 图1是在感知数据子集上进行分类器训练的示意图。
[0021] 图2是骑车检测的准确率与F值示意图。
[0022] 图3是支撑物检测的准确率与F值示意图。
[0023] 图4是骑车检测的精度与召回率示意图。
[0024] 图5是支撑物检测的精度与召回率示意图。
[0025] 图6是采样数据子集数目对骑车检测的影响示意图。
[0026] 图7是采样数据子集数目对支撑物检测的影响示意图。
[0027] 图8是分类器阈值对骑车检测的影响示意图。
[0028] 图9是分类器阈值对支撑物检测的影响示意图。

具体实施方式

[0029] 下面结合附图和实施例对本发明做进一步说明。
[0030] 本发明所述方法的基本框架如下:首先通过次采样,从大量的负类带标签数据中采样出与正类样本数量一致的数据子集;然后利用无标签数据与带标签数据特征的相似性,对无标签数据进行基于相似度的采样,生成无标签数据子集;在每个数据子集(包括了带标签和无标签的数据)上,利用半监督学习训练子分类器。最后的总分类器则由多个子分类器集成。
[0031] 本发明主要包括三个步骤:次采样,相似度采样,子分类器集成。在介绍这些核心步骤之前,我们将用到的符号解释于表1中。
[0032] 表1常用符号
[0033]
[0034] 1.次采样。
[0035] 次采样是一类获取均衡正类和负类样本的方法。在负类样本数量远多于正类样本数量的情况下,次采样从负类样本中随机采样出一个数据子集,使得该数据子集中样本数量与正类样本数量相当。这样,在采样得到的分类样本和原有的正类样本上就可以利用传统的训练方法获得子分类器。
[0036] 然而,通过次采样得到的负类样本仅仅是原本数量庞大的负类样本的数据子集,因此只能反映原本负类样本的部分特征。为了克服该问题,我们对原本负类样本进行多轮次采样,每一轮次采样之后,便将相应采样过的样本从原本负类样本集中删除。经过多轮次采样得到的每一个数据子集可以分别训练子分类器。
[0037] 2.相似度采样。
[0038] 由于无标签感知数据也具有样本数量不均衡的特征,我们需要对其进行预处理,获得均衡的数据子集后,方能辅助带标签数据子集进行分类器训练。然而无标签数据不带有任何类标签信息,因此无法直接使用次采样方法来获得均衡数据子集。有鉴于此,我们通过以下两步来选取无标签数据子集:
[0039] a)计算每一个无标签样本xu,j与每一个带标签样本xl,j∈P∪Nt的相似度,赋予xu,j一个潜在标签yu,j=yi,使得xu,j和xl,j具有最大相似度。经过潜在标签赋值之后,我们便获得了两个带标签的数据子集,正类UP和负类UN,并且|UP|<<|UN|.
[0040] b)在负类UN上进行次采样,生成数据子集Ut,使得|Ut|=|UP|。这样我们便获得了近似均衡的无标签数据子集。
[0041] 3.子分类器集成。
[0042] 子分类器集成包括两个方面:多个传感器和多个均衡数据子集。由于当前手机上集成了多种传感器,比如加速度传感器,GPS,陀螺仪等,移动应用开发者往往使用多个传感器来进行事件推断。如果有K个传感器在推断中使用,那么我们需要集成每个传感器上的推断结果,并且要区分每个传感器推断的置信度。在本发明中,我们在每个传感器维度上训练子分类器 然后通过加权和的形式集成多个传感器子分类器:
[0043]
[0044] 其中 表示子分类器 的推断置信度,而εk表示的分类误差率
[0045] 另一方面,我们生成了T个数据子集,并行的训练子分类器Ht,通过多数表决的方法来集成最终的分类器:
[0046]
[0047] 其中sgn(h)是符号函数:如果h>0则sgn(h)=1;如果h≤0则sgn(h)=-1。θ是一个阈值参数,用来衡量分类器的松弛度。如果θ较小,说明分类器倾向于在较少子分类器的支持下将一个样本分为正类;反之,如果θ较大,说明分类器要在多数子分类器支持下才将一个样本分为正类。
[0048] 以下是一个具体实施例流程。
[0049] 1:计算每个传感器采集到的感知数据的特征,组成特征向量x,得到带标签训练集 和无标签训练集
[0050] 2:选取带标签正类样本集 和负类样本集
[0051] 3:随机采样数据子集 使得|Nt|=|P|;
[0052] 4:在N中去掉Nt中的样本;
[0053] 5:对Nt中的每个样本,计算索引p,使得 令yu,j=yp;
[0054] 6:令UP={xu,j|yu,j=1},UN={xu,j|yu,j=-1};
[0055] 7:采样数据子集 使得|Ut|=|UP|;
[0056] 8:令Ut=UP∪Ut;
[0057] 9:用半监督学习方法在P∪Nt∪Ut上训练每个传感器上的分类器[0058] 10:计算 的误差率εk;
[0059] 11:计算传感器k的权重:
[0060] 12:集成K个传感器上的分类器
[0061] 13:集成T个数据子集上的分类器
[0062] 图1是在单个数据子集进行分类器训练的示意图,包括了训练过程中的两个核心步骤:次采样和相似度采样。在采样出来的带标签和无标签数据子集上,通过半监督学习方式训练得到一个子分类器。
[0063] 图2-图9全面展示了本发明的分类器的性能。作为比较的算法是传统的监督学习方法和半监督学习方法。
[0064] 实验说明如下:
[0065] 1.原型应用说明
[0066] 用户骑车检测:该应用旨在通过用户随身携带的智能手机,检测用户是否处于骑车的状态。该应用可以用来监测用户骑车的路程,路线,消耗的能量等信息。在实验中,我们选择了加速度传感器读数和GPS读数作为感知数据,并提取相应特征来训练骑车状态推断模块。
[0067] 手机支撑物监测:该应用旨在监测用户手机所处的环境状态,通过推断环境状态可以自动调节手机的相应行为。在实验中,我们的推断模型要检测手机是否放置在木质桌面上。我们选择了加速度传感器读数和声音读数作为感知数据,并提取相应特征来训练支撑物推断模块。
[0068] 2.实验数据获取
[0069] 我们招募了八个志愿者来采集手机感知数据。志愿者为骑车检测应用采集了7000个感知数据样本,为支撑物检测应用采集了2800个感知数据样本。这些感知数据样本以1:5的比例分为带标签数据和无标签数据来进行模型训练。
[0070] 3.性能度量标准
[0071] 衡量分类器性能的度量值包括:准确率,精度,召回率,以及F值。其中准确率是被正确分类的数据样本在全部被分类的样本中所占的比例,精度衡量了数据样本中被推断为正类的样本实际上有多少是来自正类的,召回率衡量了实际上来自正类的数据样本中有多少被分类器成功的推断出来自正类。F值被定义为精度和召回率的几何平均值,综合的衡量了一个分类器的性能。
[0072] 图2和图3展示了本发明在以上两个原型应用(用户骑车检测与手机支撑物检测)中准确率与F值的表现。可以看出,虽然本方法与其他两种方法在准确率上表现相当,但是在专为不均衡数据集提出的F值上,本方法明显比其他两种方法有显著提升。
[0073] 图4和图5展示了三种方法在精度与召回率上的表现。可以看到,本方法的精度没有其他两种方法高,但是召回率却比其他两种方法高很多。这种结果是移动应用所期望的,因为召回率表示的正是分类器识别感兴趣活动的能力。
[0074] 图6和图7展示了训练过程中采样的数据子集数目对分类器性能的影响。可以看到,如果数据子集数目太少,那么分类器的性能就变得极端,有很高的召回率的同时,精度异常的低,使得分类器不可用。随着训练中数据子集数目的增加,精度和召回率趋向一致,并且变化变得和缓。因此在实际训练中,数据子集数目应该充分大。
[0075] 图8和图9展示了训练中集成分类器的阈值对分类器性能的影响。图中显示,如果阈值过低,那么分类器倾向于轻易的将感知数据样本判别为正类,从而造成精度过低的情况。当阈值足够大时,分类器才能较好的识别正类和负类。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈