首页 / 专利库 / 人工智能 / 机器学习 / 集成学习 / 随机森林 / 基于对比模式的随机森林分类方法和分类器

基于对比模式的随机森林分类方法和分类器

阅读:985发布:2022-01-08

专利汇可以提供基于对比模式的随机森林分类方法和分类器专利检索,专利查询,专利分析的服务。并且本 发明 公开了基于对比模式的 随机森林 分类方法和分类器。其中,所述方法包括:由构成随机森林的每个弱分类器对输入数据进行分类判别,将弱分类器的输出进行编码,进而将每一弱分类器的输出量化为一个符号;所有所述弱分类器输出的符号构成一个符号集合,将该集合作为学习到的判别规则集合的输入,并根据当前符号集合以及判别规则集合中的所有判别规则,给出每一个类别的判别分数;选择判别分数最大的类别作为所述输入数据的最终判定类别。本发明很好的提高了原有随机森林的分类器的精确度。,下面是基于对比模式的随机森林分类方法和分类器专利的具体信息内容。

1.一种基于对比模式的随机森林分类方法,其特征在于,所述方法基于随机森林分类器,所述随机森林分类器包括多个弱分类器;该方法包括如下步骤:
量化处理步骤,由构成随机森林的每个弱分类器对输入数据进行分类判别,将弱分类器的输出进行编码,进而将每一弱分类器的输出量化为一个符号;
判别分数计算步骤,将所有所述弱分类器输出的符号构成符号集合,将该集合作为学习到的判别规则集合的输入,并根据当前符号集合以及判别规则集合中的每一个判别规则,给出每一个类别的判别分数;
类别判定步骤,选择判别分数最大的类别作为所述输入数据的最终判定类别。
2.根据权利要求1所述的分类方法,其特征在于,
所述判别分数计算步骤中,所述判别规则集合通过分析所述多个弱分类器输出的符号之间的相关性和规律性,基于数据挖掘方法得到的在不同数据类别之间具有判别能的判别模式。
3.根据权利要求2所述的分类方法,其特征在于,所述判别分数计算步骤中,所述每一个类别的判别分数通过如下步骤获取:
步骤A,给定N(N>1)个类别的训练数据,对于每个类别i,将第i类的训练数据作为正例,除i以外的其他所有类别的训练数据作为反例;
步骤B,将所述正例和所述反例的数据送到所述随机森林分类器进行分类,将每个数据的所有弱分类器的输出进行量化处理转化为符号集合;
步骤C,利用对比模式挖掘方法从所述符号集合中挖掘出能够显著区分正例和反例数据的模式;所述模式为符号集合p;
步骤D,将每个判别模式p转化为对应的判别法则P,确定该判别法则对于类别i的判别分数。
4.根据权利要求3所述的分类方法,其特征在于,
所述步骤B中,所述正例数据对应的符号集合集表示为PS={ps1,ps2,...,psJ},反例数据对应的符号集合集表示为NS={ns1,ns2,...,nsK},其中J,K为正反例的个数,且J>1,K>1;并且,所述步骤C中,所述数值集合p满足以下条件:

其中,θsp和θgr(θgr>1)分别为预先指定阈值
所述步骤D中,数据x关于类别i的判别分数依据下式计算:

其中,Φi是第i类所有挖掘到的判别法则集合,Zi是第i类数据的正则项,其中Xs是数据x的编码符号集合。
5.一种基于对比模式的随机森林分类器,所述随机森林分类器包括多个弱分类器,其特征在于,还包括:
量化处理模,用于由构成随机森林的每个弱分类器对输入数据进行分类判别,将弱分类器的输出进行编码,进而将每一弱分类器的输出量化为一个符号;
判别分数计算模块,用于将所有所述弱分类器输出的符号构成符号集合,将该集合作为学习到的判别规则集合的输入,并根据当前符号集合中的数值以及判别规则集合中的每一个判别规则,给出每一个类别的判别分数;
类别判定模块,用于选择判别分数最大的类别作为所述输入数据的最终判定类别。
6.根据权利要求5所述的分类器,其特征在于,
所述判别分数计算模块中,所述判别规则集合通过分析所述多个弱分类器输出的的符号之间的相关性和规律性,基于数据挖掘方法得到的在不同数据类别之间具有判别能力的判别模式。
7.根据权利要求6所述的分类器,其特征在于,所述判别分数计算模块包括:
模块A,用于给定N(N>1)个类别的训练数据,对于每个类别i,将第i类的训练数据作为正例,除i以外的其他所有类别的训练数据作为反例;
模块B,用于将所述正例和所述反例的数据送到所述随机森林分类器进行分类,将每个数据的所有弱分类器的输出进行量化处理转化为符号集合;
模块C,用于利用对比模式挖掘方法从所述符号集合中挖掘出能够显著区分正例和反例数据的模式;所述模式为符号集合p;
模块D,用于将每个判别模式p转化为对应的判别法则P,确定该判别法则对于类别i的判别分数。
8.根据权利要求7所述的分类方法,其特征在于,
所述模块B中,所述正例数据对应的符号集合集表示为PS={ps1,ps2,...,psJ},反例数据对应的符号集合集表示为NS={ns1,ns2,...,nsK},其中J,K为正反例的个数,且J>1,K>1;并且,所述模块C中,所述数值集合p满足以下条件:
其中,θsp和θgr(θgr>1)分别为预先指定的阈值;
所述模块D中,数据x关于类别i的判别分数依据下式计算:

其中,Φi是第i类所有挖掘到的判别法则集合,Zi是第i类数据的正则项,其中Xs是数据x的编码符号集合。

说明书全文

技术领域

发明涉及模式识别计算机视觉领域,尤其涉及一种基于对比模式的随机森林分类方法和分类器

背景技术

由于随机森林分类器(random forest)具有训练、分类速度快,分类预测值的无偏估计,和简单易用等优点,近些年来,这种分类器被广泛的应用于基于内容的图像分类,图像标注,运动识别等计算机视觉任务中。随机森林分类器由一个集合的弱分类器(分类树)组成。对于一个待分类的数据,随机森林通过综合所有弱分类器的输出,以投票选举(voting)的方式决定数据的最终类别。
随着计算机视觉模式分类问题的不断复杂化,单一分类器的精确程度比较差。并且,图像或者视频数据通常需要用维度很高的特征矢量来描述,每个弱分类器所覆盖的图像特征维度比率变得很小,对于分类不同类别的数据表现出了精确程度显著不同的特性。于是,提升弱分类器的分类效果,分析弱分类器的输出统计属性建立更有效的判别法则成为了增强随机森林分类器效果的关键点。

发明内容

本发明的目的在于提供一种基于对比模式的随机森林分类方法和分类器,基于本发明,能够从弱分类器的输出集合中挖掘出具有判别性的模式,通过这些判别模式,更加有效的建立分类器的分类规则。
一方面,本发明公开了一种基于对比模式的随机森林分类方法,所述方法基于随机森林分类器,所述随机森林分类器包括多个弱分类器;该方法包括如下步骤:量化处理步骤,由构成随机森林的每个弱分类器对输入数据进行分类判别,将弱分类器的输出进行编码,进而将每一弱分类器的输出量化为一个符号;判别分数计算步骤,将所有所述弱分类器输出的符号构成符号集合,将该集合作为学习到的判别规则集合的输入,并根据当前符号集合中的数值以及判别规则集合中的每一个判别规则,给出每一个类别的判别分数;类别判定步骤,选择判别分数最大的类别作为所述输入数据的最终判定类别。
上述分类方法,优选所述判别分数计算步骤中,所述判别规则集合通过分析所述多个弱分类器输出的符号之间的相关性和规律性,基于数据挖掘方法得到的在不同数据类别之间具有判别能的判别模式。
上述分类方法,优选所述判别分数计算步骤中,所述每一个类别的判别分数通过如下步骤获取:步骤A,给定N(N>1)个类别的训练数据,对于每个类别i,将第i类的训练数据作为正例,除i以外的其他所有类别的训练数据作为反例;步骤B,将所述正例和所述反例的数据送到所述随机森林分类器进行分类,将每个数据的所有弱分类器的输出进行量化处理转化为符号集合;步骤C,利用对比模式挖掘方法从所述符号集合中挖掘出能够显著区分正例和反例数据的模式;所述模式为符号集合p;步骤D,将每个判别模式p转化为对应的判别法则P,确定该判别法则对于类别i的判别分数。
上述分类方法,优选所述步骤B中,所述正例数据对应的符号集合集表示为PS={ps1,ps2,...,psJ},反例数据对应的符号集合集表示为NS={ns1,ns2,...,nsK},其中J,K为正反例的个数,且J>1,K>1;并且,所述步骤C中,所述数值集合p满足以下条件:

其中,θsp和θgr(θgr>1)分别为预先指定阈值;所述步骤D中,数据x关于类别i的判别分数依据下式计算:
其中,Φi是第i类所有挖掘到的判别法则集合,Zi是第i类数据的正则项,其中Xs是数据x的编码符号集合。
另一方面,本发明还公开了一种基于对比模式的随机森林分类器,所述随机森林分类器包括多个弱分类器,还包括:量化处理模,用于由构成随机森林的每个弱分类器对输入数据进行分类判别,将弱分类器的输出进行编码,进而将每一弱分类器的输出量化为一个符号;判别分数计算模块,用于将所有所述弱分类器输出的符号构成符号集合,将该集合作为学习到的判别规则集合的输入,并根据当前符号集合中的数值以及判别规则集合中的每一个判别规则,给出每一个类别的判别分数;类别判定模块,用于选择判别分数最大的类别作为所述输入数据的最终判定类别。
上述分类器,优选所述判别分数计算模块中,所述判别规则集合通过分析所述多个弱分类器输出的符号之间的相关性和规律性,基于数据挖掘方法得到的在不同数据类别之间具有判别能力的判别模式。
上述分类器,优选所述判别分数计算模块包括:模块A,用于给定N(N>1)个类别的训练数据,对于每个类别i,将第i类的训练数据作为正例,除i以外的其他所有类别的训练数据作为反例;模块B,用于将所述正例和所述反例的数据送到所述随机森林分类器进行分类,将每个数据的所有弱分类器的输出进行量化处理转化为符号集合;模块C,用于利用对比模式挖掘方法从所述符号集合中挖掘出能够显著区分正例和反例数据的模式;所述模式为符号集合p;模块D,用于将每个判别模式p转化为对应的判别法则P,确定该判别法则对于类别i的判别分数。
上述分类方法,优选所述模块B中,所述正例数据对应的符号集合集表示为PS={ps1,ps2,...,psJ},反例数据对应的符号集合集表示为NS={ns1,ns2,...,nsK},其中J,K为正反例的个数,且J>1,K>1;并且,所述模块C中,所述数值集合p满足以下条件:其中,θsp和θgr(θgr>1)分别为预先指定的阈值;所述模块D中,数据x关于类别i的判别分数依据下式计算:

其中,Φi是第i类所有挖掘到的判别法则集合,Zi是第i类数据的正则项,其中Xs是数据x的编码符号集合。
相对于现有技术而言,本发明具有如下优势:
第一、本发明将弱分类器的输出进行数值化编码,把随机森林对每个输入数据的输出转化为一个数值集合,使得很多数值分析方法可以直接使用以分析随机森林输出的内在规律性。
第二、本发明使用高效、快速的数据挖掘算法,能够用很短的时间从大规模的经过数值化编码的随机森林的输出集合中搜索到具有很好判别能力的判别模式。
第三、本发明通过分析弱分类器之间的相关性,建立判别规则来绑定若干弱分类器输出判别结果,增强了原有的单个弱分类器的判别能力。
第四、本发明可以高效地从大量的数据样本输出中寻找到弱分类器输出之间的相关性来设计判别法则,适合于处理高维度数据,需要多个弱分类器来组建随机森林的复杂分类问题。
附图说明
图1为本发明基于对比模式的随机森林分类方法实施例的步骤流程图
图2为基于对比模式的随机森林分类器框架图;
图3为弱分类器输出的数字编码示意图;
图4为基于对比模式的随机森林分类器的结构框图

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
在本发明中,将弱分类器的输出进行了量化处理,基于这种数值量化后的弱分类器输出,我们分析其数值的分布规律,并从其中搜索出判别能力比较强的数值组合,构成判别模式;基于这些判别模式,设计判别法则,然后根据判别法则对输入数据进行判别,输出最终的分类结果。
参照图1,图1为图1为本发明基于对比模式的随机森林分类方法实施例的步骤流程图;包括如下步骤:
量化处理步骤110,由构成随机森林的每个弱分类器对输入数据进行分类判别,将弱分类器的输出进行编码,进而将每一弱分类器的输出量化为一个符号;判别分数计算步骤120,将所有所述弱分类器输出的量化整数值转化为符号集合,将该集合作为学习到的判别规则集合的输入,并根据当前数值编码集合中的数值以及判别规则集合中的每一个判别规则,给出每一个类别的判别分数;类别判定步骤130,选择判别分数最大的类别作为所述输入数据的最终判定类别。
下面对上述方法作出进一步的解释。
对于一个输入数据,将每个弱分类器的判别结果进行数值化编码。本发明在量化时,将任意一个分类器和这个分类器的任何一个输出转化成为一个整数值,这个整数值是唯一确定的,即不存在另一个弱分类器和其输出拥有同一个编码整数值。然后,对于每一个输入的数据,随机森林中的每个弱分类器的输出都可以量化处理方法将之编码为一个符号,于是,随机森林对于一个输入数据的输出就可以用一个符号集合来描述。接下来,利用对比模式挖掘(emergingpattern mining)的技术,从训练数据对应的所有整数集合中找到具有判别能力的模式,即,这种模式在正例数据的整数集合集中出现的频率高,而在反例数据的整数集合集中出现频率低。最后,将每个判别模式转化为一个判别法则,然后通过这些判别法则对于输入数据所属的类别做出最终判断。
下面通过一个实例加以说明。
参照图2,对于一个给定的输入数据x,通过如下的步骤对其进行分类判别:
(1)由构成随机森林的每个弱分类器对x进行分类判别,将弱分类器的输出进行编码,即将每个弱分类器的输出量化为一个符号(这里我们使用整数值作为示例)。这个量化过程可以由图2来表示。对于给定输入数据x,分类树的每个非叶节点通过判断条件根据将输入数据划分到它的左或右子节点。如图2所示,分类树1把输入数据x最终分配到序号为7的叶节点,则分类树1对于x的输出可以由分类树的编号和叶节点的编号链接而成,即107。同理,对于分类树M,它将x最终分到节点6,于是分类树M对于x的输出编号就是M06。参照图3。
(2)根据量化处理步骤,把所有弱分类器的输出转化为一个数值编码集合,将这个集合作为学习到的判别规则集的输入,每个判别规则根据当前数值编码集的数值对每个类别i给出一个判别分数Sci(x)。
其中,判别规则的学习方式可以由下面几个步骤概括:i)首先,给定N个类别的训练数据,对于每个类别i,我们将第i类的训练数据作为正例,其他类别的训练数据作为反例。ii)将正例和反例数据送到随机森林分类器进行分类,将每个数据的所有弱分类器的输出按照量化处理步骤所述的方法转化为一个数值集合。其中,正例数据对应的数值集合集表示为PS={ps1,ps2,...,psJ},反例数据对应的数值集合集表示为NS={ns1,ns2,...,nsK},其中J,K为正反例的个数。iii)利用对比模式挖掘方法(emerging pattern mining)从这些数值集合中挖掘出能够显著区分正例和反例数据的模式(pattern)。每个模式是一个数值集合p,其满足下面的条件

其中,|A|表示集合A中元素的个数,sp和gr(gr>1)分别为预先指定的阈值,他们一般是由交叉验证确定,看在训练数据中那组阈值表现比较好,我们在实验里面取sp=0.6,gr=5,但是根据问题不同,可能会有不同的选择根据公式,我们可以断定,被挖掘到的模式在正例中具有一定的出现频率,同时要保证该模式在正例中的出现频率比在反例中出现的频率要高。iv)将每个判别模式p转化为一个对应的判别法则P,这个判别法则对于类别i的判别分数为
wP=spp×grpgrp+1
其中,spp和grp分别是模式p在正例中出现的频率和在正例中出现的频率与在反例中出现的频率的比值。
于是,给定一个数据x和其对应的数值集合xs,其对于类别i的判别分数Sci(x)可以如下式计算。

其中,Φi是第i类所有挖掘到的判别法则集合,Zi是第i类数据的正则项。实际计算中,Zi取值为所有第i类训练数据判别分数的中值。
(3)选择判别分数最大的类别作为输入数据x的最终判定类别
另一方面,本发明还提供了一种基于对比模式的随机森林分类器,该分类器包括:所述随机森林分类器包括多个弱分类器;还包括:
量化处理模块40,用于由构成随机森林的每个弱分类器对输入数据进行分类判别,将弱分类器的输出进行编码,进而将每一弱分类器的输出量化为一个整数值;判别分数计算模块41,用于将所有所述弱分类器输出的量化整数值转化为数值编码集合,将该集合作为学习到的判别规则集合的输入,并根据当前数值编码集合中的数值以及判别规则集合中的每一个判别规则,给出每一个类别的判别分数;类别判定模块42,用于选择判别分数最大的类别作为所述输入数据的最终判定类别。
其中,所述判别分数计算模块中41,所述判别规则集合通过分析所述多个弱分类器输出的的整数值之间的相关性和规律性,基于数据挖掘方法得到的在不同数据类别之间具有判别能力的判别模式。
更具体的,所述判别分数计算模块中包括A、B、C、D四个子模块:
子模块A,用于给定N(N>1)个类别的训练数据,对于每个类别i,将第i类的训练数据作为正例,(N-i)个类别的训练数据作为反例;子模块B,用于将所述正例和所述反例的数据送到所述随机森林分类器进行分类,将每个数据的所有弱分类器的输出进行量化处理转化为数值集合;子模块C,用于利用对比模式挖掘方法从所述数值集合中挖掘出能够显著区分正例和反例数据的模式;所述模式为数值集合p;子模块D,用于将每个判别模式p转化为对应的判别法则P,确定该判别法则对于类别i的判别分数。
上述分类器的原理与分类方法相同,相关之处可以参照分类方法的描述,在此不再赘述。
以上对本发明所提供的一种基于对比模式的随机森林分类方法和分类器进行详细介绍,本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈