专利汇可以提供基于测试代价的决策树分类器构造方法专利检索,专利查询,专利分析的服务。并且本 发明 提出了基于测试代价的 决策树 分类器构造方法,涉及智能服务、 机器学习 技术领域,从库中数据流中提取最匹配的训练示例样本为标识示例,对新示例进行类预测,若在分类过程中为相同的类,或测试属性为空时,则标识示例类符合此新示例。之后遵循测试成本代价最小原则构建决策树,这里的测试代价限制条件更加严苛,也更优化。测试代价f作为选择属性标准,c作为分裂属性标准。若在叶子结点出现未知类,同时测试成本也更优化,则更新库,保存新示例。更优化的决策树分类器就构成了。,下面是基于测试代价的决策树分类器构造方法专利的具体信息内容。
1.基于测试代价的决策树分类器构造方法,该方法涉及智能服务、机器学习技术领域,其特征是:本发明从库中数据流中提取最匹配的训练示例样本为标识示例,对新示例进行类预测,若在分类过程中为相同的类,或测试属性为空时,则标识示例类符合此新示例,之后遵循测试成本代价最小原则构建决策树,测试代价f作为选择属性标准,c作为分裂属性标准,若在叶子结点出现未知类,同时测试成本也更优化,则更新库,保存新示例,更优化的决策树分类器就构成了,其具体的实施步骤如下:
步骤1:根据保存示例与新示例之间的特征差值来标识和鉴定训练示例样本:
其中 为已有新示例第属性值,表示它们之间相关性,取值范围为,当没有数值属性时,即为0,否则就为1;当两比较特征有至少一个值未知,就标记为0.5,当越大,则标识了更多示例,当=0时,则找到了最佳匹配训练示例;
步骤2:专家根据实际情况,给出每项属性进行的测试成本 :
在训练样本集S中进行每一项属性测试需要的费用,记为 , 为第X属性测试成本,测试代价由相关专家给出;
步骤3:用户自定义参数经济因子 ,它范围为 ,经济因子 为用来校准成本花费的一个变量,当 为最大成本花费;完整阈值 由相关领域专家给出,其取值范围为
;
步骤4:根据 遍历输入的训练样本集候选属性列表,计算每个候选属性,得出当前选择属性;
步骤4.1: 遍历所有训练样本集的属性,计算每个属性的 ,选择 值最大的属性作为测试代价决策树分类器的根结点;
候选属性的选择因子 为:
其中 为训练示例集中属性为X的信息增益, 为属性X的信息成本函数;
步骤5:对应于步骤4得出的最大候选属性每一个属性值,在结点下生成相应分支(即分裂抽象属性);每个分支样本集合为所有属性值对应分支的训练样本,这样训练样本集为个子集,也为属性值个数;
步骤6:将每个子集 作为新的训练样本集,对各子集递归调用本算法,即重回步骤4,用同样的方法将样本子集分割,产生分支的分支,同时获得相应子集的子集,直到满足以下两条件之一则终止建树过程,即:
条件1:在一个子集或分支结点中所有样例属性都为同一类别,又称之为观测值;
条件2:在一个子集或分支结点中所有样本为空;
步骤7:在叶子结点分类时出现未知类同时又有廉价的测试功能,则更新库保存新的示例。
2.根据权利要求1所述的基于测试代价的决策树分类器构造方法,其特征是:所述步骤
4.1计算候选属性的选择因子,需要求出信息增益函数、信息成本函数、以及在求解过程中会用到信噪比函数,具体计算过程如下:
1>、信息成本函数
1)根据信息论,信噪比这一函数功能在数据分析方面得到了广泛的应用,有下式:
根据上面的信噪比 函数和 决策树算法原理,有:
所以上式信噪比函数又可写为 ;
2)根据信噪比函数和 函数可得知:
这里 为属性信息增量, 为检验经济标准一个变量, 的范围为 , 为属
性的测试成本, ,当 时, 有意义; 是信息成本函数,用
来表征每一属性的选择;
2>、信息增益函数
这里为属性, 为属性的第i个属性值, 为类集合, 当属性X的值为
时,类为 的概率,直到训练样本集有相同类或是属性为空时,这个分类过程结束。
3.根据权利要求1所述的基于测试代价的决策树分类器构造方法,其特征是:
所述步骤5分裂属性的选择方法为:
定义分裂抽象属性选择因子为c,未知示例样本属性的叶子结点的种类个数为 ,我们把此叶子结点称为观测值,其中 ,已保存训练样本叶子结点数为j,其中
:
其中,当已保存示例样本集中第个叶子结点中包含第类观测值时, ;相反如果已保存示例样本集第个叶子结点中不包含第类观测值,即 :
当 时,我们选择这个抽象属性进行分裂;
当 时,更新库,保存新示例对象。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
视锥视杆复用式仿生视觉传感器 | 2020-05-08 | 724 |
一种相位相关的共享深度卷积神经网络语音增强方法 | 2020-05-08 | 426 |
一种基于嵌套式法拉第筒的高场非对称波形离子迁移谱仪 | 2020-05-08 | 806 |
基于CDN和MEC的车联网移动性管理方法 | 2020-05-08 | 289 |
一种基于MDM-SDM的量子与经典融合通信系统及传输方法 | 2020-05-08 | 756 |
一种快速响应的高精度光散射浊度计测量装置 | 2020-05-08 | 250 |
基于瞬时频率的带静默间断信号的端点识别方法及应用 | 2020-05-08 | 651 |
一种窃听环境下轮流中继网络的安全传输方法 | 2020-05-08 | 435 |
一种语音识别方法、装置、设备和存储介质 | 2020-05-08 | 664 |
一种基于图像质量的人脸防伪方法 | 2020-05-11 | 75 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。