首页 / 专利库 / 人工智能 / 机器学习 / 集成学习 / 一种基于倾向性异质装袋算法的钢材质量预测方法

一种基于倾向性异质装袋算法质量预测方法

阅读:500发布:2020-05-08

专利汇可以提供一种基于倾向性异质装袋算法质量预测方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种基于倾向性异质装袋 算法 的 钢 材 质量 预测方法,属于钢材自动生产技术领域,包括如下步骤:S1:数据预处理;S2:特征提取;得到具有主成分特征的数据集;S3:对数据进行分类;部分作为训练样本集,部分作为测试样本集;S4:构建基于Bagging的 集成学习 模型;S5:利用训练样本集对步骤S3中构建的集成学习模型进行训练;利用测试样本集对步骤S4中构建的集成学习模型进行测试;S6:使用步骤S5得到的集成学习模型对钢材生产过程中的数据分类,得到分类结果,根据分类结果预测钢材质量。本发明提供的上述预测方法,对钢材生产中采集到的数据进行了特征分析和提取,并且通过对集成学习模型进行改进,提高了预测的准确率和预测 稳定性 。,下面是一种基于倾向性异质装袋算法质量预测方法专利的具体信息内容。

1.一种基于倾向性异质装袋算法质量预测方法,其特征在于,包括如下步骤:
S1:数据预处理;
对钢材生产过程中采集的数据进行预处理,预处理后得到包含n个初始特征的数据,每一个初始特征包含一个数据集;
S2:特征提取;
对初始特征进行提取,筛选出k个主成分特征,得到k个主成分特征的数据集;
S3:对数据进行分类;
将步骤S2所得每一个具有主成分特征的数据集中的数据进行标注,以某一时刻的包含k个主成分特征的数据作为一个样本进行标注,分别标注为质量合格样本和质量不合格样本;将标注后的样本进行分类,部分作为训练样本集,部分作为测试样本集;
S4:构建基于Bagging的集成学习模型;
S41:构建多个基础分类器;
S42:组合所述基础分类器;采用加权平均法,集成学习器的最终投票结果y和基础分类器的投票权重ωi以及投票结果ai的关系为:
y=∑ωi*ai                         (1)
S5:利用训练样本集对步骤S4中构建的集成学习模型进行训练;利用测试样本集对步骤S4中构建的集成学习模型进行测试;
S6:使用步骤S5得到的集成学习模型对钢材生产过程中的数据分类,得到分类结果,根据分类结果预测钢材质量;
其中,n和k均为大于0的正整数,且k≤n。
2.如权利要求1所述的一种基于倾向性异质装袋算法的钢材质量预测方法,其特征在于,
所述步骤S4中,组合所述基础分类器时:
获得每个基础分类器的分类准确率acc后,将其转换为与ε-Softmax函数相关的权重ω:
其中ε∈(0,1]。
3.如权利要求1所述的一种基于倾向性异质装袋算法的钢材质量预测方法,其特征在于,所述步骤S1中预处理包括:
将冗余和误差较大的数据剔除;
将无法用技术手段补齐的残缺数据剔除;
将数据无量纲化处理。
4.如权利要求1所述的一种基于倾向性异质装袋算法的钢材质量预测方法,其特征在于,所述步骤S1中数据包括:
具有S55类型表面缺陷钢材在炼钢、热轧退火酸洗四个生产阶段生产数据,以及钢卷在酸洗后的质检结果数据。
5.如权利要求1所述的一种基于倾向性异质装袋算法的钢材质量预测方法,其特征在于,步骤S2中特征提取步骤包括:
使用统计学方法对初始特征进行相关性检验,去除相关性较低或无相关性的特征;
对剩余每个初始特征中的数据进行随机采样得到多个样本,使用随机森林特征选择算法进行选择,得到特征基尼系数表;
投票评估各特征的重要性,得出m个强相关特征,m为大于0的正整数,m≤n;
使用主成分分析法进行特征融合,筛选出k个主成分特征,获得具有k个主成分特征的数据集,k≤m。
6.如权利要求1所述的一种基于倾向性异质装袋算法的钢材质量预测方法,其特征在于,所述步骤S3中对数据进行分类具体包括:89%作为训练样本集,11%作为测试样本集。
7.如权利要求1所述的一种基于倾向性异质装袋算法的钢材质量预测方法,其特征在于,所述步骤S5具体包括:
利用训练样本集对构建的集成学习模型进行训练,集成学习模型将训练样本集进行分类,并与步骤S3中标注的信息进行比对,如果一致,则判断该轮循环正确;如果不一致,则更正并继续循环;直至所有训练样本集中数据分类准确;
使用测试样本集对训练后的集成学习模型进行测试,如测试符合要求则认为集成学习模型训练合格,如测试不符合要求则返回训练步骤继续进行训练。
8.如权利要求1所述的一种基于倾向性异质装袋算法的钢材质量预测方法,其特征在于,所述步骤S6中钢材生产过程中的数据是经过步骤S1预处理和步骤S2特征提取的数据。

说明书全文

一种基于倾向性异质装袋算法质量预测方法

技术领域

[0001] 本发明涉及钢材自动生产技术领域,尤其涉及一种基于倾向性异质装袋算法的钢材质量预测方法,用于根据钢材生产中采集的数据对钢材质量进行预测。

背景技术

[0002] 工业领域中累积了大量高冗余、高噪声、低精度、强耦合的数据,但通过数据清洗、特征提取以及选择适当的机器学习方法后,人们依然有望挖掘出数据中本质的规律。钢卷质量指标主要分为表面质量、学性能、尺寸精度三个方面,其质量主要由成分、结构、制备工艺等因素决定,其中某个环节的改变都可能对最终钢材的质量产生巨大的影响。钢材生产的过程连续且繁杂,采集到的数据往往具有高冗余、高噪声、低精度、强耦合等特点,但通过数据清洗、特征提取以及挑选适当的机器学习方法后,人们依然有望挖掘出数据中本质的规律。
[0003] 集成学习是机器学习方法的一种,它通过结合各种分类器以实现更好的预测性能。换言之,集成学习方法首先预测一些初步的结果,然后将初步结果组合生成一个新的最终结果。研究表明,集成分类器通常比基础分类器表现得更好。集成学习主要算法分为Boosting,Bagging和Stacking。Bagging是使用不同数据集产生基础分类器的方法,每个基础分类器都有自己的训练集,通常使用随机抽取方法和替换产生不同训练集。在生成所有训练集之后为每个分类器构建模型。
[0004] 中国专利文献(CN103136638A钢材生产的自适应调整方法)公开了一种钢材生产的自适应调整方法,包括:选择钢材的规格和钢种,调用该规格和钢种的钢材的历史生产数据;从历史生产数据中获取第一数据组,第一数据组包括数个相连续的长周期,每一个长周期包括数个相连续的短周期,对每一个长周期中的每一个短周期进行编号,不同的长周期中的对应的短周期具有相关联的编号;基于第一数据组计算第一生产模型;选择指定时间点;从历史生产数据中获取第二数据组,该第二数据组包括指定时间点之前的数个相连续的短周期;基于第二数据组计算第二生产模型;根据第一生产模型和第二生产模型计算指定时间点的预测生产数据,根据预测生产数据对钢材的生产进行自适应调整。该发明提供的自适应调整方法虽然能够根据预测生产数据对钢材的生产进行自适应调整,但是其并未考虑到数据中的各个特征类别,而不同的数据对于钢材质量的影响是不同的。
[0005] 综上所述,在实际应用中,可以根据具体问题选择对应的算法。但是经仿真实验后发现,已有的钢材预测方法均不够完善,而现有基础算法和集成学习算法的分类准确率和模型稳定性均不够理想,均无法满足实际钢材生产应用的需求。

发明内容

[0006] 为解决现有的钢材预测方法存在的上述缺陷,本发明在已有算法的基础上进行改进,以得到分类准确率、稳定性更好的模型,并将其用于钢材预测。同时考虑到钢材预测中需要考虑到数据的特征类别,对特征类别进行了筛选分析,从而构建了一套完备的钢材质量预测方法。
[0007] 本发明提供的具体技术方案如下:
[0008] 一种基于倾向性异质装袋算法的钢材质量预测方法,其特征在于,包括如下步骤:
[0009] S1:数据预处理;
[0010] 对钢材生产过程中采集的数据进行预处理,预处理后得到包含n个初始特征的数据,每一个初始特征包含一个数据集;
[0011] S2:特征提取;
[0012] 对初始特征进行提取,筛选出k个主成分特征,得到k个主成分特征的数据集;
[0013] S3:对数据进行分类;
[0014] 将步骤S2所得每一个具有主成分特征的数据集中的数据进行标注,以某一时刻的包含k个主成分特征的数据作为一个样本进行标注,分别标注为质量合格样本和质量不合格样本;将标注后的样本进行分类,部分作为训练样本集,部分作为测试样本集;
[0015] S4:构建基于Bagging的集成学习模型;
[0016] S41:构建多个基础分类器;
[0017] S42:组合所述基础分类器;采用加权平均法,集成学习器的最终投票结果y和基础分类器的投票权重ωi以及投票结果ai的关系为:
[0018] y=∑ωi*ai                         (1)。
[0019] S5:利用训练样本集对步骤S4中构建的集成学习模型进行训练;利用测试样本集对步骤S4中构建的集成学习模型进行测试;
[0020] S6:使用步骤S5得到的集成学习模型对钢材生产过程中的数据分类,得到分类结果,根据分类结果预测钢材质量;
[0021] 其中,n和k均为大于0的正整数,且k≤n。
[0022] 进一步地,所述步骤S4中,组合所述基础分类器时:
[0023] 获得每个基础分类器的分类准确率acc后,将其转换为与ε-Softmax函数相关的权重ω:
[0024]
[0025] 其中ε∈(0,1]。
[0026] 进一步地,所述步骤S1中预处理包括:
[0027] 将冗余和误差较大的数据剔除;
[0028] 将无法用技术手段补齐的残缺数据剔除;
[0029] 将数据无量纲化处理。
[0030] 进一步地,所述步骤S1中数据包括:
[0031] 具有S55类型表面缺陷钢材在炼钢、热轧退火酸洗四个生产阶段生产数据,以及钢卷在酸洗后的质检结果数据。
[0032] 进一步地,步骤S2中特征提取步骤包括:
[0033] 使用统计学方法对初始特征进行相关性检验,去除相关性较低或无相关性的特征;
[0034] 对剩余每个初始特征中的数据进行随机采样得到多个样本,使用随机森林特征选择算法进行选择,得到特征基尼系数表;
[0035] 投票评估各特征的重要性,得出m个强相关特征,m为大于0的正整数,m≤n;
[0036] 使用主成分分析法进行特征融合,筛选出k个主成分特征,获得具有k个主成分特征的数据集,k≤m。
[0037] 进一步地,所述步骤S3中对数据进行分类具体包括:89%作为训练样本集,11%作为测试样本集。
[0038] 进一步地,所述步骤S5具体包括:
[0039] 利用训练样本集对构建的集成学习模型进行训练,集成学习模型将训练样本集进行分类,并与步骤S3中标注的信息进行比对,如果一致,则判断该轮循环正确;如果不一致,则更正并继续循环;直至所有训练样本集中数据分类准确;
[0040] 使用测试样本集对训练后的集成学习模型进行测试,如测试符合要求则认为集成学习模型训练合格,如测试不符合要求则返回训练步骤继续进行训练。
[0041] 进一步地,所述步骤S6中钢材生产过程中的数据是经过步骤S1预处理和步骤S2特征提取的数据。
[0042] 与现有技术相对比,本发明的有益效果如下:
[0043] (1)本发明提供的钢材质量预测方法,充分考虑了钢材生产过程中数据的特征类别,经数据预处理得到包含n个初始特征的数据,去除了初始样本的冗余性、强耦合性,随后经过再通过相关性分析,分析特征和结果的相关性,将无相关性或相关性较低的特征剔除,经过主成分分析,把最相关的特征找出来,通过上述方法对数据进行了降维,得到具有k个主成分特征的数据集。通过该筛选和特征提取,本发明筛选出了对钢材质量影响较大的数据,排出了过多的冗余数据和干扰性数据,使得分析速度更快,分析结果精度更高。
[0044] (2)本发明提供的钢材质量预测方法使用的集成学习模型中,引入参数ε∈(0,1]调控集成结果的倾向性,ε越趋近于0则集成学习器越倾向于表现最好的个体学习器,以此来保证集成学习模型的稳定性。并且使用Softmax函数优化个体学习器的结合策略。本发明从这两个方面对集成学习模型进行了改进,改进后的模型用于分析经预处理和特征提取后的钢材检测数据,能够有效提高稳定性和准确率。附图说明
[0045] 图1是本发明提供的数据采集过程示意图。
[0046] 图2是本发明中实施例2的测试结果图。

具体实施方式

[0047] 下面结合具体实施例,对本发明提供的基于倾向性异质装袋算法的钢材质量预测方法的一个具体实施方案进行说明。所举实例只用于解释本发明,并非用于限定本发明的范围。
[0048] 本实施例提供一种钢材质量预测方法,其包括如下步骤:
[0049] 本实例使用python语言编写和调用所涉及的基础算法和集成学习算法,数据清洗特征工程则用R语言完成。实验采用的数据集为某钢企业通过MES系统记录下来的一部分具有S501类型表面缺陷钢材的炼钢、热轧、退火、酸洗四个工艺流程中的实际生产数据,以及钢卷在酸洗后的质检结果。工艺流程和数据采集过程如图1所示。
[0050] S1:数据预处理:
[0051] 将冗余和误差较大的数据剔除;将无法用技术手段补齐的残缺数据剔除;将数据无量纲化处理。经过数据清洗和特征选择后,得到39个最优特征子集(初始特征)。
[0052] S2:特征提取;
[0053] 使用统计学方法对初始特征进行相关性检验,去除相关性较低或无相关性的特征;
[0054] 对剩余每个初始特征中的数据进行随机采样得到多个样本(准备一组数据,用随机采样方法生成一组数据,对数据进行祖源分析,找出相关性比较大的列,也就是筛选出相关性大的特征),使用随机森林特征选择算法进行选择,得到特征基尼系数表;投票评估各特征的重要性,分析得出39个初始特征中,23列确定为强相关特征,16列为弱相关性特征,如表1所示。
[0055] 表1最优特征子集
[0056]
[0057] 在上述特征子集中发现特征之间具有高耦合度,故在此基础上再通过主成分分析进行特征融合,去除特征之间的高耦合性和冗余性,筛选出11个主成分特征,获得具有11列主成分特征的数据集用以建立模型。
[0058] 在经过特征提取步骤后获得的11列(11个主成分特征)、180行(每一个特征的数据集)的主成分数据集上进行标注,其中有120条质量合格样本,60条质量不合格样本。使用分层随机抽样方法抽取160个样本训练集,其余20个样本为测试集。
[0059] S4:构建基于Bagging的集成学习模型;
[0060] S41:构建多个基础分类器;
[0061] S42:组合上述基础分类器;
[0062] 在基础分类器性能相差较大时,采用加权平均法,集成学习器的最终投票结果y和基础分类器的投票权重ωi以及投票结果ai的关系为:
[0063] y=∑ωi*ai                         (1)
[0064] 其中,基础分类器的投票权重ωi的计算方式为:
[0065] 获得每个基础分类器的分类准确率acc后,将其转换为与ε-Softmax函数相关的权重ω:
[0066]
[0067] 其中ε∈(0,1]。
[0068] S5:利用训练样本集对步骤S3中构建的集成学习模型进行训练;集成学习模型将训练样本集进行分类,并与步骤S3中标注的信息进行比对,如果一致,则判断该轮循环正确;如果不一致,则更正并继续循环;直至所有训练样本集中数据分类准确;
[0069] 利用测试样本集对步骤S4中构建的集成学习模型进行测试;如测试符合要求则认为集成学习模型训练合格,如测试不符合要求则返回训练步骤继续进行训练。
[0070] S6:使用步骤S5得到的集成学习模型对钢材生产过程中的其它未标注数据进行分类,得到分类结果,根据分类结果预测钢材质量。具体预测方式为,使用训练后的集成学习模型对预处理和特征提取后的钢材生产数据进行分析,每一个样本中应当包括所有主成分特征的数据(即如果以主成分特征个数作为列数,则每一行为一个样本,每个样本中包含各列的一个数据),使用训练后的集成学习模型对所有样本进行分类,将样本划分为合格和不合格。以此完成钢材生产的质量预测。
[0071] 为评估本发明选用的改进集成算法总体的有效性,本发明基于相同数据集进行了各类对照实验,实验结果评价的指标为模型运行100次后分类准确率的均值(Mean)和方差(Std),以及分类准确率的95%置信区间(Mean±2*Std)。
[0072] 实施例1
[0073] 在本实施例中,选择决策树算法、贝叶斯算法、K近邻算法、逻辑回归算法、BP神经网络五种基础分类算法和五次数据重采样,一共生成了25个基础分类器,然后在此基础上进行ε-Softmax的权重集成,δ取值为0.8。其中五种基础分类器预测准确率和PHB集成分类器(本发明提供的)预测准确率对比结果见表2。
[0074] 表2基础分类算法和PHB算法的泛化性能对比
[0075]
[0076] 由表2可知,基础学习算法具有80.2~83.8%的分类准确率和6.7~9.4%的标准差波动,在95%的置信区间下,某些分类器的准确率有时甚至不如随机猜测,个体分类器之间的分类性能差距较大。说明本发明提供的PHB集成学习算法引入Bagging策略和倾向性系数δ能够提升钢材质量预测稳定性,同时使用Softmax函数降低个体分类器之间的相关性,能够提升分类准确率。
[0077] 实施例2
[0078] 为验证本发明结合策略优化的有效性,将实施例1中的五种基础分类算法使用平均权重结合策略和加权结合策略作为对照组,算法对比实验结果如图2所示。
[0079] 从图2可看出,相比于平均权重结合策略84.6%的平均分类准确率,采用加权结合策略可以使模型平均分类准确率提升至86.55%,但也会导致标准差的提升。而本发明提供的PHB算法对钢材生产数据进行分析预测时,不仅使分类准确率提升至91.4%的,同时也降低了方差。
[0080] 实施例3
[0081] 为验证本发明提供的方法相对于使用常用集成算法分析钢材数据时的优点,在数据集上选择常规的三种Boosting(AdaBoosting)、Bagging(Random Forest,随机森林)、Stacking(采用logistic次级分类器)算法和PHB算法(即本发明提供的方法)进行钢材数据分析时,做对比实验,结果如表3所示。
[0082] 表3常规集成算法和PHB算法的泛化性能对比
[0083]
[0084] 由表3可见相对于常规的集成学习方法进行预测,本发明提供的PHB集成学习算法不仅提升了8%平均预测准确率,也降低了约3%预测准确率的标准差,在95%的置信区间上也可以看出本发明提供的PHB模型的钢材质量预测稳定性大幅度高于其它现有算法,非常适用于实际钢材质量预测场景。
[0085] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈