首页 / 专利库 / 作物管理 / 种植模式 / 一种基于近红外光谱检测无花果品质的方法

一种基于近红外光谱检测无花果品质的方法

阅读:395发布:2020-05-11

专利汇可以提供一种基于近红外光谱检测无花果品质的方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及农产品检测技术领域,具体地涉及一种基于 近红外 光谱 检测无花果品质的方法; 随机森林 回归 算法 是以 决策树 为基学习器的 集成学习 算法,使用Bagging集成学习技术训练出CART决策树并组成森林,森林中每一课决策树没有关联(FIG1)通过多棵决策树输出结果的平均值作为回归结果(FIG2),克服了过拟合这一问题,使得整 体模 型具有较高的精确度和泛化性能;较低的RMSEC和RMSEP表明,本发明将随机森林算法用于青皮无花果的内部品质预测,通过实验并且取得较好的效果,通过本文的大量实验数据证明,随机森林算法具有比偏最小二乘法更强的拟合能 力 ,且不易过拟合。,下面是一种基于近红外光谱检测无花果品质的方法专利的具体信息内容。

1.一种基于近红外光谱检测无花果品质的方法,其特征在于,包括:
(1)样品选择:选取无腐烂或瘀伤的无花果,洗净备用;
(2)光谱采集:通过近红外光谱仪扫描样品获得其近红外谱图,仪器的工作参数为:测量系统采用漫反射模式,光谱范围为800-1700nm,每个光谱共有512个数据点,对每个无花果样品扫描1000次取平均光谱,对每个样品无花果选取五个不同位置扫描,获得5个平均光谱;
(3)对收集的近红外光谱进行光谱预处理;
(4)质构测量:分别测定无花果样品的品质指标,包括硬度、弹性、咀嚼性、粘附性、弹性、凝聚、粘性;
(5)模型建立:将步骤(3)预处理后的近红外光谱与步骤(4)中对应的品质指标进行关联;采用随机森林算法,建立对无花果的品质参数测定的预测模型
(6)输出预测结果:将近红外光谱代入步骤(5)的预测模型,输出待检测无花果的预测结果。
2.根据权利要求1所述的基于近红外光谱检测无花果品质的方法,其特征在于:所述步骤(1)采用SPXY训练集样本的选取方法选择无花果样本。
3.根据权利要求1所述的基于近红外光谱检测无花果品质的方法,其特征在于:所述步骤(3)光谱预处理包括采用二阶微分处理,扣除原始光谱的基线漂移,提高分析精度,采用标准正态变量变换消除样品不均匀带来的差异、采用诺里斯平滑波平滑去噪;采用多元散射校正消除颗粒散射引起的光谱误差。
4.根据权利要求1所述的基于近红外光谱检测无花果品质的方法,其特征在于:所述步骤(4)无花果样品的品质指标采用质构仪测定;选用无花果果进行测试,每个果实测试5次;
采用p100探头,前测速度1.00mm/s,测试速度5mm/s,后测速度5mm/s;目标形式:测定距离
10mm压缩程度75%,触发值为5.0g,数据采集速率200pps,停留间隔3s;对每个果实的硬度、弹性、黏聚性、咀嚼性和回复性数值取平均值后进行分析。
5.根据权利要求1所述的基于近红外光谱检测无花果品质的方法,其特征在于:所述步骤(5)还包括根据品质指标的变化建立品质等级,所述品质等级从优至劣依次划分为三级。
6.根据权利要求1所述的基于近红外光谱检测无花果品质的方法,其特征在于:所述步骤(5)基于Python的scikit-learn库进行建模;输入变量为近红外光谱矩阵X,矩阵X由m个自变量x1,x2,***,xn组成,m为波长数,变量X构成CART决策树的特征空间;每一个质构向量Y为输出变量,由t个因变量y1,y2,***,yt组成。
7.根据权利要求1所述的基于近红外光谱检测无花果品质的方法,其特征在于:所述步骤(2)光谱采集过程中,环境温度为22-24℃,相对湿度为25-28%。
8.根据权利要求1所述的基于近红外光谱检测无花果品质的方法,其特征在于:所述无花果果实材料为青皮无花果,采集与于山东荣成市无花果种植基地,采摘于清晨,果实物理成熟。
9.根据权利要求1所述的基于近红外光谱检测无花果品质的方法,其特征在于:执行步骤(2)光谱采集之前,系统至少打开1小时进行预热。
10.根据权利要求1所述的基于近红外光谱检测无花果品质的方法,其特征在于:所述步骤(2)沿着样品无花果的赤道随机选择的5个不同位置进行检测。

说明书全文

一种基于近红外光谱检测无花果品质的方法

技术领域

[0001] 本发明涉及农产品检测技术领域,具体地涉及一种基于近红外光谱检测无花果品质的方法。

背景技术

[0002] 青皮无花果作为人类最早改良栽培的果树树种之一,植株总体利用价值高。无花果果实色泽圆润,鲜艳多汁,口感不错,且营养价值较高,我国近20年人工栽培规模持续扩大。随着消费者生活平的日益提高,对于水果的品质要求也同步增长,水果的质构越来越受到广大消费者的关注,如硬度,弹性,咀嚼性,粘附性,弹性,凝聚,粘性等。大多数传统的质构仪器测量内部质构属性需要破坏样本,测量效率低,操作复杂。由于青皮无花果果实不易保存,易腐烂,并且储藏和运输困难,所以很多时候得不到鲜果进行实验测量。
[0003] 一种高效、操作简单且无损检测的方法是市场对质量要求日益增长的需求,近红外光谱技术是近几年来应用在很多领域的快速无损检测方法,同时食品工业领域也已经扩展到,广泛用于各种食品的内部属性测定,在水果蔬菜,如苹果、梨中糖的分析,以及啤酒生产中在线监测发酵过程中的酒精及糖分。该技术弥补了传统质构仪的缺点,具有检测速度快,无损伤,操作简单等优点,在测量无花果质构上可实现采摘地测量。
[0004] 近红外光谱作为获取信息的一种有效载体,同时在包含有用信息外,光谱中仍然会有噪音的存在,需要经过多元统计分析。国内外有很多学者利用近红外光谱技术建立了食品的质构预测模型,大多广泛采用偏最小二乘法建立模型,但是偏最小二乘法仍然具有拟合能力不强的缺点。因此,为解决上述问题,有必要设计一种基于近红外光谱检测无花果品质的方法。

发明内容

[0005] 本发明的目的在于提供一种基于近红外光谱检测无花果品质的方法。
[0006] 本发明解决其技术问题所采取的技术方案是:
[0007] 一种基于近红外光谱检测无花果品质的方法,包括:
[0008] (1)样品选择:选取无腐烂或瘀伤的无花果,洗净备用;
[0009] (2)光谱采集:通过近红外光谱仪扫描样品获得其近红外谱图,仪器的工作参数为:测量系统采用漫反射模式,光谱范围为800-1700nm,每个光谱共有512个数据点,对每个无花果样品扫描1000次取平均光谱,对每个样品无花果选取五个不同位置扫描,获得5个平均光谱;
[0010] (3)对收集的近红外光谱进行光谱预处理;
[0011] (4)质构测量:分别测定无花果样品的品质指标,包括硬度、弹性、咀嚼性、粘附性、弹性、凝聚力、粘性;
[0012] (5)模型建立:将步骤(3)预处理后的近红外光谱与步骤(4)中对应的品质指标进行关联;采用随机森林算法(RF),建立对无花果的品质参数测定的预测模型;
[0013] (6)输出预测结果:将近红外光谱代入步骤(5)的预测模型,输出待检测无花果的预测结果。
[0014] 优选的,所述步骤(1)采用SPXY(sample set partitioning based on jiont x-y distance)训练集样本的选取方法选择无花果样本。
[0015] 优选的,所述步骤(3)光谱预处理包括采用二阶微分处理,扣除原始光谱的基线漂移,提高分析精度,采用标准正态变量变换消除样品不均匀带来的差异、采用诺里斯平滑波平滑去噪;采用多元散射校正(MSC)消除颗粒散射引起的光谱误差。
[0016] 优选的,所述步骤(4)无花果样品的品质指标采用质构仪测定;所述质构仪采用TA.XT plus型,英国Stable Micro Systems公司提供,选用无花果果实赤道部位进行测试,每个果实测试5次;采用p100探头,前测速度1.00mm/s,测试速度5mm/s,后测速度5mm/s;目标形式:测定距离10mm压缩程度75%,触发值为5.0g,数据采集速率200pps,停留间隔3s;对每个果实的硬度、弹性、黏聚性、咀嚼性和回复性数值取平均值后进行分析。
[0017] 优选的,所述步骤(5)还包括根据品质指标的变化建立品质等级,所述品质等级从优至劣依次划分为三级,具体等级指标根据硬度、弹性、咀嚼性、粘附性、弹性、凝聚力、粘性质构综合划分。
[0018] 优选的,所述步骤(5)基于Python的scikit-learn库进行建模。输入变量为近红外光谱矩阵X,矩阵X由m个自变量x1,x2,***,xn组成,m为波长数,变量X构成CART决策树的特征空间;每一个质构向量Y为输出变量,由t个因变量y1,y2,***,yt组成。针对于本发明共计样本数280个,样本集采用SPXY方法进行自动划分,通过SPXY划分,可以有效的覆盖多维向量空间,从而能够改变模型的预测能力。本发明最终在280个样本中选定总数的80%样本作为校正集,其余剩下20%样本作为验证集。n个样本作为训练集数据构成训练样本空间,则训练数据集D为{(x1,y1),(x2,y2),…,(xn,yn)}
[0019] 经过大量实验得出结论,使用二阶微分加多元散射校正预处理的效果最好。本发明选择使用二阶微分加多元散射校正对所选取的整个样本集进行预处理消除噪音,得到可输入模型的样本集。
[0020] 本发明的技术效果:
[0021] 与现有技术相比,本发明取得的有益效果是:随机森林回归算法是以决策树为基学习器的集成学习算法,使用Bagging集成学习技术训练出CART决策树并组成森林,森林中每一课决策树没有关联(FIG1)通过多棵决策树输出结果的平均值作为回归结果(FIG2),克服了过拟合这一问题,使得整体模型具有较高的精确度和泛化性能;较低的RMSEC和RMSEP表明,随机森林算法是一种能够快速并且有效的预测青皮无花果硬度质构的算法。该算法实现简单,精度高,抗过拟合能力强,面对非线性数据时,适作为基准模型;本发明将随机森林算法用于青皮无花果的内部品质预测,通过实验并且取得较好的效果,通过本文的大量实验数据证明,随机森林算法具有比偏最小二乘法更强的拟合能力,且不易过拟合。附图说明
[0022] 图1为本发明的无花果样品近红外光谱原始图;
[0023] 图2为硬度预测中不同预测模型的RMSEC和RMSEP比较图。

具体实施方式

[0024] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0025] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0026] 在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0027] 实施例一
[0028] 一种基于近红外光谱检测无花果品质的方法,包括:
[0029] (1)样品选择:选取无腐烂或瘀伤的无花果,洗净备用;
[0030] (2)光谱采集:通过近红外光谱仪扫描样品获得其近红外谱图,仪器的工作参数为:测量系统采用漫反射模式,光谱范围为800-1700nm,每个光谱共有512个数据点,对每个无花果样品扫描1000次取平均光谱,对每个样品无花果选取五个不同位置扫描,获得5个平均光谱;
[0031] (3)对收集的近红外光谱进行光谱预处理;
[0032] (4)质构测量:分别测定无花果样品的品质指标,包括硬度、弹性、咀嚼性、粘附性、弹性、凝聚力、粘性;
[0033] (5)模型建立:将步骤(3)预处理后的近红外光谱与步骤(4)中对应的品质指标进行关联;采用随机森林算法(RF),建立对无花果的品质参数测定的预测模型;
[0034] (6)输出预测结果:将近红外光谱代入步骤(5)的预测模型,输出待检测无花果的预测结果。
[0035] 优选的,所述步骤(1)采用SPXY(sample set partitioning based on jiont x-y distance)训练集样本的选取方法选择无花果样本。
[0036] 优选的,所述步骤(3)光谱预处理包括采用二阶微分处理,扣除原始光谱的基线漂移,提高分析精度,采用标准正态变量变换消除样品不均匀带来的差异、采用诺里斯平滑波平滑去噪;采用多元散射校正(MSC)消除颗粒散射引起的光谱误差。
[0037] 优选的,所述步骤(4)无花果样品的品质指标采用质构仪测定;所述质构仪采用TA.XT plus型,英国Stable Micro Systems公司提供,选用无花果果实赤道部位进行测试,每个果实测试5次;采用p100探头,前测速度1.00mm/s,测试速度5mm/s,后测速度5mm/s;目标形式:测定距离10mm压缩程度75%,触发值为5.0g,数据采集速率200pps,停留间隔3s;对每个果实的硬度、弹性、黏聚性、咀嚼性和回复性数值取平均值后进行分析。
[0038] 优选的,所述步骤(5)还包括根据品质指标的变化建立品质等级,所述品质等级从优至劣依次划分为三级,具体等级指标根据硬度、弹性、咀嚼性、粘附性、弹性、凝聚力、粘性质构综合划分。
[0039] 优选的,所述步骤(5)基于Python的scikit-learn库进行建模。输入变量为近红外光谱矩阵X,矩阵X由m个自变量x1,x2,***,xn组成,m为波长数,变量X构成CART决策树的特征空间;每一个质构向量Y为输出变量,由t个因变量y1,y2,***,yt组成。针对于本发明共计样本数280个,样本集采用SPXY方法进行自动划分,通过SPXY划分,可以有效的覆盖多维向量空间,从而能够改变模型的预测能力。本发明最终在280个样本中选定总数的80%样本作为校正集,其余剩下20%样本作为验证集。n个样本作为训练集数据构成训练样本空间,则训练数据集D为{(x1,y1),(x2,y2),…,(xn,yn)}
[0040] 经过大量实验得出结论,使用二阶微分加多元散射校正预处理的效果最好。本发明选择使用二阶微分加多元散射校正对所选取的整个样本集进行预处理消除噪音,得到可输入模型的样本集。
[0041] 优选的,所述步骤(2)光谱采集过程中,环境温度为22-24℃,相对湿度为25-28%,该条件的设置能够提高对无花果光谱采集的精确度。
[0042] 优选的,本实施例所述无花果果实材料为青皮无花果,采集与于山东荣成市无花果种植基地,采摘于清晨,果实物理成熟,将无花果放于塑料泡沫包装盒中,迅速带回实验室,在视觉上大小相似,在测量前,将无花果都置于箱中保存。
[0043] 优选的,执行步骤(2)光谱采集之前,系统至少打开1小时进行预热。保证近红外光纤探头尽量与被测无花果样品表面接触,避免表面反射和空气干扰。
[0044] 优选的,所述步骤(2)沿着样品无花果的赤道随机选择的5个不同位置进行检测。
[0045] 随机森林回归算法有两个重要的参数,组成森林的决策树的数量N和最佳分割功能数M,选取恰当的参数可以使得模型的精确度能够提高,本发明使用N以50为步长,在区间50-1000范围内进行实验,基于Python的scikit-learn库中RandomizedSearchCV进行大概率最优解。M值选择为特征数,在PLS模型的建立中最重要的一个参数就是主成分个数n的选取,以1为步长,在1-50范围内进行实验,通过多次实验得出最好模型参数。
[0046] 使用二阶微分加多元散射校正预处理过的光谱分别对青皮无花果的硬度质构建立模型,使用模型的拟合优度R2来衡量模型的拟合优劣,同时使用校正集与实际值的偏差(RMSEC)和验证集和实际值的偏差(RMSEP)评估模型的性能和鲁棒性。均方根误差是预测值与实际值的偏差的平方和样本数N的比值的平方根,用于评价模型的整体性能,均方根误差的计算公式为:
[0047]
[0048] 其中 是样本预测值,yi是第i个样本的测量值,n是校正集或者验证集的样本数。
[0049] 本实施例列出了硬度在青皮无花果总样本的分布情况,如表1所示:
[0050] 表1:
[0051]
[0052] 以及列出了硬度在青皮无花果校正集和验证集的分布情况,如表2所示,可见校正集的范围为144.2417至1479.262,验证集得范围为128.6346至793.400;
[0053] 表2:
[0054]
[0055] 如图1所示,显示了实验中使用的无花果近红外光谱原始图,光谱波长范围在800-1700nm,光谱趋势非常相似。近红外光谱对有机物敏感,主要是含C-H,O-H,N-H等键基团的化合物在中红外区域基频振动的倍频吸收与合频吸收,含H键基团的有机物以及与其结合的无机物样品随着成分含量的变化,其近红外光谱特征也随之发生变化,根据光谱的变化特征,可以实现对无花果质构,如硬度的检测。
[0056] 本实施例使用校正集均方根误差(RMSEC)和验证集的均方根(RMSEP)作为评估模型性能的依据,RMSEC和RMSEP的值越低,说明模型性能越好。
[0057] 本实施例同样采用最小二乘法(PLS),建立对无花果的品质参数测定的预测模型与随机森林模型进行比较。基于python的scikit-learn库中RandomizedSearchCV进行大概率最优解,计算出随机森林树太少欠拟合,树越多使得模型计算时间更长,且模型没有得到改善。表3列出了随机森林的回归树个数M和偏最小二乘回归的主成分数。表4列出无花果得硬度质构在随机森林算法回归模型和偏最小二乘上的RMSEC和RMSEP的预测结果,通过两种算法在RMSEC和RMSEP上的对比,随机森林算法对青皮无花果的硬度的预测效果明显优于偏最小二乘法。
[0058] 表3:
[0059]
[0060] 表4:
[0061]
[0062] 图2为硬度预测中不同预测模型的RMSEC和RMSEP比较,随机森林算法无论是在训练偏差还是在预测偏差上都要比偏最小二乘法要好很多,因此随机森林算法更适合对于青皮无花果硬度质构的定量预测。
[0063] 本实施例硬度预测的速度比较如表5所示,
[0064]
[0065] 结果显示,随机森林模型在硬度校正集和验证集上的运行速度上慢于PLS。但是运行时间同样很短,仍然可以证明随机森林能够快速提供预测结果。
[0066] 综上所述仅为本发明较佳的实施例,并非用来限定本发明的实施范围。即凡依本发明申请专利范围的内容所作的等效变化及修饰,皆应属于本发明的技术范畴。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈