首页 / 专利库 / 地球科学 / 冰山 / 一种基于随机森林的冰山遥感识别方法

一种基于随机森林山遥感识别方法

阅读:397发布:2020-05-13

专利汇可以提供一种基于随机森林山遥感识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 随机森林 算法 的 冰 山遥感识别方法,本方法采用哨兵一号(Sentinel-1A)提供的SAR影像数据对海面 冰山 进行识别,其主要步骤包括将预处理后SAR影像进行 阈值 分割,剔除背景元素,而后按照先验知识选取出样本特征。同时以面向对象的方式选取冰山与类冰山训练样本。待分类的疑似冰山样本则以类似的方式处理,但不经过挑选,全部导出。之后对得到的所有样本进行Min-Max数据标准化。最后用生成的 训练数据 对随机森林模型进行训练,并将训练完成后的模型用于待分类样本的分类,得到最终分类结果,实现冰山的识别。,下面是一种基于随机森林山遥感识别方法专利的具体信息内容。

1.一种基于随机森林山遥感识别方法,包括以下步骤:
第一步、准备训练数据和待分类数据,具体包括如下几个方面的内容:
1a、下载与待分类数据同一时期内的SAR影像,并选择HH极化方式的SAR影像作为训练影像;
1b、对训练影像进行裁剪,留下冰山与浮冰富集区域;
第二步、分别针对训练影像和待分类影像进行数据预处理,主要有以下几步完成:
2a、首先进行影像的精细分割,影像分割的依据为影像的像元值差,像元值相近且相邻的像素被聚集为同一个对象,像元值相差较大的像素则被分割到不同的对象中;
2b、然后进行对象的阈值分类,设定对象的亮度阈值,亮度大于或等于该阈值的对象为海冰对象,亮度小于该阈值的对象为对象,将海水对象分类为背景;
2c、接着进行同类对象融合,将相邻的海冰对象融合在一起,从而将相邻的海冰对象融合为独立的对象;
第三步、特征提取,选取六个样本特征,分别为:像元数量、像元标准差、复杂度、Opm/Bpm、ConSm和ConRaSd;对预处理后的训练影像和待分类影像中的独立对象分别提取这六个样本特征;
第四步、训练样本选取:从分割后的训练影像中点选冰山与类冰山样本;
第五步、数据标准化:对训练样本与待分类样本都进行Min-max数据标准化;
第七步、基于所述六个样本特征,利用训练样本对随机森林模型进行训练,使用训练完毕后的模型对所有待分类的疑似冰山样本进行分类,并将分类结果中的冰山样本一一对应投影回待分类影像上,最终得到的即为待分类影像的冰山识别结果。
2.根据权利要求1所述的基于随机森林的冰山遥感识别方法,其特征在于:第三步中所使用的六个特征的计算式如下:
(1)像元数量N:即样本所拥有的像素数量;
(2)复杂度C:
C=P2/N
其中P为样本周长,以样本周边像元数量计算,N为样本像元个数;
(3)像元标准差OSd:
其中N为样本像元个数,vi为样本中第i个像元的像元值,μ为样本像元均值;
(4)Opm/Bpm:
其中OMe为样本像元均值,BSd为背景像元标准差,BMe为背景像元均值,背景区域为样本最小外接矩形中除样本以外的部分;
(5)ConSm:
其中N0是样本像元数量,G0样本像元梯度之和,Nb背景区域像元数量,Gb背景区域像元梯度值,背景区域为样本最小外接矩形中除样本以外的部分,梯度值由Zevenbergen-Thorne方法计算,单位为度;
(6)ConRaSd:
ConRaSd=OSd/BSd
其中BSd为背景区域标准差,背景区域为样本最小外接矩形中除样本以外的部分。
3.根据权利要求1所述的基于随机森林的冰山遥感识别方法,其特征在于:第六步中,Min-Max数据标准化的公式为:
其中x为原始数值,max为数据集最大值,min为数据集最小值,X为转换后的值。
4.根据权利要求1所述的基于随机森林的冰山遥感识别方法,其特征在于:第一步中,所述SAR影像为Sentinel-1A的EW GRD一级SAR影像。
5.根据权利要求1所述的基于随机森林的冰山遥感识别方法,其特征在于:第二步的2a中,精细分割的分割尺度设置为50。
6.根据权利要求1所述的基于随机森林的冰山遥感识别方法,其特征在于:第二步的2b中,亮度阈值取33000。

说明书全文

一种基于随机森林山遥感识别方法

技术领域

[0001] 本发明涉及一种基于随机森林的冰山遥感识别方法,属于遥感应用技术领域。技术背景
[0002] 冰山是海洋环境的重要组成部分,其变化对于海洋环境的检测与海上航行险的预警都有着重要的意义。早期冰山的监测只能通过人工实地调查得到,上世纪90年代,因为SAR数据具有的全天候、全天时以及相对较高空间分辨率等优点,开始被学者们用于冰山的监测中。但在实际情况下由于气温、风速等自然因素的影响,使得冰山与海面浮冰在SAR影像上表现得极为相似,导致很多情况下我们很难通过一两个简单特征就将二者区分开来。而近年来随着机器学习算法在遥感图像领域的大放异彩,这类同时考虑多种特征的方法能有效地对冰山与海面浮冰进行区分,故而一套高效的利用机器学习算法进行冰山识别的流程方法的提出将意义重大。
[0003] 机器学习算法选择、数据标准化方法选择以及特征选择是这一流程方法的三大问题。随机森林作为一种以决策树为基学习器构成Bagging集成的集成学习方法,利用随机选择特征和样本集的决策树作为弱学习器,采用所有决策树投票的方式得到最后的分类结果。随机森林不仅容易实现、计算开销小,并且在很多现实任务中展现出了强大的性能,是当前的热算法之一。通过对比实验,对于冰山识别来说,随机森林方法能在相对较高精度的同时保持相对较好的鲁棒性,是这一问题的首选机器学习方法。同时搭配上Min-Max数据标准化方法以及提及的六个特征将使得这一机器学习算法在冰山识别领域表现出最佳性能。

发明内容

[0004] 本发明要解决的技术问题是:提供一种基于SAR影像的快速、高精度的冰山识别方法。
[0005] 为了解决上述技术问题,本发明提出的技术方案是:基于随机森林的冰山遥感识别方法,包括以下步骤:
[0006] 第一步、准备训练数据和待分类数据,具体包括如下几个方面的内容:
[0007] 1a、下载与待分类数据同一时期内的SAR影像,并选择HH极化方式的SAR 影像作为训练影像;
[0008] 1b、对训练影像进行裁剪,留下冰山与浮冰富集区域;
[0009] 第二步、分别针对训练影像和待分类影像进行数据预处理,主要有以下几步完成:
[0010] 2a、首先进行影像的精细分割,影像分割的依据为影像的像元值差,像元值相近且相邻的像素被聚集为同一个对象,像元值相差较大的像素则被分割到不同的对象中;
[0011] 2b、然后进行对象的阈值分类,设定对象的亮度阈值,亮度大于或等于该阈值的对象为海冰对象,亮度小于该阈值的对象为对象,将海水对象分类为背景;
[0012] 2c、接着进行同类对象融合,将相邻的海冰对象融合在一起,从而将相邻的海冰对象融合为独立的对象;
[0013] 第三步、特征提取,选取六个样本特征,分别为:像元数量、像元标准差、复杂度、Opm/Bpm、ConSm和ConRaSd;对预处理后的训练影像和待分类影像中的独立对象分别提取这六个样本特征;
[0014] 第四步、训练样本选取、从分割后的训练影像中点选冰山与类冰山样本,然后提取点选中的冰山与类冰山样本的六个样本特征;
[0015] 第五步、数据标准化:对训练样本与待分类样本都进行Min-max数据标准化;
[0016] 第七步、基于所述六个样本特征,利用训练样本对随机森林模型进行训练,使用训练完毕后的模型对所有待分类的疑似冰山样本进行分类,并将分类结果中的冰山样本一一对应投影回待分类影像上,最终得到的即为待分类影像的冰山识别结果。
[0017] 本发明数据源是Sentinel-1A SAR影像数据,数据获取相对简单;样本提取与导出、模型的训练与使用都在matlab中由代码完成,可以在保证精度的情况下进行大量样本数据的快速处理,应用范围宽广;整个方法流程人工参与较少,实现了在识别精度提高的同时识别速度也有一定幅度的提高。
[0018] 综上所述,本发明方法的执行步骤简单易行,识别效果较好。目前使用机器学习方法来进行冰山识别的相关资料较少,传统的基于SAR影像的识别通常只根据一两个阈值来对冰山与海面浮冰进行区分,存在精度不够以及工作量太大等问题。本发明引进机器学习方法来进行分类,在大量比较实验的基础上,得到一种基于随机森林算法的最优冰山识别流程方法,实现了高精度、高效率的冰山识别,对于极地海洋环境变化的监测以及北极航道的开发具有重大意义。附图说明
[0019] 下面结合附图对本发明作进一步的说明。
[0020] 图1是基于随机森林的冰山遥感识别方法流程图
[0021] 图2为所采集示例影像区域图。
[0022] 图3为影像精细分割局部示例图。
[0023] 图4为影像阈值分类局部示例图。
[0024] 图5为同类对象融合局部示例图。
[0025] 图6为专家训练样本点选示例图。
[0026] 图7为待分类影像冰山识别结果局部图。

具体实施方式

[0027] 下面根据附图详细阐述本发明,使本发明的技术路线和操作步骤更加清晰。本发明实例采用的影像数据是Sent inel-1A卫星经过几何校正等处理后的EW GRD(超宽幅模式)一级影像,采用HH极化方式。示例数据获取时间为2017年 9月30日,影像中心地理坐标为N75°,W17°,位于格陵兰岛东岸。
[0028] 图1为基于随机森林的冰山遥感识别方法流程图,具体步骤如下:
[0029] 第一步、准备训练数据和待分类数据,具体包括如下几个方面的内容:
[0030] 1a、下载与待分类数据同一时期内的Sentinel-1A的EW GRD(超宽幅模式) 一级SAR影像用作示例训练数据(2017年9月30日),并选择HH极化方式的 SAR影像作为训练影像,影像中心地理坐标为N75°,W17°,位于格陵兰岛东岸,具体影像区域如图2所示。
[0031] 1b、对训练影像数据进行裁剪,留下冰山与浮冰富集区域,以降低计算量,同时减小后期阈值分割时噪声的影响。
[0032] 第二步、分别针对训练影像和待分类影像进行数据预处理:影像分割与背景元素剔除,影像分割与背景元素剔除的实现在matlab中由代码完成,主要有以下几步:
[0033] 2a、首先进行影像的精细分割。影像依据像元值差来进行分割,像元值相近且相邻的像素被聚集为同一个对象,像元值相差较大的像素则被分割到不同的对象中。为了保证样本边界的足够准确,应当将影像分割地足够细致,考虑到影像分割得越细致,得到的样本边界也越细致这一点,应当将影像分割得尽可能精细,分割尺度的设置应当在考虑计算量的情况下尽可能小。因此本示例中分割尺度设置为50,样本形状与紧凑度这两大特征的权重设为相等,分割结果如图3所示。
[0034] 2b、然后进行影像阈值分类。这一步是为了通过设定阈值将影像上暗的海水与海冰区分开来,以达到去除易区分的背景元素的目的。具体来说,设定对象的亮度阈值,亮度大于或等于该阈值的对象为海冰对象,亮度小于该阈值的对象为海水对象,将海水对象分类为背景。经过反复试验,发现将像元值33000 以下的归类为海水,33000以上归类为海冰效果最好,分类结果如图4所示,图中左侧黑色部分被分类为海水,右侧较亮的大陆与冰山被分类为海冰。
[0035] 2c、接着进行同类对象融合。这一步将上述位置相邻的同类对象融合在一,从而将海冰对象融合为独立的对象。结果如图5所示,白色方框中所示为分割出的独立对象。
[0036] 第三步、特征提取:包括样本特征的选取和对应特征的提取两个步骤。样本特征的选取对于分类精度来说至关重要,本方法中使用的特征是在前人经验的基础上进行大量实验得到的最优特征组合,共有六个特征,其中有三个简单特征,像元数量、复杂度、像元标准差,以及三个较复杂特征,Opm/Bpm、ConSm 和ConRaSd,各特征具体计算式如下:
[0037] (1)像元数量N:即样本所拥有的像素数量。
[0038] (2)复杂度C:
[0039] C=P2/N
[0040] 其中P为样本周长,以样本周边像元数量计算,N为样本像元个数。
[0041] (3)像元标准差OSd:
[0042]
[0043] 其中N为样本像元个数,vi为样本中第i个像元的像元值,μ为样本像元均值。
[0044] (4)Opm/Bpm:
[0045]
[0046] 其中OMe为样本像元均值,BSd为背景像元标准差,BMe为背景像元均值,背景区域为样本最小外接矩形中除样本以外的部分。
[0047] (5)ConSm:
[0048]
[0049] 其中N0是样本像元数量,G0样本像元梯度之和,Nb背景区域像元数量,Gb背景区域像元梯度值,背景区域为样本最小外接矩形中除样本以外的部分,梯度值由Zevenbergen-Thorne方法计算,单位为度。
[0050] (6)ConRaSd:
[0051] ConRaSd=OSd/BSd
[0052] 其中BSd为背景区域标准差,背景区域为样本最小外接矩形中除样本以外的部分。
[0053] 选定这六个样本特征后,对预处理后的训练影像和待分类影像中的独立对象分别提取这六个样本特征。
[0054] 第四步、训练样本提取,从分割后的训练影像中点选冰山与类冰山样本。训练样本的准确与否决定了模型的好坏。为了提高训练样本的准确性,本实施例中,训练样本的选取由三位专家在不同环境下手动从分割后的影像中点选冰山与类冰山样本,对分割后的影像进行多次解译,直至各自选择的结果偏差不超过3%,最后的结果由三位专家挑选结果整合而成,图6展示了冰山与类冰山样本挑选示例,上方白色亮框中为冰山样本,下方白色亮框中为类冰山样本,本次例中冰山样本475个,类冰山样本494个,正负样本比例大致为1:1。
[0055] 第五步、数据标准化。大量实验发现,随机森林在使用上述特征的情况下搭配Min-max数据标准化方法将展现出最好的分类性能,故而此步骤对训练样本与待分类样本都进行Min-max数据标准化。
[0056] 第七步、模型训练并利用训练后模型分类。基于所述六个样本特征,利用训练样本对随机森林模型进行训练,使用训练完毕后的模型对所有待分类的疑似冰山样本进行分类,并将分类结果中的冰山样本一一对应投影到待分类影像上,最终得到的即为待分类影像的冰山识别结果。随机森林模型的构建使用 matlab中的TreeBagger函数,决策树数量定为300棵,每棵树6个特征可供选择。待分类影像的冰山识别结果如图7所示,图中亮色区域即为被识别出的冰山,白色方框中为冰山放大图。
[0057] 除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈