首页 / 专利库 / 人工智能 / 机器学习 / 深度学习 / 一种基于深度学习的遥感影像自动标注方法

一种基于深度学习的遥感影像自动标注方法

阅读:261发布:2023-11-30

专利汇可以提供一种基于深度学习的遥感影像自动标注方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 深度学习 的遥感影像自动标注方法,该遥感影像自动标注方法首先提取待标注遥感影像的视觉 特征向量 ,然后以视觉特征向量为DBM模型的输入对待标注遥感影像进行自动标注,该方法中实用的DBM模型由下自上依次包括可见层、第一隐层、第二隐层和标签层,该模型通过训练得到。本发明的遥感影像自动标注方法中所使用的深度 玻尔兹曼机 模型中包括两个隐层(分别为第一隐层和第二隐层),通过设置两个隐层有效填补图像语义标注过程中的“语义鸿沟”问题,提高整体的标注准确率。,下面是一种基于深度学习的遥感影像自动标注方法专利的具体信息内容。

1.一种基于深度学习的遥感影像自动标注方法,其特征在于,包括:
(1)提取待标注遥感影像的底层特征向量构建得到相应遥感影像的视觉特征向量;
(2)将所述的视觉特征向量输入训练好的深度玻尔兹曼机模型进行自动标注;
所述步骤(2)中训练好的深度玻尔兹曼机模型通过以下步骤得到:
(S1)创建包含若干个文本标签的标签词典;
(S2)根据标签词典选择相应类别的已标注有文本标签遥感影像作为模型训练数据集;
(S3)提取各张遥感影像的底层特征向量构建得到相应遥感影像的视觉特征向量,并根据标签词典和文本标签确定各个遥感影像的文本特征向量;
(S4)构建深度玻尔兹曼机模型,所述的深度玻尔兹曼机模型从下至上依次包括可见层、第一隐层、第二隐层和标签层,各层中的任意两个节点无连接,相邻层之间的任意两个节点之双向连接;
(S5)利用模型训练数据集中所有遥感影像的视觉特征向量和文本特征向量对所述的深度玻尔兹曼机模型进行训练,得到训练好的深度玻尔兹曼机模型。
2.如权利要求1所述的基于深度学习的遥感影像自动标注方法,其特征在于,所述的第二隐层与标签层构成的连接网络为单向BP神经网络。
3.如权利要求2所述的基于深度学习的遥感影像自动标注方法,其特征在于,所述步骤(S5)中的深度玻尔兹曼机模型的训练过程如下:
(S51)以视觉特征向量作为可见层,以文本特征向量作为标签层;
(S52)将可见层和第一隐层作为受限玻尔兹曼机,以视觉特征向量作为可见层的输入,使用对比散度算法来对该玻尔兹曼机进行训练得到可见层和第一隐层之间的连接权重以及第一隐层的最终状态;
(S53)将第一隐层和第二隐层作为受限玻尔兹曼机,以第一隐层的最终状态作为第一隐层的输入,使用对比散度算法来对该玻尔兹曼机进行训练得到第一隐层和第二隐层之间的连接权重和第二第隐层的最终状态;
(S54)将第二隐层和标签层作为受限玻尔兹曼机,以第二隐层的最终状态作为第二隐层的输入,以文本特征向量作为标签层的输入,采用BP神经网络方法训练得到第二隐层和标签层的连接权重,即完成深度玻尔兹曼机模型的训练。
4.如权利要求3所述的基于深度学习的遥感影像自动标注方法,其特征在于,所述可见层的节点个数与视觉特征向量的维数相同。
5.如权利要求4所述的基于深度学习的遥感影像自动标注方法,其特征在于,所述标签层的节点个数与文本特征向量的维数相同。
6.如权利要求5所述的基于深度学习的遥感影像自动标注方法,其特征在于,所述文本特征向量的维数与标签词典中文本标签的个数相同。
7.如权利要求1~6中任一权利要求所述的基于深度学习的遥感影像自动标注方法,其特征在于,所述的底层特征向量包括平均光谱反射率特征向量、颜色布局描述向量、颜色结构描述向量、可伸缩颜色描述向量、同质纹理描述向量、边缘直方图描述向量、GIST特征向量和基于SIFT特征的视觉词袋向量。
8.如权利要求7所述的基于深度学习的遥感影像自动标注方法,其特征在于,所述的平均光谱反射率特征向量包括四种波长的光谱平均反射率,所述的四种波长分别为
0.44~0.51微米、0.53~0.62微米、0.63~0.70微米和0.74~0.80微米。
9.如权利要求8所述的基于深度学习的遥感影像自动标注方法,其特征在于,基于SIFT特征的视觉词袋向量通过以下步骤得到:
(a)计算得到所述模型训练数据集中所有遥感影像的SIFT特征向量;
(b)对所有的SIFT特征向量进行聚类得到500~1000个聚类中心;
(c)以各个聚类中心作为视觉单词,统计每张遥感影像的SIFT特征向量中各个视觉单词的出现次数并形成基于SIFT特征的视觉词袋向量。

说明书全文

一种基于深度学习的遥感影像自动标注方法

技术领域

[0001] 本发明涉及遥感影像的智能分类与检索技术,特别涉及一种基于深度学习的遥感影像自动标注方法。

背景技术

[0002] 遥感影像是空间信息的重要数据之一,广泛用于地质与洪涝灾害监测、农业与森林资源调查、土地利用与城市规划和军事领域。随着我国空间科学和对地观测技术的发展,遥感影像数据的数据年呈现指数增长的趋势,对海量遥感影像数据的有效管理变得日益重要。
[0003] 遥感影像标注是遥感影像分析和理解的重要内容之一,它是通过提取遥感影像的底层视觉特征,通过一些机器学习模型来学习这些底层视觉特征与高层语义之间的联系来,从而实现将一些语义标签自动标注给遥感影像,例如,通过遥感影像自动标注过程,可以自动地标注出海量遥感影像中居民区、农田、商业区、沙漠、森林等等。遥感影像的自动标注是对遥感影像语义的理解,也是对海量遥感影像进行类别编目和检索的重要技术基础
[0004] 对遥感影像的自动标注工作可以看做是对遥感影像的广义的自动分类工作,即在对遥感影像进行自动标注工作之前,需要先确定需要标注的遥感影像所对应的类别标签(即文本标签)有哪些,然后将不同的遥感影像与不同的类别标签对应联系起来。
[0005] 对传统图像的标注工作主要有3类方法:基于对象本体的方法、基于机器学习的方法和基于相关反馈的方法。传统图像的标注工作多是通过图像的低级视觉特征来分析理解图像的视觉内容,但是这种方法大多存在一个问题:“语义鸿沟”。“语义鸿沟”是指并不能仅仅通过图像的底层视觉特征来推理出图像的高层语义,在图像的底层视觉特征与图像的高层语义之间没有合适的抽象做桥梁,从而标注的效果并不理想。
[0006] 为了克服“语义鸿沟”的问题,人们慢慢发展了一些方法来将图像的底层视觉特征映射到图像的高层语义,其中典型的方法包括概率潜在语义分析(Probabilistic Latent Semantic Analysis,pLSA)模型、潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型和作者主题(Author Topic Model,ATM)模型等等,但是这些方法多数只是考虑图像的颜色纹理特性,而没有考虑遥感影像的光谱特性。光谱特性是遥感影像的重要特征,也是遥感影像不同于普通图像数据的一个重要特性,对于不同的地物特征,对不同波长的光谱,吸收特性和反射特性会有很大差别,因此遥感影像的光谱特性对不同的地物特征具有很强的辨识能

发明内容

[0007] 针对现有技术中的不足,本发明提供了一种能够克服图像语义标注的“语义鸿沟”问题,实现较高精度的语义标注的基于深度学习的遥感影像自动标注方法。
[0008] 一种基于深度学习的遥感影像自动标注方法,包括:
[0009] (1)提取待标注遥感影像的底层特征向量构建得到相应遥感影像的视觉特征向量;
[0010] (2)将所述的视觉特征向量输入训练好的深度玻尔兹曼机模型进行自动标注;
[0011] 所述步骤(2)中训练好的深度玻尔兹曼机模型通过以下步骤得到:
[0012] (S1)创建包含若干个文本标签的标签词典;
[0013] (S2)根据标签词典选择相应类别的已标注有文本标签遥感影像作为模型训练数据集;
[0014] (S3)提取各张遥感影像的底层特征向量构建得到相应遥感影像的视觉特征向量,并根据标签词典和文本标签确定各个遥感影像的文本特征向量;
[0015] (S4)构建深度玻尔兹曼机模型,所述的深度玻尔兹曼机模型从下至上依次包括可见层、第一隐层、第二隐层和标签层;各层中的任意两个节点无连接,相邻层之间的任意两个节点之双向连接;
[0016] (S5)利用模型训练数据集中的所有遥感影像的视觉特征向量和文本特征向量对所述的深度玻尔兹曼机模型进行训练,得到训练好的深度玻尔兹曼机模型。
[0017] 本发明的基于深度学习的遥感影像自动标注方法中首先提取待标注的遥感影像的底层特征并根据所有的底层特征构建得到遥感影像的视觉特征向量,然后直接将视觉特征向量作为深度玻尔兹曼机模型的可见层的输入,将此时深度玻尔兹曼机模型(DBM模型,Deep Boltzmann Machine模型)的标签层的输出作为文本特征向量,然后采用与文本特征向量对应的文本标签对待标注遥感影像进行自动标注。
[0018] DBM模型中,高层语义(标签层)是由底层特征(可见层的输入)抽象得到,由于底层特征不能很好地过渡到高层语义,因此会产生“语义鸿沟”。理论上隐层的层数越多,语义鸿沟越小,但是考虑到遥感数据的数据量大,若设置隐层的层数过多,会到时训练速率很慢,因此作为优选,本发明所使用的深度玻尔兹曼机模型中包括两个隐层(分别为第一隐层和第二隐层),通过设置两个隐层提高了DBM模型的中间的抽象能力,正好可以填补图像语义标注过程中的“语义鸿沟”问题,提高整体的标注准确率。
[0019] 所述步骤(S1)中创建的标签词典中包含的文本标签个数以及种类根据应用需要设定。如果需要标注的遥感影像只分为陆地和域,那么整个标签词典的大小为2,即标签词典中有两个文本标签,分别为陆地和水域。在实际应用中,标签词典的大小会比2大得多,根据实际应用来确定,多是情况下,标签词典中会有“居民区”、“河流”、“高速公路”、“森林”、“沙漠”等等文本标签。
[0020] 一个文本标签即表示一个类别,所述步骤(S2)中的模型训练数据集中遥感影像的文本标签一般涵盖有标签词典中所有文本标签,理论上还可以有标签词典中没有的文本标签。
[0021] 所述步骤(S3)中的文本特征向量为一个0-1向量(即向量中所有元素只能为0或者1),所述的文本特征向量根据以下步骤确定各个遥感影像的文本特征向量:
[0022] (S31)初始化一个全零向量,使每一维对应一个文本标签;
[0023] (S32)根据遥感影像的文本标签,将对应维数的元素赋值为1,即得到该遥感影像的文本特征向量。
[0024] 所述步骤(S4)构建的深度玻尔兹曼机模型,各层中的任意两个节点无连接,相邻层之间的任意两个节点之双向连接。
[0025] 所述的第二隐层与标签层构成的连接网络为单向BP(Back Propagation)神经网络。
[0026] 采用BP神经网络是因为可以用来反馈调节,这个是BP神经网络的特性,BP神经网络是一个前馈调节网络,它会根据当前训练的结果和实际结果进行对比,然后根据误差进行适当的前馈调节来修正模型的参数,使用BP神经网络其实就是实现了一个带前馈的有监督的学习模型。
[0027] 所述步骤(S5)中的深度玻尔兹曼机模型的训练过程如下:
[0028] (S51)以视觉特征向量作为可见层,以文本特征向量作为标签层;
[0029] (S52)将可见层和第一隐层作为受限玻尔兹曼机,以视觉特征向量作为可见层的输入,使用对比散度算法来对该玻尔兹曼机进行训练得到可见层和第一隐层之间的连接权重以及第一隐层的最终状态;
[0030] (S53)将第一隐层和第二隐层作为受限玻尔兹曼机,以第一隐层的最终状态作为第一隐层的输入,使用对比散度算法来对该玻尔兹曼机进行训练得到第一隐层和第二隐层之间的连接权重和第二第隐层的最终状态;
[0031] (S54)以第二隐层的最终状态作为第二隐层的输入,以文本特征向量作为标签层的输入,采用BP神经网络方法训练得到第二隐层和标签层的连接权重,即完成深度玻尔兹曼机模型的训练。
[0032] 训练过程取决于步骤(S4)构建的深度玻尔兹曼机模型的结构,训练时以视觉特征向量为可见层的输入,模型训练数据集中每一张遥感影像的视觉特征向量即认为是一次训练,通过大量训练,在训练过程中不断调整相邻两层的连接系数,最终得到每一组的最佳连接权重,进而得到训练好的深度玻尔兹曼机模型。
[0033] 所述可见层的节点个数与视觉特征向量的维数相同。
[0034] 在识别和训练过程中,均以视觉特征向量作为可见层的输入,因此可见层的各个节点必须与视觉特征向量中每一维的元素相互对应,则可见层的节点个数与视觉特征向量的维数相同。
[0035] 所述标签层的节点个数与文本特征向量的维数相同。
[0036] 所述文本特征向量的维数与标签词典中文本标签的个数相同。
[0037] 根据标签层的输出得到文本特征向量,然后用与文本特征向量对应的文本标签对待标注遥感影像进行标注。且在训练过程中以各个遥感影像的文本标签作为标签层的输入,为保证能够顺利进行,标签层的节点个数与文本特征向量的维数相同。
[0038] 进一步根据文本特征向量确定方法可以知道,文本特征向量中每个元素对应标签词典中的一个文本标签,即说明文本特征向量的维数与标签词典中的文本标签个数相同。
[0039] 所述第一隐层和第二隐层中的节点个数根据经验值设定,通常为500~1500,在实际应用过程中可以根据实验效果进行调整。
[0040] 所述的底层特征向量包括平均光谱反射率特征向量、颜色布局描述向量、颜色结构描述向量、可伸缩颜色描述向量、同质纹理描述向量、边缘直方图描述向量、GIST特征向量和基于SIFT(Scale-invariant feature transform)特征的视觉词袋向量。
[0041] 一张遥感影像具有一系列底层特征向量,现有的遥感影像识别或标注方法中多采用一种底层特征向量。本发明为增大深度玻尔兹曼机模型的辨识度,提高标注的准确率,本发明的底层特征向量同时包括了颜色布局描述向量、颜色结构描述向量、可伸缩颜色描述向量、同质纹理描述向量、边缘直方图描述向量、GIST特征向量和基于SIFT特征的视觉词袋向量等纹理特征向量,还引入了光谱特性(平均光谱反射率特征向量)。提取得到底层特征向量后直接按照书按需将各个底层特征向量拼接得到视觉特征向量,视觉特征向量的维数为所有底层特征向量的维数的和。
[0042] 作为优选,所述的平均光谱反射率特征向量包括四种波长的光谱平均反射率,所述的四种波长分别为0.44~0.51微米、0.53~0.62微米、0.63~0.70微米和0.74~0.80微米。这四种波长具有较强的区分能力。
[0043] 基于SIFT特征的视觉词袋向量通过以下步骤得到:
[0044] (a)计算得到所述模型训练数据集中所有遥感影像的SIFT特征向量;
[0045] (b)对所有的SIFT特征向量进行聚类得到500~1000个聚类中心(SIFT特征向量);
[0046] (c)以各个聚类中心作为视觉单词,统计每张遥感影像的SIFT特征向量中各个视觉单词的出现次数并形成基于SIFT特征的视觉词袋向量。
[0047] 一张遥感影像一般具有多个SIFT特征向量,遥感影像对应的SIFT特征向量的个数取决于遥感影像的大小以及包含的内容,遥感影像越大,包含的内容越多,则对应的SIFT特征向量越多。通常一张遥感影像包括500~2000个SIFT特征向量。视觉单词是针对整个模型训练数据集而言的,通过聚类得到。聚类时以整个模型训练数据集中所有遥感影像的SIFT特征向量为对象,聚类得到聚类中心,所谓的聚类中心实际上可认为是对同一类SIFT特征向量的求平得均到的向量,因此视觉单词也是一个向量,同一类SIFT特征向量采用相同的视觉单词表示。每张遥感影像的视觉词袋向量维数与视觉单词个数相同,视觉词袋向量中的每个元素分别表示该遥感影像中不同视觉单词出现的次数。
[0048] 聚类中心的个数可根据需要设定,一般与模型训练数据集中所有遥感影像的SIFT特征向量个数相当。作为优选,本发明中聚类中心的个数为500~1000。
[0049] 根据深度玻尔兹曼机模型的特点,所述步骤(2)的具体过程如下:
[0050] 将所述的视觉特征向量输入训练好的深度玻尔兹曼机模型的可见层,根据深度玻尔兹曼机模型的标签层的输出,确定待标注遥感图像的文本特征向量,然后用该文本特征向量对应的文本标签标注待标注遥感图像。
[0051] 由于深度玻尔兹曼机模型是从可见层开始,按照相邻层之间的连接权重逐层计算得到顶层(标签层)的各个节点的值(所有节点值即为文本特征向量),某些情况下标签层计算得到的文本特征向量可能出现不为零也不为1的元素,因此,需要对标签层计算得到的文本特征向量进行归一化处理,然后根据归一化处理结果,将令取值最大的元素为1,其余全部为零,最终才得到待标注图形的文本特征向量。
[0052] 本发明的基于深度学习的遥感影像自动标注方法中使用带两个隐层的DBM模型,可见层是对应遥感影像的底层特征向量,最上层是遥感影像的文本标签,这样DBM中间的两个隐层正好可以填补图像语义标注过程中的“语义鸿沟”问题,使得整体的标注准确率提高。且在对遥感影像底层特征进行描述时除了使用颜色纹理特性,同时引入了光谱特性(不同波长的光谱的平均反射率),这样可以大大增加遥感影像标注时对不同地物对象的辨识度。

具体实施方式

[0053] 下面结合具体实施例对本发明作进一步的详细说明。
[0054] 一种基于深度学习的遥感影像自动标注方法,包括:
[0055] (1)提取待标注遥感影像的底层特征向量构建得到相应遥感影像的视觉特征向量;
[0056] 本实施中底层特征向量包括平均光谱反射率特征向量、颜色布局描述向量、颜色结构描述向量、可伸缩颜色描述向量、同质纹理描述向量、边缘直方图描述向量、GIST特征向量和基于SIFT特征的视觉词袋向量。
[0057] 平均光谱反射率特征向量可以直接从遥感影像数据中取得,遥感影像数据与普通图像不同,在卫星拍摄遥感影像的时候就已经采集了光谱信息。
[0058] 本实施例中平均光谱反射率的特征向量有4维,包括四种波长的光谱平均反射率,四种波长分别为0.44~0.51微米、0.53~0.62微米、0.63~0.70微米和0.74~0.80微米,得到的颜色布局描述向量为192维,颜色结构描述向量为256维,可伸缩颜色描述向量为256维,可伸缩颜色描述向量为43维,边缘直方图描述向量为150维,GIST特征向量为960维,基于SIFT特征的视觉词袋向量为1000维,所有的底层特征向量拼接即得到待标注遥感影像的视觉特征向量,该特征视觉特征向量为2861维。
[0059] 基于SIFT特征的视觉词袋向量通过以下步骤提取得到:
[0060] (a)计算得到所述模型训练数据集中所有遥感影像的SIFT特征向量;
[0061] (b)对所有的SIFT特征向量进行聚类得到1000个聚类中心;
[0062] (c)以各个聚类中心作为视觉单词,统计每张遥感影像的SIFT特征向量中各个视觉单词的出现次数并形成相应遥感影像的基于SIFT特征的视觉词袋向量,视觉词袋向量的维数等于1000(等于聚类中心的个数),视觉词袋向量中各个元素分别为相应遥感影像的所有SIFT特征向量中不同视觉单词出现的次数。
[0063] (2)将待标注遥感影像的视觉特征向量输入训练好的深度玻尔兹曼机模型进行自动标注。
[0064] 本实施例中步骤(2)中所使用的训练好的深度玻尔兹曼机模型通过以下步骤得到:
[0065] (S1)创建包含若干个文本标签的标签词典;
[0066] 步骤(S1)中创建的标签词典中包含的文本标签个数以及种类根据应用需要设定。如果需要标注的遥感影像只分为陆地和水域,那么整个标签词典的大小为2,即标签词典中有两个文本标签,分别为陆地和水域。在实际应用中,标签词典的大小会比2大得多,根据实际应用来确定,多是情况下,标签词典中会有“居民区”、“河流”、“高速公路”、“森林”、“沙漠”等等文本标签。本实施例中标签词典中含有21个文本标签。
[0067] (S2)根据标签词典选择相应类别的已经标注有文本标签的遥感影像作为模型训练数据集,该模型训练数据集中遥感影像的文本标签包括标签词典中所有文本标签,且只包括签词典中所有文本标签。
[0068] (S3)提取各张遥感影像的底层特征向量构建得到相应遥感影像的视觉特征向量,并根据标签词典和文本标签确定各个遥感影像的文本特征向量;
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈