首页 / 专利库 / 人工智能 / 机器学习 / 半监督学习 / 基于特征选择和半监督学习的遥感图像检索方法

基于特征选择和半监督学习的遥感图像检索方法

阅读:612发布:2020-10-28

专利汇可以提供基于特征选择和半监督学习的遥感图像检索方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于特征选择和半 监督学习 的遥感图像检索方法,首先根据最小描述长度准则和改进的Davies-Bouldin指数,利用聚类方法分别选出最优的 颜色 特征和纹理特征;然后根据最优的颜色特征和纹理特征的二值化权重选择合适的 半监督学习 方法进行遥感图像的检索。相比较现有的遥感图像检索方法,本发明不仅可以大大提高检索 质量 ,还能有效减少检索过程中计算量,提高检索的速度。,下面是基于特征选择和半监督学习的遥感图像检索方法专利的具体信息内容。

1.一种基于特征选择和半监督学习的遥感图像检索方法,首先选择待检索图像的特征,然后根据选择出的特征构造相应的分类器进行检索,其特征在于:所述选择待检索图像的特征是指:根据最小描述长度准则和改进的Davies-Bouldin指数,通过聚类分析的方法选择待检索图像的最优颜色特征和最优纹理特征;具体通过以下各步骤实现:
步骤1)将待检索图像进行分
步骤2)分别提取待检索图像的各个颜色特征和纹理特征;
步骤3)根据最小描述长度准则确定聚类数目k,具体按照如下各步骤:
步骤31)根据最远距离准则初始化m个聚类中心;
步骤32)任意设定某一聚类中心Cj,根据下述公式计算 表示假设将Cj移除时,移除前后编码长度的总变化量:
其中,L0表示聚类簇中心的编码长度:
nq表示第q簇聚类样本的数目;njq表示满足最近邻参考点为第j个聚类中心而第二近邻参考点为第q个聚类中心的样本数目,d表示特征的维数,x是簇Cj中的样本成员,xi是第i个特征的数值;ciq表示第q个聚类中心的第i维的值,cij表示第j个聚类中心的第i维的值;|I|表示总的样本数目;pj表示第Cj簇聚类样本在总体样本中所占的比重;σ是样本数据的方差,取值范围是[0.1,0.2];
步骤33)判断步骤33中得到的 是否小于0,如是,则移除聚类中心Cj;如否,则保留聚类中心Cj;
步骤34)迭代执行步骤32-步骤33,直到没有冗余的聚类中心,此时保留下来的聚类中心数目即为需确定的聚类数目k;
步骤4)根据步骤3确定的聚类数目k利用K-means聚类方法分别对步骤2中提取的每个特征进行聚类;
步骤5)按照如下公式分别计算步骤4中得到的每个特征的改进的Davies-Bouldin指数,并分别选出颜色特征中改进的Davies-Bouldin指数最小的颜色特征和纹理特征中改进的Davies-Bouldin指数最小的纹理特征,作为最优颜色特征和最优纹理特征:
其中,D(·)是一个距离算子,对于颜色特征,D(·)表示直方图交距离;而对于纹理特征,D(·)表示欧式距离;t是目标子类的簇编号;St是目标子类t中所有样本到聚类中心的平均距离;|Ct|是目标子类t中的样本数目;pt是目标子类t的聚类中心;k表示总的聚类数目;pi表示非目标子类的聚类中心;DBc表示颜色特征的改进的Davies-Bouldin指数;
DBt表示纹理特征的改进的Davies-Bouldin指数。
2.如权利要求1所述基于特征选择和半监督学习的遥感图像检索方法,其特征在于:
所述根据选择出的特征构造相应的分类器进行检索是指:根据最优颜色特征和最优纹理特征的权重选择合适的半监督学习方法,并利用选取的半监督学习方法进行图像检索;具体由以下步骤实现:
步骤6)根据改进的Davies-Bouldin指数分别计算最优颜色特征和最优纹理特征的二值化权重,具体方法如下:
对于颜色特征,当所选最优特征改进的Davies-Bouldin指数的倒数小于预先设定的阈值T1时,说明目标子类与非目标子类在颜色空间中的区别不是很明显,此时颜色特征的权重设为0,否则为1;对于纹理特征,当所选最优特征改进的Davies-Bouldin指数的倒数小于预先设定的阈值T2时,说明目标子类与非目标子类在纹理特征空间的区别不是很明显,此时纹理特征的权重设为0,否则为1;
步骤7)选取合适的半监督学习方法进行检索,具体为:当最优颜色特征和纹理特征的二值化权重都为1时,选择协同训练方法进行检索;而当最优颜色特征和纹理特征中某一特征的权重为0时,选择自训练方法单独依靠权重为1的特征进行检索。
3.如权利要求2所述基于特征选择和半监督学习的遥感图像检索方法,其特征在于:
步骤6中所述预先设定的阈值T1、T2的值分别取2和3。
4.如权利要求2所述基于特征选择和半监督学习的遥感图像检索方法,其特征在于:
当步骤7中选择自训练方法进行检索时,按照以下公式确定聚类过程中作为迭代终止条件的阈值Th:
其中,D1、D2分别是目标簇和最相邻非目标簇中距离该簇中心最近的前K%的样本中找到的最远的样本与该簇中心之间的距离,K《100;D12是目标簇中心和最相邻非目标簇中心之间的距离。
5.如权利要求4所述基于特征选择和半监督学习的遥感图像检索方法,其特征在于:
所述K取值为95。

说明书全文

基于特征选择和半监督学习的遥感图像检索方法

技术领域

[0001] 本发明涉及图像检索方法,尤其涉及一种遥感图像检索方法。

背景技术

[0002] 随着遥感技术的不断发展,每天获得的遥感图像数量急剧增加,对遥感图像自动查询和检索技术的研究逐渐成为急需研究的课题。目前,国内外学者已经提出了很多方法进行基于内容的遥感图像的检索(CBIR),如基于Gabor变换的纹理特征,颜色特征和纹理特征结合,纹理特征和空间信息融合,直方图特征相似性度量法,以及基于GIS空间语义的方法等。Zhu Bin等提出利用Gabor纹理特征来进行航空图像的检索[Bin Zhu,Marshall R,Hsinchun C.Creating a large-scale content-based airphoto image digital library IEEE Trans onimage processing,2000,vol.9,no.1:163-167.];陆丽珍等提出融合Gabor纹理特征和颜色特征进行遥感图像检索,并采用纹理和颜色特征欧氏距离的线性加权来度量相似性[陆丽珍,刘仁义,刘南.一种融合颜色和纹理特征的遥感图像检索方法,中国图像图形学报(A),2004,9(3):328-332.];曾志明等利用改进的共生矩阵纹理特征来进行大尺度遥感图像检索[曾志明,李峰,傅琨,等.一种大尺寸遥感图像基于内容检索的纹理特征提取算法,武汉大学学报(信息科学版),2005,30(12):1080-1083.]。包倩和郭平针对单波段遥感图像检索,分别研究了基于特征向量的相似性度量和基于概率的相似性度量,2
发现χ 统计距离和相似夹余弦度量对第一种相似性度量较有效,而基于K-近邻法则的计算方法对第二种相似性度量较有效[包倩,郭平.基于直方图的遥感图像相似性检索方法比较,遥感学报,2006,10(6):893-900.]。Ferecatu和Boujemaa提出利用主动相关反馈的方法进行交互式遥感图像检索[Marin Ferecatu,NozhaBoujemaa.Interactive remote sensing image retrieval using active relevance feedback.IEEE Transactionson geoscience and remote sensing,2007,vol.45,no.4:818-826.]。
[0003] CBIR主要是依靠特征提取和高维索引技术进行检索,采用的方法是:系统从每一幅图像中自动提取出若干低层视觉特征(如颜色、纹理、形状等),以高维向量的形式存入数据库,然后比较这些特征的相似度来获得检索结果。上述的现有技术中针对基于内容的遥感图像检索技术的研究主要集中在特征的提取和融合方面,但是都没有注意到这样一个事实:不同类型的检索目标,特征应该是不同的。对于同一幅图像,不同的特征在描述其内容的有效性方面也不一样,因此如果提取最能表示检索目标内容的特征应该可以有效提高检索性能。
[0004] 相关反馈(Relevance feedback)是CBIR中最常用的学习策略,它依靠人机交互过程,用户不断地进行反馈,其性能随着反馈样本集增大而提高,但同时也会大大增加用户的负担。为了减少用户因多次反馈提供大量已标记样本的繁重负担,也有学者提出利用半监督学习策略进行图像检索,该策略主要思想是利用大量的未标记示例来辅助对少量有标记示例的学习,整个学习过程不需人工干预,仅基于学习算法自身对未标记示例进行利用,例如,Yao等提出了一种基于半监督学习的语义错误纠正输出编码的医学图像检索方法(SEMI-SECC)[Jian Yao,Zhongfei Zhang,Antani S,et al.Automatic Medical ImageAnnotation and Retrieval using SEMI-SECC[C].Proceedings of IEEE International Conference onMultimedia and Expo,Piscaaway,NJ,United States:IEEE Press,2006:2005-2008.]。由于在基于内容的遥感图像检索中,通常只有很少的示例样本(有时甚至只有一个目标示例样本),而且要获得更多的已标记示例样本也很困难,因此采用半监督学习进行遥感图像的检索是一个较合理的选择。

发明内容

[0005] 我们知道:不同类型的检索目标,特征是不同的,对于同一个检索目标内容的描述,不同特征的有效性是不一样的,如果能够找出最能表示检索目标内容的特征来进行图像检索,那就可以大大提高检索性能。
[0006] 基于这样的思路,本发明图提供一种结合特征选择的遥感图像检索方法,即针对待检索的图像,选择出最能表示检索目标内容的特征来进行图像检索。
[0007] 本发明利用聚类分析的方法来进行特征选择。
[0008] 众所周知,聚类是一种典型的无监督学习方法,它根据图像内容把图像聚类到某些有意义的集合;在聚类过程中,通常由人工来确定需要预先给定的聚类数目,这不仅增加了用户的负担,而且还可能会引入人为因素对聚类结果的干扰;另外,图像聚类的目的根据一定的准则将图像集分成多个聚类,使得位于同一聚类簇内的图像相似度尽可能大,而位于不同簇的图像相似度尽可能小,因此,为了正确地评价聚类效果,从而客观地进行特征选择,选取合适的聚类有效性指数十分重要。
[0009] 本发明利用最小描述长度(MDL)准则来确定聚类数目并根据Davies-Bouldin指数(以下均简称DB指数)对聚类的有效性进行评价,从而找到最能表示检索目标内容的图像特征。这里所说的最小描述长度准则是现有技术,具体内容可参考文献[Horst B,AlesL,Alexander S.MDL principle for robust vector quantisation.Pattern Analysis&Applications,1999,2:59-72,Springer-Verlag London Limited.];DB指数是衡量聚类效果时常用的一个指数,由类内散布和类间散布的比值表示,比值越小表示聚类效果越好[Davies D.L.,Bouldin D.W..A cluster separation measure.1979.IEEETrans.Pattern Anal.Machine Intell.1(4).224-227]。考虑到遥感图像检索不完全是无监督的,用户最初给定的示例可以当作弱启发信息,图像特征应该有利于该图像子和其他图像块的区别。因此我们对现有的DB指数进行了一定的改进,从而更有利于特征选择,具体如下:只计算用户示例图像子块所在的目标子类的类内散布值,而不包括非目标子类的类内散布值,类间散布值也只包括非目标子类与该目标子类之间的类间散布值,而不包括非目标子类之间的类间散布值,这样不仅可以突出目标子类的重要性以及目标子类与非目标子类之间的区别,而且还可以减少计算量。
[0010] 通过以上的特征选择,选择出最能表示检索目标内容的图像特征后,就可以使用现有的各种方法构造相应的分类器进行图像检索。
[0011] 综合以上分析,本发明按照如下方法进行遥感图像检索:
[0012] 一种基于特征选择和半监督学习的遥感图像检索方法,首先选择待检索图像的特征,然后根据选择出的特征构造相应的分类器进行检索,其特征在于:所述选择待检索图像的特征是指:根据MDL准则和改进的DB指数,通过聚类分析的方法选择待检索图像的最优颜色特征和最优纹理特征;具体通过以下各步骤实现:
[0013] 步骤1)将待检索图像进行分块;
[0014] 步骤2)分别提取待检索图像的各个颜色特征和纹理特征;
[0015] 步骤3)根据最小描述长度准则确定聚类数目k,具体按照如下各步骤:
[0016] 步骤31)根据最远距离准则初始化m个聚类中心;
[0017] 步骤32)任意设定某一聚类中心Cj,根据下述公式计算 表示假设将Cj移除时,移除前后编码长度的总变化量:
[0018]
[0019] 其中,L0表示聚类簇中心的编码长度:
[0020]
[0021] nq表示第q簇聚类样本的数目;njq表示满足最近邻参考点为第j个聚类中心而第二近邻参考点为第q个聚类中心的样本数目,d表示特征的维数,x是簇Cj中的样本成员,xi是第i个特征的数值;ciq表示第q个聚类中心的第i维的值,cij表示第j个聚类中心的第i维的值;|I|表示总的样本数目;pj表示第Cj簇聚类样本在总体样本中所占的比重;σ是样本数据的方差,取值范围是[0.1,0.2];
[0022] 步骤33)判断步骤33中得到的 是否小于0,如是,则移除聚类中心Cj;如否,则保留聚类中心Cj;
[0023] 步骤34)迭代执行步骤32-步骤33,直到没有冗余的聚类中心,此时保留下来的聚类中心数目即为需确定的聚类数目k;
[0024] 步骤4)根据步骤3确定的聚类数目k利用K-means聚类方法分别对步骤2中提取的每个特征进行聚类;
[0025] 步骤5)按照如下公式分别计算步骤4中得到的每个特征的改进的DB指数,并分别选出颜色特征中改进的DB指数最小的颜色特征和纹理特征中改进的DB指数最小的纹理特征,作为最优颜色特征和最优纹理特征:
[0026]
[0027]
[0028]
[0029] 其中,D(·)是一个距离算子,对于颜色特征,D(·)表示直方图交距离;而对于纹理特征,D(·)表示欧式距离;t是目标子类的簇编号;St是目标子类t中所有样本到聚类中心的平均距离;|Ct|是目标子类t中的样本数目;pt是目标子类t的聚类中心;k表示总的聚类数目;pi表示非目标子类的聚类中心;DBc表示颜色特征的改进的DB指数;DBt表示纹理特征的改进的DB指数。
[0030] 由于遥感图像反映的是地面覆盖的物理特性,因此表现在图像中既有颜色信息,也有纹理信息,因此本发明选择一个最优颜色特征和一个最优纹理特征。当然,在某些特殊情况下,例如湖泊,只要一个特征就足够了,因此本发明还考虑到不同特征的权重,通过二值化法将权重低的特征权重置为0即可。
[0031] 考虑到在使用常用的相关反馈的学习方法进行检索时,在每次反馈的过程中需要用户来标记正反例样本,大大增加了用户的负担;同时,在基于内容的遥感图像检索中,通常只有很少的训练样本(有时甚至只有一个训练样本),并且要获得大量已标记的训练样本也很困难,因此,本发明优选半监督的学习方法进行图像检索,特别是其中的协同训练方法(Co-training)和自训练学习方法。下面对这两种半监督学习方法的基本内容作简要介绍:
[0032] 协同训练方法是基于如下假设:特征空间可以自然地分成两个,两个分类器在这两个子特征空间中进行训练。在协同训练的过程中,每个分类器通过添加由另一个分类器所确定的高置信度的样本来扩大自己的训练样本集,依次迭代,直到没有更多的未标记样本;
[0033] 在自训练学习的过程中,先用已标记数据样本构造一个初始的分类模型,然后用这个模型去估计未标记数据的标签,用合适的选择准则选出正确的被标记数据并把它们加入到训练集中,依次迭代直到满足一定的终止条件。在自训练学习过程中,需要确定一个阈值Th来作为迭代终止的条件阈值,该阈值能把与目标子类最相近的非目标子类区分开,该阈值Th是按照如下方法设定的:
[0034]
[0035] 其中,D1、D2分别是目标簇和最相邻非目标簇的半径,D12是目标簇中心和最相邻非目标簇中心之间的距离。在求取簇的半径时,一般选用簇中样本到中心的最远距离,但是考虑到簇中可能存在少量噪声样本,可以采用主元分析法,以距离簇中心最近的前K%的样本中找到的最远距离作为簇的半径,其中K取值为100以下,可根据实际需要选择。
[0036] 由于本发明方法选择了最优颜色特征和最优纹理特征,而这两个特征的权重可能会影响到半监督学习方法的检索效果,因此,本发明利用特征选择中得到的改进的DB指数确定最优颜色特征和最优纹理特征的权重;同时考虑到对于颜色特征和纹理特征,不同值域内相同数值的DB指数所表示的特征差异是非等价的,因此需要通过非均匀量化来确定特征权重,这里采用二值化方法来确定特征权重:对于颜色特征,当所选最优特征改进的DB指数的倒数小于阈值T1时,说明目标子类与非目标子类在颜色空间中的区别不是很明显,此时颜色特征的权重设为0,否则为1;对于纹理特征,当所选最优特征改进的DB指数的倒数小于阈值T2时,说明目标子类与非目标子类在纹理特征空间的区别不是很明显,此时纹理特征的权重设为0,否则为1。
[0037] 根据以上分析,就可以得出本发明的优选方案如下:
[0038] 首先,根据MDL准则和改进的DB指数,通过聚类分析的方法选择待检索图像的最优颜色特征和最优纹理特征,即按照上述步骤1-步骤5执行;
[0039] 然后,根据最优颜色特征和最优纹理特征的权重选择合适的半监督学习方法,并利用选取的半监督学习方法进行图像检索;具体由以下各步骤实现:
[0040] 步骤6)根据改进的DB指数分别计算最优颜色特征和最优纹理特征的二值化权重,具体方法如下:
[0041] 对于颜色特征,当所选最优特征改进的DB指数的倒数小于预先设定的阈值T1时,说明目标子类与非目标子类在颜色空间中的区别不是很明显,此时颜色特征的权重设为0,否则为1;对于纹理特征,当所选最优特征改进的DB指数的倒数小于预先设定的阈值T2时,说明目标子类与非目标子类在纹理特征空间的区别不是很明显,此时纹理特征的权重设为0,否则为1;
[0042] 步骤7)选取合适的半监督学习方法进行检索,具体为:当最优颜色特征和纹理特征的二值化权重都为1时,选择协同训练方法进行检索;而当最优颜色特征和纹理特征中某一特征的权重为0时,选择自训练方法单独依靠权重为1的特征进行检索。
[0043] 本发明首先根据最小描述长度准则和改进的Davies-Bouldin指数,利用聚类方法分别选出最优的颜色特征和纹理特征;然后根据最优的颜色特征和纹理特征的二值化权重选择合适的半监督学习方法进行遥感图像的检索。相比较现有技术,本发明不仅可以大大提高检索质量,还能有效减少检索过程中计算量,提高检索的速度。附图说明
[0044] 图1是本发明具体实施方式的流程图

具体实施方式

[0045] 下面结合附图对本发明的技术方案进行详细说明:
[0046] 使用本发明的方法对不同的地表覆盖(land cover)进行了检索实验,其中既有土壤侵蚀区域的检索,也有居民点,林地,湖泊围养等一般目标的检索;具体检索按照以下各步骤:
[0047] 步骤1)将待检索图像进行分块;
[0048] 在本具体实施方式中,为了避免将同一目标分入不同的小块之中,采取了重叠分块策略,每块大小为,长=min(128,样本图像长),宽=min(128,样本图像宽),块与块之间重叠1/2长乘以1/2宽像素
[0049] 步骤2)分别提取待检索图像的各个颜色特征和纹理特征;
[0050] 在本具体实施方式中,分别提取了HSI颜色特征、Lab颜色特征、Glcm纹理特征以及Gabor纹理特征;
[0051] 步骤3)根据最小描述长度准则确定聚类数目k,具体按照如下各步骤:
[0052] 步骤31)根据最远距离准则初始化m个聚类中心;
[0053] 步骤32)任意设定某一聚类中心Cj,根据下述公式计算 表示假设将Cj移除时,移除前后编码长度的总变化量:
[0054]
[0055] 其中,L0表示聚类簇中心的编码长度:
[0056]
[0057] nq表示第q簇聚类样本的数目;njq表示满足最近邻参考点为第j个聚类中心而第二近邻参考点为第q个聚类中心的样本数目,d表示特征的维数,x是簇Cj中的样本成员,xi是第i个特征的数值;ciq表示第q个聚类中心的第i维的值,cij表示第j个聚类中心的第i维的值;|I|表示总的样本数目;pj表示第Cj簇聚类样本在总体样本中所占的比重;σ是样本数据的方差,取值范围是[0.1,0.2],在本具体实施方式中,σ的取值为0.12;
[0058] 步骤33)判断步骤33中得到的 是否小于0,如是,则移除聚类中心Cj;如否,则保留聚类中心Cj;
[0059] 步骤34)迭代执行步骤32-步骤33,直到没有冗余的聚类中心,此时保留下来的聚类中心数目即为需确定的聚类数目k;
[0060] 步骤4)根据步骤3确定的聚类数目k利用K-means聚类方法分别对步骤2中提取的每个特征进行聚类;
[0061] 步骤5)按照如下公式分别计算步骤4中得到的每个特征的改进的DB指数,并分别选出颜色特征中改进的DB指数最小的颜色特征和纹理特征中改进的DB指数最小的纹理特征,作为最优颜色特征和最优纹理特征:
[0062]
[0063]
[0064]
[0065] 其中,D(·)是一个距离算子,对于颜色特征,D(·)表示直方图交距离;而对于纹理特征,D(·)表示欧式距离;t是目标子类的簇编号;St是目标子类t中所有样本到聚类中心的平均距离;|Ct|是目标子类t中的样本数目;pt是目标子类t的聚类中心;k表示总的聚类数目;pi表示非目标子类的聚类中心;DBc表示颜色特征的改进的DB指数;DBt表示纹理特征的改进的DB指数;
[0066] 步骤6)根据改进的DB指数分别计算最优颜色特征和最优纹理特征的二值化权重,具体方法如下:
[0067] 对于颜色特征,当所选最优特征改进的DB指数的倒数小于预先设定的阈值T1时,说明目标子类与非目标子类在颜色空间中的区别不是很明显,此时颜色特征的权重设为0,否则为1;对于纹理特征,当所选最优特征改进的DB指数的倒数小于预先设定的阈值T2时,说明目标子类与非目标子类在纹理特征空间的区别不是很明显,此时纹理特征的权重设为0,否则为1;
[0068] 在本具体实施方式中,阈值T1、T2的值分别取2和3;
[0069] 步骤7)选取合适的半监督学习方法进行检索,具体为:当最优颜色特征和纹理特征的二值化权重都为1时,选择协同训练方法进行检索;而当最优颜色特征和纹理特征中某一特征的权重为0时,选择自训练方法单独依靠权重为1的特征进行检索;
[0070] 如果本步骤中选择自训练方法进行检索时,按照以下公式确定聚类过程中作为迭代终止条件的阈值Th:
[0071]
[0072] 其中,D1、D2分别是目标簇和最相邻非目标簇中距离该簇中心最近的前K%的样本中找到的最远的样本与该簇中心之间的距离,K《100;D12是目标簇中心和最相邻非目标簇中心之间的距离;在本具体实施方式中,K取95。
[0073] 本发明方法完全可以与现有的CBIR系统结合,从而实现自动化的遥感图像检索。
[0074] 通过将本发明方法与现有的相关反馈法进行检索对比试验,可以发现本发明方法在查全率和查准率的指标上与相关反馈法相当,但在检索中所耗费的时间远低于相关反馈法所需时间,且相比基于人机交互的相关反馈法,本发明方法不需要多次人机交互,减轻了用户的负担。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈