首页 / 专利库 / 图形技术 / 迭代重建 / 一种利用图像正则化及数据重建解决特征提取任务的方法

一种利用图像正则化及数据重建解决特征提取任务的方法

阅读:1029发布:2020-11-09

专利汇可以提供一种利用图像正则化及数据重建解决特征提取任务的方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种利用图像正则化及数据重建解决特征提取任务的方法。主要包括如下步骤:1)针对于一组数据点,构建其权重矩阵及对应的拉普拉斯矩阵。2)随机初始化特征提取矩阵与重建系数矩阵, 迭代 更新特征提取矩阵与重建系数矩阵,得到最终收敛的特征提取矩阵作为特征提取的依据。相比于一般的项目推荐解决方案,本发明使用了图像正则化与数据重建相结合的方法,则能够提取出更有效的数据特征。本发明在数据特征提取问题中所取得的效果相比于传统的方法更好。,下面是一种利用图像正则化及数据重建解决特征提取任务的方法专利的具体信息内容。

1.一种利用图像正则化及数据重建解决特征提取任务的方法,其特征在于包括如下步骤:
1)针对于一组数据点,构建其权重矩阵及对应的拉普拉斯矩阵;
2)随机初始化重建系数矩阵与特征提取矩阵,之后进行迭代,在每次迭代过程中,先固定重建系数矩阵,来更新特征提取矩阵,再固定特征提取矩阵,更新重建系数矩阵;循环迭代更新至特征提取矩阵收敛之后,返回最终的特征提取矩阵;
3)利用步骤2)学习得到的特征提取矩阵来对于原始数据点进行特征提取。
2.根据权利要求1所述利用图像正则化及数据重建解决特征提取任务的方法,其特征在于所述的步骤1)具体步骤为:
针对于一组数据点构成的数据点矩阵X=(x1,...,xm),其中m为数据点的个数,任意一点的表达xi∈Rn,为一个n维向量;针对于这组数据点,其原始特征矩阵F=(f1,...,fn)=XT,F为数据点矩阵X的转置矩阵;针对于此组数据点中的每一个点xi,找到其距离最近的一个点xj,并在xi与xj之间建立连线,按照此方法构建描述数据点之间关系的图;对于图中的点,构建权重矩阵W∈Rm*m,其中若xi与xj两点之间存在连线,则wij=1,否则wij=0;构建对矩阵D∈Rm*m,其中,Dii=∑jWij,构建拉普拉斯矩阵L=D-W。
3.根据权利要求1所述利用图像正则化及数据重建解决特征提取任务的方法,其特征在于所述的步骤2)具体步骤为:
2.1)随机初始化重建系数矩阵A0∈Rn*n,特征提取矩阵Λ0∈Rn*n,初始化 激活空集合S,其中向量θ中第p个维度的取值θp∈{-1,0,1}代表向量λ中第p个维度的取值λp的符号;
2.2)循环迭代,首先固定重建系数矩阵,更新特征提取矩阵;
2.3)固定特征提取矩阵,更新重建系数矩阵;
2.4)循环更新特征提取矩阵与重建系数矩阵直至特征提取矩阵收敛。
4.根据权利要求2所述利用图像正则化及数据重建解决特征提取任务的方法,,其特征在于所述的步骤2.2)具体步骤为:
2.2.1)寻找 其中
Ypp∈Y=XLXT
β为提前定义好的关于数据重建项与图像正则化项之间的权衡参数,L与X为步骤1)中确定的矩阵,apk∈A,aik∈A,A为本步骤随机初始化得到的矩阵A0;若 则令θp=-1,S=S∪{λp};若 则令θp=1,S=S∪{λp};对于其余求得的 情
况,则不对于λp进行更新;
2.2.2)得到θp之后,按照如下公式更新特征提取矩阵Λ:
其中,m和n与步骤1中的m和n相同,α为关于数据重建项与第一范式项之间的平衡参数,则令 按照如下公式得到λp的更新值:
在λ与更新后的λnew之间进行离散线搜索:检查λnew处的目标值及所有符号改变的点,将λ更新为有最低目标值的点,从S中移除没有对应参数的λ并更新θ=sign(λ);
2.2.3)检查是否满足 如果不满足则重新执行步骤2.2.2),如果
满足则检查是否满足 如果不满足则重新执行步骤2.2.1)与步骤2.2.2),如果满足则返回特征提取矩阵Λ。
5.根据权利要求2所述利用图像正则化及数据重建解决特征提取任务的方法,,其特征在于所述的步骤2.3)具体步骤为:
针对于更新后的特征提取矩阵Λ与数据点矩阵X,按照如下公式更新重建系数矩阵A:
A=XXTΛ(ΛXXTΛ)-1。
6.根据权利要求2所述利用图像正则化及数据重建解决特征提取任务的方法,,其特征在于所述的步骤2.4)具体步骤为:
循环执行步骤2.2)、步骤2.3),依次迭代更新特征提取矩阵Λ与重建系数矩阵A,直至第k次更新后的特征提取矩阵Λk与第k次更新前的特征提取矩阵Λk-1满足||Λk-Λk-1||F<ε,其中ε为提前定义好的参数,返回特征提取矩阵Λk作为最终的特征提取矩阵。

说明书全文

一种利用图像正则化及数据重建解决特征提取任务的方法

技术领域

[0001] 本发明涉及社区问答任务,尤其涉及一种利用图像正则化及数据重建解决特征提取任务的方法。

背景技术

[0002] 在类似与数据挖掘信息检索等任务方面,数据维度的降低是一个非常重要的任务,降低数据的维度对于降低处理数据的时间及空间消耗有着十分重要的意义,同时可以防止使用该数据时出现过拟合现象。对于数据维度的降低通常涉及数据特征提取方面的问题,对于特征提取目前有监督式的特征提取与非监督式的特征提取两种方法,其中监督式的特征提取方法需要数据拥有标签信息,但是目前带有标签信息的数据量很少,所以本发明将采用非监督式的特征提取方法。
[0003] 本发明将利用带有图像正则化的数据重建方法来进行非监督的特征提取,本发明的目标是挑选出能够最佳地保存数据原始分辨性内容信息及原始数据结构信息的特征。为了完成此目标,本发明将结合数据重建方面的目标函数及图像规则化方面的目标函数,来进行相关特征的选取与相关重建系数矩阵的选取。本发明首先固定重建系数矩阵,来求取特征提取矩阵,之后固定特征提取矩阵,来求取重建系数矩阵,经过迭代循环直至特征提取矩阵收敛之后,返回特征提取矩阵作为原始数据提取特征值的指示矩阵。

发明内容

[0004] 本发明的目的在于解决现有技术中的问题,为了克服现有技术中监督式特征提取需要大量带有标签数据的问题,及现有非监督式特征提取仅仅关注到保存数据特征性信息,而没有关注到保存数据结构信息的问题,本发明提供一种利用图像正则化及数据重建解决特征提取任务的方法。本发明所采用的具体技术方案是:
[0005] 利用图像正则化及数据重建解决特征提取任务的方法,包含如下步骤:
[0006] 1、针对于一组数据点,构建其权重矩阵及对应的拉普拉斯矩阵。
[0007] 2、随机初始化重建系数矩阵与特征提取矩阵,之后进行迭代,在每次迭代过程中,先固定重建系数矩阵,来更新特征提取矩阵,再固定特征提取矩阵,更新重建系数矩阵。循环迭代更新至特征提取矩阵收敛之后,返回最终的特征提取矩阵。
[0008] 3、按照特征提取矩阵来对于原始数据点进行特征提取。
[0009] 上述步骤可具体采用如下实现方式:
[0010] 1、针对于一组数据点构成的数据点矩阵X=(x1,...,xm),其中m为数据点的个数,任意一点的表达xi∈Rn,为一个n维向量;针对于这组数据点,其原始特征矩阵F=(f1,...,fn)=XT,F为数据点矩阵X的转置矩阵。针对于此组数据点中的每一个点xi,找到其距离最近的一个点xj,并在xi与xj之间建立连线,按照此方法构建描述数据点之间关系的图。对于图m*m中的点,构建权重矩阵W∈R ,其中若xi与xj两点之间存在连线,则wij=1,否则wij=0。构建对矩阵 D∈Rm*m,其中,Dii=∑jWij。构建拉普拉斯矩阵L=D-W。
[0011] 2、随机初始化重建系数矩阵A0∈Rn*n,特征提取矩阵Λ0∈Rn*n,初始化激活空集合S,其中向量θ中第p个维度的取值θp∈{-1,0,1}代表向量λ中第p个维度的取值λp的符号。
[0012] 3、寻找 其中
[0013]
[0014]
[0015] Ypp∈Y=XLXT
[0016] β为提前定义好的关于数据重建项与图像正则化项之间的权衡参数,L与 X为步骤1中确定的矩阵,apk∈A,aik∈A,A为本步骤随机初始化得到的矩阵A0。若 则令θp=-1,S=S∪{λp};若 则令θp=1,S=S∪{λp}。对于其余求得的
情况,则不对于λp进行更新。
[0017] 4、得到θp之后,按照如下公式更新特征提取矩阵Λ:
[0018]
[0019] 其中,m和n与步骤1中的m和n相同,α为关于数据重建项与第一范式项之间的平衡参数。则令 按照如下公式得到λp的更新值:
[0020]
[0021] 在λ与更新后的λnew之间进行离散线搜索:检查λnew处的目标值及所有符号改变的点,将λ更新为有最低目标值的点。从S中移除没有对应参数的λ并更新θ=sign(λ)。
[0022] 5、检查是否满足 如果不满足则重新执行步骤4,如果满足则检查是否满足 如果不满足则重新执行步骤3与步骤4,如果满足则返回特征提取矩阵Λ。
[0023] 6、针对于更新后的特征提取矩阵Λ与数据点矩阵X,按照如下公式更新重建系数矩阵A:
[0024] A=XXTΛ(ΛXXTΛ)-1
[0025] 7、循环执行步骤3、步骤4、步骤5、步骤6,依次迭代更新特征提取矩阵Λ与重建系数矩阵A,直至第k次更新后的特征提取矩阵Λk与第k次更新前的特征提取矩阵Λk-1满足||Λk-Λk-1||F<ε,其中ε为提前定义好的参数。返回特征提取矩阵Λk作为最终的特征提取矩阵。
[0026] 8、则可根据特征提取矩阵Λk来选择所要选择的特征。附图说明
[0027] 图1是本发明使用的利用图像正则化及数据重建来进行特征提取的整体框架示意图。

具体实施方式

[0028] 下面结合附图和具体实施方式对本发明做进一步阐述和说明。
[0029] 如图1所示,本发明一种利用图像正则化及数据重建解决特征提取任务的方法包括如下步骤:
[0030] 1)针对于一组数据点,构建其权重矩阵及对应的拉普拉斯矩阵;
[0031] 2)随机初始化重建系数矩阵与特征提取矩阵,之后进行迭代,在每次迭代过程中,先固定重建系数矩阵,来更新特征提取矩阵,再固定特征提取矩阵,更新重建系数矩阵。循环迭代更新至特征提取矩阵收敛之后,返回最终的特征提取矩阵;
[0032] 3)利用步骤2)学习得到的特征提取矩阵来对于原始数据点进行特征提取。
[0033] 所述的步骤1),其具体步骤为:
[0034] 针对于一组数据点构成的数据点矩阵X=(x1,...,xm),其中m为数据点的个数,任意一点的表达xi∈Rn,为一个n维向量;针对于这组数据点,其原始特征矩阵F=(f1,...,fn)=XT,F为数据点矩阵X的转置矩阵;针对于此组数据点中的每一个点xi,找到其距离最近的一个点xj,并在xi与xj之间建立连线,按照此方法构建描述数据点之间关系的图;对于图中的点,构建权重矩阵W∈Rm*m,其中若xi与xj两点之间存在连线,则wij=1,否则wij=0;构建对角矩阵D∈Rm*m,其中,Dii=∑jWij。构建拉普拉斯矩阵L=D-W。
[0035] 所述的步骤2),其具体步骤为:
[0036] 2.1)随机初始化重建系数矩阵A0∈Rn*n,特征提取矩阵Λ0∈Rn*n,初始化激活空集合S,其中向量θ中第p个维度的取值θp∈{-1,0,1}代表向量λ中第p个维度的取值λp的符号;
[0037] 2.2)循环迭代,首先固定重建系数矩阵,更新特征提取矩阵;
[0038] 2.3)固定特征提取矩阵,更新重建系数矩阵;
[0039] 2.4)循环更新特征提取矩阵与重建系数矩阵直至特征提取矩阵收敛。
[0040] 步骤2.2)具体步骤为:
[0041] 2.2.1)寻找 其中
[0042]
[0043]
[0044] Ypp∈Y=XLXT
[0045] β为提前定义好的关于数据重建项与图像正则化项之间的权衡参数,L与X为步骤1)中确定的矩阵,apk∈A,aik∈A,A为本步骤随机初始化得到的矩阵A0;若 则令θp=-1,S=S∪{λp};若 则令θp=1, S=S∪{λp};对于其余求得的情况,则不对于λp进行更新;
[0046] 2.2.2)得到θp之后,按照如下公式更新特征提取矩阵Λ:
[0047]
[0048] 其中,m和n与步骤1中的m和n相同,α为关于数据重建项与第一范式项之间的平衡参数。则令 按照如下公式得到λp的更新值:
[0049]
[0050] 在λ与更新后的λnew之间进行离散线搜索:检查λnew处的目标值及所有符号改变的点,将λ更新为有最低目标值的点。从S中移除没有对应参数的λ并更新θ=sign(λ);
[0051] 2.2.3)检查是否满足 如果不满足则重新执行步骤2.2.2),如果满足则检查是否满足 如果不满足则重新执行步骤2.2.1)与步骤2.2.2),如果满足则返回特征提取矩阵Λ。
[0052] 步骤2.3)具体为:
[0053] 针对于更新后的特征提取矩阵Λ与数据点矩阵X,按照如下公式更新重建系数矩阵A:
[0054] A=XXTΛ(ΛXXTΛ)-1
[0055] 步骤2.4)具体为:
[0056] 循环执行步骤2.2)、步骤2.3),依次迭代更新特征提取矩阵Λ与重建系数矩阵A,直至第k次更新后的特征提取矩阵Λk与第k次更新前的特征提取矩阵Λk-1满足||Λk-Λk-1||F<ε,其中ε为提前定义好的参数。返回特征提取矩阵Λk作为最终的特征提取矩阵;
[0057] 下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
[0058] 实施例
[0059] 本发明在TDT2语料库数据集及Reuters语料库数据集上面构建实验数据进行实验。所使用的TDT2语料库数据集中共包括10021个文件数据,每个文件数据从属于1个类别;Reuters语料库数据集中共包括8213个文件数据,每个文件数据从属于1个类别。在这两份数据集中,均去除停用词,每个文件用tfidf向量表示。本发明将文件中的每个单词都根据它们的tfidf分数进行排序,每个文件选择分数最大的1000个词作为该文件的特征。
[0060] 为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用聚类的方法进行评测,并使用了Accuracy,NMI这两种评价标准来对于本发明的效果进行评价,且分别针对将数据集中的文件分成5、7、9个种类的标准进行实验求解。按照具体实施方式中描述的步骤,所得的将TDT2语料库数据集分成5 个类的实验结果如表1所示,将TDT2语料库数据集分成7个类的实验结果如表 2所示,将TDT2语料库数据集分成9个类的实验结果如表3所示,将Reuters 语料库数据集分成5个类的实验结果如表4所示,将Reuters语料库数据集分成 7个类的实验结果如表5所示,将Reuters语料库数据集分成9个类的实验结果如表6所示,本方法表示为GRFS。表1至表6的结果表明,本方法在特征提取任务上所取的效果优于目前的其他方法,可以令提取后的特征更为准确地反映原始数据的原始分辨性内容信息及结构信息:
[0061]
[0062] 表1本发明针对于将TDT2语料库数据集分成5个类的实验结果
[0063]
[0064] 表2本发明针对于将TDT2语料库数据集分成7个类的实验结果
[0065]
[0066] 表3本发明针对于将TDT2语料库数据集分成9个类的实验结果
[0067]
[0068] 表4本发明针对于将Reuters语料库数据集分成5个类的实验结果
[0069]
[0070]
[0071] 表5本发明针对于将Reuters语料库数据集分成7个类的实验结果
[0072]
[0073] 表5本发明针对于将Reuters语料库数据集分成9个类的实验结果。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈