首页 / 专利库 / 人工智能 / 机器学习 / 人工神经网络 / 自组织映射 / 一种支持拓扑结构保持的高维数据可视化方法

一种支持拓扑结构保持的高维数据可视化方法

阅读:790发布:2020-05-11

专利汇可以提供一种支持拓扑结构保持的高维数据可视化方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种支持拓扑结构保持的高维数据 可视化 方法,基于自组织 增量学习 神经网络的高维 数据可视化 方法,以实现拓扑结构保持过程中自适应网络结构设定,并可实现可视空间数据 密度 分布情况展示。该方法主要包括:在线聚类,可视映射,可视 渲染 等几个部分。在线聚类从原始数据集中自组织的学习出一个可代表该结构的代表数据集;可视映射利用 降维 方法多维缩放,将数据集映射到可视空间内,并保持代表数据的相对距离;可视渲染展示数据集在可视空间分布情况。采用本发明进行高维数据可视化,可以实现自适应的可视网络结构生成,并在可视结果中展示数据相互关系的同时展示数据密度分布情况。,下面是一种支持拓扑结构保持的高维数据可视化方法专利的具体信息内容。

1.一种支持拓扑结构保持的高维数据可视化方法,其特征在于,包括如下步骤:
步骤1,通过非监督学习神经网络自组织增量学习网络,自主构建数据在高维空间的聚类拓扑结构,并从原始数据集中自组织的学习出一个代表所述聚类拓扑结构的代表数据集;
步骤2,进行可视映射,利用降维方法将代表数据集映射到可视空间内,并保持代表数据的相对距离,生成二维基准点,基准点在可视空间中自适应生成可视网络结构,将高维数据集映射至可视网络结构;
步骤3,进行可视渲染,展示的基准点的大小正比于该基准点的激活次数,通过基准点的位置和大小,展示数据集在可视空间的密度分布情况。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:
步骤1-1,通过自组织增量学习网络构造单层的神经网络,所述神经网络包括神经元集合A和边集合 其中第i个神经元i∈A的权值ωi∈Rn是它在高维空间中的坐标表示,其中Rn表示n维实数集;边集合记录神经元之间的连接关系和边的年龄;
步骤1-2,初始化神经网络;
步骤1-3,通过竞争学习迭代训练神经网络;
步骤1-4,更新神经网络;
步骤1-5,进行网络去噪。
3.根据权利要求2所述的方法,其特征在于,步骤1-2包括:初始时神经元集合A={c1,c2},其中,定义两个神经元c1,c2的权重分别为ω1,ω2,ω1和ω2是高维数据集中的随机两个数据样本,初始边集合为空集。
4.根据权利要求3所述的方法,其特征在于,步骤1-3包括:在每次迭代过程中,输入一个新的高维数据样本s∈Rn,找出A中与其最相似的两个神经元,即获胜神经元s1和s2:
5.根据权利要求4所述的方法,其特征在于,步骤1-4包括:使用激活阈值判断新样本s与获胜神经元s1和s2是否属于同一类别:
对于任意神经元i,激活阈值 如果神经元i与其他神经元无
连接,则
如果 或者 成立,则判定s是一个新的神经元,加入到神
经元集合A中;
否则,如果s1和s2之间无连接,则连接s1和s2并加入到C中,年龄设为0;与冠军s1相连的所有边的年龄加1,更新冠军s1的权值为 α是学习率,α∈(0,1)。
6.根据权利要求5所述的方法,其特征在于,步骤1-5包括:迭代n1次后,神经网络删除由噪声产生的神经元,移除边的年龄值过大的边连接,其中,如果一个神经元是孤立的或只有一个边连接,则判定它是需要被删除的噪声点;
迭代过程完成后,神经网络训练完成,输出神经元集合即为代表数据集,神经元的权值即是代表数据集的权值。
7.根据权利要求6所述的方法,其特征在于,步骤2包括:
步骤2-1,生成可视空间基准点;
步骤2-2,进行拓扑保持映射。
8.根据权利要求7所述的方法,其特征在于,步骤2-1包括:对于代表数据集的数据,计算平方欧式距离,生成距离矩阵D:
D中元素Dij为ωi和ωj的平方欧式距离,计算公式如下:
2
Dij=||ωi-ωj||,
ωi和ωj的中心矩阵H,其中H中元素Hij计算如下,n为数据维数:
根据矩阵H,将矩阵D转换成矩阵B:
由此获得神经网络输出的代表数据集在二维可视空间对应的点,称之为基准点,基准点的权值即是相应代表数据集中点的权值;
基准点在二维可视空间中的空间坐标表示为L:
其中,λi是矩阵B的第i大的特征值,νi是其对应的特征向量
9.根据权利要求8所述的方法,其特征在于,步骤2-2包括:将全部高维数据集映射至可视网络结构,实现高维数据可视化的目标:
依次输入样本x∈Rn,通过 找出与其最相似的基准点c1,其中
是基准点c1的权值;
更新基准点c1的权值:
基准点c1的激活次数加1。
10.根据权利要求9所述的方法,其特征在于,步骤3包括:根据基准点的二维坐标表示其位置,基准点的点的大小正比于所述基准点的激活次数,通过基准点的位置和大小,即能够展示数据集在可视空间的密度分布情况。

说明书全文

一种支持拓扑结构保持的高维数据可视化方法

技术领域

[0001] 本发明涉及高维数据可视化领域,尤其涉及一种支持拓扑结构保持的高维数据可视化方法。

背景技术

[0002] 当今,计算机硬件技术的发展使得存储数据变得快捷简单。日常生活的各个领域的数据几乎都会被记录,例如购物网站消费记录、手机通信记录、微信聊天记录等等。这些被记录的信息,构成了的高维数据。这些高维数据就像一个可用信息储存池,发现高维数据中的潜在信息,提取其中有价值的信息,可以帮助人们更好的掌握规律、分析趋势。但是,从高维数据中获取有价值的隐藏信息并不是一件简单的事。单纯的使用计算机分析高维数据很难全面。为了更好的提取和分析高维数据,可以采用人机结合的方式处理高维数据。人类的灵活性、创造性和具有的常识,可以同机器的存储能和计算能力相结合。但是由于人眼只能理解3维及以下维度的数据,所以对高维数据进行转换,使其能够被人直观的获取和处理变得非常重要,即高维数据可视化。
[0003] 高维数据可视化的本质,是寻找一种最佳的映射关系,实现高维数据在低维空间的展现。在影射过程中,尽可能的减少信息的丢失。高维数据可视化的主要过程包括:
[0004] 1、数据转换,对原始高维数据集进行处理,使其适用于后续步骤的要求。常见的数据转换手段包括采样、归一化、特征提取等。
[0005] 2、可视映射,将处理过的高维数据集映射至可视空间,即一维、二维或三维空间。大量研究致力于这一步骤的实现和完善,包括使用常见的降维方法实现。
[0006] 3、可视渲染,利用可视空间中的特征清晰明了的表达映射后的数据信息。通常使用位置颜色、形状或大小等视觉特征进行渲染。
[0007] 4、人机交互,根据当前的数据可视化结果,人为的调整可视化算法各步骤及其参数,实现更好的可视化效果。
[0008] 在可视化中,算法应尽可能的保持高维数据的某些固有特性或特征。衡量高维数据可视化算法的最直接有效的标准,是衡量该算法是否有能力保持高维数据在某一方面的特性,例如拓扑保持能力、分类能力、维度间相关性保持能力等。
[0009] 在可视化的过程中,可视映射是其中的核心步骤,许多降维方法被用于可视映射过程中。主成分分析法(PCA)和多维缩放(MDS)是经典的线性降维方法,在数据量较大的数据集中,这类方法计算强度过大,对计算机硬件要求较高。等度量映射(Isomap)、t分布邻域嵌入算法(t-SNE)是常用的非线性降维方法,但他们保持拓扑结构的能力较弱。自组织神经网络(SOM)是一种基于非监督学习的神经网络模型,可用在可视映射过程中,它可以通过将高维临近点映射到低维网格邻域来实现拓扑结构保持。但自组织神经网络中的低维网格结构必须被提前设计,不合理的网格结构对可视化结果存在很大的影响。无论多少高维数据点映射到该网格中,自组织神经网络中每个网格只会被标注一次,这导致很难在低维网格中观察到数据集的密度分布情况。
[0010] 设计一种可视化方法可以在保持拓扑结构的同时,展示数据分布密度情况,是一个需要解决的问题。

发明内容

[0011] 发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种支持拓扑结构保持的高维数据可视化方法,为基于自组织增量学习神经网络的高维数据可视化方法,以实现拓扑结构保持过程中自适应网络结构设定,并可实现可视空间数据密度分布情况展示。本发明具体包括如下步骤:
[0012] 步骤1,通过非监督学习神经网络自组织增量学习网络,自主构建数据在高维空间的聚类拓扑结构,并从原始数据集中自组织的学习出一个代表所述聚类拓扑结构的代表数据集;
[0013] 步骤2,进行可视映射,利用降维方法将代表数据集映射到可视空间内,并保持代表数据的相对距离,生成二维基准点,基准点在可视空间中自适应生成可视网络结构,将高维数据集映射至可视网络结构;
[0014] 步骤3,进行可视渲染,展示的基准点的大小正比于该基准点的激活次数,通过基准点的位置和大小,展示数据集在可视空间的密度分布情况。
[0015] 步骤1包括:
[0016] 步骤1-1,通过自组织增量学习网络构造单层的神经网络,所述神经网络包括神经元集合A和边集合 其中第i个神经元i∈A的权值ωi∈Rn是它在高维空间中的坐n标表示,其中R表示n维实数集;边集合记录神经元之间的连接关系和边的年龄;
[0017] 步骤1-2,初始化神经网络;
[0018] 步骤1-3,通过竞争学习迭代训练神经网络;
[0019] 步骤1-4,更新神经网络;
[0020] 步骤1-5,进行网络去噪。
[0021] 步骤1-2包括:初始时神经元集合A={c1,c2},其中,定义两个神经元c1,c2的权重分别为ω1,ω2,ω1和ω2是高维数据集中的随机两个数据样本,初始边集合为空集。
[0022] 步骤1-3包括:在每次迭代过程中,输入一个新的高维数据样本s∈Rn,找出A中与其最相似的两个神经元,即获胜神经元s1和s2:
[0023]
[0024]
[0025] 步骤1-4包括:使用激活阈值判断新样本s与获胜神经元s1和s2是否属于同一类别:
[0026] 对于任意神经元i,激活阈值 如果神经元i与其他神经元无连接,则
[0027] 如果 或者 成立,则判定s是一个新的神经元,加入到神经元集合A中。
[0028] 否则,如果s1和s2之间无连接,则连接s1和s2并加入到C中,年龄设为0;与冠军s1相连的所有边的年龄加1,更新冠军s1的权值为 α是学习率,α∈(0,1)。
[0029] 步骤1-5包括:迭代n1次后(迭代次数根据数据集的不同,进行不同的设置,比如设置为10次),神经网络删除由噪声产生的神经元,移除边的年龄值过大的边连接,其中,如果一个神经元是孤立的或只有一个边连接,则判定它是需要被删除的噪声点。一般设定边的年龄值大于10时将其删除。
[0030] 迭代过程完成后,神经网络训练完成,输出神经元集合即为代表数据集,神经元的权值即是代表数据集的权值。
[0031] 步骤2包括:
[0032] 步骤2-1,生成可视空间基准点;
[0033] 步骤2-2,进行拓扑保持映射。
[0034] 步骤2-1包括:对于代表数据集的数据,计算平方欧式距离,生成距离矩阵D:
[0035] D中元素Dij为ωi和ωj的平方欧式距离,计算公式如下:
[0036] Dij=||ωi-ωj||2,
[0037] ωi和ωj的中心矩阵H,其中H中元素Hij计算如下,n为数据维数:
[0038]
[0039] 根据矩阵H,将矩阵D转换成矩阵B:
[0040]
[0041] 由此获得神经网络输出的代表数据集在二维可视空间对应的点,称之为基准点,基准点的权值即是相应代表数据集中点的权值。
[0042] 基准点在二维可视空间中的空间坐标表示为L:
[0043]
[0044] 其中,λi是矩阵B的第i大的特征值,νi是其对应的特征向量
[0045] 步骤2-2包括:将全部高维数据集映射至可视网络结构,实现高维数据可视化的目标:
[0046] 依次输入样本x∈Rn,通过 找出与其最相似的基准点c1,其中 是基准点c1的权值;
[0047] 更新基准点c1的权值:
[0048]
[0049] 基准点c1的激活次数加1。
[0050] 步骤3包括:根据基准点的二维坐标表示其位置,基准点的点的大小正比于所述基准点的激活次数,通过基准点的位置和大小,即能够展示数据集在可视空间的密度分布情况。
[0051] 本发明想法来源于自组织神经网络,自组织神经网络可将高维数据映射到低维网格内,且具有良好的拓扑保持特性,常用于高维数据的可视化展示。但自组织神经网络的拓扑保持能力的好坏很大程度上取决于网格结构的人工提前设定,不同的数据集的网络结构设定不尽相同,网络只能根据人的经验设定和调整,这导致可视化的结果的不稳定。同时,网格中的点无论被投影多少次,只能被标志一次,无法反映数据密度分布情况。
[0052] 基于以上考虑,本发明实施例公开一种自适应的拓扑保持可视化方法。该方法主要包括:在线聚类,可视映射,可视渲染等几个部分。
[0053] 在线聚类通过非监督学习神经网络自组织增量学习网络(SOINN),自主构建数据在高维空间的聚类拓扑结构,并从原始数据集中自组织的学习出一个可代表该结构的代表数据集。
[0054] 可视映射利用降维方法多维缩放(MDS),将代表数据集映射到可视空间内,并保持代表数据的相对距离。以这些二维数据点为基准点,将全部数据映射至基准点上,拓扑结构保持实现主要通过将高维临近点映射至低维邻近基准点上。映射过程中,每个基准点被投影的次数即激活次数被实时记录。人眼的可视空间包括一维、二维和三维空间,本发明中提到的可视空间默认为二维空间。
[0055] 可视渲染主要通过图片表示特征实现,常用到的特征包括位置、颜色、形状或大小等。本发明根据基准点的二维坐标表示其位置,基准点的点的大小正比于该基准点的激活次数。通过基准点的位置和大小,可展示数据集在可视空间的密度分布情况。
[0056] 有益效果:
[0057] 本发明提出一种高维数据可视化方法,支持拓扑结构保持。相较于现有的拓扑结构保持可视化方法,本发明优势主要体现在以下两点:
[0058] 1、可视空间网络结构无需人工设定,可实现自适应的网络结构生成。现有的利用自组织神经网络进行可视化的方法,网络结构形状固定,网格数量需人工设定,参数需根据数据集类型手动进行调整。本发明可自适应地生成网络结构,无需手动设定网络形状和基准点数量。
[0059] 2、在可视空间内展示数据密度分布情况。现有的方法单纯根据二维映射点位置展示数据分布。本发明同时使用映射点的位置和大小表示数据分布情况,可在展示数据相互关系的同时展示数据密度分布情况。附图说明
[0060] 下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
[0061] 图1为使用本发明提供的一种支持拓扑结构保持的高维数据可视化方法的流程示意图;
[0062] 图2为使用本发明提供的一种支持拓扑结构保持的高维数据可视化方法对3维人工数据集可视化的结果展示;
[0063] 图3为使用本发明提供的一种支持拓扑结构保持的高维数据可视化方法对4维虹膜(iris)数据集可视化的结果展示;
[0064] 图4为使用本发明提供的一种支持拓扑结构保持的高维数据可视化方法对784维手写数字(mnist)数据集可视化的结果展示;
[0065] 图5为使用本发明提供的一种支持拓扑结构保持的高维数据可视化方法对各数据集可视化过程进行拓扑结构保持能力计算的结果展示,本发明使用相对标准偏差(RSD)作为评估标准。RSD值越小,拓扑结构保持能力越好。

具体实施方式

[0066] 本发明提供了一种支持拓扑结构保持的高维数据可视化方法,本发明的可视化过程主要包括:在线聚类,可视映射,可视渲染等几个部分。在本发明中,考虑的主要问题是将高维空间中的数据集X映射至可视空间(二维空间)中。
[0067] 1在线聚类
[0068] 在线聚类主要通过非监督学习神经网络自组织增量学习网络(SOINN),自主构建数据在高维空间的聚类拓扑结构,并从原始数据集中自组织的学习出一个可代表该结构的代表数据集。
[0069] 本发明通过自组织增量学习网络(SOINN)构造单层神经网络,该网络包括神经元n集合A和边集合 其中每个神经元i∈A的权值ωi∈R是它在高维空间中的坐标表示。边集合记录神经元之间的连接关系和边的年龄。
[0070] (1)神经网络初始化
[0071] 初始时神经元集合A={c1,c2},其中,神经元c1,c2的权重ω1,ω2是高维数据集中的随机两个数据样本,初始边集合为空集。
[0072] (2)竞争学习
[0073] 初始化后,通过竞争学习迭代训练神经网络。在每次迭代过程中,输入一个新的样本s∈Rn,找出A中与其最相似的两个神经元,即获胜神经元s1和s2:
[0074]
[0075]
[0076] (3)更新神经网络
[0077] 使用激活阈值判断新样本s与获胜神经元s1和s2是否属于同一类别。
[0078] 对于任意神经元i,激活阈值 如果神经元i与其他神经元无连接,则
[0079] 如果 或者 成立,则认为s是一个新的神经元,加入到神经元集合A中。
[0080] 否则,如果s1和s2之间无连接,则连接s1和s2并加入到C中,年龄设为0。与冠军s1相连的所有边的年龄加1。更新冠军s1的权值为 α是学习率,本方法设置其为0到1之前的常数,α∈(0,1)。
[0081] (4)网络去噪
[0082] 迭代一定次数后,神经网络删除由噪声产生的神经元,移除边的年龄值过大的边连接。如果某个神经元是孤立的或只有一个边连接,则认为它是应该被删除的噪声点。
[0083] 迭代过程完成后,神经网络训练完成,输出神经元集合为代表数据集,神经元的权值即是代表数据集的权值。
[0084] 2可视映射
[0085] 可视映射利用降维方法多维缩放(MDS),将代表数据集映射到可视空间内,并保持代表数据的相对距离。以这些二维数据点为基准点,将全部数据映射至基准点上,拓扑结构保持实现主要通过将高维临近点映射至低维邻近基准点上。映射过程中,每个基准点被投影的次数即激活次数被实时记录。
[0086] (1)生成可视空间基准点
[0087] 对于代表数据集的数据,计算平方欧式距离,生成距离矩阵D,计算D中元素Dij:
[0088] Dij=||ωi-ωj||2
[0089] 然后计算中心矩阵H,计算H中元素Hij:
[0090]
[0091] 根据矩阵H,将矩阵D转换成:
[0092]
[0093] 计算各代表点在二维可视空间的空间坐标表示L:
[0094]
[0095] 其中,λi是矩阵B的第i大的特征值,νi是其对应的特征向量。
[0096] 由此获得代表点在二维可视空间对应的点,称之为基准点,形成基准点集合。基准点的权值即是相应代表点的权值。
[0097] (2)拓扑保持映射
[0098] 基准点在二维可视空间中自适应生成可视网络结构。本步骤中将全部高维数据集映射至可视网络结构,实现高维数据可视化的目标。
[0099] 依次输入样本x∈Rn,通过 找出与其最相似的基准点c1,其中 是基准点c1的权值。
[0100] 更新基准点c1的权值:
[0101]
[0102] 基准点c1的激活次数加1。
[0103] 3可视渲染
[0104] 可视渲染主要通过图片表示特征实现,常用到的特征包括位置、颜色、形状或大小等。本发明根据基准点的二维坐标表示其位置,基准点的点的大小正比于该基准点的激活次数。通过基准点的位置和大小,可展示数据集在可视空间的密度分布情况。
[0105] 至此,本发明实现了高维数据的可视化。
[0106] 实施例
[0107] 本发明实施例公开一种支持拓扑结构保持的高维数据可视化方法,名为基于自组织增量学习神经网络的高维数据可视化方法,适用于对高维数据进行可视化,并在可视过程中实现拓扑结构保持。本发明自适应设定可视空间中的网络结构,包括网络形状和基准点数量,并在可视空间中展示高维数据密度分布情况。
[0108] 本发明的流程见图1。本发明的可视化过程主要包括:在线聚类,可视映射,可视渲染等几个部分。在本发明中,我们考虑的主要问题是将高维空间中的数据集X映射至可视空间(二维空间)中。以784维书写数据集为例,本发明的详细步骤如下:
[0109] 步骤1在线聚类
[0110] 在线聚类主要通过非监督学习神经网络自组织增量学习网络(SOINN),自主构建数据在高维空间的聚类拓扑结构,并从原始数据集中自组织的学习出一个可代表该结构的代表数据集。
[0111] 本发明通过自组织增量学习网络(SOINN)构造单层神经网络,该网络包括神经元集合A和边集合 其中每个神经元i∈A的权值ωi∈Rn是它在高维空间中的坐标表示。边集合记录神经元之间的连接关系和边的年龄。
[0112] 步骤1.1神经网络初始化
[0113] 初始时神经元集合A={c1,c2},其中,神经元c1,c2的权重ω1,ω2是高维数据集中的随机两个784维数据样本,初始边集合为空集。
[0114] 步骤1.2竞争学习
[0115] 初始化后,通过竞争学习迭代训练神经网络。在每次迭代过程中,输入一个新的样本s∈Rn,通过公式(1)找出A中与其最相似的两个神经元,即获胜神经元s1和s2:
[0116]
[0117] 步骤1.3更新神经网络
[0118] 使用激活阈值判断新样本s与获胜神经元s1和s2是否属于同一类别。
[0119] 对于任意神经元i,激活阈值 如果神经元i与其他神经元无连接,则
[0120] 如果 或者 成立,则认为s是一个新的神经元,加入到神经元集合A中。
[0121] 否则,如果s1和s2之间无连接,则连接s1和s2并加入到C中,年龄设为0。与冠军s1相连的所有边的年龄加1。更新冠军s1的权值为 α是学习率,本方法设置其为0.5。
[0122] 步骤1.4网络去噪
[0123] 迭代一定次数后,神经网络删除由噪声产生的神经元,移除边的年龄值过大的边连接。如果某个神经元是孤立的或只有一个边连接,则认为它是应该被删除的噪声点。
[0124] 迭代过程完成后,神经网络训练完成,输出神经元集合为代表数据集,神经元的权值即是代表数据集的权值。
[0125] 步骤2可视映射
[0126] 可视映射利用降维方法多维缩放(MDS),将代表数据集映射到可视空间内,并保持代表数据的相对距离。以这些二维数据点为基准点,将全部数据映射至基准点上,拓扑结构保持实现主要通过将高维临近点映射至低维邻近基准点上。映射过程中,每个基准点被投影的次数即激活次数被实时记录。
[0127] 步骤2.1生成可视空间基准点
[0128] 对于代表数据集的数据,计算平方欧式距离,生成距离矩阵D,D中元素Dij为ωi和ωj的平方欧式距离:
[0129] Dij=||ωi-ωj||2                          (2)
[0130] 计算ωi和ωj的中心矩阵H,其中H中元素Hij计算如下,n为数据维数:
[0131]
[0132] 根据矩阵H,将矩阵D转换成矩阵B:
[0133]
[0134] 获得基准点在二维可视空间中的的空间坐标表示L:
[0135]
[0136] 其中,λi是矩阵B的第i大的特征值,νi是其对应的特征向量。
[0137] 步骤2.2拓扑保持映射
[0138] 基准点在二维可视空间中自适应生成可视网络结构。本步骤中将全部高维数据集映射至可视网络结构,实现高维数据可视化的目标。
[0139] 依次输入样本x∈Rn,n为784,通过公式(6)找出与其最相似的基准点c1,其中 是基准点c1的权值:
[0140]
[0141] 更新基准点c1的权值:
[0142]
[0143] 基准点c1的激活次数加1。
[0144] 步骤3可视渲染
[0145] 可视渲染主要通过图片表示特征实现,常用到的特征包括位置、颜色、形状或大小等。本发明根据基准点的二维坐标表示其位置,基准点的点的大小正比于该基准点的激活次数。通过基准点的位置和大小,可展示数据集在可视空间的密度分布情况。
[0146] 至此,本发明实现了高维数据的可视化。
[0147] 下面对本发明进行实验验证。
[0148] 在这个部分,本发明将在一系列基准数据集中测试性能,数据集包括一个3维仿真数据集、4维虹膜数据集和784维的手写数字数据集。
[0149] 为验证本发明的拓扑结构保持优越性,将对本发明与现有支持拓扑结构保持的可视方法自组织神经网络进行性能比较。本发明选用相对标准偏差(RSD)作为度量拓扑结构保持的指标。相对标准偏差的本质是衡量各输入样本与其临近点在高维空间和低维空间的距离比值。在理论情况下,各输入样本与其临近点的距离比值为0,即相对标准偏差的值为0。在实际实验中,相对标准偏差的值越小,则方法保持拓扑结构的能力就越好。
[0150] 在所有实验中,颜色代表数据集中的数据类别信息。数据类别信息只用于最后的结果展示,并没用于发明可视化的过程中。
[0151] 1.数据集可视化结果
[0152] 3维人工数据集实验采用的人工数据集的具有1000个样本,实验设定本发明的网络去噪周期为500,比较实验中,自组织神经网络的网络结构设定为12×12。
[0153] 4维虹膜数据集具有150个样本,该数据集共包含3个类别的样本,每个类别的样本数量为50。实验设定本发明的网络去噪周期为50,比较实验中,自组织神经网络的网络结构设定为7×7。
[0154] 784维的手写数字数据集实验重复进行5次,分别采用100,500,1000,2000,5000个样本,实验设定本发明的网络去噪周期依次为50,250,500,500,500,比较实验中,自组织神经网络的网络结构依次设定为7×7,10×10,12×12,15×15,20×20。这里只展示采样个数为5000时的可视化结果。
[0155] 图2、图3、图4分别为本发明在各数据集的可视化结果展示。通过这些可视化结果,可以观察出高维数据的分布情况和相互关系。并可以根据可视化结果观察到各类数据的密度分布情况。
[0156] 2.拓扑结构保持性能
[0157] 图5展示各数据集下,本发明和现有方法自组织神经网络进行高维数据可视化时,相对标准偏差(RSD)的结果值。通过该结果可以看出,在不同数据集下,本发明的RSD值始终小于自组织神经网络,证实本发明的拓扑结构保持能力稳定优于现有方法自组织神经网络。
[0158] 本发明提供了一种支持拓扑结构保持的高维数据可视化方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈