首页 / 专利库 / 制造过程 / 原型 / 用于把来自多维空间的数据投影到具有较少维的空间和对所述数据实行认知分析的方法、计算机程序与计算机可读装置

用于把来自多维空间的数据投影到具有较少维的空间和对所述数据实行认知分析的方法、计算机程序与计算机可读装置

阅读:613发布:2022-09-29

专利汇可以提供用于把来自多维空间的数据投影到具有较少维的空间和对所述数据实行认知分析的方法、计算机程序与计算机可读装置专利检索,专利查询,专利分析的服务。并且一种用于把属于多维空间的信息数据投影到具有较少维的空间的 算法 ,一种用于根据所述算法对多维信息数据进行认知分析的方法和被存储在可记录的载体上的包括所述算法的程序。用于把属于多维空间的信息数据投影到具有较少维的空间的算法,包括以下步骤:提供具有一定数目的变量的记录的形式的N维数据的 数据库 ;定义用于计算在数据库的每个记录之间的距离的度量函数;通过在以前的步骤定义的度量函数来计算在数据库的每个记录之间的距离的矩阵;定义n-1维空间,其中每个记录由n-1个坐标定义;通过调优算法计算在n-1维空间中每个记录的n-1个坐标;把下述投影定义为所述记录在n-1维空间上的最好投影,在所述投影中,在n-1维空间中的记录的距离矩阵最好地适配在n维空间中计算的记录的距离矩阵,或具有与后者的最小差值。所述方法和程序应用上述的算法。,下面是用于把来自多维空间的数据投影到具有较少维的空间和对所述数据实行认知分析的方法、计算机程序与计算机可读装置专利的具体信息内容。

1.一种用于把属于多维空间的信息数据投影到具有较少维的空间 的算法,包括以下步骤:
提供具有一定数目的变量的记录的形式的N维数据的数据库
定义用于计算在数据库的每个记录之间的距离的度量函数;
通过在以前的步骤定义的度量函数来计算在数据库的每个记录之 间的距离的矩阵;
定义n-1维空间,其中每个记录由n-1个坐标定义;
通过调优算法来计算在n-1维空间中每个记录的n-1个坐标;
把下述投影定义为所述记录在n-1维空间上的最好投影,在所述投 影中,在n-1维空间中的记录的距离矩阵最好地适配在n维空间中计算 的记录的距离矩阵,或具有与后者的最小差值。
2.根据权利要求1的算法,其中提供了数据库,在数据库中已包 含记录之间的距离。
3.根据权利要求1或2的算法,其特征在于,使用所谓的遗传算 法作为调优算法。
4.根据前述权利要求的一项或多项的算法,其特征在于以下步骤:
编码由具有坐标X和Y的点所表示的每个单独的记录或变量;
定义对于每个点的不同的X和Y坐标的组,其构成了在较少维的 空间(通常为二维或三维空间)上的第一集群的投影解;
通过使用在原先的N维空间中单个点的距离的矩阵作为适配性函 数而计算对于这个第一集群的每个投影的适配性分数;
投影的集群根据某种组合法则进行组合,因此产生投影的第一代集 群,它包括对于作为在母本的两个投影中提供的坐标的组合的点的X和 Y坐标;
计算第一代投影的适配性分数,以及根据第一代再次构成新的一 代。
5.根据前述权利要求的一项或多项的算法,其特征在于,遗传算 法是所谓的GenD算法。
6.根据前述权利要求的一项或多项的算法,其特征在于,可以定 义相应于隐藏记录或隐藏变量、并且其存在仅仅是猜想的隐藏点,所述 隐藏点通过给予它以投影中的位置坐标Xhi和Yhi而被加到母本集群中。
7.根据权利要求6的算法,其特征在于,并行地实行具有隐藏点 和不具有隐藏点的调优算法的计算,并把通过这两种并行计算得到的最 好的适配投影进行比较。
8.根据前述权利要求的一项或多项的算法,其特征在于另外的步 骤:提供包括一定数目的记录的数据库,每个记录以一定数目的变量为 特征,
根据以下两种方式交替地或并行地精确制作数据库:
第一方式,通过此方式,记录被看作为点而变量被看作为点的坐标,
第二方式,通过此方式,变量被看作为点而记录是坐标。
9.根据前述权利要求的一项或多项的算法,包括另外的不同算法, 其把数据库作为前处理或后处理阶段对待。
10.根据权利要求9的算法,其特征在于,数据库在预防阶段藉助 于自组织映射算法进行处理,在不同的单元中由这个算法构成的群集藉 助于根据前述权利要求的一项或多项的算法进行投影。
11.一种用于对多维信息数据进行认知分析的方法,包括以下步骤:
提供具有一定数目的记录的数据库,每个记录包括一定数目的变 量,并且所述数据库相关于N维空间;
通过把记录看作为点而把变量看作为坐标或通过把变量看作为点 而把记录看作为坐标而将数据库投影到相对于N维空间具有减少维数 的空间上;
藉助于一种用于把属于多维空间的信息数据投影到具有较少维的 空间的算法来实行投影,包括以下步骤:
通过度量函数来计算在由数据库的记录或变量所定义的每个点之 间的距离的矩阵;
定义n-1维空间,其中由记录或变量所表示的每个点由n-1个坐标 定义;
通过调优算法来计算在n-1维空间中每个点的n-1个坐标;
把下述投影定义为所述点在n-1维空间上的最好投影,在所述投影 中,在n-1维空间中的点的距离矩阵最好地适配在n维空间中计算的点 的距离矩阵,或具有与后者的最小差值。
12.根据权利要求11的方法,其特征在于,提供了数据库,在数 据库中已包含记录之间的距离。
13.根据权利要求11或12的方法,其特征在于,使用所谓的遗传 算法作为调优算法。
14.根据前述权利要求11到13的一项或多项的方法,其特征在于, 执行以下步骤的算法:
编码由具有坐标X和Y的点所表示的每个单独的记录或变量;
定义对于每个点的不同的X和Y坐标的组,其构成在较少维的空 间(通常为二维或三维空间)上的第一集群的投影解;
通过使用在原先的N维空间中单个点的距离的矩阵作为适配性函 数而计算对于这个第一集群的每个投影的适配性分数;
投影的集群根据某种组合法则进行组合,因此产生投影的第一代集 群,它包括对于作为在母本的两个投影中提供的坐标的组合的点的X和 Y坐标;
计算第一代投影的适配性分数,以及根据第一代再次构成新的一 代。
15.根据前述权利要求11到14的一项或多项的方法,其特征在于, 调优算法是所谓的GenD算法。
16.根据前述权利要求11到15的一项或多项的方法,其特征在于, 可以定义由隐藏记录或隐藏变量表示的、相应于在图上的隐藏点、并且 其存在仅仅是猜想的隐藏点,所述隐藏点通过给予它以投影中的位置坐 标Xhi和Yhi而被加到母本集群中。
17.根据权利要求16的方法,其特征在于,并行地实行具有隐藏 点和不具有隐藏点的调优算法的计算,并把通过这两个并行的计算得到 的最好的适配投影进行比较。
18.根据前述权利要求的一项或多项的方法,其特征在于另外的步 骤:提供包括一定数目的记录的数据库,每个记录以一定数目的变量为 特征,
根据以下两种方式交替地或并行地精确制作数据库:
第一方式,通过此方式,记录被看作为点而变量被看作为点的坐标,
第二方式,通过此方式,变量被看作为点而记录是坐标。
19.根据前述权利要求11到18的一项或多项的方法,包括另外的 不同算法,把数据库作为前处理或后处理阶段对待。
20.根据权利要求19的方法,其特征在于,数据库在预防阶段藉 助于自组织映射算法进行处理,在不同的单元中由这个算法构成的群集 藉助于根据前述权利要求的一项或多项的算法进行投影。
21.根据前述权利要求11到20的一项或多项的方法,其特征在于, 在数据库被投影到的图上的点的群集或距离被用作为与所述点有关的 记录或变量的相似性的度量。
22.根据前述权利要求的一项或多项的方法,其特征在于,提供包 括一定数目的记录的数据库,其中每个记录与一定数目的变量有关,所 述数据库还被加上对于原先提供的变量的补码变量,以及所述合成的数 据库被投影到较少维的空间,具体地被投影到二维或三维空间;
在图中的每个变量与其补码变量之间的距离被用作为对数据库中 的所述变量的关联性的度量。
23.根据前述权利要求的一项或多项的方法,其特征在于,它是一 种用于估计在确定个体的某种病理状态时的某些变量的关联性的方法 和一种用于定义与数据库的变量相关的个体的原型和他们感染某种疾 病的概率的方法。
24.根据前述权利要求的一项或多项的方法,其特征在于,它是一 种用于分析个体具有或感染Alzheimer疾病的概率的方法。
25.根据前述权利要求11到27的一项或多项的方法,其特征在于, 它具有被保存在可移除的载体上的程序的形式。
26.根据前述权利要求1到10的一项或多项的算法,其特征在于, 它具有被保存在可拆卸的载体上的程序的形式。
27.根据前述权利要求11到22的一项或多项的方法,其特征在于, 它是一种用于生成开始于包括地点的相对距离的数据库的地理地点的 二维图的方法。
28.一种用于生成开始于包括地点的相对距离的数据库的地理地点 的二维或三维图的方法,包括以下步骤:
(a)以矩阵形式组织地理地点的已知的或已测量的距离值;
(b)定义其中每个地点的位置是由两个或三个坐标唯一地定义的二 维或三维空间;
(c)藉助于调优算法来确定每个地理地点在二维或三维空间中的位 置的两个或三个坐标;
(d)藉助于计算出的所述地理地点的相互位置的二维或三维坐标来 确定地理地点的相互距离;
(e)用已根据步骤(d)确定的距离值生成距离矩阵;
(f)把所述地理地点的位置的下述二维或三维坐标定义为在二维或 三维空间中全部地理地点的位置的最好的二维或三维坐标,对于所述二 维或三维坐标,由此确定的距离矩阵最好地适配地理地点的已知的或已 测量的距离值的距离矩阵,或具有与后者的最小差值。
29.根据权利要求27或28的方法,其特征在于,调优算法是所谓 的遗传算法
30.根据前述权利要求27到29的一项或多项的方法,其特征在于:
(a)对于每个地理地点,计算定义二维或三维空间中每个地理地点的 位置的第一和第二组坐标;
(b)通过使用地理地点的已知的或已测量的距离的矩阵作为适配函 数,计算藉助于定义二维或三维空间中每个地理地点的位置的第一和第 二组坐标所确定的地理地点之间的距离的矩阵的适配性分数;
(c)对于每个地理地点,使得每个地理地点的位置的第一和第二组 坐标根据预定的组合法则进行组合,因此至少产生对于每个地理地点的 位置的新的第一和第二组坐标;
(d)根据步骤(b)计算所述新的第一和第二组位置坐标的适配性分 数;
(e)使得所述新的第一和第二组位置坐标根据步骤(c)再次进行组合, 并重复所述步骤(c)到(e),直至新的第一或第二组位置坐标中的至少一组 达到最大适配性分数或大于最小的预定适配性分数为止。
31.根据权利要求30的方法,其特征在于,对于至少一个第一组 和一个第二组坐标的每个组合步骤,通过组合所述至少第一组和第二组 坐标而得到新的几组坐标。
32.根据前述权利要求的一项或多项的方法,其特征在于,至少一 个隐藏的或假想的地理地点被加到地理地点的数据库,在其中坐标和距 离均未知,并且对于所述至少一个地理地点的第一和第二组坐标被自由 地定义。
33.根据权利要求32的方法,其特征在于,对于提供有隐藏的或 假想的地理地点的数据库和不提供隐藏的或假想的地理地点的数据库 并行地实行对调优算法的计算,以及把通过这两种并行的计算而得到的 全部地理地点的位置的最好适配坐标组进行比较。
34.根据前述权利要求27到33的一项或多项的方法,提供另外的 不同的前处理或后处理阶段。
35.根据权利要求34的方法,其特征在于,在预防阶段,已知的 距离数据矩阵藉助于自组织映射算法来进行处理,接着在不同的单元中 由这个算法构成的群集根据前述权利要求27到34的一项或多项的方法 步骤来进行。
36.根据前述权利要求11到22的一项或多项的方法,其特征在于, 它是一种通过只指示分子的原子的相对距离而表示在三维或二维空间 上的分子结构的步骤的方法。
37.一种通过只彼此相对地指示分子的至少部分原子的相对距离而 表示在三维或二维空间上的分子结构的步骤的方法,其特征在于它包括 以下步骤:
(a)以矩阵形式组织原子的已知的或已测量的距离值;
(b)定义二维或三维空间,其中每个原子的位置由两个或三个坐标唯 一地定义;
(c)藉助于调优算法来确定每个原子在二维或三维空间中的位置的 两个或三个坐标;
(d)藉助于已计算的各自所述原子的位置的二维或三维坐标来各自 确定原子的距离;
(e)用已根据步骤(d)确定的距离值生成距离矩阵;
(f)把所述原子的位置的下述二维或三维坐标定义为在二维或三维 空间中全部原子的位置的最好的二维或三维坐标,对于所述二维或三维 坐标,由此确定的距离矩阵最好地适配原子的已知的或已测量的距离值 的距离矩阵,或具有与后者的最小差值。
38.根据权利要求36或37的方法,其特征在于,调优算法是所谓 的遗传算法。
39.根据前述权利要求36到38的一项或多项的方法,其特征在于:
(a)对于每个原子,计算定义二维或三维空间中原子位置的第一和第 二组坐标;
(b)通过使用原子的已知的或已测量的距离的矩阵作为适配性函数, 计算藉助于定义二维或三维空间中每个原子的位置的第一和第二组坐 标所确定的原子之间的距离的矩阵的适配性分数;
(c)对于原子,使得每个原子位置的第一和第二组坐标根据预定的组 合法则进行组合,因此至少产生对于每个原子的位置的新的第一和第二 组坐标;
(d)根据步骤(b)计算所述新的第一和第二组位置坐标的适配性分 数;
(e)使得所述新的第一和第二组位置坐标根据步骤(c)再次进行组合, 并重复所述步骤(c)到(e),直至新的第一或第二组位置坐标中的至少一组 达到最大适配性分数或大于最小的预定适配性分数为止。
40.根据权利要求39的方法,其特征在于,对于至少一个第一组 和一个第二组坐标的每个组合步骤,通过组合所述至少第一组和第二组 坐标而得到新的几组坐标。
41.根据前述权利要求36到40的一项或多项的方法,其特征在于, 至少一个隐藏的或假想的原子被加到地理地点的数据库,在其中坐标和 距离均未知,并且对于所述至少一个原子的第一和第二组坐标被自由地 定义。
42.根据权利要求41的方法,其特征在于,对于提供有至少一个 隐藏的或假想的原子的数据库和不提供至少一个隐藏的或假想的原子 的数据库并行地实行对调优算法的计算,并把通过这两种并行计算而得 到的全部原子的位置的最好适配坐标组进行比较。
43.根据前述权利要求36到42的一项或多项的方法,提供另外的 不同的前处理或后处理阶段。
44.根据权利要求43的方法,其特征在于,在预防阶段,已知的 距离数据矩阵藉助于自组织映射算法来进行处理,接着在不同的单元中 由这个算法构成的群集根据前述权利要求36到43的一项或多项的方法 步骤来进行。
45.根据前述权利要求41到44的一项或多项的方法,它是一种用 于找出在分子结构中至少未知的或隐藏的原子的存在和/或位置的方法。
46.一种具有人工智能的设备,对所述设备提供了处理单元(1),所 述处理单元被连接到数据存储器(3)和程序存储器(2);
所述处理单元还被连接到一个或多个不同的传感器,所述传感器用 于检测或测量在环境中表征的或发生的不同的物理和/或化学状况或影 响或过程;
所述处理单元还通过服务人员或来自其它数据收集设备的数据输 入线被连接到数据输入装置;
所述处理单元还被连接到用于实行机械、物理或化学动作的装置, 诸如传动器等等;
在程序存储器中装载有可由所述处理单元执行的程序,该程序具有 例程,用于驱动传感器和用可被唯一地识别的方式保存由传感器收集的 每个数据和/或用于保存由服务人员或由其它设备输入的数据;驱动器, 用于启动或停用用于实行机械、物理或化学动作的装置,诸如传动器等 等;
被存储在程序存储器中的程序还包括用于估计由传感器收集的数 据和/或由服务人员或由其它设备输入的数据的方法;
其特征在于,
所述程序具有用于对所收集的和/或所输入的数据执行根据前述权 利要求1到11的一项或多项的算法的子例程。
47.根据权利要求46的设备,其特征在于,向所述程序提供子例 程,用于通过由用于把属于多维空间的信息数据投影到具有较少维的空 间的方法来处理所述数据,而实行对多维数据的认知分析,所述方法包 括以下步骤:
提供具有一定数目的变量的记录的形式的N维数据的数据库;
定义用于计算在数据库的每个记录之间的距离的度量函数;
通过在以前的步骤定义的度量函数来计算在数据库的每个记录之 间的距离的矩阵;
定义n-1维空间,其中每个记录由n-1个坐标定义;
通过调优算法计算在n-1维空间中每个记录的n-1个坐标;
把下述投影定义为所述记录在n-1维空间上的最好投影,在所述投 影中,在n-1维空间中的记录的距离矩阵最好地适配在n维空间中计算 的记录的距离矩阵,或具有与后者的最小差值。
48.根据权利要求47的设备,其特征在于,提供了数据库,在数 据库中已包含记录之间的距离。
49.根据权利要求47或48的设备,其特征在于,使用所谓的遗传 算法作为调优算法。
50.根据前述权利要求47到49的一项或多项的设备,其特征在于, 所述子例程提供以下步骤:编码由具有坐标X和Y的点所表示的每个 单独的记录或变量;
定义对于每个点的不同的X和Y坐标的组,其构成了在较少维的 空间(通常为二维或三维空间)上的第一集群的投影解;
通过使用在原先的N维空间中单个点的距离的矩阵作为适配性函 数而计算对于这个第一集群的每个投影的适配性分数;
投影的集群根据某种组合法则进行组合,因此产生投影的第一代集 群,它包括对于作为在母本的两个投影中提供的坐标的组合的点的X和 Y坐标;
计算第一代的投影的适配性分数,以及根据第一代再次构成新的一 代。
51.根据前述权利要求47到50的一项或多项的设备,其特征在于, 遗传算法是所谓的GenD算法。
52.根据前述权利要求47到51的一项或多项的设备,其特征在于, 可以定义相应于隐藏记录或隐藏变量、并且其存在仅仅是猜想的隐藏 点,所述隐藏点通过给予它以投影中的位置坐标Xhi和Yhi而被加到母 本集群中。
53.根据前述权利要求47到52的一项或多项的设备,其特征在于, 并行地实行具有隐藏点和不具有隐藏点的调优算法的计算,并把通过这 两种并行计算得到的最好的适配投影进行比较。
54.根据前述权利要求47到53的一项或多项的设备,其特征在于 另外的步骤:提供包括一定数目的记录的数据库,每个记录以一定数目 的变量为特征,
根据以下两种方式交替地或并行地精确制作数据库:
第一方式,通过此方式,记录被看作为点而变量被看作为点的坐标,
第二方式,通过此方式,变量被看作为点而记录是坐标。
55.根据前述权利要求47到54的一项或多项的设备,其特征在于 它包括对数据的另外的不同处理作为前处理或后处理阶段。
56.根据前述权利要求55的一项或多项的设备,其特征在于,数 据在预防步骤藉助于自组织映射算法进行处理,接着在不同的单元中由 这个算法构成的群集根据前述权利要求47到55的一项或多项进行处 理。
57.根据前述权利要求的一项或多项的设备,其特征在于,在所收 集数据的所收集数据记录之间的关系藉助于每个数据记录与其它数据 记录的距离来确定,并且所述距离在确定启动或停用用于实行机械、物 理和/或化学动作的一个或多个装置时被用作每个数据记录的关联性权 重。
58.根据权利要求57的设备,其特征在于,每个数据记录与其它 数据记录的最大距离被设置用于区分在确定启动或停用用于实行机械、 物理和/或化学动作的一个或多个装置时要使用的数据记录。
59.根据权利要求56或57的设备,其特征在于,在数据库被投影 的图上的数据记录的群集或距离被用作为与所述数据记录有关的数据 记录或变量的相似性的度量。
60.一种用于向具有人工智能的设备提供直觉行为的仿真的方法, 所述设备包括:
处理单元(1),所述处理单元被连接到数据存储器(3)和程序存储器 (2);
所述处理单元还被连接到一个或多个不同的传感器,所述感应器用 于检测或测量在环境中表征的或发生的不同的物理和/或化学状况或影 响或过程;
所述处理单元还通过服务人员或来自其它数据收集设备的数据输 入线被连接到数据输入装置;
所述处理单元还被连接到用于实行机械、物理或化学动作的装置, 诸如传动器等等;
在程序存储器中装载有可由所述处理单元执行的程序,该程序具有 例程,用于驱动传感器和以可被唯一地识别的方式保存由传感器收集的 每个数据和/或用于保存由服务人员或由其它设备输入的数据;驱动器, 用于启动或停用用于实行机械、物理或化学动作的装置,诸如传动器等 等;
被存储在程序存储器中的程序还包括用于估计由传感器收集的数 据和/或由服务人员或由其它设备输入的数据的方法;
所述方法的特征在于以下步骤:
从所收集的和/或所输入的数据中生成相对于N维空间的、具有一 定的数目的记录的数据库,每个记录包括一定数目的变量;
通过把记录看作为点并把变量看作为坐标或把变量看作为点并把 记录看作为坐标而将数据库投影到具有相对于N维空间减少了维数的 空间上;
藉助于一种用于把属于多维空间的信息数据投影到具有较少维的 空间的算法来实行投影,该算法包括以下步骤:
通过度量函数来计算由数据库的记录或变量所定义的每个点之间 的距离的矩阵;
定义n-1维空间,其中由记录或变量表示的每个点由n-1个坐标定 义;
通过调优算法来计算在n-1维空间中每个点的n-1个坐标;
把下述投影定义为所述点在n-1维空间上的最好投影,在所述投影 中,在n-1维空间中的点的距离矩阵最好地适配在n维空间中计算的点 的距离矩阵,或具有与后者的最小差值。
61.根据权利要求60的方法,其特征在于,提供了数据库,在数 据库中已包含记录之间的距离。
62.根据权利要求60或61的方法,其特征在于,使用所谓的遗传 算法作为调优算法。
63.根据前述权利要求60到62的一项或多项的方法,其特征在于, 执行以下步骤的算法:
编码由具有坐标X和Y的点表示的每个单独的记录或变量;
定义对于每个点的不同的X和Y坐标的组,其构成了在较少维的 空间(通常为二维或三维空间)上的第一集群的投影解;
通过使用在原先的N维空间中单个点的距离的矩阵作为适配性函 数而计算对于这个第一集群的每个投影的适配性分数;
投影的集群根据某种组合法则进行组合,因此产生投影的第一代集 群,它包括对于作为在母本的两个投影中提供的坐标的组合的点的X和 Y坐标;
计算第一代的投影的适配性分数,以及根据第一代再次构成新的一 代。
64.根据前述权利要求60到63的一项或多项的方法,其特征在于, 调优算法是所谓的GenD算法。
65.根据前述权利要求60到64的一项或多项的方法,其特征在于, 可以定义由隐藏记录或隐藏变量表示的、相应于在图上的隐藏点、并且 其存在仅仅是猜想的隐藏点,所述隐藏点通过给予它以投影中的位置坐 标Xhi和Yhi而被加到母本集群中。
66.根据权利要求65的方法,其特征在于,并行地实行具有隐藏 点和不具有隐藏点的调优算法的计算,以及把通过这两个并行的计算得 到的最好的适配投影进行比较。
67.根据前述权利要求60到66的一项或多项的方法,其特征在于 另外的步骤:提供包括一定数目的记录的数据库,每个记录以一定数目 的变量为特征,
根据以下两种方式交替地或并行地精确制作数据库:
第一方式,通过此方式,记录被看作为点而变量被看作为点的坐标,
第二方式,通过此方式,变量被看作为点而记录是坐标。
68.根据前述权利要求60到67的一项或多项的方法,包括另外的 不同算法,其把数据库作为前处理或后处理阶段对待。
69.根据权利要求68的方法,其特征在于,数据库在预防阶段藉 助于自组织映射算法进行处理,在不同的单元中由这个算法构成的群集 藉助于根据前述权利要求的一项或多项的算法进行投影。
70.根据前述权利要求60到69的一项或多项的方法,其特征在于, 在数据库被投影的图上的点的群集或距离被用作为与所述点有关的记 录或变量的相似性的度量。
71.根据前述权利要求的一项或多项的方法,其特征在于,提供包 括一定数目的记录的数据库,其中每个记录与一定数目的变量有关,所 述数据库还被加上对于预先提供的变量的补码变量,以及所述合成数据 库被投影到较少维的空间,具体地被投影到二维或三维空间;
在图中的每个变量与其补码变量之间的距离被用作为对于在数据 库中的所述变量的关联性的度量。

说明书全文

技术领域

一种用于把属于多维空间的信息数据投影到具有较少维的空间的 算法,一种用于根据所述算法对多维信息数据进行认知分析的方法,和 包括被存储在可记录的载体上的所述算法的程序和具有人工智能的设 备。

发明涉及用于把属于多维空间的信息数据投影到具有较少维的 空间的算法。

本发明具体地涉及人工智能领域,以及目的是允许机器能够实行分 析复杂的n维数据的计算任务,以便在二维或三维空间中表示这个数据 并从而估计这个数据用于识别任务,例如以便创建数据的简化的和可表 示的图像,或估计一组数据记录之间的关系的存在,该关系不能由精确 的可计算的或数学函数来表示,或用于计算任务,以便解决并非基于精 确的数学函数的问题。

背景技术

众所周知,常常无法用具有精确解的函数或用具有高度数学解的方 程组来表示自然特性。在精确的科学中,可以建立模型用来简化关系和 帮助实行数学检查,以便得到数据之间的关系或表现为不相关的数据之 间的相关性的数学表示和用于估计数据相关性的程度或级别的数学工 具。而且,模型可包含识别和/或构建图像或结构以及提供图形表示。
另外对于下述问题,即得到用于具有人工智能的设备的工具以便更 好地了解、分类和估计物理与化学世界和特性的问题,必须注意,人工 智能不限于仅仅相对于精确的科学或技术问题或结构的特性分析和检 查,而且也必须面临社会问题,其用数学工具或用精确的可计算的函数 来表示会困难得多。在这种情形下,设备面临具有特定行为并根据他们 本身的想法或藉助于本能反应而采取行动的个体,其无法用数学模型来 描述,因为不存在数学模型,以及也因为不存在用来定义在无论属于哪 个种类的事件与行为之间的关系的清晰的和唯一的法则。
人类具有以下能,即分析环境刺激和当刺激明显地与它们没有联 系或不相关时决定实行动作来作为对于所述刺激的响应。这个过程有时 以无意识的方式实行,如果当刺激的已知联系存在时考虑到该联系,所 述无意识方式导致逻辑上不可预测的行动。不过,该行动常常是正确的 或近似正确的,或导致某些成功效果。我们可定义为直觉等等的这种性 能似乎不具有任何逻辑基础或似乎不是由逻辑想法造成的。
由于人工智能是基于计算机器,所以存在对仪器的需要,所述仪器 可以帮助这种机器用下述方式分析或变换信息数据,即,可由机器简单 处理和使用的方式,以及允许机器识别和/或生成关系函数的方式,这些 关系函数从数学或计算观点看来是更容易处理而不会失真或遗漏信息, 并因此给出了至少在一定程度上仿真人类智能的“直觉”行为的机会。
数据库的记录可以被表示为空间中的点,这些点的位置由描述数据 库的记录的变量值所确定。在原理上,在下述意义上,该表示法也可以 被颠倒,即变量被表示为空间的点而每个变量的位置由记录定义。这种 投影带来某些优点。作为第一技术优点,可以发现被隐藏在无法由人类 和机器所理解的信息数据的n维空间的某些关系,因为在其中记录或变 量由点来表示的空间中的记录和/或变量相对位置是它们的相似性或差 异的度量。第二技术优点在于,对信息数据的简化有助于把数据变换成 可进行计算估值的数据,并因此帮助机器分析数据,以确定对于数据的 适当响应和以更快速和简单的方式实行它的计算作业。不要忘记,对于 数学或计算问题,可能有理论上存在而实际上无法计算的解决方案。
允许把用于数据的三维空间减小到二维空间而又不丢失或失真由 数据表示的信息的映射问题的解决方案也具有很大的关联性,如果例如 考虑一种机器,其从环境收集图像数据并必须生成图像,所述图像在构 成障碍物的物体与不构成障碍物的物体之间和在以后可能构成障碍物 的物体之间识别物体或至少区分某些物体。在这种情形下,能够减少有 关被放置在三维空间并具有在二维图上的三维扩展的物理物体的信息 的机器将允许大大地简化机器结构和大大地减少计算负担。
上述的技术优点已经存在,如果考虑具有人工智能的非类人的机器 的话。例如考虑到诸如类人的机器人那样的类人机器,所述优点变得更 重要,因为这样的机器具有大量传感器以及非常高的计算和估计负担, 其被设置为处理单元。
本发明所涉及的算法不仅仅具有对于人工智能的关联,而且也可以 通过把数据投影到二维或三维空间而帮助人类智能检查与分析属于n维 空间的信息数据之间的关系,其中n大于3。这是可以通过具有被构建 来感知三维或二维空间的感觉的人类智能来理解的表示。因此在这个空 间中的数据表示可以帮助人类智能理解和找出在四维或更多维空间中 不能被识别的关系。
用于把数据从n维空间投影到较少维的空间并具体地投影到三维或 二维空间的已知的算法使用预定的特性投影函数,用于计算每个点在投 影空间中的位置。用于这类投影算法的例子是所谓的主要部件分析,简 称PCA,它在H.Hotelling,“Analysis of a Complex of Statistical Variables into Principal Components”,J.Educ.Psychol.,24:498-520, 1933中被描述。此算法提供定义正交的N个因子和N个新变量的步骤。 通过使用新变量的这个基础,在线性约束条件下通过试图把尽可能多的 信息放置在第一因子中而实行对数据的重新组织。映射包含通过使用已 计算因子来重写观察/变量和通过使用作为坐标的已计算因子F1/F2、 F3/F4等等而把每个物体画在二维图上。
仅仅基于线性投影来工作的这种投影算法确定某些信息将在投影 期间丢失。为了理解这种情形,考虑从三维空间到二维空间的正常的投 影。在线性投影中,如果二维投影空间是与该两个点沿着它被间隔放置 的第三维正交的话,那么沿三维中的一维具有一定距离的两个点可能呈 现为非常接近。以非常简化的方式,这种情形通过使用PCA算法出现。 已知技术的结果在于,在信息数据被投影到的较少维的空间中,数据关 系很大程度地失真,并且这个失真甚至可以消除或反常地增强数据之间 的关系。
根据本发明的算法具有的目的是,把N维信息数据投影到较少的维 并具体地投影到二维或三维空间上而不会使数据之间的关系过度失真。

发明内容

根据本发明的算法具有以下步骤:
提供具有一定数目变量的记录的形式的N维数据的数据库。
定义用于计算数据库的每个记录之间的距离的度量函数。
通过在以前的步骤所定义的度量函数来计算在数据库的每个记录 之间的距离的矩阵。
定义n-1维空间,其中每个记录由n-1个坐标定义。
通过调优算法来计算在n-1维空间中每个记录的n-1个坐标。
把下述投影定义为所述记录在n-1维空间上的最好投影,在所述投 影中,在n-1维空间中的记录的距离矩阵最好地适配在n维空间中计算 的记录的距离矩阵,或具有与后者的最小差异
可以使用所谓的遗传算法作为调优算法。
这种算法提供基于解的起始母本集群的新解,其可以根据例如不规 则尝试的各种方法来计算。母本集群的解用遵循在遗传学中基因的基本 组合的这样的方式进行组合,因此给出新的和不同的解,它的适配性分 数(例如在本示例中是误差或差值)形成n维和n-1维空间的距离矩阵, 估算所述适配性分数用来给出对下述解的某种关联性,所述解将会影响 与用于生成另一代的新一代的其它解进行组合的可能性。
这种计算使用调优算法,以便用这样的方式计算在投影空间中的点 的位置,所述方式使得相对于原先空间的点的距离的误差最小化,并且 总是独立于信息数据的具体结构。因此,与现有技术状态的PCA算法 相反,根据本发明的算法不使用计算投影空间中的点的位置的预定特性 投影函数。
根据本发明的算法把信息数据的投影与特定调优算法相结合,这些 将在以下的例子的说明中进行更详细地描述。
为了更详细地和出于简单性参照到二维空间的投影,本算法解决的 数学问题为如下所述:
给定L维空间中N个点和它们的距离,根据它们的约束限制的距 离找出在二维空间中这些点的最佳分布。
以严格的数学语言,上述的问题可被表示为如下:
定义在二维空间中的映射距离,例如:
Md ij = ( P x i - px j ) 2 + 2 ( Py i - py j ) 2
其中Md是映射距离,而i和j是点的号码,并且其中Px和Py是在二 维空间中的点的坐标。
还定义了向量距离,诸如:
vd ij = Σ k = 1 L | Pv ik - Pv jk |
其中Vd是向量距离,i和j是不同的点的指数,而Vk是向量分量。
因此,所述数学问题将实行以下优化:
min E ; E = 1 C · Σ i = 1 N - 1 Σ i = i + 1 N | Md ij - Vd ij | ; C = N · ( N - 1 ) 2
由于投影中维数的减小,可能存在一种情形,其中如果以经典的方 式实行投影的话,两个点可能无法互相分开。因此,如果信息必须在较 少维的空间中不失真或至少部分地维持,则从数学观点看来不能实行精 确的投影。
本算法通过编码由具有坐标X和Y的点所表示的每个单独的记录 而解决以上问题。对于每个点的不同的X和Y坐标的组被定义为形成 在较少维的空间(通常为二维或三维空间)上的投影解的第一集群。
对于这个第一集群的每个投影,通过使用在原先的N维空间中单个 点的距离矩阵作为适配性函数而计算适配性分数。投影的集群然后根据 遗传算法的组合法则进行组合,从而产生投影的第一代集群,其包括作 为在母本的两个投影中提供的坐标组合的、对于点的X和Y坐标。
对第一代的投影的适配性分数进行估值,以及再次地,根据第一代 形成新的一代。
通过使用母本的投影的某些组合性准则,根据这个母本的适配性分 数,遗传算法在每一代计算具有更好的适配性分数的解,因此收敛到最 好的解。
几种遗传或调优算法是已知的,例如它们是互相不同的,大多数按 父母的组合性准则,以便生成下一代的解。这个准则涉及到母本集群的 两个个体的许可或禁止的“结合”,以及在两个母本个体组合它们的数据 组的机制中,在这种情形下涉及在较少维的图中的点的不同坐标。
作为例子,根据本发明所使用的特定的遗传算法是在2000年的 BUSCEMA中详细公开的所谓的遗传掺杂算法:M.Buscema,Genetic Doping Algorithm(GenD),Edizioni Semeion,Technical Paper 22e, Rome 2000和Massimo Buscema与Semeion Group,“Reti neurali artificiali e sistemi sociali complessi”,Year 199,Edizioni Franco Angeli s.r.l.Milano,Italy,chapter 21,这些公开内容被认为是本说明书的一部 分。
简要概述,GenD算法提供用于从母本集群生成下一代的新的个体 的专修正法则。
通常在遗传算法中,作为第一步骤,GenD根据需要优化的函数来 计算每个个体的适配性分数,在本例中所述函数是通用数据组中的数据 记录在训练组和测试组上的分布函数。然后计算整个集群的平均健康分 数。平均健康首先构成对于每一代的集群的所有个体的脆弱性准则,并 其次构成重新组合准则。
其健康低于或等于集群的平均健康的所有个体被输入到脆弱性列 表中。这些个体不会被消除,而是继续参加仅仅被标记出的过程。脆弱 个体的数目自动建立对于该代所许可结合的最大数目。对于每一代可能 的结合数目因此随集群的平均健康而变化。在第三步骤,GenD算法耦 合到个体。整个集群分担了这种可能性。随机耦合调用的数目对应于被 标记为脆弱的个体的数目的一半。
出于耦合目的和子女一代,候选的个体两者都必须具有接近于整个 集群的平均适配性数值的适配性数值。而且,每对个体可以生成后代, 因为对于结合,下述情况是充分的,即一对个体中的至少一个享有接近 于整个集群的健康平均值或甚至更高的健康数值。根据另一重新组合法 则,GenD算法不考虑这样两个个体之间的可能结合,所述两个个体在 与集群的平均健康值相比较时其中一个具有非常低的健康值而另一个 具有非常高的健康值。这意味着,太弱的个体和太强的个体趋于不互相 结合。
通过耦合的重新组合并不意味着父母个体的基因的经典杂交。 GenD算法通过两类重新组合而实现父母基因的选择性组合。逻辑杂交, 当允许重复时;以及机会主义杂交,当不允许重复时。
逻辑杂交考虑四种情形:
1.父亲和母亲的健康值均高于整个集群的平均健康值;
2.父母的健康值均低于整个集群的平均健康值;
3.和4。父母之一的健康值低于平均健康值,而父母中的另一个的 健康值高于整个集群的平均健康值。
如果情形1发生,则将以传统杂交来实施重新组合。
如果第二种情形发生,则通过拒绝父母的基因而出现两个子女的一 代。
如果情形3或4发生,则更健康的父母的基因被传送给子女,而不 太健康的父母的基因被拒绝。
在上面,拒绝的定义并不意味着取消被拒绝的基因,而只是这些基 因被替换。基因替换不是随机的,而是通过滑窗准则来实行。每个基因 可以具有不同的基因的选项或状态。在这种情形下,通过滑窗进行的替 换意味着,实际被拒绝的基因将用与原先相同的基因来替换,但所述新 基因具有另一种状态。所以在替换期间由GenD算法使用的准则只提供 该基因的状态的替换,这假定了在父母个体中基因所具有的不同状态。
关于机会主义杂交,这种杂交在不允许重复时工作。在这种情形下, 父母具有相对于随机杂交点的重叠基因。在这种情形下,通过选择父母 的更有效基因来生成后代。重复所述机制直至完成所有后代为止。
GenD算法的另一准则依赖于最后机会准则,它是一种机制,使得 弱的个体能够被标记出,并且再也没有机会成为结合的一部分,以备通 过突变而重新进入耦合机制。可能的突变数目被计算作为潜在结合的数 目和已实行结合的数目的差值。对于现有的并被标记在脆弱表中的那些 个体发生突变。这样,再也没有机会成为生成过程的一部分的个体被给 予进入调优过程的最后机会。
从以上的对于此特殊的基因算法的主要特性的简短解释中,显而易 见,在GenD算法中结合的数目和突变的数目不是外部参数,而是考虑 了集群系统的全局趋势的自适应的可自定义的内部变量。
而且,还可以清楚地看到,与经典遗传算法不同,GenD算法的基 本单元不是个体,而是以每代的整个集群的平均健康的形式对个体进化 起作用的种群。在个体与集群的平均健康之间的反馈环使得本算法能够 根据进化而把来自个体列表的集群作为整体变换成个体的动态系统。
作为根据本发明的算法的另一个改进步骤,可以定义所谓的隐藏 点。其存在仅仅被猜想的这个隐藏点通过在投影上给予它以位置坐标 Xhi和Yhi而被加到母本集群中。
可以并行地实行带有隐藏点和不带有隐藏点的调优算法的计算,以 及把通过这两种并行计算得到的最好的适配投影进行比较。隐藏点可以 帮助更好地理解在N维空间中的点的真实位置的特质,并因此更好地近 似出在较少维的空间中的这个位置。
图1概略地重新假设与带有和不带有隐藏单元的估计相关的本算法 的机制。
虽然例子是相对于从L维空间到二维空间的投影而进行描述的,但 清楚看到,所述算法对于三维空间或L-1维空间中的向回投影也类似地 起作用。通常,在二维空间或三维空间中的投影是优选的投影,因为数 据表示可以更好地被人们理解。当使用本发明用于把更强识别能力给予 配备有人工智能的设备时,如果需要用于实行设备所设计的任务,也可 以使用四维或更多维的空间。
通过本算法实行的投影可以在欧几里德二维或三维空间上。可替换 地,算法计算投影的方式可被理解为例如不是把点投影在二维平面,而 是投影在多少有点弯曲的二维表面,不过在图形上表示为平面。
给定包括一定数目的记录的每个数据库,每个记录由一定数目的变 量所表征,本算法可被应用于以两种不同的方式投影数据库。
第一种方式是把记录看作为点而把变量看作为点的坐标。
第二种方式通过把记录看作为变量而对称地颠倒这种情形。
两个空间被定义为观察和变量空间以及投影可以促使发现记录之 间和/或变量之间的关系。
在以下对不同例子的说明中,将能够理解本算法的有效性以及可以 通过隐藏点和通过两个投影而被恢复的信息。从具体的例子中,还将清 楚地看到,除了下述事实以外的本算法的技术意义,所述事实为,允许 以非常快速的方式计算点的较少维的图,以及以独立于由每个点或记录 表示的信息数据的结构和意义的方式计算点的较少维的图。在人工智能 和因而例如机器人学的领域中,此技术意义在于以下事实,即计算的机 器能够分析信息数据和识别或限定关系,而不管它们的复杂性。在复杂 问题中对信息数据的关系的识别对于下述方面是重要的,即不单给予机 器以计算能力而且也允许机器做出关于机器预定实行的特定任务的决 定。
根据本发明的算法可被用来提供用于多维信息数据的认知分析的 方法。
在提供包括一定数目的记录的数据库且每个记录表示在一个特性 与一定数目的变量之间的关系的情况下,由表征每个记录的变量数目所 限定的N维空间中的记录的距离矩阵根据某个度量函数进行计算。
采用这个矩阵作为适配性矩阵,用于通过使用上述算法把记录或变 量投影到较少维的空间(具体是二维或三维空间)中。
在二维或三维空间中的记录或变量的表示可被用来识别在记录之 间或在变量之间的某些关系。
可应用本方法的特定问题的例子涉及到以下事实,即,当构成分子 的至少某些原子之间的距离为已知时,确定某个分子的结构。这个问题 用于那种所谓的无约束优化问题。
所述方法可以计算分子结构的三维或二维投影,它们可以以智能方 式图形地表示给人们。此外,当分析复杂分子时涉及此问题,可以通过 添加隐藏个体而实行投影(在本例中所述隐藏个体可以是隐藏原子), 并因此提供了用于查看高度复杂分子的分子组成和结构的工具。
独立于信息数据的结构的、根据本发明的方法还可以处理非数学问 题,例如社会学问题。在这种情形下可以提供用来给出所考虑的不同社 会变量的估计的数值标量的第一步骤。通常,这不是关键问题,因为这 种变量常常由可以通过值“真”、“非真”和“不存在”来限定的不同 状态来表征,这样,在本例中的标量可被定义为1,(-1)和0。
根据所述方法的进一步特性,用于把信息数据从N维空间投影到较 少维的空间(具体是二维或三维空间)的、根据本发明的算法可以与对 于信息数据结构多少更敏感的其它种类的投影算法相结合进行应用。
可以与本投影算法相结合使用的具体的算法是所谓的“SOM”自组 织映射算法,它是一种群集算法。SOM是已知的算法,它在KOHONEN, 1995中更详细地描述:T.Kohonen,“Self Organising Maps”,Springer Verlag,Berlin,Heidelberg 1995,或Massimo Buscema&Semeion Group“Reti neurali artificiali e sistemi sociali complessi”,Year 199, Edizioni Franco Angeli s.r.l.Milano,Italy,chapter 12。
SOM假设投影网格的现有定义并经由竞争性算法来投影在这个网 格中的记录的码本,在所述竞争性算法中主要变量超过其它变量。
SOM投影导致被称为Kohonen单元的数据群集。SOM算法因此 被用来执行信息数据的第一加工,而根据本发明的算法接着被用来把从 第一加工中形成的Kohonen单元以具有坐标的和更详细的方式再次投 影在它自己的图上。
这个过程允许利用SOM算法的特质来考虑变量的重要性,而且也 允许利用本投影算法的特性,所述投影算法可以估计通过引用适配性函 数来执行的投影的适配性分数,所述适配性分数是表示N维空间中的信 息数据的点的距离矩阵并且其还可以考虑隐藏单元。因此,在较少维的 空间中的重现精度得以保证,并且执行可提供更多信息的更加复杂的投 影。图2示意性地例示了SOM算法与本算法的结合。由于本算法,SOM 算法的优点可以与以下事实相结合,即本算法可以通过隐藏单元增加投 影的重建精度而使得原先的投影空间动态地变形
本发明还涉及用于开始于有关分子的原子的距离的完整或不完整 数据而构建分子的二维或三维结构图像的方法。
本发明还涉及具有人工智能的机器,当遇到非化学或物理性质的明 显非相关数据和/或从环境中收集的物理或化学数据时,所述机器能够根 据仿真人类智能的“直觉”理由的过程来实行动作。
附图说明
图1例示了根据本发明的投影算法的体系结构的图。
图2例示了根据本发明的算法与SOM算法的结合的图。
图3是根据例I的意大利城市之间的公路距离的数据库。
图4是根据图3数据库的数据库城市的二维投影图。
图5是根据例II的美国城市之间的飞行距离的数据库。
图6是根据图5数据库的数据库的城市的二维投影图。
图7是根据例III的1994年欧洲国家食物消费的数据库。
图8是在由根据本发明的算法所加工的变量空间中图7数据库的二 维投影图。
图9是在由根据本发明的算法所加工的观察空间中图7数据库的二 维投影图。
图10是第四例的13个变量和它们的补码的表。
图11是用根据本发明的算法把根据图10的表的变量投影到二维平 面的结果。
图12例示了根据图1的图上在变量和补码之间的连接。
图13例示了根据本发明的第五种方法,其中投影算法与所谓的自 组织图相结合使用。
图14是例示了根据图13的方法和通过数据库在二维图上的投影来 规定的变量组的码本原型的表的另一个图。
图15是根据本发明的、具有人工智能的设备的框图
图16是一种情形的极简化的例子的图形表示,在所述情形中根据 本发明的、具有人工智能的设备(例如机器人)可以提供正确的响应动 作。
图17到19例示了根据本发明的方法的例子,所述方法用于生成形 成所述分子的原子的距离的不完整数据的分子形式的结构的二维或三 维图像。

具体实施方式

例I
例I阐明算法运算用来从与物体之间的距离有关的数据中生成图的 方式。
在图3和4中,描述了数据组和通过使用根据本发明的算法得到的 二维映射的第一例子。
提供了包括十个意大利城市和它们的公路距离的数据组。公路距离 不是在欧几里德空间中的真实二维距离,因为每个公路距离具有三种变 更,即:经度变更、高度变更和结构变更。因此使用线性算法来创建城 市的二维地图(其中只考虑公路距离而安置所述城市)将确定城市的位 置相对于它们真实的相对位置的失真。
Arezzo城市没有把它到其它城市的距离给予所述算法,而是把可自 由确定的距离值给予所述算法,这样,调用该算法来查找假设存在的并 且其位置是未知的隐藏城市。
隐藏城市的第一随机化的距离值在对于隐藏城市的距离矩阵中给 出,这样,所述算法可被初始化以及可以开始校正隐藏城市的随机化的 初始位置。正如从图4清楚地看到的,由根据本发明的算法画出的图与 地理图的比较允许将隐藏城市识别为Arezzo城市。
使用根据本发明的、实行非线性投影的算法,通过优化其它城市相 对于其相关距离的矩阵的相关位置,由数据库中它们的距离所定义的其 它城市也被安置在二维图上。相对于真实位置的失真是非常小的,并且 在图4中例示了其解。
例II
例II是与例I类似的映射问题。在本例中,数据库包括12个美国 城市和它们的相对飞行距离。没有提供隐藏单元。
另外,在本例中,飞行距离受到类似于例I的变更影响。
另外,在本例中,在二维图上城市的线性投影将不会正确地维护上 述变更,以及城市在图上的位置将相对于真实情形存在失真。
由本算法得到的结果是在图6中例示的图,以及其中对城市的定位 相对于距离矩阵仅仅具有3.07%的误差,而城市的位置非常接近于真实 的地理位置。
例III
例III是更复杂的例子。这个例子阐明算法为了生成明显没有逻辑 关系的数据之间的关系或相关性是如何起作用的。
该数据库涉及1994年欧洲国家食物消费。它包括与食物种类有关 的九个变量,即:谷物、大米、土豆、糖、蔬菜、肉、奶、黄油、鸡 蛋。
涉及到16个国家进行16个观察,16个国家即:比利时、丹麦、德 国、希腊、西班牙、法国、爱尔兰、意大利、荷兰、葡萄牙、英国、奥 地利、芬兰、岛、挪威、瑞典。
该数据库通过根据本发明的算法进行估计,并得到根据图8的图。
在二维图上,圆圈表示国家所属的地理区域。由本算法实行的投影 示出,有不同的国家组具有类似的食物消费,并且这些国家属于相同的 地理区域。而且,二维投影也突出了爱尔兰具有与其它所有国家并尤其 与它所属的地理区域的国家非常不同的食物消费行为。
图9例示了通过把记录看作为变量即把观察国家看作为变量而做出 的数据库的投影,所述变量被定义为观察空间。投影也是通过根据本发 明的算法来实行,并且图9的图还表明了在数据库中不明显的关系。
从以上可以清楚地看到,根据本发明的算法实行投影,由于它的非 线性,该投影不会产生隐藏信息。PCA算法需要把信息数据例示在二维 图上而不丢失信息,而根据本算法的投影不会隐藏信息和数据之间的关 系。
通过详细输入更多数据,数据之间的相关程度由本算法通过所谓的 “共享信息”方程式来确定。此方程式测定在图上两个点之间的相关性的 程度。此方程式表达了依照概率的、表示原先的多维空间中的数据库的 两个不同的数据记录的两个点之间的“共享信息”。因此,本方法定义了 在图上两个点之间的相关性的程度作为相关性概率:
A i , j = - ln Σ k = 1 L ( 1 - Pv i , k ) · Pv j , k L · Σ k = 1 L ( 1 - Pv j , k ) · Pv i , k L Σ k = 1 L Pv j , k · Pv i , k L · Σ k = 1 L ( 1 - Pv j , k ) · ( 1 - Pv i , k ) L , Pv [ 0,1 ] ; A [ - , + ] .
回到本映射算法寻找隐藏单元的能力,这个能力可被用来解决另外 的技术问题,例如,在原子列表不完整或距离矩阵不完整的情形下,用 于画出复杂分子的二维或三维图。
必须注意,如上所公开的,数据库也可以是不完整的,这意味着, 尽管已知某些原子的存在,但这些原子的距离可能是未知的。由于能够 考虑隐藏单元,根据本发明的算法可以把已知的原子安置在相对于分子 的其它原子的正确的或最可能的位置中,在矩阵中所述原子的距离是未 知的。
根据与这个最后例子有关的使用考虑隐藏单元的能力的另一个方 法,根据本发明的算法也能够考虑在不完全知道其组成的分子中未知的 原子的存在,此外,所述算法也能够产生这个原子相对于其它已知的原 子的最可能的位置的假设,因此有助于进一步研究分子结构。
例IV
在图10中例示了13个变量和它们的补码的表。该13个变量涉及 到一定数目的个人(更精确为117个人)的处方数据和医药数据。目的 是分析数据库以便找出与Alzheimer疾病或与感染Alzheimer疾病的概 率多少有关的关系。从13个变量开始,定义这些变量的补码。补码是 变量的补码值。
通过使用上述的数据库,数据被投影到二维平面上。结果被例示于 图11中。从这个图中可以得出以下的结论:两个变量越靠近,它们的 信息越高,并因此两个变量越类似。
在图12中画出了在图上的每个变量与每个补码变量之间的连接线, 以便确定它们的相对距离。从数学观点看来,可以证明,连接段越长, 变量在数据库中越重要,因为它的标准化方差较大。
例V
图13例示了包括两个不同算法的组合投影算法的图,其中一个算 法是根据本发明的投影算法。
对于一定数目个人的、不同变量的数据库包括医药、处方和社会类 的19个变量。数据库的记录由被称为自组织映射(SOM)的算法进行 加工。这个算法把记录群集成小组或单元。数据库是例IV的数据库的 增大版本。
根据本发明的算法被应用到由SOM计算的单元,以便把所述单元 和在其中被群集的记录以最佳方式分布在二维图上。码本原型可以被计 算成为参加一个组的每个单元的码本的平均值。
由投影算法创建的二维图上单元的组藉助于它们在图上的群集而 进行估计。显然,根据本发明的投影算法将强调第四组的存在。
图14例示了从包括所述19个变量的数据库开始和使得该数据库进 行SOM并以后进行投影算法的图,在投影图上生成四个组,每个组具 有在右面的表上列出的特定码本原型。
所考虑的变量是Alzheimer疾病可以以某种方式涉及到的变量。所 考虑的对象数目是117个病人。不同的组通过已感染Alzheimer疾病的 病人的不同百分比来表征。码本原型可以给出对于某些医药变量和/或某 些处方变量和/或某些社会变量的关联的深入了解,用于确定个体感染 Alzheimer疾病的险。
需要引起注意的是,年龄是无关联的,而诸如智力平或学校教育 水平、体育锻炼和完成行为的其它变量的社会变量在区分四个组并从而 区分感染Alzheimer疾病的风险时具有高度影响。通过提高学校教育水 平和/或通过提高体育锻炼的水平以及通过提高教育和文化水平,感染疾 病的个体的百分比将变得更低,尽管存在某些病理变量或医药变量,但 在把这些组互相区分开时它们似乎并无关联。
从上述的投影可以推断出不同的假设:
·在组织学水平上的Alzheimer疾病独立地开始于在Hippocampus 中的Tangles或NeoCortex的Plaques,并以不同的转移概率通过 Hippocampus中的Plaques到达NeoCortex中的Tangles。这个假设是 由来自根据本发明的投影算法和SOM系统的证据所支持的。
·严重爆发阶段涉及到两个不同的和无关的病理(由SOM系统支 持的证据)。
·NeoCortex中的Plaques和Hippocampus中的Tangles的分布 与SOM系统中的不同的两种对象相联系。
·MMSE、ADL、BOSTON和CNPR在它们之间以与WRCL同 VRBF互相联系的相同方式来互相强烈联系。证据由通过根据本发明的 投影算法的映射所支持,它把这两组测试安置在两个不同区域。
·教育年头与Alzheimer疾病病理特性有很强的联系(由根据本 发明的投影算法所支持的证据)。
·对不同的无人监管有机组织的统一使用允许通过特定的码本原 型来标识对象的四个自然群集。
例VI
例VI涉及到用于确定分子组成的方法,该分子中至少某些原子与 构成分子的至少其它原子的距离是已知的。
在本例中,所述方法使用根据本发明的算法,用于生成根据已知距 离具有最佳适配的分子图。
因此,可以画出分子结构,它不会使信息丢失、隐藏或失真。
构成了数据库,该数据库包括原子与分子的另一原子的距离作为变 量。在图17中该数据库被例示为矩阵。
这个数据库可以藉助于在分子上实行的测量而得到,例如通过使用 作为固态物理中用于确定晶体的晶格结构的通用技术的X射线照相检 查,或其它的当前测量方法。
一旦从测量中得到了数据,就生成矩阵形式的数据库,所述矩阵的 每行或每列具有标识原子的相同的行和列索引。每对原子之间的距离在 矩阵中列出,其中每个距离由行和列索引所识别,结果是一个矩阵,其 中对线元素的每一个都具有一个零值,并且所述矩阵是相对于所述对 角线对称的。在不存在有关两个原子之间的相对距离的数据的情况下, 把预定的数值给予这些矩阵元素。在本例中选择了数值(-1)。
作为下一个步骤,根据本发明和以前的说明的、用于生成二维空间 或三维空间中的图的算法被应用于数据库。图18和19中分别示出了对 于二维和三维图的结果。在若干实验中,计算了在已测量距离的数据库 中的适配性分数和已生成的图相对于实验数据的误差。得到了范围在 0.96到0.98的适配性分数。关于误差,根据下列公式计算了两种误差:
误差1被定义为:
Σ i abs ( DistI i - DistR i )
而误差2被定义为:
Σ i abs ( DistI i - DistR i ) DistR i
其中误差1是所计算的图中的欧几里德距离DistIj与数据库的已测量距 离DistRj的差值的绝对值的和值,以及其中误差2是所计算的图中的欧 几里德距离DistIj相对于数据库的已测量距离DistRj的百分比误差的差 值的绝对值的和值。
必须指出,上述的算法的任何变体也可以与不同的例子相结合而使 用。在本例中,画出分子的原子的二维或三维分子图(这是指作为在二 维空间或在三维空间中的投影的相对位置)是个问题,其类似于在以前 的例子中描述的画出地理地图的问题。
从这个原因出发,用于确定分子结构的方法的另一个改进之处也可 以提供规定在分子的结构中可能存在但还没有通过实验确定的、一个或 多个虚拟的或假设的原子的步骤,这些原子在下文中被表示为隐藏原 子。这个另外的步骤或改进之处类似于在映射例子中的一个隐藏城市, 其中AREZZO城市被引入数据库但没有给出与其它城市的任何距离 值。因此,通过实行根据本例的方法后,所述算法将考虑该一个或多个 原子,并把它们表示在图上。可以在由本方法确定的分子结构图中突出 隐藏原子。结果,所述方法将提供在分子结构中该一个或多个隐藏的原 子的坐标和/或所述原子与其它原子的距离的预测,以及结果可被用于对 分子的更深的和更具体的实验检查和结构分析,其目的是验证该一个或 多个预测的隐藏原子的真实存在。
从这个观点看来,本方法因此也可选地成为用于实行分子结构分析 和用于预测在分子中另外的原子的存在的方法。请考虑,本例的虚拟分 子只具有25个原子,这是非常低的原子数目,如果考虑有机化学或生 物化学,其中研究了具有数目大得多的原子的非常大的高分子。
从一般观点看来,用于确定分子结构或地理图或用于检查分子结构 或地理图,以便研究另外的“隐藏”单元的存在并预测它相对于分子结构 或图中的其它已知单元的位置的方法,可被看作为用于生成图的一般方 法和/或用于预测图上未呈现的并且其相对于其它单元的位置是未知的 假想单元的存在的一般方法。
支持其一般原理的这个方法的另一个例子是生成天空图或星座图, 并根据与一定的数目的星座或其它天文目标的相对距离有关的数据来 预测星座或其它天文目标的存在及其相对于其它天文目标的位置。这种 检查避免了基于对目标的轨道扰动的观察、测量和估计的复杂计算,并 且可以给出有关不能看见或隐藏的天文目标的存在的概率的第一指示。
本发明还涉及到具有人工智能的设备,其能够估计无法被认为有关 系或相关性的数据,以及用于提供类似于人类直觉过程的对环境刺激的 反应行为。
如上所述,环境数据可能未示出直接的或明显的相关性或关系。所 以,这些数据和具有人工智能的机器对于它们的相应反应可能无法由所 述机器计算或评估,使得机器进入不工作的状态或阻塞了机器。不过, 人类能够通过在任何情形下确定对于他们的可能被动或主动的反应,而 评估这些明显不相关的刺激。如果考虑诸如机器人等等的具有人工智能 的机器,所述机器必须与未被创建或不适合于它们(例如,通过消除对 于这些机器必须实行的任务的不必要的刺激)的周围环境相交互,则机 器人的技能在估计进入的刺激方面必须大大地增加,所述刺激是无序 的,并且在它们之间显然没有关系或没有可立即识别的关系,以及机器 人的技能必须进一步在确定必须实行哪种反应作为对所收集刺激的响 应的方面进行估计。
因此,仿真一种人类“直觉”行为的机器或机器人的能力可以具有很 大的技术重要性。
根据本发明的设备例示于图15,它包括处理单元1。处理单元可以 类似于传统的计算机,因为部件涉及到电子器件。在本例中,外壳由所 述设备的盒子或实体的至少一部分所构成。处理单元与用于运行所述设 备的程序的存储器2相关联,该程序由处理单元实行。另一个存储器3 被提供用于数据,所述数据可以是所述设备的配置数据,其与输入和输 出装置有关以及与设备所配备的以及由处理单元1所驱动的传动器或功 能操作单元或工具有关。输入装置可以属于不同种类并由图15的方4 概述。输入装置可以相对于所述设备被设计用于的任务而不同。所以, 在诸如类人机器人的、很大地改进过的机器人化的设备中,输入装置可 以是传感器,其与诸如任何种类的机械的、电的、声音的、电磁的或化 学刺激物那样的物理和化学刺激相交互。这样的传感器的数目和种类可 以根据所述设备在其中运行的条件而变化。可以提供其它的输入装置, 诸如键盘或读取器的输入接口,用于其上保存数据的便携式存储器装 置,它不能由所述设备藉助于它的传感器而直接感知。
被保存在程序存储器2中的程序具有多个例程或段,其中每个可专 用于实行某种任务;和多个例程,用于驱动传动器或操作装置或单元; 以及例程,用于收集由传感器获得的数据并把所述数据馈送到估计例 程。
如果考虑具有人工智能的很大地改进过的设备,诸如必须能够实行 仿真人类的基本功能的机器人,然后考虑这样的设备穿过具有正常交通 状况的大街的简单情形,那么可以了解,设备受到的刺激的数目是非常 大的,可以存在这样的状况:在具有同一来源的关系无法被立即或明确 识别的情况下,具有同一来源的不同种类的两个刺激将到达所述设备的 传感器。图16尝试用图形说明这种情况。考虑具有平行路径(由箭头 10,11表示)的两部汽车A和B,考虑在路径一侧的反射障碍物,诸 如建筑物12、13等等,并且还考虑机器人化的设备15位于汽车路径与 反射障碍物相反的一侧。
所述设备具有两个视觉传感器115,诸如两个照相机;和两个声音 传感器215,诸如麦克风。这允许收集三维图像信息和三维声音信息。
由圆圈表示的、所生成声波将直接到达所述设备,成为由箭头16 和17所表示的声音刺激。这些刺激也将以由箭头18表示的、反射声波 的形式到达,而且,两部汽车的直接和反射声波也将叠加或混合。
在这种情形下,由机器人化的设备15收集的输入数据将提供一定 数目的变量,它们的关系不会立即和直接变得明显。
因此,通过构成其中的记录包含所收集的输入数据的数据库和实行 如前所述的根据本发明的映射算法,将提供一个图,在图中映射数据的 邻近区域将向所述设备给出数据相互关系的测量。因此所述设备能够通 过识别哪个声音是与汽车A相关的以及哪个声音是与汽车B相关的而 正确地关联声音刺激和视觉刺激。这是由根据本发明的算法所提供的估 计步骤,其是在例III、IV和V中说明的类似过程。
而且,考虑下述事实,即通过在数据库中提供隐藏的声波发生器, 反射的声波可被解译为声波源,并且使用本发明的算法,所述设备将能 够确定一个图,在图中识别反射器,并且可以估计它们的位置和移动, 以及它们与完成反射波的声音刺激的关系。通过把映射与关系的测量相 结合,设备也能够识别反射波的主要分量必须涉及到汽车A或B中的 哪一部。因此,通过应用算法形式的、根据本发明的方法,所述算法在 可由具有人工智能的设备的处理单元执行的程序中被编码,允许在上述 的例子中识别视觉或图像刺激与声音刺激之间的关系,该关系无法从由 所述设备感知的刺激中直接识别。
虽然如果构建适当的模型,则以上的例子可以通过基于物理定律 的、描述过程的方程式来解决,但必须了解,这种解决问题的方式至少 需要必须将模型构建于其上的周围环境的条件的近似的先验知识,这是 非常困难的限制。而且,在增加刺激的数目时,该问题可能无法再通过 精确的物理函数来处理,因为对于非常大量的变量,可精确解决的计算 问题可能变为不可解决的。根据本发明的、至少包括处理单元1和程序 存储器2(其中保存有包含本算法的程序,其用于由处理单元1实行, 以便提供根据本发明的数据处理方法)的设备在任何情形下将会避免设 备所在的周围环境的条件的先验知识,以及将排除生成描述设备可能经 受的情形的精确数学模型的必要性。而且,它给予设备一种可能性,即 在它受到很大数量刺激时也可以运转。
处理单元以可执行程序的形式实行根据本发明的算法,并且生成输 出图和邻近区数值,作为与在前述例子中的以上说明中定义的共享信息 有关的参数。这个输出被估计并被用作为用于驱动所述设备的传动器的 功能的判决程序的输入。也可以提供学习程序,用于保存事件作为所述 设备的经验,从而改善另外的计算任务。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈