首页 / 专利库 / 人工智能 / 量子计算机 / 数据压缩方法

数据压缩方法

阅读:940发布:2020-05-11

专利汇可以提供数据压缩方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种 数据压缩 方法。压缩数据集的一种示例方法包括确定来自该数据集的各个值对应于值的第一类别还是第二类别。基于对应于所述第一类别的值中的一个值,将该值添加到经压缩数据集。基于对应于所述第二类别的值中的一个值,从所述经压缩数据集中排除该值,并且基于该值来更新所述第二类别的值的统计分布。在第一阶段期间,基于所述值与标准的比较对来自所述数据集的第一部分的多个值执行所述确定。在第二阶段期间,基于所述统计分布对来自所述数据集的第二部分的多个值执行所述确定。,下面是数据压缩方法专利的具体信息内容。

1.一种压缩数据集的方法,所述方法包括以下步骤:
获取数据集和用于确定来自所述数据集的各个值对应于值的第一类别还是第二类别的标准;
确定所述数据集的值对应于所述第一类别还是所述第二类别;
基于对应于所述第一类别的值中的一个值,将该值添加到经压缩数据集;以及基于对应于所述第二类别的值中的一个值:
将该值从所述经压缩数据集中排除;并且
基于所述值对所述数据集中的所述第二类别的值的统计分布进行更新;
其中,在第一阶段期间,基于所述值与所述标准的比较对来自所述数据集的第一部分的多个值执行所述确定;并且
其中,在继所述第一阶段之后的第二阶段期间,基于所述统计分布对来自所述数据集的不同于所述第一部分的第二部分的多个值执行所述确定。
2.根据权利要求1所述的方法,其中,与所述第一类别的数据对应的值比与所述第二类别的数据对应的值更复杂。
3.根据权利要求1所述的方法,所述方法包括在所述第二阶段期间:
基于所述统计分布来确定来自所述数据集的所述第二部分的特定值对应于所述第二类别的概率,以及
基于超过预定义阈值的概率来确定所述特定值对应于所述第二类别。
4.根据权利要求3所述的方法,其中,所述基于所述统计分布来确定来自所述数据集的所述第二部分的特定值对应于所述第二类别的概率,是基于贝叶斯定理来执行的。
5.根据权利要求1所述的方法,其中,响应于触发事件来启动所述第二阶段。
6.根据权利要求5所述的方法,其中:
每个确定对应于一次迭代
来自所述数据集的值仅在该值尚未存在于所述统计分布中的情况下被添加到所述统计分布,并且
所述触发事件不包括来自所述数据集的所述第一部分的值被添加到所述统计分布用于预定数量的连续迭代。
7.根据权利要求5所述的方法,其中,所述触发事件包括完成对所述数据集的预定义部分的所述确定。
8.根据权利要求1所述的方法,其中,在所述第一阶段期间,确定所述数据集的值对应于所述第一类别还是所述第二类别包括:基于该值是无理数来确定该值对应于所述第一类别。
9.根据权利要求1所述的方法,其中,在所述第一阶段期间,确定所述数据集的值对应于所述第一类别还是所述第二类别包括:基于该值是复数来确定该值对应于所述第一类别。
10.根据权利要求1所述的方法,其中,在所述第一阶段期间,确定所述数据集的值对应于所述第一类别还是所述第二类别包括:基于该值是包括数字字符和字母字符的混合散列来确定该值对应于所述第一类别。
11.根据权利要求1所述的方法,其中,在所述第一阶段期间,确定所述数据集的值对应于所述第一类别还是所述第二类别包括:基于包括在小数点后第X位处或超过小数点后第X位的非零十进制值的值来确定该值对应于所述第一类别,其中X是大于9的预定义值。
12.根据权利要求1所述的方法,其中,在所述第一阶段期间,确定所述数据集的值对应于所述第一类别还是所述第二类别包括:基于该值是整数来确定该值对应于所述第二类别。
13.根据权利要求1所述的方法,其中,所述基于所述值对所述数据集中的所述第二类别的值的统计分布进行更新包括:
基于尚未存在于所述统计分布中的值,将该值添加到所述统计分布中;以及基于已经存在于所述统计分布中的值,对所述统计分布进行更新,以反映在所述数据集中已经找到该值的次数。
14.根据权利要求1所述的方法,所述方法包括在所述第二阶段期间:
确定来自所述数据集的所述第二部分的特定值在所述数据集内的冗余;以及基于所述冗余超过预定义阈值来确定所述特定值对应于所述第二类别。
15.根据权利要求1所述的方法,其中,所述经压缩数据集存储在四叉树数据结构中。
16.根据权利要求15所述的方法,其中,所述四叉树数据结构是点四叉树数据结构。
17.根据权利要求15所述的方法,其中:
在所述第一阶段期间被确定为对应于所述第一类别的值,被存储在所述四叉树数据结构的第一象限中;并且
在所述第二阶段期间被确定为对应于所述第一类别的值,被存储在所述四叉树数据结构中的不同于所述第一象限的一个或多个其他象限中。
18.根据权利要求17所述的方法,其中,在所述点四叉树数据结构中存储有给定值的所述象限基于从所述数据集的哪个部分获取该值。
19.根据权利要求15所述的方法,其中:
所述四叉树数据结构包括四个象限;
量子计算处理器包括多个量子位,每个量子位对应于所述象限中的一个;并且通过对应于特定象限的一个或多个量子位,来执行值是否对应于所述第一类别且是否应当被添加到所述特定象限的确定。
20.根据权利要求1所述的方法,所述方法包括:
基于黎曼ζ函数来验证对应于所述第二类别的值不存在于所述经压缩数据集中。
21.根据权利要求20所述的方法,其中,所述基于黎曼ζ函数来验证对应于所述第二类别的值不存在于所述经压缩数据集中包括:
确定所述经压缩数据集中的位于所述黎曼ζ函数的临界带内的值的子集;
验证所述值的子集是否满足所述标准;以及
基于来自所述子集的不满足所述标准的值,从所述经压缩数据集中排除所述值。
22.一种量子计算机,其包括:
处理电路,所述处理电路包括量子处理器,所述量子处理器具有被划分为四个组的多个量子位,每个组对应于点四叉树数据结构的象限;
所述处理电路被配置为:
获取数据集和用于确定来自所述数据集的各个值对应于值的第一类别还是第二类别的标准;
确定所述数据集的值对应于所述第一类别还是所述第二类别;
基于对应于所述第一类别的值中的一个值,将该值添加到所述点四叉树数据结构中的所述经压缩数据集;以及
基于对应于所述第二类别的值中的一个值:
将该值从所述经压缩数据集中排除;并且
基于所述值对所述数据集中的所述第二类别的值的统计分布进行更新;
其中,来自对应于所述第一类别的所述数据集的值被存储在所述点四叉树数据结构的多个象限中;并且
其中,通过对应于特定象限的一个或多个量子位,来执行值是否对应于所述第一类别且是否应当被添加到所述特定象限的确定。
23.根据权利要求22所述的量子计算机,其中:
在第一阶段期间,基于所述值与所述标准的比较对来自所述数据集的第一部分的多个值执行所述确定;并且
在继所述第一阶段之后的第二阶段期间,基于所述统计分布对来自所述数据集的不同于所述第一部分的第二部分的多个值执行所述确定。
24.根据权利要求22所述的量子计算机,其中,在所述点四叉树数据结构中存储有给定值的所述象限基于从所述数据集的哪个部分获取该值。
25.一种计算设备,其包括:
存储器;以及
处理电路,所述处理电路可操作地连接到所述存储器并且被配置为:
获取数据集和用于确定来自所述数据集的各个值对应于值的第一类别还是第二类别的标准;
确定所述数据集的值对应于所述第一类别还是所述第二类别;
基于对应于所述第一类别的值中的一个值,将该值添加到经压缩数据集;以及基于对应于所述第二类别的值中的一个值:
将该值从所述经压缩数据集中排除;并且
基于所述值对所述数据集中的所述第二类别的值的统计分布进行更新;
其中,在第一阶段期间,基于所述值与所述标准的比较对来自所述数据集的第一部分的多个第一值执行所述确定;并且
其中,在继所述第一阶段之后的第二阶段期间,基于所述统计分布来执行对来自所述数据集的不同于所述第一部分的第二部分的多个第二值的确定。

说明书全文

数据压缩方法

技术领域

[0001] 本申请涉及数据处理,并且更具体地涉及用于有效地压缩数据集以用于后续数据处理的方法和系统。

背景技术

[0002] 数据分析是通常借助于专的系统和软件来检查数据集以便得出关于其所包含的信息的结论的过程。数据分析在商业行业中被广泛使用,以使得组织能够例如通过寻找数据集中的模式和/或可以从数据集做出的推断来做出更明智的商业决策。
[0003] 用于分析大型数据集的软件,例如商用软件包 通常包括用于可视化数据集的部分的数据可视化组件和查找数据集中的模式的数据挖掘组件。这种软件通常在遇到意外数据时执行“数据清理”,该意外数据诸如无理数(即,不能表示为任何整数的一部分并且具有非终止十进制扩展的数字)和复数(即,形式为a+bi的数字,其中a和b是实数,并且i是等式x2=-1的解)。
[0004] 数据清理导致从数据集中省略意外数据。这对于诸如粒子加速器和癌症基因组数据集的数据集可能是有问题的,其中无理数和/或复数不是无关的或错误的数据,而是代表感兴趣的一些最重要的数据。发明内容
[0005] 压缩数据集的方法的一个示例性实施方式包括获取数据集和用于确定来自该数据集的各个值对应于值的第一类别还是第二类别的标准。确定所述数据集的值对应于所述第一类别还是对应于所述第二类别。基于对应于所述第一类别的值中的一个值,将该值添加到经压缩数据集。基于对应于所述第二类别的值中的一个值,从所述经压缩数据集中排除该值,并且基于该值来更新所述第二类别的值的统计分布。在第一阶段期间,基于所述值与所述标准的比较对来自所述数据集的第一部分的多个值执行所述确定。在继所述第一阶段之后的第二阶段期间,基于所述统计分布对来自所述数据集的不同于所述第一部分的第二部分的多个值执行所述确定。
[0006] 在上述方法的另一示例性实施方式中,与所述第一类别的数据对应的值比与所述第二类别的数据对应的值更复杂。
[0007] 在任何上述方法的另一示例性实施方式中,该方法包括在所述第二阶段期间:基于所述统计分布来确定来自所述数据集的所述第二部分的特定值对应于所述第二类别的概率,并且基于超过预定义阈值的概率来确定该特定值对应于所述第二类别。
[0008] 在任何上述方法的另一示例性实施方式中,所述基于所述统计分布来确定来自所述数据集的所述第二部分的特定值对应于所述第二类别的概率是基于贝叶斯定理来执行的。
[0009] 在任何上述方法的另一示例性实施方式中,响应于触发事件来启动所述第二阶段。
[0010] 在任何上述方法的另一示例性实施方式中,每个确定对应于一次迭代,来自所述数据集的值仅在该值尚未存在于所述统计分布中的情况下被添加到所述统计分布,并且所述触发事件不包括来自所述数据集的所述第一部分的值被添加到所述统计分布用于预定数量的连续迭代。
[0011] 在任何上述方法的另一示例性实施方式中,所述触发事件包括完成对所述数据集的预定义部分的确定。
[0012] 在任何上述方法的另一示例性实施方式中,在所述第一阶段期间,确定所述数据集的值对应于所述第一类别还是所述第二类别包括基于该值是无理数来确定该值对应于所述第一类别。
[0013] 在任何上述方法的另一示例性实施方式中,在所述第一阶段期间,确定所述数据集的值对应于所述第一类别还是所述第二类别包括基于该值是复数来确定该值对应于所述第一类别。
[0014] 在任何上述方法的另一示例性实施方式中,在所述第一阶段期间,确定所述数据集的值对应于所述第一类别还是所述第二类别包括基于该值是包括数字字符和字母字符的混合散列来确定该值对应于所述第一类别。
[0015] 在任何上述方法的另一示例性实施方式中,在所述第一阶段期间,确定所述数据集的值对应于所述第一类别还是所述第二类别包括基于包括在小数点后第X位处或超过小数点后第X位的非零十进制值的值来确定该值对应于所述第一类别,其中X是大于9的预定义值。
[0016] 在任何上述方法的另一示例性实施方式中,在所述第一阶段期间,确定所述数据集的值对应于所述第一类别还是所述第二类别包括基于该值是整数来确定该值对应于所述第二类别。
[0017] 在任何上述方法的另一示例性实施方式中,基于所述值对所述数据集中的所述第二类别的值的所述统计分布进行更新包括:基于尚未存在于所述统计分布中的值将该值添加到所述统计分布中,以及基于已经存在于所述统计分布中的值对所述统计分布进行更新,以反映在所述数据集中已经找到该值的次数。
[0018] 在任何上述方法的另一示例性实施方式中,该方法包括在所述第二阶段期间:确定来自所述数据集的所述第二部分的特定值在所述数据集内的冗余,以及基于所述冗余超过预定义阈值来确定所述特定值对应于所述第二类别。
[0019] 在任何上述方法的另一示例性实施方式中,所述经压缩数据集存储在四叉树数据结构中。
[0020] 在任何上述方法的另一示例性实施方式中,所述四叉树数据结构是点四叉树数据结构。
[0021] 在任何上述方法的另一示例性实施方式中,在所述第一阶段期间被确定为对应于所述第一类别的值被存储在所述四叉树数据结构的第一象限中,并且在所述第二阶段期间被确定为对应于所述第一类别的值被存储在所述四叉树数据结构中的不同于所述第一象限的一个或多个其他象限中。
[0022] 在任何上述方法的另一示例性实施方式中,在所述点四叉树数据结构中存储有给定值的所述象限基于从所述数据集的哪个部分获取该值。
[0023] 在任何上述方法的另一示例性实施方式中,所述四叉树数据结构包括四个象限,量子计算处理器包括多个量子位,每个量子位对应于所述象限中的一个,并且由对应于特定象限的一个或多个量子位来执行值是否对应于所述第一类别且是否应当被添加到所述特定象限的确定。
[0024] 在任何上述方法的另一示例性实施方式中,该方法包括基于黎曼ζ函数来验证对应于所述第二类别的值不存在于所述经压缩数据集中。
[0025] 在任何上述方法的另一示例性实施方式中,基于黎曼ζ函数来验证对应于所述第二类别的值不存在于所述经压缩数据集中包括:确定所述经压缩数据集中的位于所述黎曼ζ函数的临界带内的值的子集;验证所述值的子集是否满足所述标准;以及基于来自所述子集的不满足所述标准的值,从所述经压缩数据集中排除所述值。
[0026] 量子计算机的一个示例性实施方式包括处理电路,该处理电路包括量子处理器,该量子处理器具有被划分为四个组的多个量子位,每个组对应于点四叉树数据结构的象限。所述处理电路被配置为:获取数据集和用于确定来自所述数据集的各个值是对应于值的第一类别还是第二类别的标准,确定所述数据集的值对应于所述第一类别还是所述第二类别,并且基于对应于所述第一类别的值中的一个值,将所述值添加到所述点四叉树数据结构中的经压缩数据集。所述处理电路被配置为基于与所述第二类别相对应的值中的一个值,从所述经压缩数据集中排除所述值,并且基于所述值来更新所述数据集中的所述第二类别的值的统计分布。来自对应于所述第一类别的所述数据集的值被存储在所述点四叉树数据结构的多个象限中。通过对应于特定象限的一个或多个量子位来执行值是否对应于所述第一类别且是否应被添加到所述特定象限的确定。
[0027] 在上述量子计算机的另一示例性实施方式中,在第一阶段期间,基于值与标准的比较对来自所述数据集的第一部分的多个值来执行确定,并且在所述第一阶段之后的第二阶段期间,基于所述统计分布对来自所述数据集的不同于所述第一部分的第二部分的多个值执行确定。
[0028] 在任何上述量子计算机的另一示例性实施方式中,在所述点四叉树数据结构中存储有给定值的所述象限基于从所述数据集的哪个部分获取该值。
[0029] 计算设备的一个示例性实施方式包括存储器和处理电路,该处理电路可操作地连接到所述存储器并且被配置为:获取数据集和用于确定来自所述数据集的各个值是对应于值的第一类别还是第二类别的标准,确定所述数据集的值对应于所述第一类别还是所述第二类别,并且基于对应于所述第一类别的值中的一个值,将所述值添加到经压缩数据集。所述处理电路被配置为基于与所述第二类别相对应的值中的一个值,从所述经压缩数据集中排除所述值,并且基于所述值来更新所述数据集中的所述第二类别的值的统计分布。在第一阶段期间,基于所述值与所述标准的比较对来自所述数据集的第一部分的多个值执行所述确定。在继所述第一阶段之后的第二阶段期间,基于所述统计分布来执行对来自所述数据集的不同于所述第一部分的第二部分的多个第二值的确定。
[0030] 前述段落、权利要求或以下说明书附图的实施方式、示例和替代方案,包括其各种方面或各自的各个特征中的任何一个,可独立地或以任何组合的形式来采用。结合一个实施方式描述的特征可适用于所有的实施方式,除非这些特征不可兼容。

附图说明

[0031] 图1是用于压缩数据的示例性系统的示意图。
[0032] 图2A是未压缩数据集的一部分的示意图。
[0033] 图2B是图2A的压缩形式的部分的示意图。
[0034] 图3A至图3B示出了表示示例性数据压缩方法的流程图
[0035] 图4是另一未压缩数据集的一部分的示意图。
[0036] 图5是示例性点四叉树数据结构的示意图。
[0037] 图6是黎曼ζ函数的一个方面的示意图。
[0038] 图7是可操作以执行图2A至图2B的方法的量子计算处理器的示意图。

具体实施方式

[0039] 图1是用于以避免擦除相关数据的在计算上有效的方式来压缩数据的示例性系统10的示意图。计算设备12访问初始数据集14,该初始数据集14的大小可以在100TB(terabytes,兆兆字节)的量级上。计算设备12在单独的阶段中迭代地分析数据,并且提供经压缩数据集16,该经压缩数据集16包括与数据集14的目的相关的数据,并且还提供“无记忆”数据的统计分布18,该统计分布18是数据集14的一部分但是与数据集14的目的无关。
[0040] 在一个示例中,数据集14包括来自粒子加速器装置的粒子加速器测量。在这样的示例中,在数据集的情况下被认为相关的数据提供关于粒子的有用信息(例如,诸如粒子的速度、在亚原子尺度中的重量方面的明度、以及粒子加速器的磁晶格在其正在测量粒子时的最近精确位置的信息),并且被认为不相关并且不提供关于粒子的有用信息的数据对应于第二类别。第一类别的值除了比第二类别的值更相关之外,还比第二类别的值更复杂,因此可以称为“复杂性”。
[0041] 在第一阶段期间,计算设备12将来自数据集14的值与预定义标准则15进行比较以确定来自数据集14的那些值对应于第一类别还是第二类别。第一阶段是训练阶段,在该训练阶段期间,计算设备12创建无记忆数据的统计分布18。统计分布18指示来自数据集14的作为无记忆数据的值,并且还指示这些值在数据集中出现的频率
[0042] 在继第一阶段之后的第二阶段中,计算设备12通过将来自数据集14的值与统计分布18进行比较而不是将所述值与预定义标准15进行比较来确定所述值是对应于第一类别还是第二类别。与第二阶段期间的统计分布的比较在计算上比使用第一阶段的标准更有效,并且与如果第一阶段要针对整个数据集14继续时相比,便于更快地创建经压缩数据集16。
[0043] 计算设备12包括可操作地连接到存储器22和通信接口24的处理器20。在一个示例中,处理器20包括例如一个或多个微处理器、微控制器专用集成电路(ASIC)、量子计算处理器,等等。存储器22,其可包含易失性存储元件(例如,随机存取存储器(RAM,诸如DRAM、SRAM、SDRAM、VRAM等))中的任何一个或组合和/或非易失性存储元件(例如ROM、硬盘驱动器、磁带、CD-ROM等)。此外,存储器22可以包含电子、磁、光和/或其他类型的存储介质。存储器22还可以具有分布式架构,其中各种组件彼此远离地定位,但是可以由处理器20访问。存储器22存储配置处理器20以压缩数据集14的指令。
[0044] 通信接口24被配置为促进与其他计算设备(例如,用于获取数据集14和预定义标准15,或发送经压缩数据集16)和/或(例如,如果通信接口224包括用于接收和/或提供用户输入的有线或无线接口的话)与用户输入设备的通信。
[0045] 图2A描绘了数据集14的示例的一部分30,其包括通常用附图标记31标识的多个值。图2A的部分30对应于从粒子加速器装置收集的粒子加速器数据。数据集14的预定义标准15指示哪些值对应于第一类别或第二类别。
[0046] 在图2A的粒子加速器示例中,预定义标准15指示零或非零整数是对应于第二类别的值的无记忆数据。这样的值被认为是无记忆的原因是这样的值在粒子加速器的情况下是不相关的。
[0047] 预定义标准表明,作为在粒子加速器的情况下相关的“复杂性”的以下值对应于第一类别的值:
[0048] -零或非零整数,
[0049] -无理数(即,不能表示为任何整数的一部分并且具有非终止十进制扩展的数字),[0050] -复数(即,形式为a+bi的数字,其中a和b是实数,并且i是等式x2=-1的解),[0051] -混合散列(即,具有数字字符和字母字符的值,例如“1e42”),以及[0052] -具有在小数点后第X位处或超过小数点后第X位的非零十进制值的值,其中X是预定义值。
[0053] 在特定加速器的情况下,零表示无用的数据或仅表示由于其不是实际测量点而可被移除的填充数据。然而,上述复杂性在粒子加速器的情况下是相关的,因为其可以表示以下内容:
[0054] -无理数可以表示对最好通过分数或非终止十进制扩展而看到的粒子的进一步测量。
[0055] -复数可以表示在数学上通过复数形式来更好地表示的粒子或重要未知数的极性位置(例如,诸如某些亚原子粒子的重量的某些可能结果的未知数,或者仍然有用但需要复杂的表达形式来表示的数据)。
[0056] -混合散列可以表示粒子加速器在其正在测量时的磁晶格的位置。
[0057] -具有非零十进制值或在某一位置之后有用的连续十进制点(例如,在14个十进制位的量级上)的值表示更准确的测量形式,因为其有效数字对于您试图测量的是极坐标位置还是速度而言是接近的。
[0058] 在图2的上下文中使用该标准,第一复杂性(32)为值8979-3,因为该值在小数点后第X位处或超过小数点后第X位具有非零十进制值,其中X是14。第二复杂性(34)为253的立方根,这是出于相同原因的复杂性。第三复杂性(36)为39.05603e7,这是因为包括e的值被认为是无理的。第四复杂性(38)“3e64”是复杂性,因为其是混合散列。每个值31与标准15的这种比较继续以识别多个复杂性,这在图2B中的包括来自数据集30的复杂性并且排除无记忆数据的经压缩数据集50中示出。从经压缩数据集50中省略的来自数据集30的值是整数,或者不包括在小数点后第X位处或超过小数点后第X位的非零十进制值。
[0059] 与将在压缩期间消除复杂性的现有技术工具不同,系统10维持经压缩数据集16中的复杂性。这对于诸如粒子加速器数据的数据集特别有用,其中复杂性是最相关的数据。
[0060] 图3A和3B是说明可由计算设备12执行的用于数据压缩的示例性方法100的流程图。从数据集14获取值(框102),并且确定是否已经满足无记忆数据度量(框104)。以下将更详细地讨论无记忆数据度量。在上面讨论的“第一阶段”期间,将不会满足度量(框104中的“否”)。
[0061] 框106至框114对应于值与预定义标准15的比较。确定所获取的值是零整数还是非零整数(例如,零整数还是非零整数)(框106)。如果该值是整数(框106中的“是”),则确定该值是无记忆数据(框120),并且基于该值更新无记忆数据的统计分布18(框122)。框122的更新包括如果该值尚未存在于统计分布18中的话则将该值添加到统计分布18。如果该值已经存在于统计分布18中,则更新统计分布以指示已经检测到该值的另一出现。在一个示例中,无记忆数据以“正则表达式”(REGEX)格式存储在统计分布18中。
[0062] 再次参考框106,如果该值不是整数(框106中的“否”),则确定该值是否是无理数(框108)。如果该值是无理数(框108中的“是”),则确定该值为复杂性(框116),并且将该值添加到经压缩数据集16(框118)。
[0063] 如果该值不是无理数(框108中的“否”),则确定该值是否是复数(框110)。如果该值是复数(框110中的“是”),则确定该值为复杂性(框116),并且将该值添加到经压缩数据集16(框118)。
[0064] 否则,如果确定该值不是复数(框110中的“否”),则确定该值是否是混合散列(框112)。如果该值是包括数字字符和字母字符的混合散列(框112中的“是”),则确定该值为复杂性(框116)并将该值添加到经压缩数据集16(框118)。
[0065] 否则,如果该值不是混合散列(框112中的“否”),则确定该值是否具有在小数点后第X位处或超过小数点后第X位的非零十进制值,其中X是预定义值(框114)。如果非零十进制值存在于小数点后第X位处或超过小数点后第X位(框114的中的“是”),则确定该值为复杂性(框116)。否则,如果该值缺少位于小数点后第X位处或超过小数点后第X位的非零十进制值(框114中的“否”),则确定该值为无记忆数据(框120)。在一个示例中,X为10。在另一示例中,X为14。当然,其他示例也可用于X(例如,取决于正被分析的数据集14的性质)。
[0066] 计算设备12对来自数据集14的连续值迭代通过该方法的框102至框122,直至满足无记忆数据度量(框104中的“是”)。在一个示例中,无记忆度量包括在没有新值被添加到统计分布18的情况下执行的预定义数量的连续迭代。在一个示例中,如果已经分析了数据集14的预定义部分(例如,预定义百分比的数据集),则满足无记忆数据度量。当然,也可以使用其他无记忆数据度量。无记忆数据度量的出现对应于无记忆数据的适用于确定值是复杂性还是无记忆数据的统计分布18。
[0067] 一旦已经满足无记忆数据度量(框104中的“是”),方法100就进入上面讨论的“第二阶段”,并且进行到图3B中的框150。
[0068] 现在参考图3B,在框150中,使用贝叶斯定理基于统计分布18来确定当前迭代的值是无记忆数据的概率。
[0069] 贝叶斯定理基于可能与事件相关的条件的现有知识来描述该事件的概率,并且可以使用下面的等式(1)和等式(2)来表示。
[0070] P(θ,y)=P(θ)p(y|θ)   等式(1)
[0071]
[0072] 其中,P是概率,
[0073] y是证据(例如,统计分布18),并且
[0074] θ是事件(例如,作为无记忆数据的值)。
[0075] 在框152中,将该概率与预定义阈值进行比较。如果概率超过预定义阈值(框152中的“是”),则计算设备12确定该值是无记忆数据,并且在不利用框106至框114中的预定义标准15的情况下前进到框120。
[0076] 如果未超过概率(框152中的“否”),则计算设备12确定数据集14内的值的统计冗余(框154)。确定统计冗余的一种方式是使用下面的等式(3)。
[0077]
[0078] 其中,r是冗余率,
[0079] M是无记忆数据的值,并且
[0080] H是源(例如,数据集14)。
[0081] 计算设备12将值与统计分布18中的无记忆数据进行比较(框156)。如果该值与分布中的已知无记忆数据足够相似(框158中的“是”),则确定该值为无记忆数据(框162)。
[0082] 框156的比较和框158的确定可以基于多个因素,诸如十进制值的数量、十进制值的位置、正被分析的值与已知的无记忆数据值之间的差,等等。
[0083] 例如,假设在框156中将值9.07899与统计分布18进行比较。从图3A至图3B的示例中,我们知道9.07898被确定为无记忆数据并且被排除在经压缩数据集50之外。值9.07899具有与已知的无记忆数据9.07898相同的十进制值数量和相同的十进制值位置。这些值仅在其第5个十进制值上不同。在一个示例中,使用这些相似性中的一个或多个来确定值9.07899是无记忆数据。
[0084] 在一个示例中,在框156至框158中发生的是由于在无记忆数据中对先前示例的相似性进行了测量,所以当进一步进行时,在计算设备12分析数据时,可以对计算设备12进行更精确的统计测量。这意味着由于创建了统计上相关的阈值,计算设备12(给定数据集14的计算机)最终可以执行较少的步骤。利用方法100,由于在给定计算机在第二阶段期间对复杂性进行计算分析所做的工作的复杂性之后增加了准确度复杂性的统计概率,在一些示例中容易实现的是,在已经识别出少量复杂性之后在给定大型数据集14的情况下获取超过六西格玛准确度。识别复杂性的误差范围可能极低。
[0085] 在一些情况下,框156和框158的性能对于如下的值而言将需要更密集的计算量:这些值比其他值更复杂并且可以很好地被处理到一个数据集中(例如,在对数据集的数百万值进行分析之后)并且与先前分析的复杂性相比不太类似于经压缩数据集16中的现有复杂性。例如,对于这样的值,可能需要使用贝叶斯定理来确定多个概率。然而,方法100仍可用于确定此类值是无记忆数据还是复杂性。
[0086] 如果值与已知的无记忆数据不够相似(框158中的“否”),则将框154中的统计冗余与预定义阈值进行比较(框160)。如果统计冗余超过阈值(框160中的“是”),则确定该值为无记忆数据(框162)。否则,如果统计冗余不超过阈值(框160中的“否”),则确定该值为复杂性(框164)。
[0087] 尽管已经在对粒子加速器数据进行压缩的上下文中讨论了图3A至图3B,但是应当理解,来自框106至框114的相同或相似标准可以用于分析其他类型的数据,例如癌症基因组数据。
[0088] 图4是包含癌症基因组数据的另一未压缩数据集60的一部分的示意图。在框中圈出的值62中的每一个值表示根据在图3A的框106至框114中讨论的预定义标准15的复杂性。
[0089] 当然,应当理解,其他类型和数量的标准可以用于框106至框114以分析不同的数据集,并且不同的阈值和相似度平也可以用于框152、框158、框160以用于那些不同的数据集。可以使用方法100(可选地具有不同的标准和阈值)分析的其他数据集的一些示例包括生态数据集(例如,植物生长、栖息地丧失程度、动物繁殖率,等)、财务数据(例如,股票时间序列图)、体育赛事的侦察图,等等。
[0090] 在一个示例中,经压缩数据集16存储在四叉树数据结构中。在另一示例中,经压缩数据集16存储在点四叉树数据结构中。
[0091] 图5是为了解释目的而简化的示例性点四叉树数据结构70的示意图。点四叉树数据结构包括多个象限Q1、Q2、Q3、Q4。在一个示例中,经压缩数据集16中的每个值被存储在象限中的特定象限中。
[0092] 在一个示例中,在给定值存储在点四叉树数据结构70中的象限是基于从数据集14的哪个部分获取该值。在一个示例中,来自数据集14的第一部分的值被存储在象限Q1中,来自数据集14的第二部分的值被存储在象限Q2中,来自数据集14的第三部分的值被存储在象限Q3中,并且来自数据集14的第四部分的值被存储在象限Q4中。
[0093] 在一个示例中,来自第一阶段(在满足框104的无记忆数据度量之前)的值被存储在象限Q1中,并且来自第二阶段(在满足框104的无记忆数据度量之后)的值被存储在象限Q2至象限Q4中。
[0094] 四叉树中的每个值以分层的方式连接到其相应象限中的一个或多个其他值。在图5的简化示例中,多个示例值在象限Q1中被表示为节点N1至节点N7。节点N1链接到节点N2至节点N4,并且节点N4链接到节点N5至节点N7。随着更多的值(和对应的节点)被添加到点四叉树数据结构70,它们被链接到来自经压缩数据集16的其他值。点四叉树对于计算设备12绘制节点并创建利用ζ函数验证过程(下面更详细地讨论)的数据结构是有用的。总之,如果使用传统表而不是点四叉树来映射出经压缩数据集16,则在给定方法100的第二阶段的连续分层性质的情况下将不太有用。
[0095] 可选地,数据验证过程可以由计算设备12执行,以验证在第二阶段期间无记忆数据没有被无意地添加到经压缩数据集16。在一个示例中,这是通过将来自经压缩数据集的每条个数据与数据集的预定义标准15进行比较以验证经压缩数据集16中的每个值满足预定义标准15来执行的。
[0096] 在一个示例中,验证包括基于黎曼ζ函数来验证经压缩数据集16中不存在无记忆数据。黎曼ζ函数是满足以下等式(4和等式(5)的复数s的函数。
[0097] s=x+iy和   等式(4)
[0098]
[0099] 黎曼ζ函数也可以使用下面的等式(6)表示。
[0100]
[0101] 另一种方式是可以使用下面的等式(7)来表示黎曼ζ函数,其中在分母中仅素数被提升到S的幂。
[0102]
[0103] 现在参考图6,示出了描绘x轴和y轴的曲线图80,以及黎曼ζ函数的对称线82。对称线82也被称为“临界线”,并且其存在于黎曼ζ函数的“临界带”84中(x轴上0和1之间的阴影区域)。认为黎曼ζ函数具有零值的所有值都位于临界线82上。来自经压缩数据集16的某些值(诸如复数和无理数)将在临界带84中产生值。
[0104] 在一个示例中,验证包括:确定经压缩数据集16中的位于黎曼ζ函数的临界带84内的值的子集;验证该值的子集是否满足预定义标准15;以及基于来自不满足标准的子集的任何值,确定那些值可能是无记忆数据并且将那些值从经压缩数据集16中排除。
[0105] 图7是可操作以执行方法100的量子计算处理器86的示意图。量子计算处理器86包括示意性地描绘为87A至87D、88A至88D、89A至89D、90A至90D的多个量子位。每个量子位都是可以使用量子学(例如,电子的自旋、光子的偏振等)来表示信息的多态量子力学系统。在量子计算处理器86的特定区域中设置每组量子位。具体地,量子位87A至87D设置在左上区域91中,量子位88A至88D设置在右上区域92中,量子位89A至89D设置在右下区域93中,量子位90A至90D设置在左下区域94中。
[0106] 在一个示例中,区域与点四叉树数据结构70的象限相关(例如,区域91作为象限Q1,区域92作为象限Q2,区域93作为象限Q3,并且区域94作为象限Q4)。在一个这样的示例中,有关来自数据集14所对应的值是否是复杂性并且是否应当被添加到特定象限的确定,是通过对应于该特定象限的一个或多个量子位来执行的。因此,通过量子位87A至87D中的一个或多个来执行有关值是否是复杂性并且是否应当被添加到象限Q1的确定。
[0107] 通过使用本文中描述的技术,可以压缩大型数据集,同时确保不从经压缩的数据集中擦除复杂性。这对于其中复杂性是关注的主要数据的某些数据集(例如,粒子加速器数据集、癌症基因组数据集等)是特别有益的。此外,通过使用上述统计分布18和机器学习,可以以计算上有效的方式来压缩数据集14。
[0108] 方法100提供了许多益处,例如改进的文件压缩,以及查看数据集14的重要复杂性的能力。这使得研究人员能够获取他们想要的重要数据,更快地得出结论,并且有更有效的方法来系统地分析巨大的数据集。与使用Python程序(例如GGPLOT或已经可商购的程序)相比,方法100的时间效率使得能够避免绘制/分析无用的和/或任意的数据,从而节省时间和计算资源。
[0109] 尽管以上所讨论的步骤以特定顺序呈现,但应理解,所述步骤中的一些步骤可重新排列。例如,可以按照不同的顺序来分析框106至框114中的标准。
[0110] 尽管已经公开了示例性实施方式,但是本领域普通技术人员将认识到某些修改将落入本公开的范围内。因此,应当研究以下权利要求来确定本公开的范围和内容。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈