首页 / 专利库 / 电脑编程 / 因果分区 / 支持高维度因果发现的因果框架划分方法

支持高维度因果发现的因果框架划分方法

阅读:148发布:2020-05-18

专利汇可以提供支持高维度因果发现的因果框架划分方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种支持高维度因果发现的因果 框架 划分方法,用CI测试将问题域划分为小的子问题,从各子问题最后合并在一起的部分结果,返回了关于原始数据的完整因果关系。真实因果网络的实验验证了我们建议的卓越可扩展性和有效性。有益效果:证明了CDF框架理论健全和完善;第二:通过CDF返回的 因果分区 更可靠的;第三:CDF是支持高维因果发现的快速框架,数据分析鲁棒性强,正确性高。,下面是支持高维度因果发现的因果框架划分方法专利的具体信息内容。

1.一种支持高维度因果发现的因果框架划分方法,其特征在于按照以下步骤进行:
快速因果划分框架的建立:
第一步:输入变量集V,阈值k,调用因果关系发现算法A,查找变量子集的因果图
第二步:在变量集V中找到一个因果分区:[C,V1,V2],其中,C,V1,V2为三个变量子集;
第三步:如果|V1∪C|>k,进行递归划分:[V1∪C,k,A],进入第四步;
第四步:判断是否满足|V1∪C|<k,若是,进入第五步;否则返回第三步;
第五步:在V1∪C上运行因果关系发现算法A,对骨架S进行更新;
第六步:在V1∪C上执行第三步、第四步和第五步;
第七步:最终得出新的因果骨架S。
2.根据权利要求1所述的支持高维度因果发现的因果框架划分方法,其特征在于第二步骤中因果分区的具体步骤为:
第一步:输入变量集V1={v1,…,vn};
第二步:需要通过使用一组低阶条件独立测试,在 找到两个变量x和y使得x⊥y|Z、x⊥y|Z∪v、
如果 使得 就返回因果分区:(x,y,Z),否则中断进行下一
步;
第三步:初始化,令变量集V=V\x,y,C,V1=x;V2=y;C1={};C2={};
第四步:对 做一下判断:
当v⊥y|Z和 时,将v移到V1;
当v⊥x|Z和 时,将v移到V2;
当v⊥x|Z和v⊥y|Z时,将v移到C1;
当 和 时,将v移到C2;
得到C=Z∪C1∪C2;
第五步:返回因果分区(V1,V2,C);
设定G=(V,E),其中V为变量集,
G表示变量集V的有向无环图,三个非重叠变量子集V1、V2和C在G上形成因果划分,当且仅当,V1∪V2∪C=V,且给定 如果u和v是不相邻的,则 或者
使得u⊥v|Z。

说明书全文

支持高维度因果发现的因果框架划分方法

技术领域

[0001] 本发明涉及数据挖掘技术领域,具体的说是一种支持高维度因果发现的因果框架划分方法。

背景技术

[0002] 因果网络是不确定性推断的一种重要工具,因果网络结构学习是机器学习的研究热点之一。对于可观察数据集来说,因果网络可以有效地描述事物之间的因果关系,而不仅仅是事物之间的关联。在因果网络的推断问题上,由数据节点集构建因果网络结构,再通过节点之间的关系推断出因果网络图。
[0003] 不过,传统的方法用在高维数据中,其运算时间复杂度偏高,严重影响了算法的推广。传统的因果网络推断方法一般分两大类,基于估计尔可夫等价类的贝叶斯网络结构学习算法和基于加性噪声模型(Additive noise model,ANM)或信息几何的因果方向推断算法。
[0004] 其中,贝叶斯网络结构学习算法主要有两种,即基于评分-搜索的结构学习和基于依赖分析的结构学习,都无法识别数据集中存在的马尔可夫等价类,如X->Z->Y与X<-Z<-Y这2种结构。然而,高维网络结构常常存在于马尔可夫等价类中,无法准确推断因果关系。贝叶斯网络结构学习算法采用穷举法搜索达到精准解,但是随着网络结构维度增长,其时间复杂度呈指数增长,很难使用于超过100维的网络。基于估计马尔可夫等价类的贝叶斯网络结构学习算法只能用于因果结构无向图的环境,而无法准确完成模型的方向推断。基于加性噪声模型或信息几何的因果方向推断算法能够从数据结点集中构建出有效的因果网络。
[0005] Shimizu等人提出了一种基于线性加噪声模型的因果推断算法,即:Linear non-Gaussian acyclic model,LINGAM;此方法对因果网络结构方向推断有一定的效果。在非线性数据挖掘领域,Hoyer等人提出了一种适用于连续数据的基于非线性的ANM。此后Peters等人把ANM推广到离散数据。区别于ANM,Janzing等人提出基于信息熵的因果推断算法,即:Information-geometric causal inference,IGCI,该方法能够控制阈值,其推断效果高于其余的因果推断算法。此类算法的极限只能处理低维数据,当维度N>7时,ANM的因果推断能明显变差。
[0006] 由此可知,以上因果推断方法无法适应高维度的情况,然而真实世界的数据常常是高维数据。从观测数据中发现因果关系是许多科研领域的关键问题。然而,在样本不足的大规模数据中,由于维数灾难,使用一般的因果发现方法是不容易发现因果关系的,如基于约束方法或加性噪声模型。虽然一些因果划分框架,提出了缓解问题,他们,其实也面临着高维问题,因为现有的因果划分框架依赖一般条件独立性测验。这些方法可以处理非常稀疏的因果图,但如果因果图变得更密集时,这些方法往往非常不可靠了。
[0007] 一般情况下,因果发现通常制定一个关于变量有向无环图(DAG),有向边表示变量之间的因果关系。如果实验不能被操纵,条件独立(CI)试验通常用基于约束的方法检测局部变量之间的因果关系。我们经常考虑这样一种情况:设X,Y和Z表示随机变量集,如果给定Z,X和Y是条件独立,表示为X⊥Y|Z,这就意味着X和Y没有直接的因果关系。然而当所需样本量随问题域大小成倍增加时,这些方法往往无法在高维情况下找到真正的因果关系。比如,一般来说现有的方法,像PC算法、直接使用CI测试恢复数据因果关系,很难处理变量数目大于50的情况。遇到两个严重的问题,第一:要从条件独立测试的数据中搜索所有可能的条件集Z,通常我们没法在可接受的时间得到最终的结果;第二:条件集Z是足够大时条件独立测试往往是不可靠的,并有可能失败进入II型错误,即使是假的,在条件独立假设也不被拒绝。为了解决上述困难,研究人员采用因果划分,其目的是划分原始数据集转换成两个或多个子数据集,例如每个子数据集对应的一个子问题,这样就可以通过使用现有的方法解决,如PC算法,最后通过合并所有子问题的结果来解决原始问题。

发明内容

[0008] 针对上述问题,本发明提供了一种支持高维度因果发现的因果框架划分方法,对高维度数据进行因果划分,可靠精确。
[0009] 为达到上述目的,本发明采用的具体技术方案如下:
[0010] 定义1:设定G=(V,E),其中V为变量集;
[0011] G表示变量集V的有向无环图,三个非重叠变量子集V1、V2和C在G上形成因果划分,当且仅当,V1∪V2∪C=V,且给定 如果u和v是不相邻的,则 或者,使得u⊥v|Z;
[0012] 非重叠变量子集C中的变量阻止了V1和V2变量之间的所有路径;
[0013] 给出变量集V的一个因果分区(V1,V2,C),我们的目标是把关于变量集分成两个较小集合的因果推理问题转移到将V分成V1∪C和V2∪C的因果推理问题上。
[0014] 为了保证这样的分区可以递归地进行,提出了定理1:
[0015] 定理1:给定关于V的有效因果划分(V1,V2,C),和关于V1∪C的有效因果分区如果 u和v不相邻,则 使得u⊥v|Z。
[0016] 定理1的证明简单地根据一个有效的因果划分的定义。定理1表明如果每个因果划分相应的划分方法是有效的,则d-分离的是可递推的。因此,如果我们满足这样的条件,此划分操作是可以递归调用,直到在子问题中涉及的变量的数目是低于指定的阈值k。
[0017] 一种支持高维度因果发现的因果框架划分方法,其关键在于按照以下步骤进行:
[0018] 快速因果划分框架的建立:
[0019] 第一步:输入变量集V,阈值k,调用因果关系发现算法A,查找变量子集的因果图;
[0020] 其中,算法A为任意因果关系发现算法,例如PC算法。
[0021] 第二步:在变量集V中找到一个因果分区:[C,V1,V2],其中,C,V1,V2为三个变量子集;
[0022] 第三步:如果|V1∪C|>k,进行递归划分:[V1∪C,k,A],进入第四步;
[0023] 第四步:判断是否满足|V1∪C|<k,若是,进入第五步;否则返回第三步;
[0024] 第五步:在V1∪C上运行因果关系发现算法A,对骨架S进行更新;
[0025] 第六步:在V1∪C上执行第三步、第四步和第五步;
[0026] 第七步:最终得出新的因果骨架S。
[0027] 进一步描述,第二步骤中因果分区的具体步骤为:
[0028] 第一步:输入变量集V1={v1,…,vn};
[0029] 第二步:需要通过使用一组低阶条件独立测试,在 找到两个变量x和y使得x⊥y|Z、x⊥y|Z∪v、
[0030] 如果 使得 ,就返回因果分区:(x,y,Z),否则中断进行下一步;
[0031] 第三步:初始化,令变量集V=V\x,y,C,V1=x;V2=y;C1={};C2={};
[0032] 第四步:对 做一下判断:
[0033] 当v⊥y|Z和 时,将v移到V1;
[0034] 当v⊥x|Z和 时,将v移到V2;
[0035] 当v⊥x|Z和v⊥y|Z时,将v移到C1;
[0036] 当 和 时,将v移到C2;
[0037] 得到C=Z∪C1∪C2;
[0038] 第五步:返回因果分区(V1,V2,C)。
[0039] 定理2:给定v⊥y|Z, u⊥x|Z,和 如果x⊥y|Z,则u和v是不相邻的。
[0040] 证明:因为 存在三种情况:
[0041] 1)必须有一条路径沿x-v不通过Z,和一条路径沿u-y不通过Z;
[0042] 2)有一个关于v和x及u和y的对撞机(或他们的后代,我们在下面的描述将不再重复)z∈Z;
[0043] 3)有一条路径沿x-v不通过Z, 的一个关于u和y的对撞机。
[0044] 在第一种情况中,如果v和u是相邻的,那么必须有一条路径p沿x-v-u-y使得p不通过Z,因此可以推出1) 这是矛盾的;或2)p与v(或u)相撞,因此 (或u),这与算法2中第5-7行冲突。
[0045] 在第二种情况中,如果有一个关于v和x的对撞机z∈Z,如果v和u是相邻的,那么必须有一条路径沿x-z-v-u(或x-z-u-v)碰撞在Z,即 这也是矛盾。
[0046] 同样,我们可以证明第三种情况下也是矛盾的,因此v和U必须是非相邻的。
[0047] 此外,我们需要证明对 和 如果v和u是不相邻的,则使得v⊥u|S(类似的情况 也成立)。
[0048] 定理3:在给定v⊥y|Z, 和 如果v和u是不相邻的,则使得v⊥u|S。
[0049] 定理4:在给定v,u⊥x|Z,v,u⊥y|Z,如果v和u是不相邻的,则 或使得v⊥u|S。
[0050] 定理5:在给定 如果v和u是不相邻的,则 或使得v⊥u|S。
[0051] 本发明的有益效果:快速因果划分框架(CDF)三个显着的优势,第一:我们证明了CDF框架理论健全和完善;第二:通过CDF返回的因果分区更可靠的;第三:CDF是支持高维因果发现的快速框架;用条件独立(CI)试验将问题域划分为小的子问题,从各子问题最后合并在一起的部分结果,返回了关于原始数据的完整因果关系。附图说明
[0052] 图1是本发明因果划分框架的流程图
[0053] 图2是本发明因果划分的流程图。

具体实施方式

[0054] 下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。
[0055] 从图1可以看出,一种支持高维度因果发现的因果框架划分方法,其关键在于按照以下步骤进行:
[0056] 快速因果划分框架的建立:
[0057] 第一步:输入变量集V,阈值k,调用因果关系发现算法A,查找变量子集的因果图;
[0058] 其中,算法A为任意因果关系发现算法,例如PC算法。
[0059] 第二步:在变量集V中找到一个因果分区:[C,V1,V2],其中,C,V1,V2为三个变量子集;
[0060] 第三步:如果|V1∪C|>k,进行递归划分:[V1∪C,k,A],进入第四步;
[0061] 第四步:判断是否满足|V1∪C|<k,若是,进入第五步;否则返回第三步;
[0062] 第五步:在V1∪C上运行因果关系发现算法A,对骨架S进行更新;
[0063] 第六步:在V1∪C上执行第三步、第四步和第五步;
[0064] 第七步:最终得出新的因果骨架S。
[0065] 进一步描述,第二步骤中因果分区的具体步骤为:
[0066] 第一步:输入变量集V1={v1,…,vn};
[0067] 第二步:需要通过使用一组低阶条件独立测试,在 找到两个变量x和y使得x⊥y|Z、x⊥y|Z∪v、
[0068] 如果 使得 ,就返回因果分区:(x,y,Z),否则中断进行下一步;
[0069] 第三步:初始化,令变量集V=V\x,y,C,V1=x;V2=y;C1={};C2={};
[0070] 第四步:对 做一下判断:
[0071] 当v⊥y|Z和 时,将v移到V1;
[0072] 当v⊥x|Z和 时,将v移到V2;
[0073] 当v⊥x|Z和v⊥y|Z时,将v移到C1;
[0074] 当 和 时,将v移到C2;
[0075] 得到C=Z∪C1∪C2;
[0076] 第五步:返回因果分区(V1,V2,C)。
[0077] 在进行条件独立性测试的时候,约简了条件集的规模,使得算法能够快速地找到相应的条件独立性测试。
[0078] 在本实施例中,提出了一个通用的支持高维度的因果发现的因果划分框架,简称为CDF。用条件独立测试CI将问题域划分为提案中的小的子问题。
[0079] 在相同数量的样本下,本发明的因果发现算法处理数据时具有鲁棒性强和准确高的特点。从各子问题最后合并在一起的部分结果,返回了关于原始数据的完整因果关系。真正因果网络上的实验验证了本方案建议的方法的卓越的可扩展性和有效性。真实因果网络的实验验证了我们建议的卓越可扩展性和有效性。相比与其他方法,CDF有三个显着的优势:第一:证明了支持高维度因果发现的因果框架划分方法CDF框架理论健全和完善;第二:通过支持高维度因果发现的因果框架划分方法CDF返回的因果分区更可靠的;第三:支持高维度因果发现的因果框架划分方法CDF是支持高维因果发现的快速框架。
[0080] 应当指出的是,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改性、添加或替换,也应属于本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈