首页 / 专利库 / 人工智能 / 相似性得分 / 一种基于图嵌入法的链路预测方法

一种基于图嵌入法的链路预测方法

阅读:82发布:2020-05-11

专利汇可以提供一种基于图嵌入法的链路预测方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种基于图嵌入法的链路预测方法。本发明基于图嵌入法的思想,在静态网络中通过随机游走的方式获取 节点 序列,训练模型获得节点表示向量,并结合重启随机游走(RWR)的原理,提出了一种基于图嵌入法的链路预测方法(GERWR),在多数公开数据集上较传统指标有明显的性能提升。本发明方法比经典的随机游走 算法 有了约5%的性能提升,相比其他经典指标也有较大的精确度提升,可以作为一种基准指标应用于链路预测,并为中药网络等真实网络环境预测链路,发掘潜在数据联系,为众多领域提供基于复杂网络的理论支持。,下面是一种基于图嵌入法的链路预测方法专利的具体信息内容。

1.一种基于图嵌入法的链路预测方法,其特征在于,步骤如下:
步骤(1)、数据预处理
选择实验数据集,将边集E分成训练集ET和测试集EP,训练集ET用于实验时观察的网络信息,计算节点相似性得分;测试集EP作为实验时要预测的网络信息,用于对比实验预测的结果;E=ET∪EP, 令U为 个节点对组成的全集,将属于U但不属于E
的边称为不存在的边,将属于U但不属于ET的边称为未知边;
按照9∶1的比例划分训练集和测试集;
步骤(2)、使用图嵌入法生成节点表示向量
首先使用Node2Vec进行随机游走采样节点序列,记为NVList;然后使用Word2Vec的Skip-Gram模型训练节点序列NVList,得到相应的节点表示向量集合;
(1)选择使用Node2Vec进行随机游走:
给定当前顶点v,访问下一个顶点x的概率如下:
其中,πvx是顶点v和顶点x之间未归一化的转移概率,Z为归一化常数;
Node2Vec引入两个超参数p,q来控制随机游走策略;假设当前随机游走经过边(t,v)到达顶点v时,设πvx=αpq(t,x)·wvx,wvx是顶点v和x之间的权值:
dtx为顶点t和顶点x之间的最短距离;参数p是控制重复访问刚刚访问过的顶点的概率,dtx=0表示顶点t就是刚刚访问过的顶点x,若P值较高,则重复访问的概率将会降低;参数q是控制随机游走向内还是向外的概率,当q>1时,随机游走偏向于访问跟节点t相近的节点(BFS),若q>1,随机游走偏向于访问远离节点t的节点(DFS);
(2)然后使用Word2Vec生成节点表示向量:
选择随机游走后获得相应的节点序列,通过Word2Vec中的Skip-Gram模型生成节点表示向量;
步骤(3)、基于图嵌入模型的有偏向的重启随机游走链路预测;
(1)计算节点向量相似性:
通过随机游走得到复杂网络中的每个节点的节点表示向量,假定φ(x)=[x1,x2,…,xd]表示任意节点x的向量,φ(y)=[y1,y2,…,yd]表示任意节点y的向量;余弦相似度是衡量向量空间中两向量相似程度的常用指标,它通过计算两个向量夹的余弦值来度量相似度,其中余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似;为了降低算法的时间复杂度,通过通用的余弦相似度算法计算节点向量的相似度:
(2)计算基于图嵌入法的有偏向的转移概率:
发明定义了一种基于图嵌入法的有偏向的转移概率:
其中,A是动常数,控制在这一时刻节点的游走动力;当A=1是,节点有100%的动力随机游走,当A=0时,节点将失去转移动力,一直停留在当前节点;wxy表示节点vx和vy之间的边权,其中当网络为静态无权网络时,vx和vy相连时wxy=1,否则wxy=0;∑z∈N(x)wxy·CosSim(x,z)是节点相似性的归一化,其中N(x)表示节点vx的邻居节点集合;
(3)基于图嵌入法的有重启的随机游走过程:
重启随机游走指标(RWR)在链路预测上有着优秀的性能,并在一些推荐系统中取得了较好的推荐效果;本发明基于RWR的算法流程,使用基于图嵌入法的转移概率来进行有偏向的随机游走,取得了较好的实验效果;本发明将这种算法命名为GERWR;
假设随机游走粒子在每走一步的时候都以一定概率返回初始位置;设粒子返回概率为
1-α,P为网络的尔科夫转移矩阵,它的元素为:
表示为节点vx处的粒子下一步走到节点vy的概率;如果某一粒子初始时刻在节点处,那么t+1时刻该粒子到达网络各个节点的概率向量为:
T
πx(t+1)=α·Pπx(t)+(1-α)ex
其中ex表示初始状态,上式可以计算出稳态解,公式如下:
πx=(1-α)(I-αPT)-1ex
其中元素πx表示从节点vx出发的粒子走到节点vy的最终概率,并由此定义GERWR的相似性:
算法的描述框架如下:
输入:网络的邻接矩阵A=[aij],动力常数A;
输出:相似性矩阵S=[sij];
步骤(4)、评价算法的精度
通过真实数据集,使用GWRWR算法计算得到相似性矩阵,并通过计算AUC验证算法的有效性;
每次随机从测试集中选取一条边,再从不存在的边中随机选择一条,如果测试集中的边分数值大于不存在的边的分数值,则就加1分,如果两个分数值相等则加0.5分;独立比较n次,假定有n′次测试集中的边分数值大于不存在的边分数,有n″次两分数值相等,则AUC指标的定义如下:
AUC越接近1,算法的精确度越高。

说明书全文

一种基于图嵌入法的链路预测方法

技术领域

[0001] 本发明属于模型评价领域,具体涉及一种基于图嵌入法的链路预 测方法。

背景技术

[0002] 自然界中存在大量可以被描述的复杂网络系统,例如交通网络、 社交网络、食物链网络甚至是蛋白质的相互作用网络。这些网络都是 由许多节点与连接两个节点之间的一些边组成,其中节点表示的是网 络中的实体,边表示的是节点间的某种联系,如交通网络中的站点和 线路。链路预测是将复杂网络与信息科学联系起来的重要桥梁之一, 它将解决信息科学中的一类基本问题,即缺失信息的还原与预测。链 路预测研究网络科学,并将反作用于现实世界,例如在中药材网络中, 通过链路预测算法可以预测出目前尚无组成配方的两种药材的配伍 概率,这对于中医学发展有着重要的指导意义。
[0003] 传统的图的表示方式是利用邻接矩阵存储,存在连边为1,反之 为0。这样的做法固然容易理解,但是当网络是稀疏网络时,大型的 稀疏矩阵并不利于存储计算。
[0004] 图嵌入法(Graph Embedding Method,GEM)是这些年的研究热点, 被广泛应用于图分析任务中。它的优化方式是利用低维、稠密的向量 来表示网络中的节点,要求在原始网络中相似的节点在低维表达空间 中也接近。图嵌入法也被应用于链路预测中,例如DeepWalk、LINE、 Node2Vec、Struc2Vec。通过图嵌入法得到的是每个节点的节点表示 向量,传统的做法是利用哈达玛积等映射操作得到边的特征表示向 量,从而衡量算法的性能。但是经过测试,这类的方法并不能比经典 的链路预测指标例如共同邻居(CN)、资源分配(RA)等有明显提升,甚 至在多数的数据集中还有着明显的不足。
[0005] 目前,对于图嵌入法在链路预测上的研究还没有很好的解决方 案,也没有一种算法能够在绝大多数数据集上发挥图嵌入法较经典指 标的优势。

发明内容

[0006] 针对现有技术中存在的不足,本发明提供一种基于图嵌入法的链 路预测方法。
[0007] 本发明基于图嵌入法的思想,在静态网络中通过随机游走的方式 获取节点序列,训练模型获得节点表示向量,并结合重启随机游走 (RWR)的原理,提出了一种基于图嵌入法的链路预测方法(GERWR), 在多数公开数据集上较传统指标有明显的性能提升。本算法普遍适用 于现有的图嵌入算法,其中本发明实验使用Node2Vec。
[0008] 一种基于图嵌入法的链路预测方法,步骤如下:
[0009] 步骤(1)、数据预处理
[0010] 选择实验数据集,将边集E分成训练集ET和测试集EP,训练集ET用于实验时观察的网络信息,计算节点的相似性得分。测试集EP作为 实验时要预测的网络信息,用于对比实验预测的结果。E=ET∪EP,  令U为 个节点对组成的全集,将属于U但不属于 E的边称为不存在的边,将属于U但不属于ET的边称为未知边。
[0011] 按照9:1的比例划分训练集和测试集。
[0012] 步骤(2)、使用图嵌入法生成节点表示向量
[0013] 首先使用Node2Vec进行随机游走采样节点序列,记为NVList。 然后使用Word2Vec的Skip-Gram模型训练节点序列NVList,得到相 应的节点表示向量集合。
[0014] (1)选择使用Node2Vec进行随机游走:
[0015] 给定当前顶点v,访问下一个顶点x的概率如下:
[0016]
[0017] 其中,πvx是顶点v和顶点x之间未归一化的转移概率,Z为归一 化常数。
[0018] Node2Vec引入两个超参数p,q来控制随机游走策略。假设当前 随机游走经过边(t,v)到达顶点v时,设πvx=αpq(t,x)·wvx,wvx是 顶点v和x之间的权值:
[0019]
[0020] dtx为顶点t和顶点x之间的最短距离。参数p是控制重复访问 刚刚访问过的顶点的概率,dtx=0表示顶点t就是刚刚访问过的顶点 x,若P值较高,则重复访问的概率将会降低。参数q是控制随机游 走向内还是向外的概率,当q>1时,随机游走偏向于访问跟节点t相 近的节点(BFS),若q>1,随机游走偏向于访问远离节点t的节点 (DFS)。
[0021] (2)然后使用Word2Vec生成节点表示向量:
[0022] 选择随机游走后获得相应的节点序列,通过Word2Vec中的 Skip-Gram模型生成节点表示向量。
[0023] 步骤(3)、基于图嵌入模型的有偏向的重启随机游走链路预测;
[0024] (1)计算节点向量相似性:
[0025] 通过随机游走得到复杂网络中的每个节点的节点表示向量,假定 φ(x)=[x1,x2,…,xd]表示任意节点x的向量,φ(y)=[y1,y2,…,yd]表 示任意节点y的向量。余弦相似度是衡量向量空间中两向量相似程度 的常用指标,它通过计算两个向量夹的余弦值来度量相似度,其中 余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。 为了降低算法的时间复杂度,通过通用的余弦相似度算法计算节点向 量的相似度:
[0026]
[0027] (2)计算基于图嵌入法的有偏向的转移概率:
[0028] 本发明定义了一种基于图嵌入法的有偏向的转移概率:
[0029]
[0030] 其中,A是动常数,控制在这一时刻节点的游走动力。当A=1是, 节点有100%的动力随机游走,当A=0时,节点将失去转移动力, 一直停留在当前节点。wxy表示节点vx和vy之间的边权,其中当网络 为静态无权网络时,vx和vy相连时wxy=1,否则wxy=0。 ∑z∈N(x)wxy·CosSim(x,z)是节点相似性的归一化,其中N(x)表示节 点vx的邻居节点集合。
[0031] (3)基于图嵌入法的有重启的随机游走过程:
[0032] 重启随机游走指标(RWR)在链路预测上有着优秀的性能,并在一些 推荐系统中取得了较好的推荐效果。本发明基于RWR的算法流程,使 用基于图嵌入法的转移概率来进行有偏向的随机游走,取得了较好的 实验效果。本发明将这种算法命名为GERWR。
[0033] 假设随机游走粒子在每走一步的时候都以一定概率返回初始位 置。设粒子返回概率为1-α,P为网络的尔科夫转移矩阵,它的元 素为:
[0034]
[0035] 表示为节点vx处的粒子下一步走到节点vy的概率。如果某一粒子初始 时刻在节点处,那么t+1时刻该粒子到达网络各个节点的概率向量 为:
[0036] πx(t+1)=α·PTπx(t)+(1-α)ex
[0037] 其中ex表示初始状态,上式可以计算出稳态解,公式如下:
[0038] πx=(1-α)(I-αPT)-1ex
[0039] 其中元素πx表示从节点vx出发的粒子走到节点vy的最终概率,并由此 定义GERWR的相似性:
[0040]
[0041] 算法的描述框架如下:
[0042] 输入:网络的邻接矩阵A=[aij],动力常数A。输出:相似性矩阵S=[sij]。
①初始化邻接矩阵A,相似性矩阵S;
②根据发明步骤(3)计算各节点间的转移概率并更新转移矩 阵P;
③For i=1to N do:
④While S不收敛do:
⑤πx=(1-α)(I-αPT)-1ex;
⑥End While;
⑦End For;
⑧Return S。
[0043] 步骤(4)、评价算法的精度
[0044] 通过真实数据集,使用GWRWR算法计算得到相似性矩阵,并通过 计算AUC验证算法的有效性。
[0045] 每次随机从测试集中选取一条边,再从不存在的边中随机选择一 条,如果测试集中的边分数值大于不存在的边的分数值,则就加1分, 如果两个分数值相等则加0.5分。独立比较n次,假定有n'次测试集 中的边分数值大于不存在的边分数,有n”次两分数值相等,则AUC 指标的定义如下:
[0046] AUC越接近1,算法的精确度越高。
[0047] 本发明有益效果如下:
[0048] 本发明针对现有的基于随机游走的链路预测方法在转移概率的 强随机性问题上做了改进优化,提出了基于图嵌入法的有偏向转移概 率,比经典的随机游走算法有了约5%的性能提升,相比其他经典指 标也有较大的精确度提升,可以作为一种基准指标应用于链路预测, 并为中药网络等真实网络环境预测链路,发掘潜在数据联系,为众多 领域提供基于复杂网络的理论支持。
附图说明
[0049] 图1为本发明方法流程图

具体实施方式

[0050] 本发明实施例提供了一种基于图嵌入法的链路预测算法,提升了 传统的图嵌入法在链路预测上应用的算法性能。
[0051] 如图1所示,本发明方法,步骤如下:
[0052] 步骤(1)、数据预处理
[0053] 选择实验数据集,将边集E分成训练集ET和测试集EP,训练集ET用于实验时观察的网络信息,计算节点的相似性得分。测试集EP作为 实验时要预测的网络信息,用于对比实验预测的结果。E=ET∪EP,  令U为 个节点对组成的全集,将属于U但不属于 E的边称为不存在的边,将属于U但不属于ET的边称为未知边。
[0054] 按照9:1的比例划分训练集和测试集。
[0055] 步骤(2)、使用图嵌入法生成节点表示向量
[0056] 图嵌入法起源于2013年Google公司的一款用于训练词向量的软  件工具Word2Vec,它是通过根据给定的语料库,通过优化后的训练 模型高效的将一个词语表示为词向量的形式,即表示在低维、稠密的 实数向量空间中。而图嵌入法是将网络中的节点类比为语料库中的单 词,通过随机游走的方式生成节点序列,利用Word2Vec模型训练生 成节点表示向量。
[0057] 首先使用Node2Vec进行随机游走采样节点序列,记为NVList。 然后使用Word2Vec的Skip-Gram模型训练节点序列NVList,得到相 应的节点表示向量集合。
[0058] (1)选择使用Node2Vec进行随机游走:
[0059] Node2Vec可以是对DeepWalk的一种拓展,是结合DFS和BFS 的一种方法,通过随机游走的方式获取顶点的近邻序列,但是这种随 机游走是有偏向的。
[0060] 给定当前顶点v,访问下一个顶点x的概率如下:
[0061]
[0062] 其中,πvx是顶点v和顶点x之间未归一化的转移概率,Z为归一 化常数。
[0063] Node2Vec引入两个超参数p,q来控制随机游走策略。假设当前 随机游走经过边(t,v)到达顶点v时,设πvx=αpq(t,x)·wvx,wvx是 顶点v和x之间的权值:
[0064]
[0065] dtx为顶点t和顶点x之间的最短距离。参数p是控制重复访问 刚刚访问过的顶点的概率,dtx=0表示顶点t就是刚刚访问过的顶点 x,若P值较高,则重复访问的概率将会降低。参数q是控制随机游 走向内还是向外的概率,当q>1时,随机游走偏向于访问跟节点t相 近的节点(BFS),若q>1,随机游走偏向于访问远离节点t的节点 (DFS)。
[0066] (2)然后使用Word2Vec生成节点表示向量:
[0067] 选择随机游走后获得相应的节点序列,通过Word2Vec中的 Skip-Gram模型生成节点表示向量。Skip-Gram的基本思想是利用深 度学习,通过输入某一节点来获得该节点的上下文节点。这里使用节 点序列来训练模型,输出该节点的低维的向量表示。
[0068] 步骤(3)、基于图嵌入模型的有偏向的重启随机游走链路预测;
[0069] (1)计算节点向量相似性:
[0070] 通过随机游走得到复杂网络中的每个节点的节点表示向量,假定 φ(x)=[x1,x2,…,xd]表示任意节点x的向量,φ(y)=[y1,y2,…,yd]表 示任意节点y的向量。余弦相似度是衡量向量空间中两向量相似程度 的常用指标,它通过计算两个向量夹角的余弦值来度量相似度,其中 余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。 为了降低算法的时间复杂度,通过通用的余弦相似度算法计算节点向 量的相似度:
[0071]
[0072] (2)计算基于图嵌入法的有偏向的转移概率:
[0073] 链路预测的经典随机游走算法中对某一时刻节点vx处的粒子下 一步走到节点vy的概率定义为转移概率,即 其中当vx和vy相连时则axy=1,否则axy=0,kx为节点vx的度。显然这种转移概率是 一种基于节点度的无偏向的转移,对于某一节点的所有邻居节点都是 相同的。而在实际网络系统中,这种等概率的游走是不合理的,应该 要考虑到网络的拓扑结构特异性,针对不同的邻居节点有着不同的转 移概率,因此本发明定义了一种基于图嵌入法的有偏向的转移概率:
[0074]
[0075] 其中,A是动力常数,控制在这一时刻节点的游走动力。当A=1是, 节点有100%的动力随机游走,当A=0时,节点将失去转移动力, 一直停留在当前节点。wxy表示节点vx和vy之间的边权,其中当网络 为静态无权网络时,vx和vy相连时wxy=1,否则wxy=0。 ∑z∈N(x)wxy·CosSim(x,z)是节点相似性的归一化,其中N(x)表示节 点vx的邻居节点集合。
[0076] (3)基于图嵌入法的有重启的随机游走过程:
[0077] 重启随机游走指标(RWR)在链路预测上有着优秀的性能,并在一些 推荐系统中取得了较好的推荐效果。本发明基于RWR的算法流程,使 用基于图嵌入法的转移概率来进行有偏向的随机游走,取得了较好的 实验效果。本发明将这种算法命名为GERWR。
[0078] 假设随机游走粒子在每走一步的时候都以一定概率返回初始位 置。设粒子返回概率为1-α,P为网络的马尔科夫转移矩阵,它的元 素为:
[0079]
[0080] 表示为节点vx处的粒子下一步走到节点vy的概率。如果某一粒子初始 时刻在节点处,那么t+1时刻该粒子到达网络各个节点的概率向量 为:
[0081] πx(t+1)=α·PTπx(t)+(1-α)ex
[0082] 其中ex表示初始状态,上式可以计算出稳态解,公式如下:
[0083] πx=(1-α)(I-αPT)-1ex
[0084] 其中元素πx表示从节点vx出发的粒子走到节点vy的最终概率,并由此 定义GERWR的相似性:
[0085]
[0086] 算法的描述框架如下:
[0087] 输入:网络的邻接矩阵A=[aij],动力常数A。
[0088] 输出:相似性矩阵S=[ij]。⑨初始化邻接矩阵A,相似性矩阵S;
⑩根据发明步骤(3)计算各节点间的转移概率并更新转移矩 阵P;
For i=1to N do:
While S不收敛do:
πx=(1-α)(I-αPT)-1ex;
End While;
End For;
Return S。
[0089] 步骤(4)、评价算法的精度
[0090] 通过真实数据集,使用GWRWR算法计算得到相似性矩阵,并通过 计算AUC验证算法的有效性。
[0091] AUC是衡量链路预测算法精确度最常用的指标。它是指在测试集 中随机选择一条边的分数值比随机选择的一条不存在的边的分数值 高的概率。实验时,每次随机从测试集中选取一条边,再从不存在的 边中随机选择一条,如果测试集中的边分数值大于不存在的边的分数 值,则就加1分,如果两个分数值相等则加0.5分。独立比较n次, 假定有n'次测试集中的边分数值大于不存在的边分数,有n”次两分数 值相等,则AUC指标的定义如下:
[0092]
[0093] AUC越接近1,算法的精确度越高。
[0094] 为使得本发明的发明目的、特征、优点能够更加的明显和易懂, 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进 行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明的一 部分实施例,而非全部实施例。基于本发明中的实施例,本领域的技 术人员所获得的所有其他实施例,都属于本发明保护的范围。
[0095] 实施例:
[0096] 第一步,选择不同领域的真实数据集。这里我们使用的是美国航 空网络(USAir)(加权网络),中药材网络(TCM)(加权网络),爵士乐音 乐家合作网络(Jazz),佛罗里达州食物链网络(FWFW),线虫新陈代谢 网络(Metabolic)。
[0097] 第二步,划分数据集,按照9:1的比例划分训练集和测试集。
[0098] 第三步,使用Node2Vec进行随机游走采样节点序列,记为 NVList。
[0099] 第四步,使用Skip-Gram模型训练节点序列NVList,得到节点 表示向量集合,记作NVPhi。
[0100] 第五步,计算节点表示向量集合NVPhi中的任意两个节点间的余 弦相似度,并带入公式:
[0101]
[0102] 得到转移矩阵P,记作NVP。
[0103] 第六步,输入实验网络的邻接矩阵A=[aij],动力常数A,计算 NVP并代入公式πx=(1-α)(I-αPT)-1ex计算,得到相应的相似性 矩阵NVS。
[0104] 第七步,利用NVS以及测试集,计算AUC。
[0105] 第八步,对于同一个数据集,使用经典的链路预测指标CN、AA、 RA、PA、RWR以及GERWR计算AUC,对比性能差异,分析GERWR方法 的有效性。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈