首页 / 专利库 / 人工智能 / 关联性分析 / 基于增量式网络表征学习的网络借贷欺诈检测方法

基于增量式网络表征学习的网络借贷欺诈检测方法

阅读:597发布:2020-05-08

专利汇可以提供基于增量式网络表征学习的网络借贷欺诈检测方法专利检索,专利查询,专利分析的服务。并且一种基于增量式网络 表征学习 的网络借贷欺诈检测方法。本 发明 原理:用表征能 力 强大的异质信息网络的形式来分析现实世界借贷数据,将借贷数据以异质信息网络的形式建立一个关系借贷网络。从多类型异质的关系借贷网络中 抽取 特定关系,形成仅保留一种 节点 类型的同质借贷网络。针对每一批到达的借贷数据,依次更新关系借贷网络和同质借贷网络,并运用增量式的网络表征学习 算法 及时更新同质借贷网络中节点的向量表征,以期能够捕获数据之间的最新关联性。基于学习到的向量表征构造和与时序有关的新特征(如:单号与前n个发生的单号的关系),结合分类器实现对借贷数据欺诈检测的二分类模型,进而实现对欺诈的检测与识别。,下面是基于增量式网络表征学习的网络借贷欺诈检测方法专利的具体信息内容。

1.一种基于增量式网络表征学习的网络借贷欺诈检测方法,其特征在于,过程为:
步骤1,建立关系借贷网络并完成同质化
收集历史网络借贷产生的丰富借贷数据,建立异质的关系借贷网络,以此再以单号为节点,以不同借贷数据中同时拥有的属性关系为边,衍生出同质借贷网络;提供给步骤2;
步骤2,构建训练样本集
汇集原始静态数据,建立初始静态数据集,利用网络表征学习算法变换网络结构,进行向量化,得到基于初始网络借贷数据集的节点对应的向量表征,由这些学习到的向量数据构成训练样本集;提供给步骤3;
步骤3,特征构造
对训练样本集中的向量数据进行特征构造,为输入欺诈检测模型做准备;提供给步骤
4;
步骤4,训练欺诈检测模型
采用python中机器学习集成库scikit-learn中的XGBoost分类器为本发明的欺诈检测模型,对步骤3构造出的特征输入该分类器进行欺诈检测模型训练;提供给步骤7;
步骤5,更新关系借贷网络和同质借贷网络
更新收集网络借贷目前产生的借贷数据,针对以时间序列依次到来的增量流式借贷数据,更新关系借贷网络和同质借贷网络,提供给步骤6;
步骤6:更新当前测试数据集
利用步骤2构建的训练样本集,将以时间序列依次到来的流式借贷数据构建当前的测试数据集,即:将新到来k笔借贷数据加入,并删除初始数据集中时间最早的k笔借贷数据,以实时更新当前测试数据集;
参照步骤2,利用网络表征学习算法变换网络结构,进行向量化,得到当前测试数据集的节点对应的向量表征,更新学习到的向量数据更新了当前测试数据集;提供给步骤7;
步骤7,特征构造
参照步骤3,对测试数据集中的向量数据进行特征构造,为输入欺诈检测模型做准备;
提供给步骤8;
步骤8,欺诈检测模型进行测试
将步骤7当前测试数据集输入步骤4欺诈检测模型,获得到欺诈检测模型的判断结果。
2.如权利要求1所述的方法,其特征在于,包括如下步骤
步骤1.1:从原始借贷数据中筛选出原始字段(如表1所示),进行字段类型转换和空值去除填充预处理操作;
将原始借贷数据划分为单号(APPLYNO)与属性(ATTRIBUTE)两种类型,所述属性
(ATTRIBUTE)为借贷数据中除去单号(APPLYNO)以外的其他数据;针对一笔借贷数据,将其记为(bi,ATT(bi)),bi是借贷数据b的单号,ATT(bi)是借贷数据b对应的属性集合,attk(bi)是ATT(bi)中第k个元素;
基于原始借贷数据建立关系借贷网络Nr=(V,E),V是节点集,E是边集,其中边e=(u,v),u与v属于节点集V(包含多种类型节点);针对借贷数据b中的每一笔数据bi,首先bi加入节点集V,将ATT(bi)中每一个元素依次加入节点集V,最后将边(bi,attk(bi))加入边集E,attk(bi)是ATT(bi)中第k个元素;执行步骤1.2;
步骤1.2:基于关系借贷网络建立同质借贷网络Nh=(Vh,Eh),Vh是节点集,Eh是边集,其中边e=(u,v,w),u与v属于节点集Vh(仅包含类型为借贷单号的节点)。当attk(bi)=attk(bj)时,关系借贷网络中一对边(bi,attk(bi))和(bj,attk(bj))被视为边集Eh中的边(bi,bj),w为边(bi,bj)出现的次数,作为同质借贷网络Nh中的权重;基于关系借贷网络Nr,将节点集V中所有类型为借贷单号的节点加入节点集Vh。然后遍历每一对边(bi,attk(bi))和(bj,attk(bj)),当attk(b-i)=attk(bi)时,将边(bi,bj)加入边集Eh;得到同质借贷网络Nh=(Vh,Eh);执行步骤1.3;
步骤1.3:基于已构建的同质借贷网络Nh,采用网络表征学习方法NetWalk来学习同质借贷网络Nh中全部网络节点的向量表征;网络表征学习方法NetWalk学习向量表征的主要参数如表2所示,执行步骤1.4;
步骤1.4:将步骤1.3中的网络表征学习方法NetWalk针对同质借贷网络Nh得到在初始时刻t时网络中节点v与其对应的向量表征γ,建立映射关系γ=Ft(v);依据映射关系γ=Ft(v),将初始借贷数据表示为向量表征形式,一笔由若干具体字段值组成借贷数据转变为一组固定维度的向量表征;
步骤2.1:基于tk时刻节点和映射关系 借贷数据变换为每个借贷单号所对应
的维数为dim的向量;
在基于所得到的向量表征,针对每一笔借贷数据依次先计算每个单号与在数据集(单号按生成时间排序)中前h项单号的欧氏距离,并按照从小到大的顺序排序这h项,将其作为对应单号的所构造的时序特征;然后,再引入待检测单号与其前h项单号所对应向量相似度作为欺诈检测模型的输入,面对向量X=(x1,····,xdim)、Y=(y1,····,ydim),其欧氏距离的计算如下所示
步骤2.2:基于步骤2.1中构造好的时序特征,依据分类器参数集Wc设置分类器,将tk时刻借贷数据对应的时序特征作为数据,对应借贷数据是否为欺诈交易作为标签,导入分类器进行训练,进而将训练好的二分类模型视为欺诈检测模型
步骤3.1:依据数据集Btrain(tk)时间戳顺序,选取与数据集Btest(tk+1)同样数量的最早数据放入数据集B′test(tk+1);将数据集Btest(tk+1)与B′test(tk+1)采用与步骤1.1中相同的预处理操作,将处理后的数据集Btest(tk+1)与B′test(tk+1)基于数据集Btrain(tk)进行关系借贷网络的更新;基于步骤1.1的定义,分别处理网络借贷数据Btest(tk+1)与B′test(tk+1)得到关系借贷网络中的节点集Vtest(tk+1)和V′test(tk+1)与边集Etest(tk+1)和E′test(tk+1),Etest(tk+1)是流式到达的借贷数据中单号与上一时刻关系借贷网络Nr中现有节点之间的存在关系的边集,是关系借贷网络Nr即将删除的过期边集;令V=V∪Vtest(tk+1)-V′test(tk+1)和E=E∪Etest(tk+1)-E′test(tk+1),更新关系借贷网络Nr=(V,E);执行步骤3.2;
步骤3.2:基于更新后的关系借贷网络Nr=(V,E),采用步骤1.2获得更新后的同质借贷网络Nh=(Vh,Eh);执行步骤3.3;
步骤3.3:基于时刻tk对应的节点v与对应向量γ的映射关系 分别设置边集
Etest(tk+1)和Et′est(tk+1)为新到来的边集和待删除的边集,运用网络表征学习方法NetWalk,对涉及到边集Etest(tk+1)和Et′est(tk+1)中的节点和边进行增量式的网络表征学习,得到时刻tk+1对应的节点v与对应向量γ的映射关系 执行步骤3.4;
步骤3.4:将步骤3.3中针对同质借贷网络Nh得到在时刻tk时网络中节点v与其对应的向量表征γ之间的映射关系 依据映射关系γ=Ft(v),将流式借贷数据重新表示
为向量表征形式,一笔由若干具体字段值组成借贷数据转变为一组固定维度的向量表征;
步骤4.1:一笔含有n个可用原始字段的借贷数据Btrain(tk)在同质借贷网络中可对应n个相应的节点;根据步骤3.4可知,基于tk时刻节点和映射关系 借贷数据变换为
每个借贷单号所对应的维数为dim的向量;基于所得到的向量表征,针对每一笔借贷数据依次计算每个单号与在数据集(单号按生成时间排序)中前h项单号的欧氏距离,并按照从小到大的顺序排序这h项,将其作为对应单号的时序特征;执行步骤4.2;
步骤4.2:导入步骤2.2得到的欺诈检测模型 将tk时刻的测试数据对应的时序特征输入欺诈检测模型 得到测试借贷数据的集合Btest(tk)中每一笔借贷数据的欺诈概率p(bi),输出测试数据为欺诈的概率集合P,其中p(bi)∈P。
3.如权利要求1所述的方法,其特征在于,判断当前测试数据集对应时刻是否超出模型更新周期,若不超出,重复执行步骤5,若超出,重复执行步骤1。直至针对所有测试数据集完成欺诈检测,算法结束。
4.如权利要求3所述的方法,其特征在于,判断时刻tk+1+t0是否大于周期T,若大于,则将tk时刻的借贷数据集Btrain(tk)视为初始借贷数据集,执行第一部分步骤1.1重新构建关系借贷网络;若小于,令 Btrain(tk+1)=Btrain(tk)∪Btest(tk+1)-B`test(tk+1);在时刻tk+1时执行步骤3.1,根据到来的流式借贷数据,增量式地更新网络表征。

说明书全文

基于增量式网络表征学习的网络借贷欺诈检测方法

技术领域

[0001] 本发明涉及互联网金融网络借贷的反欺诈检测。

背景技术

[0002] 随着互联网的迅速发展,各种传统的业务逐渐转至线上,互联网金融中的网络借贷迅速发展,网络借贷的产生将带来大量的电子交易数据,同时伴随着网络借贷欺诈数量的大量增加[1]。近年来,B2C网络借贷在全球尤其是中国发展迅速,其中,B2C网络借贷机构遭受大量坏账和借贷,产生巨大的经济损失[2]。欺诈者通过伪造虚假的借款人信息,甚至生成团伙化的虚假借款人来完成大批量网络借贷欺诈。为保障网络借贷中投资机构和正常用户的业务安全,需要建立切实有效的网络借贷欺诈检测系统。
[0003] 在B2C借贷场景中,个人可能通过伪冒申请、提供虚假资料和虚假联系人、多头借贷等方式获取信贷资源;更有甚者,通过黑灰色产业的代办包装、组团骗贷等方式获取额度和资金。这些虚假的借贷数据中往往存在潜在的关联。网络表征学习已经在挖掘数据之间的潜在联系上表现出强有的作用[3]。然而,目前大多数的欺诈检测系统基于静态的借贷数据网络进行周期性地更新网络,这无法适应网络时代欺诈手段的快速变化,如:黑灰色产业在短时间内生成大量相关联借贷数据,由于静态的借贷网络并未及时学习到这些关联,而无法有效阻止欺诈行为的发生。此外,B2C网络借贷极短的时间内就可以产生大量的借贷数据,借贷数据的不断增长和欺诈手段的不断变化,迫切需要动态的增加新数据和删除旧数据,这将导致基于静态网络表征学习的欺诈检测方法不能适应借贷网络结构的变化。
[0004] 目前为止,关于网络借贷方面的研究主要集中在静态的数据上如何建立高效的欺诈检测模型[4],只有较少的研究涉及到动态地更新模型。Talaver等人[5]训练了一个径向基函数网络来区分客户是否有借贷欺诈行为,并建立一个模糊c-means聚类来对数据点进行分组,以通过对簇内数据进行分组创建客户档案。Babaev等人[6]在细粒度的跨国数据上使用神经网络来处理贷款数据,仅基于业务数据提出一个新的方法—E.T.RNN,实现自动化地对贷款申请作出决策。
[0005] 通过以上研究发现,B2C网络借贷欺诈检测的一个主要问题是缺乏对短期内新颖欺诈手段的应对方法。传统检测方法存在一个较长的周期,随着时间推移,很多欺诈方法发生改变,进而缺乏较好的泛化能力。

发明内容

[0006] 欺诈的借贷申请往往通过伪冒申请、提供虚假资料和多头借贷等方式通过审核系统,这些虚假的信息之间往往存在潜在的关联性,尤其是在黑灰色产业的代办包装、组团骗贷中更为明显。得益于当前网络借贷产生的丰富借贷数据,分析并以此作为基础,本发明公开一种网络借贷欺诈检测方法,保护用户和企业的安全。
[0007] 本发明原理:用表征能力强大的异质信息网络的形式来分析现实世界借贷数据,将借贷数据以异质信息网络(包含多种类型的节点和边,如:借贷单号、车牌号、电话、住址等)的形式建立一个关系借贷网络。从多类型异质的关系借贷网络中抽取特定关系,形成仅保留一种节点类型的同质借贷网络(借贷数据的同质网络生成过程如图1所示)。针对每一批到达的借贷数据,依次更新关系借贷网络和同质借贷网络,并运用增量式的网络表征学习算法及时更新同质借贷网络中节点的向量表征,以期能够捕获数据之间的最新关联性。基于学习到的向量表征构造和与时序有关的新特征(如:单号与前n个发生的单号的关系),结合分类器实现对借贷数据欺诈检测的二分类模型,进而实现对欺诈的检测与识别。
[0008] 本发明方法技术方案:
[0009] 一种基于增量式网络表征学习的网络借贷欺诈检测方法,其特征在于,过程为:
[0010] 步骤1,建立关系借贷网络并完成同质化
[0011] 收集历史网络借贷产生的丰富借贷数据,建立异质的关系借贷网络,以此再以单号为节点,以不同借贷数据中同时拥有的属性关系为边,衍生出同质借贷网络;提供给步骤2;
[0012] 步骤2,构建训练样本集
[0013] 汇集原始静态数据,建立初始静态数据集,利用网络表征学习算法变换网络结构,进行向量化,得到基于初始网络借贷数据集的节点对应的向量表征,由这些学习到的向量数据构成训练样本集;提供给步骤3;
[0014] 步骤3,特征构造
[0015] 对训练样本集中的向量数据进行特征构造,为输入欺诈检测模型做准备;提供给步骤4;
[0016] 步骤4,训练欺诈检测模型
[0017] 采用python中机器学习集成库scikit-learn中的XGBoost分类器为本发明的欺诈检测模型,对步骤3构造出的特征输入该分类器进行欺诈检测模型训练;提供给步骤7;
[0018] 步骤5,更新关系借贷网络和同质借贷网络
[0019] 更新收集网络借贷目前产生的借贷数据,针对以时间序列依次到来的增量流式借贷数据,更新关系借贷网络和同质借贷网络,提供给步骤6;
[0020] 步骤6:更新当前测试数据集
[0021] 利用步骤2构建的训练样本集,将以时间序列依次到来的流式借贷数据构建当前的测试数据集,即:将新到来k笔借贷数据加入,并删除初始数据集中时间最早的k笔借贷数据,以实时更新当前测试数据集;
[0022] 参照步骤2,利用网络表征学习算法变换网络结构,进行向量化,得到当前测试数据集的节点对应的向量表征,更新学习到的向量数据更新了当前测试数据集;提供给步骤7;
[0023] 步骤7,特征构造
[0024] 参照步骤3,对测试数据集中的向量数据进行特征构造,为输入欺诈检测模型做准备;提供给步骤8;
[0025] 步骤8,欺诈检测模型进行测试
[0026] 将步骤7当前测试数据集输入步骤4欺诈检测模型,获得到欺诈检测模型的判断结果。
[0027] 进一步的,判断当前测试数据集对应时刻是否超出模型更新周期,若不超出,重复执行步骤5,若超出,重复执行步骤1。直至针对所有测试数据集完成欺诈检测,算法结束。
[0028] 本发明在于克服静态的欺诈检测方法针对快速变化的网络借贷欺诈的乏力性,增加欺诈检测系统对变化环境的适应能力,对检测欺诈借贷、拦截欺诈借贷和保护用户和企业的资金安全有更好的保障。
[0029] 本发明公开了基于增量式网络表征的网络借贷欺诈检测方法,实现对借贷数据网络进行动态的更新,借助增量式的网络表征学习挖掘到泛化能力强的表征,进而提高模型拦截欺诈借贷的实时性、准确性和鲁棒性。附图说明
[0030] 图1:本发明网络借贷场景下借贷数据的同质网络生成过程示例图;
[0031] 图2:本发明基于增量式网络表征学习的网络借贷欺诈检测方法流程图
[0032] 图3:实施例的借贷数据变换为向量表征示意图;
[0033] 图4:实施例某时刻下增量式借贷数据集划分示意图。

具体实施方式

[0034] 以下结合实施例和附图进一步介绍本发明技术方案。
[0035] 基于增量式网络表征学习的网络借贷欺诈检测方法流程图,如图2所示过程为:
[0036] 步骤1,建立关系借贷网络并完成同质化
[0037] 收集历史网络借贷产生的丰富借贷数据,建立异质的关系借贷网络,以此再以单号为节点,以不同借贷数据中同时拥有的属性关系为边,衍生出同质借贷网络;提供给步骤2;
[0038] 步骤2,构建训练样本集
[0039] 汇集原始静态数据,建立初始静态数据集,利用网络表征学习算法变换网络结构,进行向量化,得到基于初始网络借贷数据集的节点对应的向量表征,由这些学习到的向量数据构成训练样本集;提供给步骤3;
[0040] 步骤3,特征构造
[0041] 对训练样本集中的向量数据进行特征构造,为输入欺诈检测模型做准备;提供给步骤4;
[0042] 步骤4,训练欺诈检测模型
[0043] 采用python中机器学习集成库scikit-learn中的XGBoost分类器为本发明的欺诈检测模型,对步骤3构造出的特征输入该分类器进行欺诈检测模型训练;提供给步骤7;
[0044] 步骤5,更新关系借贷网络和同质借贷网络
[0045] 更新收集网络借贷目前产生的借贷数据,针对以时间序列依次到来的增量流式借贷数据,更新关系借贷网络和同质借贷网络,提供给步骤6;
[0046] 步骤6:更新当前测试数据集
[0047] 利用步骤2构建的训练样本集,将以时间序列依次到来的流式借贷数据构建当前的测试数据集,即:将新到来k笔借贷数据加入,并删除初始数据集中时间最早的k笔借贷数据,以实时更新当前测试数据集;
[0048] 参照步骤2,利用网络表征学习算法变换网络结构,进行向量化,得到当前测试数据集的节点对应的向量表征,更新学习到的向量数据更新了当前测试数据集;提供给步骤7;
[0049] 步骤7,特征构造
[0050] 参照步骤3,对测试数据集中的向量数据进行特征构造,为输入欺诈检测模型做准备;提供给步骤8;
[0051] 步骤8,欺诈检测模型进行测试
[0052] 将步骤7当前测试数据集输入步骤4欺诈检测模型,获得到欺诈检测模型的判断结果。
[0053] 进一步的,判断当前测试数据集对应时刻是否超出模型更新周期,若不超出,重复执行步骤5,若超出,重复执行步骤1。直至针对所有测试数据集完成欺诈检测,算法结束。
[0054] 进一步的,给出详细的实施例。
[0055] 实施例1
[0056] 分成四大步骤
[0057] 第一部分,生成初始的网络表征,其过程如下:
[0058] 输入:
[0059] 用户网络借贷数据的数据B,
[0060] 网络表征学习方法参数We。
[0061] 输出:
[0062] 初始时刻t时节点v与对应向量γ的映射关系γ=Ft(v)。
[0063] 详细的,生成初始的网络表征,其过程如下:
[0064] 步骤1.1:从原始借贷数据中筛选出可利用的原始字段(如表1所示),进行字段类型转换和空值去除填充等数据预处理操作,并针对各字段制定离散化规则,将取值离散化降低数据精度。如:本实施例将金额依据不同区间划分为有限个类别;将地址依据不同街道划分为粗粒度离散化取值。
[0065] 将原始借贷数据划分为单号(APPLYNO)与属性(ATTRIBUTE)两种类型,所述属性(ATTRIBUTE)为借贷数据中除去单号(APPLYNO)以外的其他数据。针对一笔借贷数据,将其记为(bi,ATT(bi)),bi是借贷数据b的单号,ATT(bi)是借贷数据b对应的属性集合,attk(bi)是ATT(bi)中第k个元素。
[0066] 基于原始借贷数据建立关系借贷网络Nr=(V,E),V是节点集,E是边集,其中边e=(u,v),u与v属于节点集V(包含多种类型节点)。针对借贷数据b中的每一笔数据bi,首先bi加入节点集V,将ATT(bi)中每一个元素依次加入节点集V,最后将边(bi,attk(bi))加入边集E,attk(bi)是ATT(bi)中第k个元素。执行步骤1.2。图1左部为关系借贷网络Nr的示例图。
[0067] 步骤1.2:基于关系借贷网络建立同质借贷网络Nh=(Vh,Eh),Vh是节点集,Eh是边集,其中边e=(u,v,w),u与v属于节点集Vh(仅包含类型为借贷单号的节点)。当attk(bi)=attk(bj)时,关系借贷网络中一对边(bi,attk(bi))和(bj,attk(bj))被视为边集Eh中的边(bi,bj),w为边(bi,bj)出现的次数,作为同质借贷网络Nh中的权重。基于关系借贷网络Nr,将h节点集V中所有类型为借贷单号的节点加入节点集V。然后遍历每一对边(bi,attk(bi))和(bj,attk(bj)),当attk(b-i)=attk(bi)时,将边(bi,bj)加入边集Eh。得到同质借贷网络Nh=(Vh,Eh)。执行步骤1.3。
[0068] 图1右部为基于左部关系借贷网络Nr生成同质借贷网络Nh的示例图。
[0069] 步骤1.3:基于已构建的同质借贷网络Nh,本实施例采用现有的网络表征学习方法NetWalk来学习同质借贷网络Nh中全部网络节点的向量表征,同时避免手动提取特征的麻烦,自动化抽取特征信息。网络表征学习方法NetWalk学习向量表征的主要参数如表2所示,参数的设定与网络的结构有关,通常情况下参数walk-length、number_walks和网络中节点、边的数量成正比,网络中节点、边数量越多,参数walk-length和number_walks应当越大;参数learning_rate影响网络表征学习方法NetWalk的性能,过大的值可能导致过拟合,过小的值则导致欠拟合,本实施例设置为0.01;参数dim是所得到的输出向量表征的维度,一个大的维度往往包含更多潜在的关联,但随之带了更高的计算复杂度,本实施例设置为128;参数init和snap为网络表征学习方法NetWalk的输入参数,其形式为借贷网络中的边集,在本实施例的网络表征学习方法中,init为基于初始借贷数据生成的同质借贷网络的边集,snap为基于流式借贷数据生成的同质借贷网络中新增或删除的边集。执行步骤1.4。
[0070] 步骤1.4:将步骤1.3中的网络表征学习方法NetWalk针对同质借贷网络Nh得到在初始时刻t时网络中节点v与其对应的向量表征γ,建立映射关系γ=Ft(v)。依据映射关系γ=Ft(v),将初始借贷数据表示为向量表征形式,如图4所示,一笔由若干具体字段值组成借贷数据转变为一组固定维度的向量表征(图4中向量维度dim由网络表征学习方法NetWalk中参数dim决定)。
[0071] 表1可利用原始字段
[0072]
[0073] 表2 NetWalk主要参数
[0074]
[0075]
[0076] 第二步,欺诈检测模型的建立,其过程如下:
[0077] 分类器环境:python,XGBoost分类器
[0078] 输入:
[0079] 时刻tk对应的节点v与对应向量γ的映射关系
[0080] 分类器参数集Wc,
[0081] 分类器输入的特征数量h,
[0082] 用于模型训练借贷数据的集合Btrain(tk)。
[0083] 输出:
[0084] 欺诈检测模型
[0085] 详细的,欺诈检测模型的建立,其过程如下:
[0086] 步骤2.1:一笔含有n个可用原始字段的借贷数据Btrain(tk)在同质借贷网络中可对应n个相应的节点。根据步骤1.4可知,基于tk时刻节点和映射关系 借贷数据变换为每个借贷单号所对应的维数为dim的向量。在得到向量后即可直接输入分类模型进行节点分类后续任务。(此为:“方法一”)。
[0087] 本实施例进一步创新,进一步披露给出“方法二”:在基于所得到的向量表征,针对每一笔借贷数据依次先计算每个单号与在数据集(单号按生成时间排序)中前h项单号的欧氏距离(欧氏距离为向量相似度的一种计算方法),并按照从小到大的顺序排序这h项,将其作为对应单号的所构造的时序特征。然后,再引入待检测单号与其前h项单号所对应向量相似度作为欺诈检测模型的输入。
[0088] 对比之:
[0089] “方法一”,其方法仅考虑向量的绝对空间位置,在借贷数据中性能较差。
[0090] “方法二”相比于“方法一”更有利于检测借贷欺诈中的团伙欺诈问题,不使用绝对空间位置,使用向量相似度,增强了后续欺诈检测模型的泛化能力。面对向量X=(x1,····,xdim)、Y=(y1,····,ydim),其欧氏距离的计算如下所示
[0091]
[0092] 步骤2.2:基于步骤2.1中构造好的时序特征,依据分类器参数集Wc设置分类器,将tk时刻借贷数据对应的时序特征作为数据,对应借贷数据是否为欺诈交易作为标签,导入分类器进行训练,进而将训练好的二分类模型视为欺诈检测模型
[0093] 第三部,生成增量式的网络表征,其过程如下:
[0094] 输入:
[0095] 时刻tk时对应的节点v与对应向量γ的映射关系
[0096] 时刻tk时网络表征学习所用数据集Btrain(tk),
[0097] 流式到来的tk+1时刻的网络借贷数据集Btest(tk+1)。
[0098] 输出:
[0099] 时刻tk+1时节点v与对应向量γ的映射关系
[0100] 详细的,生成增量式的网络表征,其过程如下:
[0101] 步骤3.1:依据数据集Btrain(tk)时间戳顺序,选取与数据集Btest(tk+1)同样数量的最早数据放入数据集B′test(tk+1)。将数据集Btest(tk+1)与B′test(tk+1)采用与步骤1.1中相同的预处理操作,将处理后的数据集Btest(tk+1)与B′test(tk+1)基于数据集Btrain(tk)进行关系借贷网络的更新。基于步骤1.1的定义,分别处理网络借贷数据Btest(tk+1)与B′test(tk+1)得到关系借贷网络中的节点集Vtest(tk+1)和V′test(tk+1)与边集Etest(tk+1)和E′test(tk+1),Etest(tk+1)是流式到达的借贷数据中单号与上一时刻关系借贷网络Nr中现有节点之间的存在关系的边集, 是关系借贷网络Nr即将删除的过期边集。令V=V∪Vtest(tk+1)-V′test(tk+1)和E=E∪Etest(tk+1)-E′test(tk+1),更新关系借贷网络Nr=(V,E)。执行步骤3.2。
[0102] 步骤3.2:基于更新后的关系借贷网络Nr=(V,E),采用步骤1.2获得更新后的同质借贷网络Nh=(Vh,Eh)。执行步骤3.3。
[0103] 步骤3.3:基于时刻tk对应的节点v与对应向量γ的映射关系 分别设置边集Etest(tk+1)和E′test(tk+1)为新到来的边集和待删除的边集,运用网络表征学习方法NetWalk,对涉及到边集Etest(tk+1)和E′test(tk+1)中的节点和边进行增量式的网络表征学习,得到时刻tk+1对应的节点v与对应向量γ的映射关系 执行步骤3.4。
[0104] 步骤3.4:将步骤3.3中针对同质借贷网络Nh得到在时刻tk时网络中节点v与其对应的向量表征γ之间的映射关系 依据映射关系γ=Ft(v),将流式借贷数据重新表示为向量表征形式,如图4所示,一笔由若干具体字段值组成借贷数据转变为一组固定维度的向量表征。
[0105] 第四部,欺诈检测模型的测试,其过程如下:
[0106] 分类器环境:python,XGBoost分类器
[0107] 输入:
[0108] 模型更新周期T,
[0109] 欺诈检测模型
[0110] 时刻tk对应的节点v与对应向量γ的映射关系
[0111] 时刻tk用于模型测试借贷数据的集合Btest(tk)。
[0112] 输出:
[0113] 测试数据为欺诈的概率P。
[0114] 详细的,欺诈检测模型的测试,其过程如下:
[0115] 步骤4.1:一笔含有n个可用原始字段的借贷数据Btrain(tk)在同质借贷网络中可对应n个相应的节点。根据步骤3.4可知,基于tk时刻节点和映射关系 借贷数据变换为每个借贷单号所对应的维数为dim的向量。基于所得到的向量表征,针对每一笔借贷数据依次计算每个单号与在数据集(单号按生成时间排序)中前h项单号的欧氏距离,并按照从小到大的顺序排序这h项,将其作为对应单号的时序特征。执行步骤4.2。
[0116] 步骤4.2:导入步骤2.2得到的欺诈检测模型 将tk时刻的测试数据对应的时序特征输入欺诈检测模型 得到测试借贷数据的集合Btest(tk)中每一笔借贷数据的欺诈概率p(bi),输出测试数据为欺诈的概率集合P,其中p(bi)∈P。判断时刻tk+1+t0是否大于周期T,若大于,则将tk时刻的借贷数据集Btrain(tk)视为初始借贷数据集,执行第一部分步骤1.1重新构建关系借贷网络。若小于,令在时刻tk+1时执行第三部分步骤3.1,根据到来的流式借贷数据,增量式地更新网络表征。
[0117] 本发明通过在真实互联网金融平台借贷数据集上进行检测证明,得出不同打扰率(误拦截率,False Positive Rate)下的召回率(拦截率,True Positive Rate),并由此来计算KS值(是不同情况下召回率-打扰率的最大值)来评价系统的性能,该方法在此指标上和计算时间上都优于先前的研究,并且有着很好的鲁棒性。
[0118] 本项目的创新点
[0119] 1.通过从记录型的借贷数据建立关联借贷网络,并衍生出同质借贷网络将借贷数据之间的关系以网络的形式表现,同时基于上述同质信息网络并进行网络表征学习,实现自动从数据中抽取潜在关联特征,减少了系统对业务知识的依赖程度。
[0120] 2.针对流式借贷数据,动态更新关联借贷网络和同质借贷网络结构,并通过增量式的网络表征学习方法,准确地对不断变化的借贷网络进行动态地更新相关表征,基于节点的向量表征构造出借贷数据新的特征,输入已有训练好的模型返回借贷数据的欺诈概率。对比传统的方法,本模型中表征的更新具有更强的实时性,适合网络借贷场景下对数据快速审核的要求,具有更高的准确性和鲁棒性。
[0121] 批注:本发明中的有关术语以及对于先前的主要技术可参见如下资料。
[0122] [1]Chen Y Q,Zhang J,Ng W W Y.Loan  Default Prediction  Using Diversified Sensitivity Undersampling[C]//2018International Conference on Machine Learning and Cybernetics(ICMLC).IEEE,2018,1:240-245.
[0123] [2]Shi Y F,Song P P.Improvement Research on the Project Loan Evaluation of Commercial Bank Based on the Risk Analysis[C]//2017 10th International Symposium on Computational Intelligence and Design(ISCID).IEEE,
2017,1:3-6.
[0124] [3]Cui P,Wang X,Pei J,et al.A survey on network embedding[J].IEEE Transactions on Knowledge and Data Engineering,2018,31(5):833-852.
[0125] [4]Saha P,Bose I,Mahanti A.A knowledge based scheme for risk assessment in loan processing by banks[J].Decision Support Systems,2016,84:
78-88.
[0126] [5]Talavera A,Cano L,Paredes D,et al.Data Mining Algorithms for Risk Detection in Bank Loans[C]//Annual International Symposium on Information Management and Big Data.Springer,Cham,2018:151-159.
[0127] [6]Babaev D,Savchenko M,Tuzhilin A,et al.ET-RNN:Applying Deep Learning to Credit Loan Applications[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining.ACM,2019:2183-
2190.
[0128] [7]Yu W,Cheng W,Aggarwal C C,et al.Netwalk:A flexible deep embedding approach for anomaly detection in dynamic networks[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery&Data 
Mining.ACM,2018:2672-2681.
[0129] [8]Chen T,Guestrin C.XGBoost:A scalable tree boosting system[C]//Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining.ACM,2016:785-794.
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈