首页 / 专利库 / 人工智能 / 机器学习 / 集成学习 / 互联网金融平台网络借贷欺诈检测系统

互联网金融平台网络借贷欺诈检测系统

阅读:410发布:2020-05-12

专利汇可以提供互联网金融平台网络借贷欺诈检测系统专利检索,专利查询,专利分析的服务。并且一种网络借贷欺诈检测系统,嵌入于互联网网络借贷审核系统,连接网络借贷记录数据供应模 块 ,包括网络构建与更新模块、网络学习表征模块、特征构建模块、欺诈检测模型。网络构建与更新模块,包括关系借贷网络构建与更新模块、同质借贷网络的构建与更新模块,关系借贷网络构建与更新模块与同质借贷网络的构建与更新模块连接;网络 表征学习 模块,包括静态网络表征学习模块和增量式网络表征学习模块;特征构建模块,包括数据向量化模块和时序特征构造模块,数据向量化模块输出与时序特征构造模块输入连接,静态网络表征学习模块和增量式网络表征学习模块的输出分别与数据向量化模块的输入连接;所述欺诈检测模块,对测试数据实现欺诈检测。,下面是互联网金融平台网络借贷欺诈检测系统专利的具体信息内容。

1.一种网络借贷欺诈检测系统,嵌入于互联网网络借贷审核系统,其特征在于,连接网络借贷记录数据供应模,本发明系统包括网络构建与更新模块、网络学习表征模块、特征构建模块、欺诈检测模型,其中:
所述数据供应模块可以针对不同的数据实现初始数据供应和流式数据供应;
所述网络构建与更新模块,与数据供应模块连接,包括关系借贷网络构建与更新模块、同质借贷网络的构建与更新模块,关系借贷网络构建与更新模块与同质借贷网络的构建与更新模块连接;
所述网络表征学习模块,与同质借贷网络的构建与更新模块连接,包括静态网络表征学习模块和增量式网络表征学习模块;
所述特征构建模块,实现将借贷数据转化为新特征的功能,包括数据向量化模块和时序特征构造模块,数据向量化模块输出与时序特征构造模块输入连接,静态网络表征学习模块和增量式网络表征学习模块的输出分别与数据向量化模块的输入连接;
所述欺诈检测模块,与特征构建模块连接,先通过对输入样本数据进行训练建立检测模块,再对测试数据实现欺诈检测,为互联网网络借贷审核系统提供检测判断。
2.如权利要求1所述的网络借贷欺诈检测系统,其特征在于,具体为:
一、网络借贷记录数据供应模块
所述数据供应模块连接互联网金融平台借贷数据集,获得初始数据和流式数据,针对不同阶段向本发明系统供应训练用数据和测试数据;
二、网络构建与更新模块
关系借贷网络构建与更新模块:
从数据供应模块的原始借贷数据中筛选出可利用的原始字段(如表1所示),进行字段类型转换和空值去除填充数据预处理操作;将原始借贷数据划分为单号(APPLYNO)与属性(ATTRIBUTE)两种类型,所述属性(ATTRIBUTE)为借贷数据中除去单号(APPLYNO)以外的其他数据;针对一笔借贷数据,将其记为(bi,ATT(bi)),bi是借贷数据b的单号,ATT(bi)是借贷数据b对应的属性集合,attk(bi)是ATT(bi)中第k个元素;
基于原始借贷数据建立关系借贷网络Nr=(V,E),V是节点集,E是边集,其中边e=(u,v),u与v属于节点集V(包含多种类型节点);针对借贷数据b中的每一笔数据bi,首先bi加入节点集V,将ATT(bi)中每一个元素依次加入节点集V,最后将边(bi,attk(bi))加入边集E,attk(bi)是ATT(bi)中第k个元素;提供给同质借贷网络的构建与更新模块;
同质借贷网络的构建与更新模块:
基于关系借贷网络构建与更新模块建立同质借贷网络Nh=(Vh,Eh),Vh是节点集,Eh是边集,其中边e=(u,v,w),u与v属于节点集Vh(仅包含类型为借贷单号的节点);当attk(bi)=h
attk(bj)时,关系借贷网络中一对边(bi,attk(bi))和(bj,attk(bj))被视为边集E 中的边(bi,bj),w为边(bi,bj)出现的次数,作为同质借贷网络Nh中的权重;基于关系借贷网络Nr,将节点集V中所有类型为借贷单号的节点加入节点集Vh;然后遍历每一对边(bi,attk(bi))和(bj,attk(bj)),当attk(bi)=attk(bj)时,将边(bi,bj)加入边集Eh;得到同质借贷网络Nh=h h
(V ,E);输出提供给网络表征学习模块;
三、网络学习表征模块
所述网络表征学习模块,与同质借贷网络的构建与更新模块连接,包括静态网络表征学习模块和增量式网络表征学习模块,分别在训练阶段和测试阶段完成网络表征学习;
所述静态网络表征学习模块:
基于同质借贷网络的构建与更新模块已构建的同质借贷网络Nh,静态网络表征学习模块采用网络表征学习方法NetWalk来学习同质借贷网络Nh中全部网络节点的向量表征;网络表征学习方法NetWalk学习向量表征的主要参数如表2所示;将网络表征学习方法NetWalk针对同质借贷网络Nh得到在初始时刻t时网络中节点v与其对应的向量表征γ,建立映射关系γ=Ft(v);依据映射关系γ=Ft(v),将初始借贷数据表示为向量表征形式,一笔由若干具体字段值组成借贷数据转变为一组固定维度的向量表征;
所述增量式网络表征学习模块进行生成增量式的网络表征,包括第一子模块、第二子模块、第三子模块、第四子模块,它们顺序连接:
所述第一子模块:依据数据集Btrain(tk)时间戳顺序,选取与数据集Btest(tk+1)同样数量的最早数据放入数据集B′test(tk+1);将数据集Btest(tk+1)与B′test(tk+1)采用与关系借贷网络构建与更新模块中相同的预处理操作,将处理后的数据集Btest(tk+1)与B′test(tk+1)基于数据集Btrain(tk)进行关系借贷网络的更新;基于关系借贷网络构建与更新模块的定义,分别处理网络借贷数据Btest(tk+1)与B′test(tk+1)得到关系借贷网络中的节点集Vtest(tk+1)和V′test(tk+1)与边集Etest(tk+1)和E′test(tk+1),Etest(tk+1)是流式到达的借贷数据中单号与上一时刻关系借贷网络Nr中现有节点之间的存在关系的边集,E′test(tk+1)是关系借贷网络Nr即将删除的过期边集;令V=V∪Vtest(tk+1)-V′test(tk+1)和E=E∪Etest(tk+1)-E′test(tk+1),更新关系借贷网络Nr=(V,E);
所述第二子模块:基于更新后的关系借贷网络Nr=(V,E),采用同质借贷网络的构建与更新模块获得更新后的同质借贷网络Nh=(Vh,Eh);
所述第三子模块:基于时刻tk对应的节点v与对应向量γ的映射关系 分别设
置边集Etest(tk+1)和E′test(tk+1)为新到来的边集和待删除的边集,运用网络表征学习方法NetWalk,对涉及到边集Etest(tk+1)和E′test(tk+1)中的节点和边进行增量式的网络表征学习,得到时刻tk+1对应的节点v与对应向量γ的映射关系
所述第四子模块:将第三子模块针对同质借贷网络Nh得到在时刻tk时网络中节点v与其对应的向量表征γ之间的映射关系 依据映射关系γ=Ft(v),将流式借贷数据
重新表示为向量表征形式,一笔由若干具体字段值组成借贷数据转变为一组固定维度的向量表征;
四、特征构建模块
所述特征构建模块,实现将借贷数据转化为新特征的功能,包括数据向量化模块和时序特征构造模块,数据向量化模块输出与时序特征构造模块输入连接,静态网络表征学习模块和增量式网络表征学习模块的输出分别与数据向量化模块的输入连接。
所述数据向量化模块:一笔含有n个可用原始字段的借贷数据Btrain(tk)在同质借贷网络中可对应n个相应的节点,基于tk时刻节点和映射关系 借贷数据变换为每个
借贷单号所对应的维数为dim的向量,在得到向量后即可直接输入分类模型进行节点分类后续任务;
时序特征构造模块:在基于数据向量化模块所得到的向量表征,针对每一笔借贷数据依次先计算每个单号与在数据集(单号按生成时间排序)中前h项单号的欧氏距离,并按照从小到大的顺序排序这h项,将其作为对应单号的所构造的时序特征;然后,再引入待检测单号与其前h项单号所对应向量相似度作为欺诈检测模型的输入;时序特征构造模块使用向量相似度,增强了后续欺诈检测模型的泛化能,面对向量X=(x1,····,xdim)、Y=(y1,····,ydim),其欧氏距离的计算如下所示
基于时序特征构造模块中构造好的时序特征,依据分类器参数集Wc设置分类器,将tk时刻借贷数据对应的时序特征作为数据,对应借贷数据是否为欺诈交易作为标签,导入分类器进行训练,进而将训练好的二分类模型视为欺诈检测模型
五、欺诈检测模块
所述欺诈检测模块,与特征构建模块连接,先通过对输入样本数据进行训练建立检测模块,再对测试数据实现欺诈检测,为互联网网络借贷审核系统提供检测判断;
在训练阶段,采用python中机器学习集成库scikit-learn中的XGBoost分类器为本发明的欺诈检测模型;
在测试阶段,基于特征构建模块的时序特征构造模块中构造好的时序特征,依据分类器参数集Wc设置分类器,将tk时刻借贷数据对应的时序特征作为数据,对应借贷数据是否为欺诈交易作为标签,导入分类器进行训练,进而将训练好的二分类模型视为欺诈检测模型
3.如权利要求2所述的网络借贷欺诈检测系统,其特征在于,所述欺诈检测模型 将tk时刻的测试数据对应的时序特征输入欺诈检测模型 得到测试借贷数据的集合Btest(tk)中每一笔借贷数据的欺诈概率p(bi),输出测试数据为欺诈的概率集合P,其中p(bi)∈P。
4.如权利要求3所述的网络借贷欺诈检测系统,其特征在于,判断时刻tk+1+t0是否大于周期T,若大于,则将tk时刻的借贷数据集Btrain(tk)视为初始借贷数据集,执行关系借贷网络构建与更新模块重新构建关系借贷网络;若小于,令 Btrain(tk+1)=Btrain(tk)∪Btest(tk+1)-B`test(tk+1);在时刻tk+1时执行增量式网络表征学习模块第一子模块,根据到来的流式借贷数据,增量式地更新网络表征。

说明书全文

互联网金融平台网络借贷欺诈检测系统

技术领域

[0001] 本发明涉及互联网金融网络借贷的反欺诈检测。

背景技术

[0002] 随着互联网的迅速发展,各种传统的业务逐渐转至线上,互联网金融中的网络借贷迅速发展,网络借贷的产生将带来大量的电子交易数据,同时伴随着网络借贷欺诈数量的大量增加[1]。近年来,B2C网络借贷在全球尤其是中国发展迅速,其中,B2C网络借贷机构遭受大量坏账和借贷,产生巨大的经济损失[2]。欺诈者通过伪造虚假的借款人信息,甚至生成团伙化的虚假借款人来完成大批量网络借贷欺诈。为保障网络借贷中投资机构和正常用户的业务安全,需要建立切实有效的网络借贷欺诈检测系统。
[0003] 在B2C借贷场景中,个人可能通过伪冒申请、提供虚假资料和虚假联系人、多头借贷等方式获取信贷资源;更有甚者,通过黑灰色产业的代办包装、组团骗贷等方式获取额度和资金。这些虚假的借贷数据中往往存在潜在的关联。网络表征学习已经在挖掘数据之间的潜在联系上表现出强有的作用[3]。然而,目前大多数的欺诈检测系统基于静态的借贷数据网络进行周期性地更新网络,这无法适应网络时代欺诈手段的快速变化,如:黑灰色产业在短时间内生成大量相关联借贷数据,由于静态的借贷网络并未及时学习到这些关联,而无法有效阻止欺诈行为的发生。此外,B2C网络借贷极短的时间内就可以产生大量的借贷数据,借贷数据的不断增长和欺诈手段的不断变化,迫切需要动态的增加新数据和删除旧数据,这将导致基于静态网络表征学习的欺诈检测方法不能适应借贷网络结构的变化。
[0004] 目前为止,关于网络借贷方面的研究主要集中在静态的数据上如何建立高效的欺诈检测模型[4],只有较少的研究涉及到动态地更新模型。Talaver等人[5]训练了一个径向基函数网络来区分客户是否有借贷欺诈行为,并建立一个模糊c-means聚类来对数据点进行分组,以通过对簇内数据进行分组创建客户档案。Babaev等人[6]在细粒度的跨国数据上使用神经网络来处理贷款数据,仅基于业务数据提出一个新的方法—E.T.RNN,实现自动化地对贷款申请作出决策。
[0005] 通过以上研究发现,B2C网络借贷欺诈检测的一个主要问题是缺乏对短期内新颖欺诈手段的应对方法。传统检测方法存在一个较长的周期,随着时间推移,很多欺诈方法发生改变,进而缺乏较好的泛化能力。

发明内容

[0006] 欺诈的借贷申请往往通过伪冒申请、提供虚假资料和多头借贷等方式通过审核系统,这些虚假的信息之间往往存在潜在的关联性,尤其是在黑灰色产业的代办包装、组团骗贷中更为明显。得益于当前网络借贷产生的丰富借贷数据,分析并以此作为基础,设计网络借贷欺诈检测系统,保护用户和企业的安全。
[0007] 本发明原理:用表征能力强大的异质信息网络的形式来分析现实世界借贷数据,将借贷数据以异质信息网络(包含多种类型的节点和边,如:借贷单号、车牌号、电话、住址等)的形式建立一个关系借贷网络。从多类型异质的关系借贷网络中抽取特定关系,形成仅保留一种节点类型的同质借贷网络(借贷数据的同质网络生成过程如图1所示)。针对每一批到达的借贷数据,依次更新关系借贷网络和同质借贷网络,并运用增量式的网络表征学习算法及时更新同质借贷网络中节点的向量表征,以期能够捕获数据之间的最新关联性。基于学习到的向量表征构造和与时序有关的新特征(如:单号与前n个发生的单号的关系),结合分类器实现对借贷数据欺诈检测的二分类模型,进而实现对欺诈的检测与识别。
[0008] 本发明给出系统技术方案为:
[0009] 一种网络借贷欺诈检测系统,嵌入于互联网网络借贷审核系统,其特征在于,连接网络借贷记录数据供应模,本发明系统包括网络构建与更新模块、网络学习表征模块、特征构建模块、欺诈检测模型,其中:
[0010] 所述数据供应模块可以针对不同的数据实现初始数据供应和流式数据供应;
[0011] 所述网络构建与更新模块,与数据供应模块连接,包括关系借贷网络构建与更新模块、同质借贷网络的构建与更新模块,关系借贷网络构建与更新模块与同质借贷网络的构建与更新模块连接;
[0012] 所述网络表征学习模块,与同质借贷网络的构建与更新模块连接,包括静态网络表征学习模块和增量式网络表征学习模块;
[0013] 所述特征构建模块,实现将借贷数据转化为新特征的功能,包括数据向量化模块和时序特征构造模块,数据向量化模块输出与时序特征构造模块输入连接,静态网络表征学习模块和增量式网络表征学习模块的输出分别与数据向量化模块的输入连接;
[0014] 所述欺诈检测模块,与特征构建模块连接,先通过对输入样本数据进行训练建立检测模块,再对测试数据实现欺诈检测,为互联网网络借贷审核系统提供检测判断。
[0015] 本发明在于克服静态的欺诈检测方法针对快速变化的网络借贷欺诈的乏力性,增加欺诈检测系统对变化环境的适应能力,对检测欺诈借贷、拦截欺诈借贷和保护用户和企业的资金安全有更好的保障。
[0016] 本发明公开了基于增量式网络表征的网络借贷欺诈检测方法,实现对借贷数据网络进行动态的更新,借助增量式的网络表征学习挖掘到泛化能力强的表征,进而提高模型拦截欺诈借贷的实时性、准确性和鲁棒性。附图说明
[0017] 图1:网络借贷场景下借贷数据的同质网络生成过程示例图;
[0018] 图2:本发明的网络借贷欺诈检测系统模块结构图;
[0019] 图3:本发明的借贷数据变换为向量表征示意图;
[0020] 图4:本发明某时刻下增量式借贷数据集划分示意图。

具体实施方式

[0021] 以下结合实施例和附图进一步介绍本发明技术方案。
[0022] 网络借贷欺诈检测系统模块结构图,如图2所示:
[0023] 一种网络借贷欺诈检测系统,嵌入于互联网网络借贷审核系统,其特征在于,连接网络借贷记录数据供应模块,本发明系统包括网络构建与更新模块、网络学习表征模块、特征构建模块、欺诈检测模型,其中,
[0024] 所述数据供应模块可以针对不同的数据实现初始数据供应和流式数据供应;
[0025] 所述网络构建与更新模块,与数据供应模块连接,包括关系借贷网络构建与更新模块、同质借贷网络的构建与更新模块,关系借贷网络构建与更新模块与同质借贷网络的构建与更新模块连接;
[0026] 所述网络表征学习模块,与同质借贷网络的构建与更新模块连接,包括静态网络表征学习模块和增量式网络表征学习模块;
[0027] 所述特征构建模块,实现将借贷数据转化为新特征的功能,包括数据向量化模块和时序特征构造模块,数据向量化模块输出与时序特征构造模块输入连接,静态网络表征学习模块和增量式网络表征学习模块的输出分别与数据向量化模块的输入连接;
[0028] 所述欺诈检测模块,与特征构建模块连接,先通过对输入样本数据进行训练建立检测模块,再对测试数据实现欺诈检测,为互联网网络借贷审核系统提供检测判断。
[0029] 进一步的,给出详细的实施例。
[0030] 实施例1
[0031] 一、网络借贷记录数据供应模块
[0032] 所述数据供应模块连接互联网金融平台借贷数据集,获得初始数据和流式数据,针对不同阶段向本发明系统供应训练用数据和测试数据;
[0033] 二、网络构建与更新模块
[0034] 所述网络构建与更新模块,与数据供应模块连接,包括关系借贷网络构建与更新模块、同质借贷网络的构建与更新模块,关系借贷网络构建与更新模块与同质借贷网络的构建与更新模块连接。
[0035] 关系借贷网络构建与更新模块:
[0036] 从数据供应模块的原始借贷数据中筛选出可利用的原始字段(如表1所示),进行字段类型转换和空值去除填充等数据预处理操作,并针对各字段制定离散化规则,将取值离散化降低数据精度。如:本实施例将金额依据不同区间划分为有限个类别;将地址依据不同街道划分为粗粒度离散化取值。
[0037] 将原始借贷数据划分为单号(APPLYNO)与属性(ATTRIBUTE)两种类型,所述属性(ATTRIBUTE)为借贷数据中除去单号(APPLYNO)以外的其他数据。针对一笔借贷数据,将其记为(bi,ATT(bi)),bi是借贷数据b的单号,ATT(bi)是借贷数据b对应的属性集合,attk(bi)是ATT(bi)中第k个元素。
[0038] 基于原始借贷数据建立关系借贷网络Nr=(V,E),V是节点集,E是边集,其中边e=(u,v),u与v属于节点集V(包含多种类型节点)。针对借贷数据b中的每一笔数据bi,首先bi加入节点集V,将ATT(bi)中每一个元素依次加入节点集V,最后将边(bi,attk(bi))加入边集E,attk(bi)是ATT(bi)中第k个元素。提供给同质借贷网络的构建与更新模块。图1左部为关系借贷网络Nr的示例图。
[0039] 同质借贷网络的构建与更新模块
[0040] 基于关系借贷网络构建与更新模块建立同质借贷网络Nh=(Vh,Eh),Vh是节点集,Eh是边集,其中边e=(u,v,w),u与v属于节点集Vh(仅包含类型为借贷单号的节点)。当attk(bi)=attk(bj)时,关系借贷网络中一对边(bi,attk(bi))和(bj,attk(bj))被视为边集Eh中的边(bi,bj),w为边(bi,bj)出现的次数,作为同质借贷网络Nh中的权重。基于关系借贷网络Nr,将节点集V中所有类型为借贷单号的节点加入节点集Vh。然后遍历每一对边(bi,attk(bi))和(bj,attk(bj)),当attk(bi)=attk(bj)时,将边(bi,bj)加入边集Eh。得到同质借贷网络Nh=(Vh,Eh)。输出提供给网络表征学习模块。
[0041] 图1右部为基于左部关系借贷网络Nr生成同质借贷网络Nh的示例图。
[0042] 三、网络学习表征模块
[0043] 所述网络表征学习模块,与同质借贷网络的构建与更新模块连接,包括静态网络表征学习模块和增量式网络表征学习模块,分别在训练阶段和测试阶段完成网络表征学习;
[0044] 所述静态网络表征学习模块:
[0045] 基于同质借贷网络的构建与更新模块已构建的同质借贷网络Nh,本实施例静态网络表征学习模块采用现有的网络表征学习方法NetWalk来学习同质借贷网络Nh中全部网络节点的向量表征,同时避免手动提取特征的麻烦,自动化抽取特征信息。网络表征学习方法NetWalk学习向量表征的主要参数如表2所示,参数的设定与网络的结构有关,通常情况下参数walk-length、number_walks和网络中节点、边的数量成正比,网络中节点、边数量越多,参数walk-length和number_walks应当越大;参数learning_rate影响网络表征学习方法NetWalk的性能,过大的值可能导致过拟合,过小的值则导致欠拟合,本实施例设置为0.01;参数dim是所得到的输出向量表征的维度,一个大的维度往往包含更多潜在的关联,但随之带了更高的计算复杂度,本实施例设置为128;参数init和snap为网络表征学习方法NetWalk的输入参数,其形式为借贷网络中的边集,在本实施例的网络表征学习方法中,init为基于初始借贷数据生成的同质借贷网络的边集,snap为基于流式借贷数据生成的同质借贷网络中新增或删除的边集。将网络表征学习方法NetWalk针对同质借贷网络Nh得到在初始时刻t时网络中节点v与其对应的向量表征γ,建立映射关系γ=Ft(v)。依据映射关系γ=Ft(v),将初始借贷数据表示为向量表征形式,如图4所示,一笔由若干具体字段值组成借贷数据转变为一组固定维度的向量表征(图4中向量维度dim由网络表征学习方法NetWalk中参数dim决定)。
[0046] 表1可利用原始字段
[0047]
[0048] 表2 NetWalk主要参数
[0049]
[0050] 所述增量式网络表征学习模块进行生成增量式的网络表征,包括第一子模块、第二子模块、第三子模块、第四子模块,它们顺序连接:
[0051] 所述第一子模块:依据数据集Btrain(tk)时间戳顺序,选取与数据集Btest(tk+1)同样数量的最早数据放入数据集B′test(tk+1)。将数据集Btest(tk+1)与B′test(tk+1)采用与关系借贷网络构建与更新模块中相同的预处理操作,将处理后的数据集Btest(tk+1)与B′test(tk+1)基于数据集Btrain(tk)进行关系借贷网络的更新。基于关系借贷网络构建与更新模块的定义,分别处理网络借贷数据Btest(tk+1)与B′test(tk+1)得到关系借贷网络中的节点集Vtest(tk+1)和V′test(tk+1)与边集Etest(tk+1)和E′test(tk+1),Etest(tk+1)是流式到达的借贷数据中单号与上一时刻关系借贷网络Nr中现有节点之间的存在关系的边集, 是关系借贷网络Nr即将删除的过期边集。令V=V∪Vtest(tk+1)-V′test(tk+1)和E=E∪Etest(tk+1)-E′test(tk+1),更新关系借贷网络Nr=(V,E)。
[0052] 所述第二子模块:基于更新后的关系借贷网络Nr=(V,E),采用同质借贷网络的构建与更新模块获得更新后的同质借贷网络Nh=(Vh,Eh)。
[0053] 所述第三子模块:基于时刻tk对应的节点v与对应向量γ的映射关系分别设置边集Etest(tk+1)和E′test(tk+1)为新到来的边集和待删除的边集,运用网络表征学习方法NetWalk,对涉及到边集Etest(tk+1)和Et′est(tk+1)中的节点和边进行增量式的网络表征学习,得到时刻tk+1对应的节点v与对应向量γ的映射关系
[0054] 所述第四子模块:将第三子模块针对同质借贷网络Nh得到在时刻tk时网络中节点v与其对应的向量表征γ之间的映射关系 依据映射关系γ=Ft(v),将流式借贷数据重新表示为向量表征形式,如图4所示,一笔由若干具体字段值组成借贷数据转变为一组固定维度的向量表征。
[0055] 四、特征构建模块
[0056] 所述特征构建模块,实现将借贷数据转化为新特征的功能,包括数据向量化模块和时序特征构造模块,数据向量化模块输出与时序特征构造模块输入连接,静态网络表征学习模块和增量式网络表征学习模块的输出分别与数据向量化模块的输入连接。
[0057] 所述数据向量化模块:一笔含有n个可用原始字段的借贷数据Btrain(tk)在同质借贷网络中可对应n个相应的节点。由网络学习表征模块可知,基于tk时刻节点和映射关系借贷数据变换为每个借贷单号所对应的维数为dim的向量。在得到向量后即可直接输入分类模型进行节点分类后续任务。。
[0058] 本实施例进一步创新,进一步优化特征构建模块,该模块还包括时序特征构造模块:在基于数据向量化模块所得到的向量表征,针对每一笔借贷数据依次先计算每个单号与在数据集(单号按生成时间排序)中前h项单号的欧氏距离(欧氏距离为向量相似度的一种计算方法),并按照从小到大的顺序排序这h项,将其作为对应单号的所构造的时序特征。然后,再引入待检测单号与其前h项单号所对应向量相似度作为欺诈检测模型的输入。
[0059] 对比之:
[0060] 数据向量化模块,该模块仅考虑向量的绝对空间位置,在借贷数据中性能较差。
[0061] 时序特征构造模块,该模块更有利于检测借贷欺诈中的团伙欺诈问题,不使用绝对空间位置,使用向量相似度,增强了后续欺诈检测模型的泛化能力。面对向量X=(x1,····,xdim)、Y=(y1,····,ydim),其欧氏距离的计算如下所示
[0062]
[0063] 基于时序特征构造模块中构造好的时序特征,依据分类器参数集Wc设置分类器,将tk时刻借贷数据对应的时序特征作为数据,对应借贷数据是否为欺诈交易作为标签,导入分类器进行训练,进而将训练好的二分类模型视为欺诈检测模型Mtk。
[0064] 五、欺诈检测模块
[0065] 所述欺诈检测模块,与特征构建模块连接,先通过对输入样本数据进行训练建立检测模块,再对测试数据实现欺诈检测,为互联网网络借贷审核系统提供检测判断。
[0066] 在训练阶段,采用python中机器学习集成库scikit-learn中的XGBoost分类器为本发明的欺诈检测模型。
[0067] 在测试阶段,基于特征构建模块的时序特征构造模块中构造好的时序特征,依据分类器参数集Wc设置分类器,将tk时刻借贷数据对应的时序特征作为数据,对应借贷数据是否为欺诈交易作为标签,导入分类器进行训练,进而将训练好的二分类模型视为欺诈检测模型
[0068] 一笔含有n个可用原始字段的借贷数据Btrain(tk)在同质借贷网络中可对应n个相应的节点。根据增量式网络表征学习模块中的第四子模块可知,基于tk时刻节点和映射关系 借贷数据变换为每个借贷单号所对应的维数为dim的向量。基于所得到的向量表征,针对每一笔借贷数据依次计算每个单号与在数据集(单号按生成时间排序)中前h项单号的欧氏距离,并按照从小到大的顺序排序这h项,将其作为对应单号的时序特征,提供给欺诈检测模型
[0069] 所述欺诈检测模型 将tk时刻的测试数据对应的时序特征输入欺诈检测模型得到测试借贷数据的集合Btest(tk)中每一笔借贷数据的欺诈概率p(bi),输出测试数据为欺诈的概率集合P,其中p(bi)∈P。判断时刻tk+1+t0是否大于周期T,若大于,则将tk时刻的借贷数据集Btrain(tk)视为初始借贷数据集,执行关系借贷网络构建与更新模块重新构建关系借贷网络。若小于,令 Btrain(tk+1)=Btrain(tk)∪Btest(tk+1)-B`test(tk+1)。在时刻tk+1时执行增量式网络表征学习模块第一子模块,根据到来的流式借贷数据,增量式地更新网络表征。
[0070] 本发明通过在真实互联网金融平台借贷数据集上进行检测证明,得出不同打扰率(误拦截率,False Positive Rate)下的召回率(拦截率,True Positive Rate),并由此来计算KS值(是不同情况下召回率-打扰率的最大值)来评价系统的性能,该方法在此指标上和计算时间上都优于先前的研究,并且有着很好的鲁棒性。
[0071] 本项目的创新点
[0072] 1.通过从记录型的借贷数据建立关联借贷网络,并衍生出同质借贷网络将借贷数据之间的关系以网络的形式表现,同时基于上述同质信息网络并进行网络表征学习,实现自动从数据中抽取潜在关联特征,减少了系统对业务知识的依赖程度。
[0073] 2.针对流式借贷数据,动态更新关联借贷网络和同质借贷网络结构,并通过增量式的网络表征学习方法,准确地对不断变化的借贷网络进行动态地更新相关表征,基于节点的向量表征构造出借贷数据新的特征,输入已有训练好的模型返回借贷数据的欺诈概率。对比传统的方法,本模型中表征的更新具有更强的实时性,适合网络借贷场景下对数据快速审核的要求,具有更高的准确性和鲁棒性。批注:本发明中的有关术语以及对于先前的主要技术可参见如下资料。
[0074] [1]Chen Y Q,Zhang J,Ng W W Y.Loan  Default Prediction  Using Diversified Sensitivity Undersampling[C]//2018International Conference on Machine Learning and Cybernetics(ICMLC).IEEE,2018,1:240-245.
[0075] [2]Shi Y F,Song P P.Improvement Research on the Project Loan Evaluation of Commercial Bank Based on the Risk Analysis[C]//2017 10th International Symposium on Computational Intelligence and Design(ISCID).IEEE,
2017,1:3-6.
[0076] [3]Cui P,Wang X,Pei J,et al.A survey on network embedding[J].IEEE Transactions on Knowledge and Data Engineering,2018,31(5):833-852.
[0077] [4]Saha P,Bose I,Mahanti A.A knowledge based scheme for risk assessment in loan processing by banks[J].Decision Support Systems,2016,84:
78-88.
[0078] [5]Talavera A,Cano L,Paredes D,et al.Data Mining Algorithms for Risk Detection in Bank Loans[C]//Annual International Symposium on Information Management and Big Data.Springer,Cham,2018:151-159.
[0079] [6]Babaev D,Savchenko M,Tuzhilin A,et al.ET-RNN:Applying Deep Learning to Credit Loan Applications[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining.ACM,2019:2183-
2190.
[0080] [7]Yu W,Cheng W,Aggarwal C C,et al.Netwalk:A flexible deep embedding approach for anomaly detection in dynamic networks[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery&Data 
Mining.ACM,2018:2672-2681.
[0081] [8]Chen T,Guestrin C.XGBoost:A scalable tree boosting system[C]//Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining.ACM,2016:785-794.
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈