首页 / 专利库 / 人工智能 / 机器学习 / 半监督学习 / 风险识别方法、装置、设备及介质

险识别方法、装置、设备及介质

阅读:872发布:2020-05-17

专利汇可以提供险识别方法、装置、设备及介质专利检索,专利查询,专利分析的服务。并且本 申请 公开了一种 风 险识别方法、装置、设备及介质,应用于 人工智能 中的 机器学习 领域。该方法包括:获取在线网络业务的业务数据;将所述业务数据输入至风险识别模型中得到风险识别结果,所述风险识别模型是根据总训练集训练得到的,所述总训练集包括:观察时间达到表现期的第一白样本集和第一黑样本集,以及所述观察时间未达到所述表现期的第二白样本集和第二黑样本集;根据所述风险识别结果对所述在线网络业务进行处理。该方法可以将表现期不足的样本用于模型训练。,下面是险识别方法、装置、设备及介质专利的具体信息内容。

1.一种险识别方法,其特征在于,所述方法包括:
获取在线网络业务的业务数据;
将所述业务数据输入至风险识别模型中得到风险识别结果,所述风险识别模型是根据总训练集训练得到的,所述总训练集包括:观察时间达到表现期的第一白样本集和第一黑样本集,以及所述观察时间未达到所述表现期的第二白样本集和第二黑样本集;
根据所述风险识别结果对所述在线网络业务进行处理。
2.根据权利要求1所述的方法,其特征在于,所述第二白样本集是基于所述第一白样本集对所述观察时间未达到所述表现期的目标样本集进行半监督学习得到的;
所述第二黑样本集是在所述观察时间内出现风险行为的样本集。
3.根据权利要求2所述的方法,其特征在于,所述第二白样本集中的第二白样本是采用如下方式训练得到的:
采用自训练集训练得到分类模型,所述自训练集包括所述第一白样本集和所述第一黑样本集;
采用所述分类模型对所述目标样本集中的样本进行识别,得到所述目标样本集中的每个样本的识别标定结果;
将所述识别标定结果为白样本且与所述第一白样本集之间的聚类距离满足聚类条件的样本,作为所述第二白样本添加至所述自训练集中;
重新执行所述采用自训练集训练得到所述分类模型的步骤。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
计算所述第一白样本集的第一均值和第一方差作为聚类中心;
计算所述识别标定结果为白样本的样本与所述聚类中心的欧式距离,作为所述聚类距离。
5.根据权利要求3所述的方法,其特征在于,所述采用所述分类模型对所述目标样本集中的样本进行识别,得到所述目标样本集中的每个样本的识别标定结果,包括:
采用所述分类模型对所述目标样本集中的样本进行识别,得到所述目标样本集中的每个样本的识别标定概率;
当所述目标样本集中的样本的所述识别标定概率大于黑白划分阈值时,确定所述样本的识别标定结果为所述黑样本;
当所述目标样本集中的样本的所述识别标定概率小于所述黑白划分阈值时,确定所述样本的识别标定结果为所述白样本;
其中,所述黑白样本划分阈值是基于所述识别标定概率标定为白样本和黑样本时的阈值。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将所述第二黑样本集的识别准确率大于第一阈值,且对所述第二黑样本集的召回率大于第二阈值时的识别标定概率,确定为所述黑白样本划分阈值。
7.根据权利要求3所述的方法,其特征在于,所述将所述识别标定结果为白样本且与所述第一白样本集之间的聚类距离满足聚类条件的样本,作为所述第二白样本添加至所述自训练集中,包括:
当所述识别标定结果不满足准确性条件时,将所述识别标定结果为白样本且与所述第一白样本集之间的聚类距离满足聚类条件的样本,作为第二白样本添加至所述自训练集中。
8.根据权利要求7所述的方法,其特征在在于,所述方法还包括:
当所述识别标定结果满足所述准确性条件且存在历史添加的第二白样本时,根据所述历史添加的第二白样本以及本次的所述识别标定结果为白样本的样本,得到所述第二白样本集;
当所述识别标定结果满足所述准确性条件且不存在历史添加的第二白样本时,根据本次的所述识别标定结果为白样本的样本,得到所述第二白样本集。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
当所述识别标定结果不满足准确性条件时,从所述第二黑样本集中抽取若干个第二黑样本添加至所述自训练集。
10.根据权利要求7至9任一所述的方法,其特征在于,所述准确性条件,包括:
样本中心和聚类中心之间的距离小于阈值;
其中,所述样本中心是基于本次的所述识别标定结果为白样本的样本子集的第二均值和第二方差确定的,所述聚类中心是基于所述第一白样本集的第一均值和第一方差确定的。
11.一种风险识别装置,其特征在于,所述装置包括:
获取模,用于获取在线网络业务的业务数据;
风险识别模块,用于将所述业务数据输入至风险识别模型中得到风险识别结果,所述风险识别模型是根据总训练集训练得到的,所述总训练集包括:观察时间达到表现期的第一白样本集和第一黑样本集,以及所述观察时间未达到所述表现期的第二白样本集和第二黑样本集;
处理模块,用于根据所述风险识别结果对所述在线网络业务进行处理。
12.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述的风险识别方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述的风险识别方法。

说明书全文

险识别方法、装置、设备及介质

技术领域

[0001] 本申请涉及人工智能中的机器学习领域,特别涉及一种风险识别方法、装置、设备及介质。

背景技术

[0002] 基于互联网提供的网络服务中存在一定的安全风险。比如对于金融借贷类的网络服务中,需要识别用户的信用程度。
[0003] 相关技术中采用机器学习模型对网络服务的风险进行识别。预先收集白样本和黑样本,白样本包括多个在表现期内没有风险行为的样本,黑样本包括多个在表现期内存在风险行为的样本。采用白样本和黑样本对机器学习模型进行分类任务的训练,得到具有分类能的机器学习模型。
[0004] 上述表现期的时间长度较长,比如6个月或1年,因此在实际训练过程中能够用来训练的样本数量有限。发明内容
[0005] 本申请实施例提供了一种风险识别方法、装置、设备及介质,可以解决表现期的时间长度较长,比如6个月或1年,因此在实际训练过程中能够用来训练的样本数量有限的问题。所述技术方案如下:
[0006] 根据本申请的一个方面,提供了一种风险识别方法,所述方法包括:
[0007] 获取在线网络业务的业务数据;
[0008] 将所述业务数据输入至风险识别模型中得到风险识别结果,所述风险识别模型是根据总训练集训练得到的,所述总训练集包括:观察时间达到表现期的第一白样本集和第一黑样本集,以及所述观察时间未达到所述表现期的第二白样本集和第二黑样本集;
[0009] 根据所述风险识别结果对所述在线网络业务进行处理。
[0010] 根据本申请的另一方面,提供了一种音乐片段的选取装置,所述装置包括:
[0011] 获取模,用于获取在线网络业务的业务数据;
[0012] 风险识别模块,用于将所述业务数据输入至风险识别模型中得到风险识别结果,所述风险识别模型是根据总训练集训练得到的,所述总训练集包括:观察时间达到表现期的第一白样本集和第一黑样本集,以及所述观察时间未达到所述表现期的第二白样本集和第二黑样本集;
[0013] 处理模块,用于根据所述风险识别结果对所述在线网络业务进行处理。
[0014] 根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的风险识别方法。
[0015] 根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的风险识别方法。
[0016] 本申请实施例提供的技术方案带来的有益效果至少包括:
[0017] 通过利用含有观察时间达到表现期的第一白样本集和第一黑样本集,以及观察时间未达到表现期的第二白样本集和第二黑样本集的总训练集训练风险识别模型,使样本的收集不局限于表现期充足的样本,还有效利用了表现期不足的样本,扩大了样本的收集范围,为训练模型提供了更多的有效样本。附图说明
[0018] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0019] 图1是本申请一个示例性实施例提供的服务器的实施环境框图
[0020] 图2是本申请一个示例性实施例提供的风险识别方法的流程图
[0021] 图3是本申请一个示例性实施例提供的表现期示意图;
[0022] 图4是本申请另一个示例性实施例提供的风险识别方法的流程图;
[0023] 图5是本申请另一个示例性实施例提供的风险识别方法的流程图;
[0024] 图6是本申请一个示例性实施例提供的准确率和召回率示意图;
[0025] 图7是本申请另一个示例性实施例提供的风险识别方法的流程图;
[0026] 图8是本申请另一个示例性实施例提供的风险识别方法的流程图;
[0027] 图9是本申请另一个示例性实施例提供的风险识别方法的流程图;
[0028] 图10是本申请一个示例性实施例提供的风险识别装置的框图。

具体实施方式

[0029] 为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0030] 参考图1,示出了本申请一个示例性实施例提供的计算机系统的结构示意图,该计算机系统包括终端120和服务器140。
[0031] 终端120与服务器140之间通过有线或者无线网络相互连接。
[0032] 可选地,终端120可以包括笔记本电脑、台式电脑、智能手机、平板电脑、智能音箱、智能机器人中的至少一种。
[0033] 终端120包括第一存储器和第一处理器。第一存储器中存储有第一程序;上述第一程序被第一处理器调用执行以实现收集样本的方法。第一存储器可以包括但不限于以下几种:随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM)、以及电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)。
[0034] 第一处理器可以是一个或者多个集成电路芯片组成。可选地,第一处理器可以是通用处理器,比如,中央处理器(Central Processing Unit,CPU)或者网络处理器(Network Processor,NP)。
[0035] 可选地,终端120中包括显示器;显示器用于显示样本特征,例如,样本借贷状态、样本是否逾期未还款、样本信誉度等。
[0036] 服务器140包括第二存储器和第二处理器。第二存储器中存储有第二程序,上述第二程序被第二处理器调用来实现本申请提供的风险识别方法。示例性的,第二存储器中存储有风险识别模型144,上述风险识别模型144被第二处理器调用以实现风险识别方法中服务器侧执行的步骤。可选地,第二存储器可以包括但不限于以下几种:RAM(Random Access Memory,随机存取存储器)、ROM(Read Only Memory,只读存储器)、PROM(Programmable Read Only Memory,可编程只读存储器)、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,带电可擦除可编程只读存储器)。
[0037] 可选地,第二处理器通过调用第二存储器中存储的风险识别模型144,以实现上述风险识别方法。可选地,第二处理器可以是通用处理器,比如,CPU(Central Processing Unit,中央处理器)或者NP(Network Processor,网络处理器)。
[0038] 示意性的,本申请提供的风险识别方法可以应用于贷款软件、信用软件、支付软件等金融产品(终端)中。
[0039] 图2示出了本申请一个示例性实施例提供的风险识别方法的流程图。该方法可以由图1所示的服务器来执行。所述方法包括:
[0040] 步骤201,获取在线网络业务的业务数据。
[0041] 服务器获取在线网络业务的业务数据。
[0042] 在线网络业务是利用网络进行数据传输的一种解决用户需求的业务。网络包括局域网、广域网中的至少一种。在线网络业务包括金融相关网络业务、信誉相关网络业务以及其他需要对用户行为进行评估识别的业务中的至少一种。
[0043] 金融相关网络业务包括:借款业务、贷款业务、信用卡业务等;信誉相关网络业务包括:先试后买业务、物品借用业务、信誉统计业务等;其他需要对用户行为进行评估识别的业务包括:需要评估识别用户违规/违约概率的业务,需要评估识别用户消费能力的业务、需要评估识别用户恶意行为的业务等。
[0044] 业务数据是存储在存储介质中的在线网络业务的相关数据。存储介质包括:服务器、终端、存储器、计算机设备、计算机可读存储介质中的至少一种。业务数据包括:用户ID(IDentity,身份标识号)、用户昵称(姓名)、借款日、借款数额、还款期限、是否还款、用户借用物品数量、用户借用物品价值、用户违规行为中的至少一个。
[0045] 步骤202,将业务数据输入至风险识别模型中得到风险识别结果,风险识别模型是根据总训练集训练得到的,总训练集包括:观察时间达到表现期的第一白样本集和第一黑样本集,以及观察时间未达到表现期的第二白样本集和第二黑样本集。
[0046] 服务器将业务数据输入至风险识别模型中得到风险识别结果。
[0047] 风险是用户在进行在线网络业务过程中做出风险行为的可能性。在线网络业务的风险行为包括违约行为、失信行为、违规行为中的至少一种。示例性的,风险行为有:用户贷款后未按期还贷、用户借用物品后未按期归还、用户违反在线网络业务的相关规定、二手交易买卖中用户未按约定期限交付物品等。示例性的,风险行为可能会为在线网络业务的提供方(提供的人、组织、公司等)、利益相关方(与在线网络业务有利益关系的其他用户、人、组织、公司等)带来利益损失、信誉损失、财产损失或提高上述损失产生的可能性。
[0048] 风险识别模型是具有分类能力的机器学习模型,用来将业务数据按照风险分类得出识别结果。业务数据输入风险识别模型后,风险识别模型输出识别结果。示例性的,风险识别模型是在线网络业务的提供方、利益相关方用来识别用户做出风险行为的可能性,有助于在线网络业务的提供方、利益相关方
[0049] 识别结果是风险识别模型输出的业务数据类型。识别结果可以是业务数据有风险判定、无风险判定、有风险概率、无风险概率中的至少一种。
[0050] 样本是一个用户在进行在线网络业务过程中产生的业务数据。例如,第一样本是第一用户在使用借款网络业务时产生的业务数据,包括:用户ID、用户授信日、借款日、借款地点、借款金额、还款期限、还款日、还款地点、还款金额、还款方式、是否超期未还款等。
[0051] 黑样本是出现风险行为的样本。白样本是没有出现风险行为的样本。服务器通过观察业务数据来识别样本是否出现风险行为,将出现风险行为的样本标记为黑样本,将观察一段时间后仍未出现风险行为的样本标记为白样本。
[0052] 样本集是由至少两个样本组成的集合。黑样本集是由至少两个黑样本组成的集合,白样本集是由至少两个白样本组成的集合。总训练集是一个样本集,包括观察时间达到表现期的第一白样本集和第一黑样本集,以及观察时间未达到表现期的第二白样本集和第二黑样本集。
[0053] 表现期是用来判断样本是否为成熟样本的一个期限。成熟样本是累计有一定业务数据的样本,成熟样本的业务数据足以识别该样本是否为存在风险的样本。服务器将成熟样本中没有出现风险行为的样本标记为白样本。表现期是预设的一段时间,本申请对表现期时间长度的设置方式没有限制。示例性的,表现期可以是固定期限,例如:三个月、六个月、一年;也可以是按照某种规则得出的期限,例如,某借款在线网络业务规定每个月的9日还款,则表现期可以设置为观察期开始后到第三个月的九日结束;还可以是,根据用户之前的业务数据计算出的时间,即,不同用户的表现期不同。表现期可以从用户注册账号、用户第一次使用在线网络业务、用户每一次使用在线网络业务、用户被授予在线网络业务使用权限中的至少一个时间开始。
[0054] 示例性的,图3所给出了一种表现期设置方法。在一种借款在线网络业务中,每个月有账单日,在账单日统计用户的借款总额并开始计算还款期限。示例性的,还款期限为一个月。则如图3所示,a点为授信日,即用户被授予该借款在线网络业务的使用权限。用户在借款时点b点第一次用该借款在线网络业务借款。c点为借款时点后的第一个账单日,d点为借款时点后的第二个账单日,e点为借款后的第三个账单日。h点为第三个账单日的还款日,即,还款期限届满日。则表现期是从借款时点b点开始到第三个账单日e点的还款日h点结束。
[0055] 观察时间是从样本表现期开始时开始到观察时点结束的一段时间。观察时点是服务器抽取样本的时间点。示例性的,如图3所示,在表现期后有观察时点i。在观察时点服务器抽出所有业务数据中已经进入表现期的全部或部分业务数据作为样本。示例性的,如图3所示,服务器抽出所有已经有借款时点的业务数据作为样本,即,抽出所有借过款的用户的业务数据作为样本。观察时间大于等于表现期的样本为成熟样本;观察时间小于表现期的样本为不成熟样本。示例性的,如图3所示,若i点在h点之后则该样本为成熟样本,若i点在h点之前则该样本为不成熟样本。成熟样本可以直接根据是否出现风险行为来判定样本为白样本或黑样本。不成熟样本表现期不足,业务数据积累量不够,不足以判断样本是否为白样本。
[0056] 第一白样本和第一黑样本都是观察时间达到表现期的成熟样本。第一白样本是在观察时间内没有出现风险行为的样本;第一黑样本是在观察时间内出现风险行为的样本。第一白样本集是至少两个第一白样本的集合;第一黑样本集时至少两个第一黑样本的集合。第二白样本和第二黑样本都是观察时间未达到表现期的不成熟样本。
[0057] 示例性的,第二白样本集是基于第一白样本集对观察时间未达到表现期的目标样本集进行半监督学习得到的。
[0058] 第二黑样本集是在观察时间内出现风险行为的样本集。
[0059] 半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。半监督学习,用到较少的人力,同时,又能够带来比较高的准确性。
[0060] 示例性的,半监督学习中的标记数据为第一白样本集和第一黑样本集,或,第一白样本集和第二黑样本集,或,第一白样本集和第一黑样本集和第二黑样本集。半监督学习中的未标记数据为观察时间未达到表现期的目标样本集,即不成熟样本集。
[0061] 步骤203,根据风险识别结果对在线网络业务进行处理。
[0062] 服务器根据风险识别结果对在线网络业务进行处理。
[0063] 服务器对在线网络业务进行处理的方式可以是,根据风险识别结果调整部分用户的在线网络业务使用权、使用限制、借款额度、还款期限等。根据风险识别结果提取黑样本中用户的部分特征,根据特征来调整在线网络业务,例如,风险识别结果中,年龄在10-20岁的人群是黑样本的概率较高,则调低这部分用户的借款额度、关闭使用权限等。
[0064] 综上所述,本实施例提供的方法,通过利用含有观察时间达到表现期的第一白样本集和第一黑样本集,以及所述观察时间未达到所述表现期的第二白样本集和第二黑样本集的总训练集训练风险识别模型,使样本的收集不局限于观察时间达到表现期的样本,扩大了样本的收集范围,为训练模型提供更多的可用样本。
[0065] 示例性的,上述实施例中提到了用半监督学习得到第二白样本集的三种方式,下面给出一种用第一白样本集和第一黑样本集和第二黑样本集得到第二白样本的方法。由于第一黑样本集合第二黑样本集在该方法中的作用相同,因此,可以用本示例性实施例提供的方法类推出利用第一白样本集和第一黑样本集,或,第一白样本集和第二黑样本集得到第二白样本的方法。
[0066] 图4示出了本申请一个示例性实施例提供的风险识别方法的流程图。该方法可以由图1所示的服务器来执行。所述方法包括:
[0067] 步骤301,采用自训练集训练得到分类模型,自训练集包括第一白样本集和第一黑样本集。
[0068] 服务器采用自训练集训练得到分类模型,自训练集包括第一白样本集和第一黑样本集。
[0069] 分类模型是具有分类能力的机器学习模型。分类模型是用第一白样本集和第一黑样本集训练得到的能够将样本按照白样本和黑样本进行分类的机器学习模型。将样本输入分类模型后,分类模型可以输出该样本的识别结果,识别结果包括该样本是白样本的概率、该样本是黑样本的概率、该样本判定为白样本、该样本判定为黑样本中的至少一种。示例性的,分类模型还可以用第一白样本集和第二黑样本集训练得到。
[0070] 自训练集是一个样本集合,用于训练得到分类模型。初始状态下的自训练集包括第一白样本集和第一黑样本集。
[0071] 步骤302,采用分类模型对目标样本集中的样本进行识别,得到目标样本集中的每个样本的识别标定结果。
[0072] 服务器采用分类模型对目标样本集中的样本进行识别,得到目标样本集中的每个样本的识别标定结果。
[0073] 目标样本集包括所有观察时间未达到表现期的样本,即,服务器抽出的样本中所有不成熟样本。
[0074] 识别标定结果是服务器用分类模型对目标样本集中的样本进行识别后,服务器按照识别结果将目标样本集中的样本标定为黑样本或白样本。
[0075] 步骤401,计算第一白样本集的第一均值和第一方差作为聚类中心。
[0076] 服务器计算第一白样本集的第一均值和第一方差。
[0077] 服务器用第一白样本集内的所有白样本的向量求出第一白样本集的第一均值和第一方差。将第一均值和第一方差作为聚类中心。
[0078] 聚类中心是一个样本集的中心点。示例性的,可以用样本的均值和方差确定样本的中心点。聚类中心可以用来判断两个样本集是否属于同一类型样本集的可能性,当两个样本集的两个聚类中心距离越接近,则两个样本集属于同一类型的样本集的可能性越大,反之,当两个样本集的两个聚类中心距离越远,则两个样本属于同一类型的样本集的可能性越小。同理,聚类中心还可以用来判断一个样本是否与样本集属于同一类型。当样本距离该样本集的聚类中心越近,则样本与该样本集属于同一类型的可能性越大,反之,当样本距离该样本集的聚类中心越远,则样本与该样本集属于同一类型的可能性越小。
[0079] 步骤402,计算识别标定结果为白样本的样本与聚类中心的欧式距离,作为聚类距离。
[0080] 服务器计算识别标定结果为白样本的样本与聚类中心的欧式距离,作为聚类距离。
[0081] 欧氏距离是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
[0082] 聚类距离是一个样本到样本集聚类中心的欧氏距离,或一个样本集的聚类中心到另一个样本集的聚类中心的欧氏距离。当一个样本集有确定的类型,可以通过判断聚类距离来判断其他样本或样本集与其属于同一类型的可能性,聚类距离越小,这两个样本或样本集属于同一类型的可能性越大。
[0083] 示例性的,第一白样本集的类型是白样本,第一白样本集的第一均值和第一方差为聚类中心,用目标样本集中识别标定结果为白样本的样本与第一白样本集的聚类中心的聚类距离来检验识别标定结果的正确性。
[0084] 步骤303,将识别标定结果为白样本且与第一白样本集之间的聚类距离满足聚类条件的样本,作为第二白样本添加至自训练集中。
[0085] 服务器将识别标定结果为白样本且与第一白样本集之间的聚类距离满足聚类条件的样本,作为第二白样本添加至自训练集中。
[0086] 聚类条件是判定识别标定结果是否正确的方式。示例性的,聚类条件可以是,当聚类距离小于等于某一具体数值时,判定识别标定结果正确。示例性的,聚类条件还可以是,计算所有样本与样本集聚类中心的聚类距离,将所有样本按照聚类距离从小到大排序的前几个样本(Top N个样本),即,聚类距离最小的几个样本作为满足聚类条件的样本。
[0087] 聚类距离满足聚类条件的样本,为经聚类条件检验后视为识别标定结果正确的样本(可能存在小概率的误差)。
[0088] 第二白样本即为目标样本集中识别标定结果为白样本,且与第一白样本集的聚类距离满足聚类条件的样本。
[0089] 示例性的,可以从第二黑样本中抽取一定数量的黑样本添加至自训练集中。示例性的,抽取的第二黑样本的数量可以与本次添加进自训练集中的第二白样本数量成比例,以保证自训练集中的白样本和黑样本比例不变。
[0090] 步骤304,重新执行采用自训练集训练得到分类模型的步骤。
[0091] 服务器重新执行采用自训练集训练得到分类模型的步骤。
[0092] 此时,自训练集中加入了第二白样本,用加入了第二白样本后的自训练集训练得到新的分类模型。
[0093] 示例性的,得到新的分类模型后重复上述步骤直至没有新的第二白样本加入自训练集时结束。则结束后所有第二白样本组成第二白样本集,完成从观察时间未达到表现期的目标样本集中抽取白样本的过程。
[0094] 上述重复的过程为半监督学习的迭代学习过程。
[0095] 综上所述,本实施例提供的方法,利用半监督学习从观察时间未达到表现期的目标样本集中抽取白样本,使样本的收集不局限于观察时间达到表现期的样本,扩大了样本的收集范围,为训练模型提供更多的可用样本。
[0096] 示例性的,给出上述步骤302中,根据分类模型对目标样本集中的样本的识别,得到目标样本集中每个样本的识别标定结果的方法。
[0097] 图5示出了本申请一个示例性实施例提供的风险识别方法的流程图。该方法可以由图1所示的服务器来执行。与图4所示出的方法不同的是,将步骤302替换为如下步骤:
[0098] 步骤501,采用分类模型对目标样本集中的样本进行识别,得到目标样本集中的每个样本的识别标定概率。
[0099] 服务器采用分类模型对目标样本集中的样本进行识别,得到目标样本集中的每个样本的识别标定概率。
[0100] 识别标定概率是分类模型对目标样本集中的样本进行识别后直接输出的结果。识别标定概率是分类模型识别样本属于某一类别的概率,示例性的,识别标定概率可以是样本为白样本的概率或样本为黑样本的概率。
[0101] 示例性的,服务器将目标样本集中的样本按照识别标定概率排序。
[0102] 步骤601,将第二黑样本集的识别准确率大于第一阈值,且对第二黑样本集的召回率大于第二阈值时的识别标定概率,确定为黑白样本划分阈值。
[0103] 服务器将第二黑样本集的识别准确率大于第一阈值,且对第二黑样本集的召回率大于第二阈值时的识别标定概率,确定为黑白样本划分阈值。
[0104] 示例性的,目标样本集中包含有第二黑样本集,即观察时间未达到表现期但已经出现风险行为的样本。即,第二黑样本集是已知的、确定的黑样本集。在步骤501中,分类模型对第二黑样本集也进行了识别并输出了识别标定概率。因此可以用第二黑样本集对分类模型的识别标定概率进行检验。用第二黑样本集确定黑白样本划分阈值,即,若样本的识别标定概率大于黑白样本划分阈值则将样本的识别标定结果确定为黑样本或白样本。
[0105] 准确率和召回率是利用第二黑样本集评价识别结果的参数。
[0106] 准确率=第二黑样本集中识别标定结果是黑样本的样本数量/所有识别标定结果为黑样本的样本数量。
[0107] 召回率=第二黑样本集中识别标定结果是黑样本的数量/第二黑样本集的样本总数量。
[0108] 如图6所示,给出了准确率和召回率的计算方式。A代表被识别出是黑样本且确实是黑样本的样本数量,即第二黑样本集中识别标定结果是黑样本的样本数量。B代表被识别出是黑样本,但其实不是黑样本的样本数量,即识别标定结果是黑样本但其实应该是白样本的样本数量。C代表没有被识别出是黑样本(识别出是白样本)且确实是黑样本的样本数量,即第二黑样本中识别标定结果为白样本的样本数量。D代表识别标定结果是白样本,且确实是白样本的样本数量。则,P(准确率)=A/(A+B),R(召回率)=A/(A+C)。
[0109] 阈值是一个给定的数值,例如第一阈值是0.8,第二阈值是0.75。
[0110] 黑白样本划分阈值是基于识别标定概率标定为白样本和黑样本时的阈值。
[0111] 黑白样本划分阈值,是为识别标定概率设定的阈值,用来划分黑白样本。例如,当识别标定概率是识别样本是黑样本的概率,即识别标定概率越大,样本为黑样本的概率越大。则识别标定概率大于黑白样本划分阈值的样本的识别标定结果是黑样本,识别标定概率小于于黑白样本划分阈值的样本的识别标定结果是白样本。
[0112] 示例性的,黑白样本划分阈值的方式包括:服务器随机划定一个黑白样本划分阈值,此时得出一个识别标定结果,按照该识别标定结果计算第二黑样本集的准确率和召回率,当计算出的第二黑样本集的识别准确率大于第一阈值,且第二黑样本集的召回率大于第二阈值时,将本次划定的黑白样本划分阈值确定为最终的黑白样本划分阈值。若第二黑样本集的识别准确率和召回率没有满足上述条件,则重新划定一个黑白样本划分阈值,并按照重新划分的黑白样本划分阈值重新计算第二黑样本集的识别准确率和召回率,直至满足上述条件。若始终无法划出一个满足上述条件的黑白样本划分阈值,则服务器退出半监督学习的迭代,结束进程
[0113] 步骤502,当目标样本集中的样本的识别标定概率大于黑白划分阈值时,确定样本的识别标定结果为黑样本。
[0114] 当目标样本集中的样本的识别标定概率大于黑白划分阈值时,服务器确定样本的识别标定结果为黑样本。
[0115] 此时,识别标定概率是识别样本为黑样本的概率。示例性的,识别标定概率还可以是识别样本为白样本的概率,此时,当目标样本集中的样本的识别标定概率大于黑白划分阈值时,确定样本的识别标定结果为白样本。
[0116] 步骤503,当目标样本集中的样本的识别标定概率小于黑白划分阈值时,确定样本的识别标定结果为白样本。
[0117] 当目标样本集中的样本的识别标定概率小于黑白划分阈值时,服务器确定样本的识别标定结果为白样本。
[0118] 此时,识别标定概率是识别样本为黑样本的概率。示例性的,识别标定概率还可以是识别样本为白样本的概率,此时,当目标样本集中的样本的识别标定概率小于黑白划分阈值时,确定样本的识别标定结果为黑样本。
[0119] 示例性的,本实施例提供的方法还可以用第一黑样本集完成,即在目标样本集中加入一定数量的第一黑样本集,用该一定数量的第一黑样本集替代上述第二黑样本集,也可以完成上述确定黑白样本划分阈值的过程。
[0120] 综上所述,本实施例提供的方法,利用第二黑样本集确定目标样本集识别标定概率的黑白样本划分阈值,使得出的识别标定结果更准确,使样本的收集不局限于观察时间达到表现期的样本,扩大了样本的收集范围,为训练模型提供更多的可用样本。
[0121] 示例性的,上述步骤303还可以替换为,计算标定结果为白样本的样本集合聚类中心与第一白样本集聚类中心的聚类距离,通过判断两个样本集的聚类距离判断识别正确性。
[0122] 图7示出了本申请一个示例性实施例提供的风险识别方法的流程图。该方法可以由图1所示的服务器来执行。与图4所示出的方法不同的是,将步骤303替换为如下步骤:
[0123] 步骤701,当识别标定结果不满足准确性条件时,将识别标定结果为白样本且与第一白样本集之间的聚类距离满足聚类条件的样本,作为第二白样本添加至自训练集中。
[0124] 当识别标定结果不满足准确性条件时,服务器将识别标定结果为白样本且与第一白样本集之间的聚类距离满足聚类条件的样本,作为第二白样本添加至自训练集中。示例性的,步骤701结束后可以进行步骤901,或进行步骤304。
[0125] 示例性的,准确性条件包括:样本中心和聚类中心之间的距离小于阈值;其中,样本中心是基于本次的识别标定结果为白样本的样本子集的第二均值和第二方差确定的,聚类中心是基于所述第一白样本集的第一均值和第一方差确定的。
[0126] 计算识别标定结果为白样本的样本子集的第二均值和第二方差,利用第二均值和第二方差确定样本子集的聚类中心,将样本子集的聚类中心确定为样本中心。
[0127] 计算第一白样本集的聚类中心。
[0128] 计算上述样本中心和聚类中心的聚类距离。
[0129] 当聚类距离大于阈值时,则为识别标定结果不满足准确性条件。示例性的,也可以是聚类距离大于等于阈值时,识别标定结果不满足准确性条件。
[0130] 此时,计算识别标定结果为白样本的每个样本与聚类中心的聚类距离,将聚类距离小于一定数值,或,聚类距离最小的几个样本确定为第二白样本,添加至自训练集中。
[0131] 步骤901,当识别标定结果不满足准确性条件时,从第二黑样本集中抽取若干个第二黑样本添加至自训练集。
[0132] 示例性的,在步骤701后,可以进行步骤901。当识别标定结果不满足准确性条件时,服务器从第二黑样本集中抽取若干个第二黑样本添加至自训练集。
[0133] 当识别标定结果不满足准确性条件时,即样本中心到第一白样本集的聚类中心的聚类距离大于阈值时,从第二黑样本集中抽取若干个第二黑样本添加至自训练集。示例性的,抽取的第二黑样本数量,可以与步骤701中的第二白样本数量成比例,以保证自训练集中的白样本数量和黑样本数量比例不变。
[0134] 步骤801,当识别标定结果满足准确性条件且存在历史添加的第二白样本时,根据历史添加的第二白样本以及本次的识别标定结果为白样本的样本,得到第二白样本集。
[0135] 当识别标定结果满足准确性条件且存在历史添加的第二白样本时,服务器根据历史添加的第二白样本以及本次的识别标定结果为白样本的样本,得到第二白样本集。
[0136] 当识别标定结果满足准确性条件时,即样本中心到第一白样本集的聚类中心的聚类距离小于阈值时,存在两种情况。第一种情况,存在历史添加的第二白样本;第二种情况,不存在历史添加的第二白样本。即,半监督学习有迭代过程,和没有迭代过程两种情况。
[0137] 当存在历史添加的第二白样本时,即,存在迭代过程时,则根据历史添加的第二白样本以及本次识别标定结果为白样本的样本得到第二白样本集。
[0138] 步骤802,当识别标定结果满足准确性条件且不存在历史添加的第二白样本时,根据本次的识别标定结果为白样本的样本,得到第二白样本集。
[0139] 当识别标定结果满足准确性条件且不存在历史添加的第二白样本时,服务器根据本次的识别标定结果为白样本的样本,得到第二白样本集。
[0140] 当不存在历史添加的第二白样本时,即,不存在迭代过程时,则根据本次识别标定结果为白样本的样本得到第二白样本集。
[0141] 综上所述,本实施例提供的方法,通过判定识别标定结果为白样本的样本子集的样本中心和第一白样本集的聚类中心的聚类距离,判断识别标定结果的正确性,不需要每个识别标定结果为白样本的样本单个与聚类中心计算聚类距离,减少了计算量。使样本的收集不局限于观察时间达到表现期的样本,扩大了样本的收集范围,为训练模型提供更多的可用样本。
[0142] 示例性的,给出两个本申请提供的示例性实施例。
[0143] 如图8所示,服务器输入有标记数据和未标记数据,用有标记数据训练得出分类模型。用分类模型识别未标记数据。从识别标记结果为白样本的样本中抽取部分识别白样本,加上部分表现其不足的已有黑样本,共同组成表现其不足样本集U,与充分表现样本集L,共同组成总样本池,即,有标记数据。并进入下一次迭代学习。直至未标记数据中抽不出识别白样本,迭代结束。
[0144] 如图9所示,用充分表现的样本集L训练得到分类模型,用分类模型F识别未标记数据得到带标签的样本集Ui,从带标签的样本集Ui抽取识别标定结果为白样本的样本获得白样本集wi,计算充分表现的样本集L中所有白样本的均值和方差,当白样本子集wi的均值和方差均小于样本集L时,获得白样本wi,如果没有满足条件的样本集则停止选代。获得白样本wi后抽取部分黑样本b和白样本wi组成新增样本集u加入样本集L。
[0145] 用本申请提供的风险识别方法,训练得到总训练集,即第一白样本集、第一黑样本集、第二白样本集和第二黑样本集,并用该总训练集训练的第一风险识别模型与只利用观察时间达到表现期的样本集,即第一白样本集和第一黑样本集,训练的得到的第二风险识别模型相比,第一风险识别模型具有更高的AUC(Area Under Curve,曲线下面积)指数。AUC指数是用来衡量学习期优劣的一种性能指标。
[0146] AUC是ROC(Receiver Operating Characteristic Curve,接收者操作特征曲线)曲线下得面积。ROC曲线是以召回率为y轴,以特异性为x轴得到的曲线。其中,特异性可以用图6来理解,如图6所示,S(特异性)=B/(B+D)。
[0147] 当用总训练集测试第一风险识别模型,用上述观察时间达到表现期的样本集测试第二风险识别模型,即风险识别模型用哪部分数据训练的就用哪部分数据测试,得出的测试结果为:第一风险识别模型的AUC为0.84,第二风险识别模型的AUC为0.82,用本申请提供的风险识别方法得到的风险识别模型的AUC提升了2.44%。
[0148] 当用相同的测试样本集测试第一风险识别模型和第二风险识别模型时,得出的测试结果为:第一风险识别模型的AUC为0.798,第二风险识别模型的AUC为0.792,用本申请提供的风险识别方法得到的风险识别模型的AUC提升了0.76%。
[0149] 本申请提供的风险识别方法可以应用于信用评分业务、信用借贷业务、风险预估模型中。
[0150] 下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
[0151] 图10示出了本申请一个示意性实施例提供的风险识别装置的框图。该装置可以实现成为服务器的全部或一部分。该装置包括:
[0152] 获取模块1001,用于获取在线网络业务的业务数据;
[0153] 风险识别模块1002,用于将所述业务数据输入至风险识别模型中得到风险识别结果,所述风险识别模型是根据总训练集训练得到的,所述总训练集包括:观察时间达到表现期的第一白样本集和第一黑样本集,以及所述观察时间未达到所述表现期的第二白样本集和第二黑样本集;
[0154] 处理模块1003,用于根据所述风险识别结果对所述在线网络业务进行处理。
[0155] 在一个可选的实施例中,所述第二白样本集是基于所述第一白样本集对所述观察时间未达到所述表现期的目标样本集进行半监督学习得到的;
[0156] 所述第二黑样本集是在所述观察时间内出现风险行为的样本集。
[0157] 在一个可选的实施例中,所述装置还包括训练模块1004、识别模块1006、添加模块1008;
[0158] 所述训练模块1004,用于采用自训练集训练得到分类模型,所述自训练集包括所述第一白样本集和所述第一黑样本集;
[0159] 所述识别模块1006,用于采用所述分类模型对所述目标样本集中的样本进行识别,得到所述目标样本集中的每个样本的识别标定结果;
[0160] 所述添加模块1008,用于将所述识别标定结果为白样本且与所述第一白样本集之间的聚类距离满足聚类条件的样本,作为所述第二白样本添加至所述自训练集中;
[0161] 所述训练模块1004,还用于重新执行所述采用自训练集训练得到所述分类模型的步骤。
[0162] 在一个可选的实施例中,所述装置还包括计算模块1005;
[0163] 所述计算模块1005,用于计算所述第一白样本集的第一均值和第一方差作为聚类中心;
[0164] 所述计算模块1005,还用于计算所述识别标定结果为白样本的样本与所述聚类中心的欧式距离,作为所述聚类距离。
[0165] 在一个可选的实施例中,所述装置还包括确定模块1007;
[0166] 所述识别模块1006,还用于采用所述分类模型对所述目标样本集中的样本进行识别,得到所述目标样本集中的每个样本的识别标定概率;
[0167] 所述确定模块1007,用于当所述目标样本集中的样本的所述识别标定概率大于黑白划分阈值时,确定所述样本的识别标定结果为所述黑样本;
[0168] 所述确定模块1007,还用于当所述目标样本集中的样本的所述识别标定概率小于所述黑白划分阈值时,确定所述样本的识别标定结果为所述白样本;
[0169] 其中,所述黑白样本划分阈值是基于所述识别标定概率标定为白样本和黑样本时的阈值。
[0170] 在一个可选的实施例中,所述确定模块1007,还用于将所述第二黑样本集的识别准确率大于第一阈值,且对所述第二黑样本集的召回率大于第二阈值时的识别标定概率,确定为所述黑白样本划分阈值。
[0171] 在一个可选的实施例中,所述添加模块1008,还用于当所述识别标定结果不满足准确性条件时,将所述识别标定结果为白样本且与所述第一白样本集之间的聚类距离满足聚类条件的样本,作为第二白样本添加至所述自训练集中。
[0172] 在一个可选的实施例中,所述装置还包括获得模块1009;
[0173] 所述获得模块1009,用于当所述识别标定结果满足所述准确性条件且存在历史添加的第二白样本时,根据所述历史添加的第二白样本以及本次的所述识别标定结果为白样本的样本,得到所述第二白样本集;
[0174] 所述获得模块1009,还用于当所述识别标定结果满足所述准确性条件且不存在历史添加的第二白样本时,根据本次的所述识别标定结果为白样本的样本,得到所述第二白样本集。
[0175] 在一个可选的实施例中,所述添加模块1008,还用于当所述识别标定结果不满足准确性条件时,从所述第二黑样本集中抽取若干个第二黑样本添加至所述自训练集。
[0176] 在一个可选的实施例中,所述准确性条件,包括:
[0177] 样本中心和聚类中心之间的距离小于阈值;
[0178] 其中,所述样本中心是基于本次的所述识别标定结果为白样本的样本子集的第二均值和第二方差确定的,所述聚类中心是基于所述第一白样本集的第一均值和第一方差确定的。
[0179] 本申请还提供了一种终端,该终端包括:处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的风险识别方法。
[0180] 本申请还提供一种计算机设备,该计算机设备包括:处理器和存储器,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的风险识别方法。
[0181] 本申请还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的风险识别方法。
[0182] 应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0183] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0184] 以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈