首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 半监督学习 / 一种业务拓展渠道自动管理的方法和装置

一种业务拓展渠道自动管理的方法和装置

阅读:183发布:2020-05-17

专利汇可以提供一种业务拓展渠道自动管理的方法和装置专利检索,专利查询,专利分析的服务。并且本公开涉及一种业务拓展渠道自动管理的方法,其特征在于,包括获得业务拓展渠道在一个或多个阶段的样本数据;使用分类模型来确定所述业务拓展渠道在每个阶段的 风 险评分;基于一个或多个修正函数对所述业务拓展渠道在每个阶段的风险评分进行修正;对所述业务拓展渠道在该一个或多个阶段的经修正风险评分进行融合以获得所述业务拓展渠道的最终风险评分;以及基于所述最终风险评分来自动管理所述业务拓展渠道的运营。本公开还涉及相应的装置、设备和计算机可读介质。,下面是一种业务拓展渠道自动管理的方法和装置专利的具体信息内容。

1.一种业务拓展渠道自动管理的方法,其特征在于,包括:
获得业务拓展渠道在一个或多个阶段的样本数据;
从所述样本数据提取渠道险相关特征;
使用分类模型基于所述渠道风险相关特征来确定所述业务拓展渠道在每个阶段的风险评分;
基于一个或多个修正函数对所述业务拓展渠道在每个阶段的风险评分进行修正;
对所述业务拓展渠道在该一个或多个阶段的经修正风险评分进行融合以获得所述业务拓展渠道的最终风险评分;以及
基于所述最终风险评分来自动管理所述业务拓展渠道的运营。
2.如权利要求1所述的方法,其特征在于,所述一个或多个阶段包括历史阶段以及一个或多个近期阶段。
3.如权利要求1所述的方法,其特征在于,所述一个或多个修正函数包括容忍修正函数、时间衰减修正函数、风险反馈修正函数、对抗性修正函数中的一者或多者。
4.如权利要求3所述的方法,其特征在于,还包括:
对所述一个或多个修正函数的参数进行整体寻优。
5.如权利要求1所述的方法,其特征在于,还包括基于业务拓展渠道黑样本训练所述分类模型。
6.如权利要求5所述的方法,其特征在于,基于业务拓展渠道黑样本训练所述分类模型包括:
对所述业务拓展渠道黑样本进行扩充和纠偏;以及
基于经扩充和纠偏的业务拓展渠道黑样本,训练所述分类模型。
7.如权利要求6所述的方法,其特征在于,对所述业务拓展渠道黑样本进行扩充和纠偏包括:
使用监督学习进行异常识别以获得高异常样本;以及
使用所述高异常样本来扩充所述业务拓展渠道黑样本。
8.如权利要求6所述的方法,其特征在于,对所述业务拓展渠道黑样本进行扩充和纠偏包括:
使用半监督学习基于标签传播来发现与所述业务拓展渠道黑样本关系紧密的候选业务拓展渠道样本;
确定所述候选业务拓展渠道样本是否属于高风险样本;以及
若是,则使用属于高风险样本的所述候选业务拓展渠道样本来扩充所述业务拓展渠道黑样本。
9.如权利要求8所述的方法,其特征在于,使用半监督学习基于标签传播来发现与所述业务拓展渠道黑样本关系紧密的候选业务拓展渠道样本包括:
构建以一个或多个业务拓展渠道为节点、业务拓展渠道与业务拓展渠道之间的关系为边的有向图
从与所述业务拓展渠道黑样本对应的节点出发,关联与所述业务拓展渠道黑样本关系紧密的候选节点;以及
将与所述候选节点对应的业务拓展渠道作为所述候选业务拓展渠道样本。
10.如权利要求8所述的方法,其特征在于,确定所述候选业务拓展渠道样本是否属于高风险样本包括:
计算所述候选业务拓展渠道样本的黑浓度,所述黑浓度包括所述候选业务拓展渠道的虚假商户或虚假交易的比例。
11.如权利要求8所述的方法,其特征在于,进一步包括:
将所发现的与特定业务拓展渠道黑样本关系紧密、且属于高风险样本的候选业务拓展渠道样本确定为与所述特定业务拓展渠道黑样本属于同一黑团伙。
12.如权利要求6所述的方法,其特征在于,对所述业务拓展渠道黑样本进行扩充和纠偏包括:
确定未标记的有用业务拓展渠道样本,并且
所述分类模型进一步基于经人工标记的所述有用业务拓展渠道样本来训练。
13.一种业务拓展渠道自动管理的装置,其特征在于,包括:
用于获得业务拓展渠道在一个或多个阶段的样本数据的模
用于从所述样本数据提取渠道风险相关特征的模块;
用于使用分类模型基于所述渠道风险相关特征来确定所述业务拓展渠道在每个阶段的风险评分的模块;
用于基于一个或多个修正函数对所述业务拓展渠道在每个阶段的风险评分进行修正的模块;
用于对所述业务拓展渠道在该一个或多个阶段的经修正风险评分进行融合以获得所述业务拓展渠道的最终风险评分的模块;以及
用于基于所述最终风险评分来自动管理所述业务拓展渠道的运营的模块。
14.如权利要求13所述的装置,其特征在于,所述一个或多个阶段包括历史阶段以及一个或多个近期阶段。
15.如权利要求13所述的装置,其特征在于,所述一个或多个修正函数包括容忍修正函数、时间衰减修正函数、风险反馈修正函数、对抗性修正函数中的一者或多者。
16.如权利要求15所述的装置,其特征在于,还包括:
用于对所述一个或多个修正函数的参数进行整体寻优的模块。
17.如权利要求13所述的装置,其特征在于,还包括用于基于业务拓展渠道黑样本训练所述分类模型的模块。
18.如权利要求17所述的装置,其特征在于,用于基于业务拓展渠道黑样本训练所述分类模型的模块包括:
用于对所述业务拓展渠道黑样本进行扩充和纠偏的模块;以及
用于基于经扩充和纠偏的业务拓展渠道黑样本,训练分类模型的模块。
19.如权利要求18所述的装置,其特征在于,用于对所述业务拓展渠道黑样本进行扩充和纠偏的模块包括:
用于使用无监督学习进行异常识别以获得高异常样本的模块;以及
用于使用所述高异常样本来扩充所述业务拓展渠道黑样本的模块。
20.如权利要求18所述的装置,其特征在于,用于对所述业务拓展渠道黑样本进行扩充和纠偏的模块包括:
用于使用半监督学习基于标签传播来发现与所述业务拓展渠道黑样本关系紧密的候选业务拓展渠道样本的模块;
用于确定所述候选业务拓展渠道样本是否属于高风险样本的模块;以及用于若是,则使用属于高风险样本的所述候选业务拓展渠道样本来扩充所述业务拓展渠道黑样本的模块。
21.如权利要求20所述的装置,其特征在于,用于使用半监督学习基于标签传播来发现与所述业务拓展渠道黑样本关系紧密的候选业务拓展渠道样本的模块包括:
用于构建以一个或多个业务拓展渠道为节点、业务拓展渠道与业务拓展渠道之间的关系为边的有向图的模块;
用于从与所述业务拓展渠道黑样本对应的节点出发,关联与所述业务拓展渠道黑样本关系紧密的候选节点的模块;以及
用于将与所述候选节点对应的业务拓展渠道作为所述候选业务拓展渠道样本的模块。
22.如权利要求20所述的装置,其特征在于,用于确定所述候选业务拓展渠道样本是否属于高风险样本的模块包括:
用于计算所述候选业务拓展渠道样本的黑浓度,所述黑浓度包括所述候选业务拓展渠道的虚假商户或虚假交易的比例的模块。
23.如权利要求20所述的装置,其特征在于,进一步包括:
用于将所发现的与特定业务拓展渠道黑样本关系紧密、且属于高风险样本的候选业务拓展渠道样本确定为与所述特定业务拓展渠道黑样本属于同一黑团伙的模块。
24.如权利要求18所述的装置,其特征在于,用于对所述业务拓展渠道黑样本进行扩充和纠偏的模块包括:
用于确定未标记的有用业务拓展渠道样本的模块,并且
所述分类模型进一步基于经人工标记的所述有用业务拓展渠道样本来训练。
25.一种业务拓展渠道自动管理的设备,其特征在于,包括:
存储器;以及
耦合到所述存储器的处理器,所述处理器被配置成:
获得业务拓展渠道在一个或多个阶段的样本数据;
从所述样本数据提取渠道风险相关特征;
使用分类模型基于所述渠道风险相关特征来确定所述业务拓展渠道在每个阶段的风险评分;
基于一个或多个修正函数对所述业务拓展渠道在每个阶段的风险评分进行修正;
对所述业务拓展渠道在该一个或多个阶段的经修正风险评分进行融合以获得所述业务拓展渠道的最终风险评分;以及
基于所述最终风险评分来自动管理所述业务拓展渠道的运营。
26.一种存储有处理器可执行指令的计算机可读介质,所述处理器可执行指令在由处理器执行时,使所述处理器执行以下操作:
获得业务拓展渠道在一个或多个阶段的样本数据;
从所述样本数据提取渠道风险相关特征;
使用分类模型基于所述渠道风险相关特征来确定所述业务拓展渠道在每个阶段的风险评分;
基于一个或多个修正函数对所述业务拓展渠道在每个阶段的风险评分进行修正;
对所述业务拓展渠道在该一个或多个阶段的经修正风险评分进行融合以获得所述业务拓展渠道的最终风险评分;以及
基于所述最终风险评分来自动管理所述业务拓展渠道的运营。

说明书全文

一种业务拓展渠道自动管理的方法和装置

技术领域

[0001] 本公开涉及机器学习,尤其涉及险识别。

背景技术

[0002] 主动风险区别于被动风险之处在于风险由用户本人主动发起,而非被动受害,其通常具有较高隐蔽性,因而难以直接识别或感知
[0003] 例如,在一些场景中,为了拓展业务,将会向帮助拓展业务的各个渠道提供相应的奖励。然而,若其中的一些渠道为了不当地骗取奖励而进行虚假拓展或虚假交易,则将清退或处罚此类渠道。
[0004] 传统的渠道管理一般依赖于人工或半人工运营,其成本较高且一定程度上依赖于人工经验。
[0005] 因此,本领域需要改善的渠道风险自动管理技术。发明内容
[0006] 本公开的一示例性方面涉及一种业务拓展渠道自动管理的方法,包括获得业务拓展渠道在一个或多个阶段的样本数据;从所述样本数据提取渠道风险相关特征;使用分类模型基于所述渠道风险相关特征来确定所述业务拓展渠道在每个阶段的风险评分;基于一个或多个修正函数对所述业务拓展渠道在每个阶段的风险评分进行修正;对所述业务拓展渠道在该一个或多个阶段的经修正风险评分进行融合以获得所述业务拓展渠道的最终风险评分;以及基于所述最终风险评分来自动管理所述业务拓展渠道的运营。
[0007] 根据一示例性而非限定性实施例,该一个或多个阶段包括历史阶段以及一个或多个近期阶段。
[0008] 根据一示例性而非限定性实施例,该一个或多个修正函数包括容忍修正函数、时间衰减修正函数、风险反馈修正函数、对抗性修正函数中的一者或多者。
[0009] 根据一示例性而非限定性实施例,该方法还包括对所述一个或多个修正函数的参数进行整体寻优。
[0010] 根据一示例性而非限定性实施例,该方法还包括基于渠道黑样本训练所述分类模型。
[0011] 根据进一步的示例性而非限定性实施例,基于渠道黑样本训练所述分类模型可包括对所述渠道黑样本进行扩充和纠偏;以及基于经扩充和纠偏的渠道黑样本,训练分类模型。
[0012] 根据另一示例性而非限定性实施例,对所述渠道黑样本进行扩充和纠偏包括使用监督学习进行异常识别以获得高异常样本;以及使用所述高异常样本来扩充所述渠道黑样本。
[0013] 根据又一示例性而非限定性实施例,对所述渠道黑样本进行扩充和纠偏包括使用半监督学习基于标签传播来发现与所述渠道黑样本关系紧密的候选渠道样本;确定所述候选渠道样本是否属于高风险样本;以及若是,则使用属于高风险样本的所述候选渠道样本来扩充所述渠道黑样本。
[0014] 根据再一示例性而非限定性实施例,使用半监督学习基于标签传播来发现与所述渠道黑样本关系紧密的候选渠道样本包括构建以一个或多个渠道为节点、渠道与渠道之间的关系为边的有向图;从与所述渠道黑样本对应的节点出发,关联与所述渠道黑样本关系紧密的候选节点;以及将与所述候选节点对应的渠道作为所述候选渠道样本。
[0015] 根据另一示例性而非限定性实施例,确定所述候选渠道样本是否属于高风险样本包括计算所述候选渠道样本的黑浓度,所述黑浓度包括所述候选渠道的虚假商户或虚假交易的比例。
[0016] 根据另一示例性而非限定性实施例,该方法进一步包括将所发现的与特定渠道黑样本关系紧密、且属于高风险样本的候选渠道样本确定为与所述特定渠道黑样本属于同一黑团伙。
[0017] 根据一示例性而非限定性实施例,对所述渠道黑样本进行扩充和纠偏包括确定未标记的有用渠道样本,并且所述分类模型进一步基于经人工标记的所述有用渠道样本来训练。
[0018] 本公开的其他示例性方面还涉及相应的装置、设备和计算机可读介质。附图说明
[0019] 图1示出了根据本公开一示例性方面的业务拓展渠道架构的示图。
[0020] 图2示出了根据本公开一示例性实施例的基于参数修正的渠道风险动态评分框架系统的示图。
[0021] 图3示出了根据本公开一示例性方面的通过无监督学习来进行风险样本扩充的装置的示图。
[0022] 图4示出了根据本公开一示例性方面的使用孤立森林来进行作业异常识别的方案的示图。
[0023] 图5示出了根据本公开一示例性方面的通过半监督学习来进行风险样本的扩充的装置的示图。
[0024] 图6示出了根据本公开一示例性方面的由半监督学习模构建的有向图。
[0025] 图7示出了根据本公开一示例性方面的通过有监督学习来进行风险评分构建的装置的示图。
[0026] 图8示出了根据本公开一示例的分类模型的示例。
[0027] 图9示出了根据本公开一示例性方面的获得不同阶段的渠道风险评分的装置的示图。
[0028] 图10示出了根据一示例性实施例的基于参数的修正模块的示图。
[0029] 图11示出了根据一示例性实施例的容忍修正函数的曲线图。
[0030] 图12示出了根据一示例性实施例的参数选择优化装置的示图。
[0031] 图13示出了根据本公开一示例性方面的基于参数修正的渠道风险动态评分的方法的流程图
[0032] 图14示出了根据本公开一示例性方面的渠道风险动态分类模型的构建方法的流程图。

具体实施方式

[0033] 为了更好地理解本发明的技术方案,下面结合附图对本申请的实施例进行详细描述。
[0034] 以下以收钱码商户拓展为例来描述本公开的各种实施例。然而应当理解,本公开并不被限定于收钱码商户拓展,而是可以适用于各种其他的业务拓展渠道及其风险自动管理。
[0035] 图1示出了根据本公开一示例性方面的业务拓展渠道架构100的示图。业务拓展渠道架构100可包括一个或多个业务拓展渠道。如所可见,图中仅示出了一个服务商渠道102和一个众包渠道104。但是本公开并不被限定于具体的渠道类型和/或数量。拓展个人可包括服务商下的员工,也可以包括众包个人等。
[0036] 如所可见,服务商渠道102可能拓展出数个收钱码商户106a–106e。另一方面,众包渠道104可能拓展出另外数个收钱码商户106f–106g。按照所拓展的商户的例如交易客户数或交易量,将会对各业务拓展渠道进行相应的奖励。例如,奖励可以与渠道倍数、地区奖励倍数、有效交易客户数、有效交易量、奖励基数等之中的一个或多个因数成比例。
[0037] 然而,某些渠道为了骗取奖励,可能会进行虚假商户拓展,或者勾结商户进行虚假交易以例如提高交易客户数或交易量。此类渠道业务风险可被认为是主动风险,其区别于被动风险之处在于风险由渠道本身主动发起,而非被动受害,其通常具有较高隐蔽性,因而难以直接识别或感知。
[0038] 传统的渠道风险管理一般至少部分地依赖于人工运营,其成本较高。不仅如此,传统的渠道风险管理偏向一刀切式处罚。例如,如发现某个渠道有虚假商户拓展和/或虚假交易,则立即清退该渠道。
[0039] 为了能够更灵活地进行管控,需要有自动化并且动态地确定此类风险的方案。例如,需要自动化地发现和识别各渠道的风险表现,并且动态地对其进行评价的技术。根据本公开的各方面,可以引入渠道风险评分机制,即基于渠道的风险表现,对渠道进行评分分级。根据评分分级,给予不同分级的渠道差异化的奖励。对于低风险级别的渠道,可以按照较高的奖励基数来计算奖励,而对于高风险级别的渠道,则可以按照较低的奖励基数来计算奖励。
[0040] 为了能够实现对渠道风险的灵活、动态且即时的管控,评分分级可能需要基于渠道的风险表现来动态调整。例如,当渠道风险上升,则渠道风险评分机制能够立即发现风险,并且风险评分能够快速降低。另一方面,当例如渠道感知后采取措施,风险下降,则渠道风险评分机制能够相应地自动上升。
[0041] 本公开的各方面给出了一种基于参数修正的渠道风险评分系统,基于此系统能够实现对渠道风险的灵活动态即时管控。例如,若渠道风险上升,则风险评分快速下降,而若渠道感知后风险下降,则评分自动上升。另外,通过使用进化算法对多阶段风险评分融合参数进行寻优,相较业务专家经验参数初始化,整体错误率明显下降,从而有效解决传统渠道管理一刀切处罚,且需要大量人工运营的问题。另一方面,本公开可以通过无监督异常识别及半监督学习来增益黑样本,解决了黑样本有偏,覆盖率较低的问题,并得到各阶段的风险评分。进一步,本公开提出一种动态有效的多阶段风险评分融合方式。通过修正函数的设定,使得阶段风险评分融合具备一定的风险容忍性,评分动态更新,风险快速反馈,风险对抗性等优点,适合渠道风险管控场景的需求。
[0042] 图2示出了根据本公开一示例性实施例的基于参数修正的渠道风险动态评分框架系统200的示图。如所可见,基于参数修正的渠道风险动态评分框架系统200可包括阶段风险评分模块205和评分融合模块240。
[0043] 根据一示例性实施例,阶段风险评分模块205可以包括无监督学习模块210、半监督学习模块220和有监督学习模块230。
[0044] 根据一示例,渠道特征样本数据被输入到无监督学习模块210,并且无监督学习模块210基于各种异常识别来输出经标识样本作为对原有黑样本的补充,从而得到经纠偏扩充样本。
[0045] 根据一示例,经纠偏扩充样本可被输入到半监督学习模块220中。基于所输入的经纠偏扩充样本,半监督学习模块可基于标签传播、团伙识别和/或主动学习等来获得并输出经扩充团伙样本。
[0046] 根据一示例,经扩充团伙样本被输入到有监督学习模块230中。有监督学习模块230可以对所输入的经扩充团伙样本进行风险特征提取,并通过使用所训练的分类模型,对经风险特征提取的样本数据进行分类,生成并输出相应阶段的渠道风险评分。
[0047] 根据一示例,阶段风险评分模块205依次输出一个或多个阶段的渠道风险评分。这一个或多个阶段的渠道风险评分被输入到评分融合模块240中。评分融合模块240可以包括例如修正模块250和参数选择优化模块260。评分融合模块240可以基于一个或多个修正函数来对各阶段的评分进行修正。然后,评分融合模块240可以对经修正的各阶段评分进行融合。根据优选的实施例,修正函数的选择可以被优化以达成更好的效果。
[0048] 如所可知,结合图2描述的基于参数修正的渠道风险动态评分框架系统200仅是优选示例。本公开的方案并不被限定于图2的实现。例如,可以采用无监督学习模块210和半监督学习模块220中的一者或多者或其任何组合来对黑样本进行纠偏和扩充。在黑样本充足的情况下,甚至可以无需对黑样本进行纠偏和扩充。又如,对各阶段评分的修正可以基于以上所描述的各种修正函数的一者或多者或其任何组合。
[0049] 渠道风险评分机制可以通过机器学习来实现,诸如基于深度学习模型,并且可以用训练样本集来训练。训练可以包括有监督训练、半监督训练和/或无监督训练等。
[0050] 根据一示例,训练样本集中可包括多个风险样本。风险样本可包括风险白样本和风险黑样本。风险黑样本可包括例如至少部分作弊的众包或服务商黑样本等。风险样本可以与渠道相对应,并包括与对应渠道的风险有关的一个或多个特征。例如,与渠道的风险有关的特征可以包括但不限于拓展速度、是否高危聚集、拓展商户中历史作弊名单……。
[0051] 根据一示例,训练样本集中的风险样本可以包括至少部分经标记的风险样本。由此,渠道风险评分模型可以用训练样本集中的风险样本来进行有监督学习或半监督学习,以学习对风险样本进行风险评分。
[0052] 经训练的渠道风险评分模型可以用来对与各个渠道相对应的渠道特征样本进行风险评分。例如,根据一示例,渠道风险评分模型可以输出风险评分。风险评分可以包括一个或多个风险级别。例如,风险级别可包括诸如高风险、中等风险、低风险等。又如,风险级别也可包括诸如零级风险、一级风险、二级风险等等。风险评分也可以包括例如风险分数等。
[0053] 训练样本集中的风险黑样本可以通过系统的安全体系所积累的虚假交易和虚假开户等信息来获得。例如,通过系统的虚假交易识别能和虚假开户识别能力以及举报投诉信息等,系统可以积累与特定渠道相关联的虚假交易和/或虚假开户的比例,当该比例达到阈值时,可以认为相关联的渠道为作弊渠道或部分作弊渠道。然而,通过这种方式积累获得的风险黑样本有限(例如,覆盖率低)且有偏,因此需要对作弊渠道黑样本进行有效的扩充。
[0054] 图3示出了根据本公开一示例性方面的通过无监督学习来进行风险样本扩充的装置300的示图。
[0055] 无监督学习模块302可包括一个或多个异常检测模型,以针对渠道进行商户拓展的整个链路中的各个关键环节进行异常检测。根据一示例性实施例,无监督学习模块302可包括例如作业异常识别模型304、开户质量异常识别模型306、虚假交易异常识别模型308等。
[0056] 作业异常识别模型304可以根据渠道作业的拓展速度、是否高危聚集、拓展商户中历史作弊名单量等特征,对与渠道相关联的作业进行异常识别。例如,作业异常识别模型304可以计算渠道异常评分。
[0057] 作业异常识别模型304可以基于例如各种异常检测模型和/或算法。根据一示例性实施例,例如,作业异常识别模型304可以基于孤立森林(Isolation Forest)等。孤立森林属于非参数且无监督的办法,通过以随机超平面连续分割数据空间直至每个子空间中只有一个数据点,来寻找异常数据点。
[0058] 图4示出了根据本公开一示例性方面的使用孤立森林来进行作业异常识别的方案的示图。如图中所示,假定从训练数据集中选取了数个数据样本,将其置于二叉孤立树(iTree)的根节点中。以一随机超平面分割该数据空间,并将所分割出的两个子空间中的数据样本分别放到该二叉孤立树的根节点的两个子节点中。然后,对于每一个子节点,分别再以随机超平面分割相应的子空间,并将所分割出的两个子空间中的数据样本分别放到该子节点的两个子节点中,依此类推,直至每个子节点中均只有一个数据样本为止。如所可见,本例中以4个数据样本为例来建立iTree,但是本公开并不被限定于此。实际建立iTree的数据样本树可以更多或更少。
[0059] 以此方式,建立多棵iTree后,就形成孤立森林(iForest)。然后可以使用所形成的iForest来评估数据。例如,对于一数据样本,令其遍历iForest中的每一棵iTree,确定该数据样本落在每棵树的第几层中。通过确定该数据样本在这些iTree中的平均高度,即可确定其异常可能性。一般而言,越小的高度代表越高的异常可能性。例如,在图4的示例中,d最有可能异常,因为它最早就被孤立了。根据替换示例,iTree的高度也可以被归一化。
[0060] 回到图3,任选地,作业异常识别模型304还可对高异常评分的渠道进行人工验证。
[0061] 在确定渠道异常评分之后,可以将渠道异常评分与一个或多个阈值进行比较。当评分高于某个阈值时,对应的样本即被标识为具有相应风险的样本。经标识的样本可被加入到原有的黑样本中。根据一示例,也可以仅将高风险级别的样本加入到原有的黑样本中。
[0062] 开户质量异常识别模型306和虚假交易异常识别模型308同样可以基于例如各种异常检测模型和/或算法。根据一示例性实施例,开户质量异常识别模型306和/或虚假交易异常识别模型308可以基于孤立森林等办法。开户质量异常识别模型306可以根据例如开户速度、开户质量、开户实际交易情况、开户历史作弊名单量等特征,对与渠道相关联的开户质量进行异常识别并确定渠道异常评分。虚假交易异常识别模型308可以根据例如虚假交易数量、虚假交易历史信息等特征,对与渠道相关联的虚假交易进行异常识别并确定渠道异常评分。
[0063] 类似地,可以将渠道异常评分与一个或多个阈值进行比较。当评分高于某个阈值时,对应的样本即被标识为具有相应风险的样本。经标识的样本可被加入到原有的黑样本中。根据一示例,也可以仅将高风险级别的样本加入到原有的黑样本中。
[0064] 通过例如作业异常识别模型304、开户质量异常识别模型306、虚假交易异常识别模型308等中的一者或多者或其任何组合,无监督学习模块302可以针对渠道进行商户拓展的整个链路中的各个关键环节进行异常检测,以实现对风险样本的有效扩充。
[0065] 图5示出了根据本公开一示例性方面的通过半监督学习来进行风险样本的扩充的装置500的示图。通过半监督学习来进行风险样本扩充可以在例如通过无监督学习对风险样本进行扩充之后进行,但本公开并不被限定于此。例如,通过半监督学习来进行风险样本的扩充的装置500也可以在不进行无监督学习的情况下进行。
[0066] 半监督学习模块502可以包括标签传播模块504、团伙识别模块506、主动学习模块508中的一者或多者或其任何组合。
[0067] 根据一示例性实施例,半监督学习模块502可以使用标签传播模块504来进行标签传播。标签传播属于半监督学习。在半监督学习中,可以使用大量未标记样本和少量经标记样本来训练模型。
[0068] 根据本公开的一个示例性方面,半监督学习模块502可以构建以渠道为节点、介质关系为边的有向图。图6示出了根据本公开一示例性方面的由半监督学习模块502构建的有向图600。
[0069] 如所可见,在初始状态,仅有少量节点(例如,渠道)是经标记的。在每次传播迭代中,每个节点可将自己的标签更新为其多数邻居所具有的标签。例如,如从图6的示例中所可见,起初仅有两个节点是经标记的。在第一轮迭代中,这些标签被传播到一跳的节点;在第二轮迭代中,这些标签被传播到下一跳的节点;依此类推,直至收敛或满足其他的停止条件。例如,当每个节点都已具有其多数邻居所具有的标签时,可以认为标签传播达到收敛。又如,可以设定迭代次数阈值,从而一旦到达此阈值,即便标签传播尚未达到收敛,也停止迭代。
[0070] 通过标签传播,半监督学习模块502可以从当前识别出的高危服务商或者众包样本(例如,经标记节点)出发,沿介质关系的边来关联与现有黑样本关系紧密的样本。当关联出与现有黑样本关系紧密的可疑样本时,半监督学习模块502可以计算可疑样本的黑浓度。黑浓度包括相应渠道的商户中被确定为虚假商户和/或虚假交易的商户和/或交易的比例。
例如,黑浓度可以包括该渠道的虚假商户占该渠道的所有商户之比,或者该渠道的所有商户的虚假交易占该渠道的所有商户的所有交易之比,或者是这两者的各种组合(例如,加权组合等)。
[0071] 在标签传播和黑浓度计算之后,半监督学习模块502可以通过使用团伙识别模块506基于浓度阈值来确定扩展黑样本和/或进行团伙识别。例如,半监督学习模块502可以将所计算出的黑浓度高于浓度阈值的样本扩展为黑样本。如此关联出的与特定的现有黑样本关系紧密的扩展黑样本可被认为与该特定的现有黑样本属于同一黑团伙。
[0072] 另一方面,半监督学习模块502可以通过使用主动学习模块508来进行主动学习。例如,主动学习可以包括通过算法来确定最有用的未标记样本,并交由专家进行标记。此类算法可以包括各种分类算法。
[0073] 在由专家对这些最有用的未标记样本进行标记之后,可以把这些样本加入到模型中来进行迭代查询。主动学习可以提高模型准确率,同时也能够矫正初始模型中未识别的样本特征刻画。主动学习可以在基于标签传播的团伙识别之前、期间和/或之后进行。
[0074] 图7示出了根据本公开一示例性方面的通过有监督学习来进行风险评分构建的装置700的示图。通过有监督学习来进行风险评分构建可包括使用有监督学习模块702来进行风险评分构建。通过有监督学习来进行风险样本构建可以在例如通过无监督学习和/或半监督学习对风险样本进行扩充之后进行,但本公开并不被限定于此。
[0075] 有监督学习模块702可以包括渠道风险提取模块704、分类模型构建模块706、模型评分模块708中的一者或多者或其任何组合。
[0076] 根据一示例性实施例,渠道风险提取模块704可以用于从样本数据提取渠道风险相关的特征,诸如包括但不限于前述各种与渠道的风险有关的特征。
[0077] 根据一示例性实施例,分类模型构建模块706可以例如基于如上所述地扩充后的样本来构建分类模型。分类模型可包括但不限于例如逻辑回归模型或ps-smart(参数服务器-可伸缩多棵加性回归树)模型等。所提取的渠道风险可以是该分类模型的相应维度。
[0078] 图8示出了根据本公开一示例的分类模型800的示例。分类模型可以是二分类的(如图所示)或多分类的(图中未示出),但本公开并不被限定于此。尽管图中示出了两个风险特征维度,但是本公开并不被限定于此,而是可以包括更多或更少的风险特征维度。
[0079] 回到图7,分类模型构建模块706在建立初始分类模型之后用扩充后的样本作为训练数据来训练该分类模型。在分类模型是二分类的实施例中,分类结果可以包括有风险和无风险。而在分类模型是多分类的实施例中,分类结果可以包括多个(例如,大于等于3个)风险级别,其中每个风险级别可以包括相应的风险评分。
[0080] 根据一示例性实施例,模型评分模块708通过使用经训练的分类模型对输入的渠道样本进行分类,就可以得到与样本对应的风险评分。
[0081] 图9示出了根据一示例的特定渠道在不同阶段上的风险评分的示图。这些评分可以使用以上结合上文描述的装置或模块等来获得。图9的(a)可以与例如一渠道A在不同阶段上的风险评分相关,而图9的(b)可以与另一渠道B在不同阶段上的风险评分相关。
[0082] 如所可见,渠道A在起初的阶段风险评分较低(例如,低风险),而后风险评分增高(例如,高风险)。渠道B在起初阶段的风险评分较高(例如,高风险),而后风险评分降低(例如,低风险)。渠道在一特定阶段的风险评分代表了该渠道在该特定阶段的风险级别。
[0083] 作出风险评分的时间窗口(横轴)可以根据具体的应用场景来确定。例如,根据一示例,该时间窗口可以包括但不限于一分钟、一小时、一天、一周、一旬、一月、半年、一年等。
[0084] 根据一示例性方面,可以通过融合不同阶段的风险评分来得到渠道的最终风险评分。
[0085] 一般而言,在对渠道在不同时间窗口的风险评分进行融合时,可以使用加权求和的方法,以得到最终的风险评分。例如,较新近的时间窗口中的风险评分可被赋予较高的权重,而较早期的时间窗口中的风险评分可被赋予较低的权重。根据一示例,可以仅取近三旬的时间窗口T1、T2、T3中的风险评分P1、P2、P3以及附加地取历史窗口T0平均风险评分P0,并对这些风险评分进行融合,其中T3为当前窗口,T2为前一窗口,T1为再前一窗口,而T0则涵盖之前的所有历史。例如,可基于相应的权重W1、W2、W3以及W0分别对P1、P2、P3以及P0进行加权并将其求和以获得最终的风险评分R即 根据一示例,W3>W2>W1>W0,但本公开并不被限定于此。实际上,W1、W2、W3以及Wh的取值可以通过经验、应用场景、和/或模型或其任何组合来获得。时间窗口也不限于T1、T2、T3和历史窗口。
[0086] 图10示出了根据一示例性实施例的基于参数的修正模块1000的示图。该基于参数的修正模块1000可以是例如以上结合图2描述的修正模块250。根据一示例性实施例,基于参数的修正装置1000可以包括例如基础容忍模块1010、时间衰减模块1020、风险快速反馈模块1030、鲁棒性模块1040等或其任何组合。
[0087] 根据一示例性实施例,基础容忍模块1010可以通过提供容忍修正函数Ci来提供对低风险的基础容忍。例如,在示例场景中,一渠道起初仅拓展了两家商户,然而这两家商户都是虚假商户,或者商户的虚假刷单交易的比例较高。此时,系统可以容忍此类低风险情况。然而,当该渠道拓展的商户数量增加到一定的程度(例如,超过一定的阈值)时,如果虚假商户和/或虚假刷单交易的数量和/或比例仍然较高,则系统将视其为高风险情况。
[0088] 图11示出了根据一示例性实施例的容忍修正函数Ci的曲线图。根据一示例性而非限定性示例,容忍修正函数Ci可以用在渠道拓展商户数量较少(例如,低于阈值)时值较小(例如,接近于0),而在该渠道拓展商户数量增多(例如,高于阈值)时迅速值升高(例如,接近于1)的函数来实现。
[0089] 例如,根据一示例,容忍修正函数Ci可以计算为Ci=1/(1+α*exp(-β*Ni)),其中Ni是该渠道对应的拓展商户数量或拓展商户下的交易数量。当Ni较小时,修正函数Ci可以接近于0,而当Ni大于一定阈值时,容忍修正函数Ci可以接近于1。通过调整参数α和β可以调整修正曲线的平滑程度和斜率。
[0090] 根据一示例性实施例,时间衰减模块1020可以通过提供时间衰减修正函数Di来提供动态更新能力。时间衰减模块1020可以使得距离当前阶段越远(例如,越陈旧)的风险评分越低以实现动态更新的目的。
[0091] 例如,根据一示例,时间衰减修正函数Di可以计算为Di=exp(-γ*T),其中T是距离当前时间窗口的距离。在当前阶段(即,当前时间窗口),T=0,从而时间衰减修正函数Di=1。在当前阶段之前的时间窗口中,时间衰减修正函数Di<1,且历史越久远(即,离当前阶段越远)的阶段因T越大而导致时间衰减修正函数Di越小(例如,趋于0)。
[0092] 根据一示例性实施例,风险快速反馈模块1030可以通过提供风险快速反馈修正函数Qi来提供风险快速反馈,以在风险评分到达一定程度(例如,大于风险阈值)后,使得风险评分迅速上升。
[0093] 例如,根据一示例,风险快速反馈修正函数Qi可以计算为当Pi1,且随风险评分增大而迅速上升。参数δ可控制风险反馈的速度。
[0094] 根据一示例性实施例,鲁棒性模块1040可以通过提供对抗性修正函数Ti来提供风险对抗性。在一些场景中,部分具有高扩展能力(例如月均500家)的渠道可能历史上风险评分较高,但近期通过少量拓展有效商户(例如月均20家),导致近期风险评分迅速降低。系统应当能够察觉此类情形并防止渠道通过此类手段操纵风险评分。
[0095] 例如,根据一示例,对抗性修正函数Ti可以计算为当Ni/N预测≥k时,Ti=exp(0);否则(即,当Ni/N预测
[0096] 如结合图10所描述的基于参数的修正模块1000可以例如通过基础容忍模块1010获得容忍修正函数Ci,通过时间衰减模块1020获得时间衰减修正函数Di,通过风险快速反馈模块1030获得风险快速反馈修正函数Qi,和/或通过鲁棒性模块1040获得对抗性修正函数Ti。当获得一个或多个修正函数时,基于参数的修正模块1000可提供这些修正函数(例如,Ci、Di、Qi、Ti中的一者或多者或其任何组合),以便于评分融合模块可以将各阶段的风险评分融合起来。例如,最终评分可为
[0097] 图12示出了根据一示例性实施例的参数选择优化装置1300的示图。该参数选择优化模块1200可以例如包括参数初始化模块1210、待优化样本确定模块1220、优化目标函数确定模块1230、参数寻优模块1240中的一者或多者或其任何组合。
[0098] 根据一示例性实施例,参数初始化模块1210可以对例如上述基于参数的修正模块中所使用的参数进行初始化。例如,初始化可包括随机初始化。又如,初始化可包括经验初始化等。通过对例如各修正函数进行参数初始化设定,可以得到各渠道的初始风险评分和/或分级。
[0099] 根据一示例性实施例,待优化样本确定模块1220可以挑选待优化的风险分层样本。例如,待优化样本的挑选可以是自动的、半自动的、或人工的。自动或半自动的待优化样本挑选可以例如基于机器学习模型等。根据一示例性实施例,待优化样本可以基于业务规则或其他准则来挑选。例如,待优化样本可以包括分类不准确的样本。
[0100] 根据一示例性实施例,优化目标函数确定模块1230可以设定优化目标函数(或者成本函数等)。优化目标函数可以基于例如待优化样本上的准确性等。优化目标函数还可以包括正则项等以避免过拟合。
[0101] 根据一示例性实施例,参数寻优模块1240可以基于所确定的优化目标函数确定参数空间,以进行参数自动寻优。参数寻优可以通过各种方式来实现,包括但不限于例如梯度下降法以及各种进化算法,诸如遗传算法、差分演化算法、粒子群算法、人工蜂群算法等等。根据一示例,参数寻优模块1240可以通过使用PSO(粒子群算法)来实现。所要寻优的每个参数(例如,以上所描述的各种修正函数的参数等)可以作为一个粒子。每个粒子在搜索空间中单独地搜索最优解。所搜索到的最优解记为当前粒子的个体极值。将该个体极值与整个粒子群里的其他粒子共享,并将找到最优解的那个粒子的个体极值作为整个粒子群的当前全局最优解。相应地,粒子群中的所有粒子根据自己找到的当前个体极值和整个粒子群共享的当前全局最优解来调整自己,从而找到最优解。
[0102] 根据一示例,参数寻优的停止条件可以包括例如整体参数寻优后,待优化样本上的错误率有阈值程度的下降(例如,下降一半等)。参数寻优的停止条件还可包括例如收敛和/或迭代次数等。最终,参数寻优模块1240得到各修正函数的参数,以及最终的融合风险评分。
[0103] 图13示出了根据本公开一示例性方面的基于参数修正的渠道风险动态评分的方法1300的流程图。基于参数修正的渠道风险动态评分的方法1300可包括例如在框1310使用分类模型对渠道样本进行分类以获得相应阶段的渠道风险评分。根据一示例,风险评分可以包括例如一个或多个风险级别。根据另一示例,风险评分也可包括例如风险分数等。本公开在此方面不受限定。
[0104] 根据一示例,方法1300进一步包括,在框1320,基于修正函数对该渠道在各阶段的风险评分进行修正。修正函数可以包括例如容忍修正函数、时间衰减修正函数、风险快速反馈修正函数、对抗性修正函数等中的一者或多者或其任何组合,以提供各种修正。
[0105] 根据一示例,方法1300进一步包括,在框1330,对该渠道的经修正的各阶段风险评分进行融合。通过使用修正函数,阶段风险评分的融合具备一定的风险容忍性,动态更新,风险快速反馈,风险对抗性等优点,适合渠道风险管控场景的需求。
[0106] 图14示出了根据本公开一示例性方面的渠道风险动态分类模型的构建方法1400的流程图。渠道风险动态分类模型的构建方法1400可包括例如在框1410,对渠道黑样本进行扩充和纠偏。根据一示例,对渠道黑样本进行扩充和纠偏可以通过使用无监督学习和/或半监督学习来实现,如前文所描述。
[0107] 根据一示例,方法1400进一步包括,在框1420,基于经扩充和纠偏的渠道黑样本构建分类模型。该分类模型可以用于对渠道样本进行分类以获得相应阶段的渠道风险评分。根据一示例,风险评分可以包括例如一个或多个风险级别。根据另一示例,风险评分也可包括例如风险分数等。本公开在此方面不受限定。
[0108] 在其他方面,本公开的方法可由各种装置来实现。此类装置的各个模块可被实现为硬件,诸如逻辑块、电路模块、通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程阵列(FPGA)或其他可编程逻辑器件、门或晶体管逻辑、硬件组件等或其任何组合。在进一步的方面,此类装置的各个模块也可被实现为软件、或者硬件与软件的组合(诸如,固件)。本公开在此方面并不受限定。
[0109] 本领域普通技术人员应理解,本发明的有益效果并非由任何单个实施例来全部实现。各种组合、修改和替换均为本领域普通技术人员在本发明的基础上所易于明了。
[0110] 此外,除非特别指出,否则术语“或”旨在表示包含性“或”而非排他性“或”。即,除非另外指明或从上下文能清楚地看出,否则短语“X采用A或B”或类似短语旨在表示任何自然的可兼排列。即,短语“X采用A或B”藉由以下实例中的任何实例得到满足:X采用A;X采用B;X采用A和B两者。术语“连接”与“耦合”可表示相同含义,即两组件之间直接的或经由一个或多个居间组件的间接耦合。另外,本申请和所附权利要求书中所用的冠词“一”和“某”一般应当被理解为表示“一个或多个”,除非另外特别声明或从上下文中可以清楚地看出是指单数形式。
[0111] 各个方面或特征以可包括数个设备、组件、模块及类似物等的系统的形式来呈现。应理解的时,各种系统可以包括附加的设备、组件、模块及类似物等,和/或可以并不包括所讨论的实施例中的设备、组件、模块及类似物的全体。
[0112] 结合本文中所公开的实施例描述的各种说明性逻辑、逻辑块、模块和电路可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、门或晶体管逻辑、硬件组件。但在替换方案中,处理器可以是任何常规的处理器、控制器微控制器或状态机。以上结合方法描述的实施例可以通过处理器和与之耦合的存储器来实现,其中处理器可被配置成执行前述任何方法的任何步骤或其组合。
[0113] 结合本文中的实施例描述的方法或算法的步骤和/或动作可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。例如,以上结合各个方法描述的实施例可以通过存储有计算机程序代码的计算机可读介质来实现,其中该计算机程序代码在由处理器/计算机执行时执行前述任何方法的任何步骤或其任何组合。
[0114] 本公开中通篇描述的各种方面的要素为本领域普通技术人员当前或今后所知的所有结构上和功能上等效的方案均被本公开所覆盖。此外,本文中任何内容无论是否在权利要求书中被述及,均并非旨在贡献给公众。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈