首页 / 专利分类库 / 电通信技术 / 电话通信 / 一种异常电话号码的识别方法、装置、设备和存储介质

一种异常电话号码的识别方法、装置、设备和存储介质

申请号 CN202210123984.7 申请日 2022-02-10 公开(公告)号 CN114449106B 公开(公告)日 2024-04-30
申请人 恒安嘉新(北京)科技股份公司; 发明人 崔鹏翔; 李智; 董玉强; 尚程; 潘宝宝; 卢桂龙; 傅强; 梁彧; 蔡琳; 杨满智; 王杰; 田野; 金红; 陈晓光;
摘要 本 发明 实施例 公开了一种异常电话号码的识别方法、装置、设备和存储介质。该方法包括:获取待识别电话号码在监控时长内的话单数据集,并获取每个话单数据在各第一类特征下的第一类特征值;根据与各所述第一类特征匹配的异常通话筛选条件,在所述话单数据集中筛选出多个异常话单数据;获取各所述异常话单数据在各第二类特征下的第二类特征值;将各异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中,获取所述待识别电话号码是否为异常号码的识别结果。本发明实施例,解决了电话诈骗时效性较低和 覆盖 面不足的问题,实现了对电话诈骗行为进行及时有效的打击,提高了诈骗预警时效性。
权利要求

1.一种异常电话号码的识别方法,其特征在于,包括:
获取待识别电话号码在监控时长内的话单数据集,并获取每个话单数据在各第一类特征下的第一类特征值,第一类特征为各异常电话号码间的共性特征;
根据与各所述第一类特征匹配的异常通话筛选条件,在所述话单数据集中筛选出多个异常话单数据;
获取各所述异常话单数据在各第二类特征下的第二类特征值,第二类特征为异常电话号码与正常电话号码间的差异特征;
将各异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中,获取所述待识别电话号码是否为异常号码的识别结果;
在获取待识别电话号码在监控时长内的话单数据集之前,还包括:
获取多个异常电话号码,并获取各所述异常电话号码在历史时间区间内的第一历史话单数据集;
根据各所述异常电话号码的第一历史话单数据集,确定各个第一类特征以及与各所述第一类特征匹配的异常通话筛选条件;
在全量话单数据中,筛选出满足各所述异常通话筛选条件的多个正常电话号码,以及各所述正常电话号码在历史时间区间内的第二历史话单数据集;
根据各所述第一历史话单数据集以及所述第二历史话单数据集,确定各所述第二类特征;
在将各异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中之前,还包括:
根据与各第一类特征匹配的异常通话筛选条件,对各所述异常电话号码的第一历史话单数据集进行筛选,获取与目标异常电话号码对应的第三历史话单数据集;
根据各所述第三历史话单数据集,分别获取与每个目标异常电话号码分别对应的第一类特征值和第二类特征值,形成正样本数据集;
根据各所述第二历史话单数据集,分别获取与每个正常电话号码分别对应的第一类特征值和第二类特征值,形成负样本数据集;
使用所述正样本数据集和所述负样本数据集,对预设的机器学习模型进行训练,得到所述异常电话号码识别模型。
2.根据权利要求1所述的方法,其特征在于,根据各所述异常电话号码的第一历史话单数据集,确定各个第一类特征以及与各所述第一类特征匹配的异常通话筛选条件,包括:
获取每个异常电话号码的第一历史话单数据在全部特征下的特征值;
根据各所述异常电话号码在同一特征下的特征值,形成与每个特征分别对应的特征值分布;
获取满足特征值聚合分布条件的各特征,作为所述第一类特征;
根据各所述第一类特征的特征值分布状态,确定与各所述第一类特征分别对应的异常通话筛选条件。
3.根据权利要求1所述的方法,其特征在于,根据各所述第一历史话单数据集以及所述第二历史话单数据集,确定所述第二类特征,包括:
获取各所述第一历史话单数据集以及所述第二历史话单数据集在全部特征下的特征值;
将所述特征值输入至特征重要性模型中,进行特征筛选,得到所述特征值的重要性;
根据各所述第一历史话单数据集以及所述第二历史话单数据集的所述特征值的重要性,去除所述特征值在各所述第一历史话单数据集以及所述第二历史话单数据集中关联性强的特征,得到所述第二类特征。
4.根据权利要求1所述的方法,其特征在于,所述第一类特征包括下述至少一项:
异常电话号码的开户时间、异地漫游以及主叫地理位置信息;
所述第二类特征包括下述至少一项:
平均通话时间、主叫通话时间段以及当前时间段话单量比例。
5.根据权利要求1‑4任一项所述的方法,其特征在于,在获取所述待识别电话号码是否为异常号码的识别结果之后,还包括:
将对所述待识别电话号码的识别结果发送至检验平台,获取所述检验平台返回的校验结果;
如果确定所述校验结果与所述识别结果不匹配,则根据所述待识别电话号码的所述第一类特征值和第二类特征值,构建新的训练样本;
使用所述训练样本,对所述异常电话号码识别模型进行模型更新。
6.一种异常电话号码的识别装置,其特征在于,包括:
第一类特征值获取模,用于获取待识别电话号码在监控时长内的话单数据集,并获取每个话单数据在各第一类特征下的第一类特征值,第一类特征为各异常电话号码间的共性特征;
异常话单数据筛选模块,用于根据与各所述第一类特征匹配的异常通话筛选条件,在所述话单数据集中筛选出多个异常话单数据;
第二类特征值获取模块,用于获取各所述异常话单数据在各第二类特征下的第二类特征值,第二类特征为异常电话号码与正常电话号码间的差异特征;
识别结果获取模块,用于将各异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中,获取所述待识别电话号码是否为异常号码的识别结果;
所述装置,还包括:异常电话号码获取模块;所述异常电话号码获取模块,包括:
第一历史话单数据集获取单元,用于在获取待识别电话号码在监控时长内的话单数据集之前,获取多个异常电话号码,并获取各所述异常电话号码在历史时间区间内的第一历史话单数据集;
第二历史话单数据集获取单元,用于在全量话单数据中,筛选出满足各所述异常通话筛选条件的多个正常电话号码,以及各所述正常电话号码在历史时间区间内的第二历史话单数据集;
第二类特征确定单元,用于根据各所述第一历史话单数据集以及所述第二历史话单数据集,确定各所述第二类特征;
所述装置,还包括:第三历史话单数据集获取模块,具体用于:
在将各异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中之前,根据与各第一类特征匹配的异常通话筛选条件,对各所述异常电话号码的第一历史话单数据集进行筛选,获取与目标异常电话号码对应的第三历史话单数据集;
根据各所述第三历史话单数据集,分别获取与每个目标异常电话号码分别对应的第一类特征值和第二类特征值,形成正样本数据集;
根据各所述第二历史话单数据集,分别获取与每个正常电话号码分别对应的第一类特征值和第二类特征值,形成负样本数据集;
使用所述正样本数据集和所述负样本数据集,对预设的机器学习模型进行训练,得到所述异常电话号码识别模型。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1‑5中任一项所述的异常电话号码的识别方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1‑5中任一所述的异常电话号码的识别方法。

说明书全文

一种异常电话号码的识别方法、装置、设备和存储介质

技术领域

[0001] 本发明实施例涉及计算机数据处理技术,尤其涉及一种异常电话号码的识别方法、装置、设备和存储介质。

背景技术

[0002] 近年来,随着我国在通信领域加大投入,通信行业飞速发展,电话系统、互联网等通信技术的普及使人们可以随时随地实现远距离联络,人们相互联系的频率越来越高,并且覆盖的年龄段也越来越广泛。与此同时,诈骗分子在网络上以交友,婚恋的名义进行诈骗的事件不断增加,诈骗分子通过电话,微信等博得受害人信任后,诱骗受害人参与网络赌博,投资或伪造理由借钱,开店要求送礼等等,给社会和人民生活带来极大危害。
[0003] 发明人在发明过程中,发现现有技术缺陷为:当前大多传统的反欺诈方法采用人工或简单模型筛查规则生成反欺诈决策实现反诈业务需求,时效性和覆盖面不足,分析效率低,难以24小时全天候即时提供反诈通知,预警时效性不足,协同办案流程长,导致犯罪过程无法及时拦截,不能及时有效的打击诈骗行为。

发明内容

[0004] 本发明实施例提供一种异常电话号码的识别方法、装置、设备和存储介质,可以适用于对异常电话号码识别的场景中,实现了对电话诈骗行为进行及时有效的打击。
[0005] 第一方面,本发明实施例提供了一种异常电话号码的识别方法,其中,包括:
[0006] 获取待识别电话号码在监控时长内的话单数据集,并获取每个话单数据在各第一类特征下的第一类特征值,第一类特征为各异常电话号码间的共性特征;
[0007] 根据与各所述第一类特征匹配的异常通话筛选条件,在所述话单数据集中筛选出多个异常话单数据;
[0008] 获取各所述异常话单数据在各第二类特征下的第二类特征值,第二类特征为异常电话号码与正常电话号码间的差异特征;
[0009] 将各异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中,获取所述待识别电话号码是否为异常号码的识别结果。
[0010] 第二方面,本发明实施例还提供了一种异常电话号码的识别装置,该异常电话号码的识别装置包括:
[0011] 第一类特征值获取模,用于获取待识别电话号码在监控时长内的话单数据集,并获取每个话单数据在各第一类特征下的第一类特征值,第一类特征为各异常电话号码间的共性特征;
[0012] 异常话单数据筛选模块,用于根据与各所述第一类特征匹配的异常通话筛选条件,在所述话单数据集中筛选出多个异常话单数据;
[0013] 第二类特征值获取模块,用于获取各所述异常话单数据在各第二类特征下的第二类特征值,第二类特征为异常电话号码与正常电话号码间的差异特征;
[0014] 识别结果获取模块,用于将各异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中,获取所述待识别电话号码是否为异常号码的识别结果。
[0015] 第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如本发明任意实施例所述的异常电话号码的识别方法。
[0016] 第四方面,本发明实施例还提供了一种包含计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现如本发明任意实施例所述的异常电话号码的识别方法。
[0017] 本发明实施例所提供的技术方案,通过获取待识别电话号码在监控时长内的话单数据集,并获取每个话单数据在各第一类特征下的第一类特征值,第一类特征为各异常电话号码间的共性特征;根据与各所述第一类特征匹配的异常通话筛选条件,在所述话单数据集中筛选出多个异常话单数据;获取各所述异常话单数据在各第二类特征下的第二类特征值,第二类特征为异常电话号码与正常电话号码间的差异特征;将各异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中,获取所述待识别电话号码是否为异常号码的识别结果。解决了电话诈骗时效性较低和覆盖面不足的问题,实现了对电话诈骗行为进行及时有效的打击,提高了诈骗预警时效性。附图说明
[0018] 图1为本发明实施例一提供的一种异常电话号码的识别方法的流程图
[0019] 图2为本发明实施例二提供的另一种异常电话号码的识别方法的流程图;
[0020] 图3是本发明实施例三提供的一种异常电话号码的识别装置的结构示意图;
[0021] 图4是本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

[0022] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0023] 实施例一
[0024] 图1为本发明实施例一提供的一种异常电话号码的识别方法的流程图。本实施例可适用于识别电话号码是否为异常电话号码的情况。本实施例的方法可以由异常电话号码的识别装置执行,该装置可以通过软件和/或硬件的方式实现,该装置可配置于服务器或终端设备等计算机设备中。
[0025] 相应的,该方法具体包括如下步骤:
[0026] S110、获取待识别电话号码在监控时长内的话单数据集,并获取每个话单数据在各第一类特征下的第一类特征值,第一类特征为各异常电话号码间的共性特征。
[0027] 其中,话单数据集可以是在一定的周期内,获取待识别电话号码的话单数据。第一类特征可以是各异常电话号码间的共性特征,第一类特征可以包括异常电话号码的开户时间、异地漫游以及主叫地理位置信息等特征。第一类特征值可以是第一类特征对应的特征值,具体的,第一类特征值可以包括异常电话号码的开户时间具体为1个月、以及主叫地理位置信息位于X省A市等。
[0028] S120、根据与各所述第一类特征匹配的异常通话筛选条件,在所述话单数据集中筛选出多个异常话单数据。
[0029] 其中,异常通话筛选条件为对待识别电话号码判别为异常通话,所对应的筛选条件。具体为,异常电话号码的开户时间为0‑3个月可能是异常电话号码、以及主叫地理位置信息位于欠发达地区可能是异常电话号码等。异常话单数据可以是该待识别电话号码的话单数据存在异常。
[0030] S130、获取各所述异常话单数据在各第二类特征下的第二类特征值,第二类特征为异常电话号码与正常电话号码间的差异特征。
[0031] 其中,第二类特征可以是异常电话号码与正常电话号码间的差异特征,可以具体包括平均通话时间、主叫通话时间段以及当前时间段话单量比例等特征。第二类特征值可以是第二类特征对应的特征值,具体的,第二类特征值可以包括平均通话时间为20s、主叫通话时间段为每天的18:00‑20:00点、以及当前时间段话单量比例30%。
[0032] 示例性的,获取各异常话单数据在各第二类特征下的第二类特征值。具体的,异常电话号码的第二类特征值可以包括平均通话时间为400s左右;主叫通话时间段为每天的18:00‑20:00点概率为60%,为非工作时间段;以及当前时间段话单量比例具体为,最近10天话单量占最近30天话单量的比例为80%。
[0033] 进一步的,正常电话号码的第二类特征值可以包括平均通话时间为50s左右;主叫通话时间段为每天的18:00‑20:00点概率为30%,为非工作时间段;以及当前时间段话单量比例具体为,最近10天话单量占最近30天话单量的比例为30%。
[0034] 可选的,所述第一类特征包括下述至少一项:异常电话号码的开户时间、异地漫游以及主叫地理位置信息;所述第二类特征包括下述至少一项:平均通话时间、主叫通话时间段以及当前时间段话单量比例。
[0035] 其中,异常电话号码的开户时间为该异常电话号码开始使用的时间。异地漫游可以是该电话号码开户地为X省A市,而漫游地在Y省B市。主叫地理位置信息为该电话号码主要呼叫的地理位置,也即接电话的手机号码的地理位置。
[0036] 其中,平均通话时间可以是该电话号码在一定的周期内,通话时间的平均值。主叫通话时间段可以是该电话号码拨打电话的具体时间段。当前时间段话单量比例可以是在当前时间段通话时间占一个周期的比例,具体的,该电话号码在近三天的通话时间占一个月的通话时间的比例。
[0037] 这样设置的好处在于:通过设置第一类特征和第二类特征,可以进一步地对待识别电话号码进行筛选,从而使得判别结果更加准确。
[0038] S140、将各异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中,获取所述待识别电话号码是否为异常号码的识别结果。
[0039] 其中,异常电话号码识别模型可以将待识别电话号码进行是否异常判别的模型。
[0040] 在本实施例中,通过将异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中,经过异常电话号码识别模型的处理,可以获得待识别电话号码属于正常电话号码,或者属于异常电话号码。
[0041] 本发明实施例所提供的技术方案,通过获取待识别电话号码在监控时长内的话单数据集,并获取每个话单数据在各第一类特征下的第一类特征值,第一类特征为各异常电话号码间的共性特征;根据与各所述第一类特征匹配的异常通话筛选条件,在所述话单数据集中筛选出多个异常话单数据;获取各所述异常话单数据在各第二类特征下的第二类特征值,第二类特征为异常电话号码与正常电话号码间的差异特征;将各异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中,获取所述待识别电话号码是否为异常号码的识别结果。解决了电话诈骗时效性较低和覆盖面不足的问题,实现了对电话诈骗行为进行及时有效的打击,提高了诈骗预警时效性。
[0042] 可选的,在获取所述待识别电话号码是否为异常号码的识别结果之后,还包括:将对所述待识别电话号码的识别结果发送至检验平台,获取所述检验平台返回的校验结果;如果确定所述校验结果与所述识别结果不匹配,则根据所述待识别电话号码的所述第一类特征值和第二类特征值,构建新的训练样本;使用所述训练样本,对所述异常电话号码识别模型进行模型更新。
[0043] 在本实施例中,将待识别电话号码的识别结果发送于检验平台,检验平台可以准确的判定该电话号码是否为异常的电话号码。进一步的,将从检验平台输出的校验结果与识别结果进行比较。如果确定校验结果与识别结果匹配,则输出该电话号码为正常电话号码或者异常电话号码。如果确定校验结果与识别结果不匹配,则根据待识别电话号码的第一类特征值和第二类特征值,构建新的训练样本;通过使用训练样本,对异常电话号码识别模型进行模型更新处理。
[0044] 这样设置的好处在于:通过判断校验结果与识别结果是否匹配,进一步的对异常电话号码识别模型进行模型更新处理,从而可以使得异常电话号码识别模型对电话号码判别更加准确。
[0045] 实施例二
[0046] 图2为本发明实施例二提供的一种异常电话号码的识别方法的流程图。本实施例以上述各实施例为基础进行优化,在本实施例中,在获取待识别电话号码在监控时长内的话单数据集之前,还包括:获取各所述异常电话号码在历史时间区间内的历史话单数据集。
[0047] 相应的,该方法具体包括如下步骤:
[0048] S210、获取多个异常电话号码,并获取与各所述异常电话号码在历史时间区间内的第一历史话单数据集。
[0049] 其中,第一历史话单数据集可以是各异常电话号码在历史时间区间内的话单数据。
[0050] S220、根据各所述异常电话号码的第一历史话单数据集,确定各个第一类特征以及与各所述第一类特征匹配的异常通话筛选条件。
[0051] 可选的,根据各所述异常电话号码的第一历史话单数据集,确定各个第一类特征以及与各所述第一类特征匹配的异常通话筛选条件,包括:获取每个异常电话号码的第一历史话单数据在全部特征下的特征值;根据各所述异常电话号码在同一特征下的特征值,形成与每个特征分别对应的特征值分布;获取满足特征值聚合分布条件的各特征,作为所述第一类特征;根据各所述第一类特征的特征值分布状态,确定与各所述第一类特征分别对应的异常通话筛选条件。
[0052] 其中,特征值聚合分布条件可以是将特征值进行聚合,需要满足的聚合分布条件。
[0053] 具体的,对得到的每个异常电话号码的第一历史话单数据在全部特征下的特征值,比如说,每个异常电话号码的开户时间、异地漫游以及主叫地理位置信息具体情况。根据各异常电话号码在同一特征下的特征值,具体为,异常电话号码A:异常电话号码的开户时间为1个月、属于异地漫游以及主叫地理位置信息为XX省M市;异常电话号码B:异常电话号码的开户时间为3年、属于异地漫游以及主叫地理位置信息为XX省M市;异常电话号码C:异常电话号码的开户时间为2个月、属于异地漫游以及主叫地理位置信息为XX省N市。形成与每个特征分别对应的特征值分布情况,获取满足特征值聚合分布条件的各特征,作为第一类特征;根据各第一类特征的特征值分布状态,确定与各第一类特征分别对应的异常通话筛选条件,可以设置为异常电话号码的开户时间为0‑3个月,属于异地漫游以及属于XX省M市。
[0054] 这样设置的好处在于:可以根据异常电话号码的第一历史话单数据,进行分析,得到相应的异常通话筛选条件,从而使得更加具体准确地对异常电话号码进行识别分析。
[0055] S230、在全量话单数据中,筛选出满足各所述异常通话筛选条件的多个正常电话号码,以及与各所述正常电话号码在历史时间区间内的第二历史话单数据集。
[0056] 其中,全量话单数据可以从运营商中获取某一周期的全部话单数据。第二历史话单数据集可以是各正常电话号码在一定的时间区间内的话单数据。
[0057] S240、根据各所述第一历史话单数据集以及所述第二历史话单数据集,确定各所述第二类特征。
[0058] 可选的,根据各所述第一历史话单数据集以及所述第二历史话单数据集,确定所述第二类特征,包括:获取各所述第一历史话单数据集以及所述第二历史话单数据集在全部特征下的特征值;将所述特征值输入至特征重要性模型中,进行特征筛选,得到所述特征值的重要性;根据各所述第一历史话单数据集以及所述第二历史话单数据集的所述特征值的重要性,去除所述特征值在各所述第一历史话单数据集以及所述第二历史话单数据集中关联性强的特征,得到所述第二类特征。
[0059] 其中,特征重要性模型可以获得到该特征值对应的重要程度。关联性强的特征可以是第一历史话单数据集以及第二历史话单数据集的特征值的差别不大。
[0060] 示例性的,根据第一历史话单数据集确定的特征值,可以包括平均通话时间为400s左右;主叫通话时间段为每天的18:00‑20:00点概率为60%,为非工作时间段;以及当前时间段话单量比例具体为,最近10天话单量占最近30天话单量的比例为80%;主叫通话时间段为每天的22:00‑24:00点概率为10%。
[0061] 进一步的,根据第二历史话单数据集确定的特征值,可以包括平均通话时间为50s左右;主叫通话时间段为每天的18:00‑20:00点概率为30%,为非工作时间段;以及当前时间段话单量比例具体为,最近10天话单量占最近30天话单量的比例为30%;主叫通话时间段为每天的22:00‑24:00点概率为10%。
[0062] 相应的,可以确定主叫通话时间段为每天的22:00‑24:00点概率为10%的特征值为第一历史话单数据集以及第二历史话单数据集中关联性强的特征,因此需要去除掉,剩下的特征值为关于第一历史话单数据集以及第二历史话单数据的第二类特征值。
[0063] 这样设置的好处在于:通过将第一历史话单数据集以及第二历史话单数据的关联性强的特征值去除掉,得到相应的第二类特征值,从而可以使得得到的第二类特征值更加精确,从而能够更加准确的对电话号码进行判别操作。
[0064] S250、获取待识别电话号码在监控时长内的话单数据集,并获取每个话单数据在各第一类特征下的第一类特征值,第一类特征为各异常电话号码间的共性特征。
[0065] S260、根据与各所述第一类特征匹配的异常通话筛选条件,在所述话单数据集中筛选出多个异常话单数据。
[0066] S270、获取各所述异常话单数据在各第二类特征下的第二类特征值,第二类特征为异常电话号码与正常电话号码间的差异特征。
[0067] S280、将各异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中,获取所述待识别电话号码是否为异常号码的识别结果。
[0068] 可选的,在将各所述异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中之前,还包括:根据与各第一类特征匹配的异常通话筛选条件,对各所述异常电话号码的第一历史话单数据集进行筛选,获取与目标异常电话号码对应的第三历史话单数据集;根据各所述第三历史话单数据集,分别获取与每个目标异常电话号码分别对应的第一类特征值和第二类特征值,形成正样本数据集;根据各所述第二历史话单数据集,分别获取与每个正常电话号码分别对应的第一类特征值和第二类特征值,形成负样本数据集;使用所述正样本数据集和所述负样本数据集,对预设的机器学习模型进行训练,得到所述异常电话号码识别模型。
[0069] 其中,第三历史话单数据集可以是根据异常通话筛选条件,对各异常电话号码的第一历史话单数据集进行筛选,得到的历史话单数据。正样本数据集可以是异常电话号码的数据集。负样本数据集可以是正常电话号码的数据集。
[0070] 这样设置的好处在于:通过获取得到正样本数据集和负样本数据集来对异常电话号码识别模型进行训练,从而使得异常电话号码识别模型能够对电话号码是否属于异常电话号码进行识别,识别结果更加准确,而且能够及时地对电话号码进行判别操作。
[0071] 本发明实施例所提供的技术方案,通过获取多个异常电话号码,并获取与各所述异常电话号码在历史时间区间内的第一历史话单数据集;根据各所述异常电话号码的第一历史话单数据集,确定各个第一类特征以及与各所述第一类特征匹配的异常通话筛选条件;在全量话单数据中,筛选出满足各所述异常通话筛选条件的多个正常电话号码,以及与各所述正常电话号码在历史时间区间内的第二历史话单数据集;根据各所述第一历史话单数据集以及所述第二历史话单数据集,确定各所述第二类特征;获取待识别电话号码在监控时长内的话单数据集,并获取每个话单数据在各第一类特征下的第一类特征值,第一类特征为各异常电话号码间的共性特征;根据与各所述第一类特征匹配的异常通话筛选条件,在所述话单数据集中筛选出多个异常话单数据;获取各所述异常话单数据在各第二类特征下的第二类特征值,第二类特征为异常电话号码与正常电话号码间的差异特征;将各异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中,获取所述待识别电话号码是否为异常号码的识别结果。从而使得异常电话号码识别模型能够对电话号码是否属于异常电话号码进行识别,识别结果更加准确,而且能够及时地对电话号码进行判别操作,提高了诈骗预警时效性。
[0072] 实施例三
[0073] 图3是本发明实施例三提供的一种异常电话号码的识别装置的结构示意图,本实施例所提供的一种异常电话号码的识别装置可以通过软件和/或硬件来实现,可配置于服务器或者终端设备中来实现本发明实施例中的一种异常电话号码的识别方法。如图3所示,该装置具体可包括:第一类特征值获取模块310、异常话单数据筛选模块320、第二类特征值获取模块330和识别结果获取模块340。
[0074] 其中,第一类特征值获取模块310,用于获取待识别电话号码在监控时长内的话单数据集,并获取每个话单数据在各第一类特征下的第一类特征值,第一类特征为各异常电话号码间的共性特征;
[0075] 异常话单数据筛选模块320,用于根据与各所述第一类特征匹配的异常通话筛选条件,在所述话单数据集中筛选出多个异常话单数据;
[0076] 第二类特征值获取模块330,用于获取各所述异常话单数据在各第二类特征下的第二类特征值,第二类特征为异常电话号码与正常电话号码间的差异特征;
[0077] 识别结果获取模块340,用于将各异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中,获取所述待识别电话号码是否为异常号码的识别结果。
[0078] 本发明实施例所提供的技术方案,通过获取待识别电话号码在监控时长内的话单数据集,并获取每个话单数据在各第一类特征下的第一类特征值,第一类特征为各异常电话号码间的共性特征;根据与各所述第一类特征匹配的异常通话筛选条件,在所述话单数据集中筛选出多个异常话单数据;获取各所述异常话单数据在各第二类特征下的第二类特征值,第二类特征为异常电话号码与正常电话号码间的差异特征;将各异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中,获取所述待识别电话号码是否为异常号码的识别结果。解决了电话诈骗时效性较低和覆盖面不足的问题,实现了对电话诈骗行为进行及时有效的打击,提高了诈骗预警时效性。
[0079] 在上述各实施例的基础上,还包括,异常电话号码获取模块,可以具体包括:第一历史话单数据集获取单元,用于在获取待识别电话号码在监控时长内的话单数据集之前,获取多个异常电话号码,并获取与各所述异常电话号码在历史时间区间内的第一历史话单数据集;第一类特征确定单元,用于根据各所述异常电话号码的第一历史话单数据集,确定各个第一类特征以及与各所述第一类特征匹配的异常通话筛选条件;第二历史话单数据集获取单元,用于在全量话单数据中,筛选出满足各所述异常通话筛选条件的多个正常电话号码,以及与各所述正常电话号码在历史时间区间内的第二历史话单数据集;第二类特征确定单元,用于根据各所述第一历史话单数据集以及所述第二历史话单数据集,确定各所述第二类特征。
[0080] 在上述各实施例的基础上,第一类特征确定单元,可以具体用于:获取每个异常电话号码的第一历史话单数据在全部特征下的特征值;根据各所述异常电话号码在同一特征下的特征值,形成与每个特征分别对应的特征值分布;获取满足特征值聚合分布条件的各特征,作为所述第一类特征;根据各所述第一类特征的特征值分布状态,确定与各所述第一类特征分别对应的异常通话筛选条件。
[0081] 在上述各实施例的基础上,第二类特征确定单元,可以具体用于:获取各所述第一历史话单数据集以及所述第二历史话单数据集在全部特征下的特征值;将所述特征值输入至特征重要性模型中,进行特征筛选,得到所述特征值的重要性;根据各所述第一历史话单数据集以及所述第二历史话单数据集的所述特征值的重要性,去除所述特征值在各所述第一历史话单数据集以及所述第二历史话单数据集中关联性强的特征,得到所述第二类特征。
[0082] 在上述各实施例的基础上,还包括,第三历史话单数据集获取模块,可以具体用于:在将各所述异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中之前,根据与各第一类特征匹配的异常通话筛选条件,对各所述异常电话号码的第一历史话单数据集进行筛选,获取与目标异常电话号码对应的第三历史话单数据集;根据各所述第三历史话单数据集,分别获取与每个目标异常电话号码分别对应的第一类特征值和第二类特征值,形成正样本数据集;根据各所述第二历史话单数据集,分别获取与每个正常电话号码分别对应的第一类特征值和第二类特征值,形成负样本数据集;使用所述正样本数据集和所述负样本数据集,对预设的机器学习模型进行训练,得到所述异常电话号码识别模型。
[0083] 在上述各实施例的基础上,可以具体用于:所述第一类特征包括下述至少一项:异常电话号码的开户时间、异地漫游以及主叫地理位置信息;所述第二类特征包括下述至少一项:平均通话时间、主叫通话时间段以及当前时间段话单量比例。
[0084] 在上述各实施例的基础上,还包括,模型更新获取模块,可以具体用于:在获取所述待识别电话号码是否为异常号码的识别结果之后,将对所述待识别电话号码的识别结果发送至检验平台,获取所述检验平台返回的校验结果;如果确定所述校验结果与所述识别结果不匹配,则根据所述待识别电话号码的所述第一类特征值和第二类特征值,构建新的训练样本;使用所述训练样本,对所述异常电话号码识别模型进行模型更新。
[0085] 上述异常电话号码的识别装置可执行本发明任意实施例所提供的异常电话号码的识别方法,具备执行方法相应的功能模块和有益效果。
[0086] 实施例四
[0087] 图4是本发明实施例四提供的一种计算机设备的结构图。如图4所示,该设备包括处理器410、存储器420、输入装置430和输出装置440;设备中处理器410的数量可以是一个或多个,图4中以一个处理器410为例;设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线连接为例。
[0088] 存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的异常电话号码的识别方法对应的程序指令/模块(例如,第一类特征值获取模块310、异常话单数据筛选模块320、第二类特征值获取模块330和识别结果获取模块340)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的异常电话号码的识别方法,该方法包括:获取待识别电话号码在监控时长内的话单数据集,并获取每个话单数据在各第一类特征下的第一类特征值,第一类特征为各异常电话号码间的共性特征;根据与各所述第一类特征匹配的异常通话筛选条件,在所述话单数据集中筛选出多个异常话单数据;获取各所述异常话单数据在各第二类特征下的第二类特征值,第二类特征为异常电话号码与正常电话号码间的差异特征;将各异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中,获取所述待识别电话号码是否为异常号码的识别结果。
[0089] 存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0090] 输入装置430可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
[0091] 实施例五
[0092] 本发明实施例五还提供一种包含计算机可读存储介质,所述计算机可读指令在由计算机处理器执行时用于执行一种异常电话号码的识别方法,该方法包括:获取待识别电话号码在监控时长内的话单数据集,并获取每个话单数据在各第一类特征下的第一类特征值,第一类特征为各异常电话号码间的共性特征;根据与各所述第一类特征匹配的异常通话筛选条件,在所述话单数据集中筛选出多个异常话单数据;获取各所述异常话单数据在各第二类特征下的第二类特征值,第二类特征为异常电话号码与正常电话号码间的差异特征;将各异常话单数据的第一类特征值和第二类特征值输入至预先训练的异常电话号码识别模型中,获取所述待识别电话号码是否为异常号码的识别结果。
[0093] 当然,本发明实施例所提供的一种包含计算机可读存储介质,其计算机可读指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的异常电话号码的识别方法中的相关操作。
[0094] 通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘只读存储器(Read‑Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0095] 值得注意的是,上述异常电话号码的识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
[0096] 注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
QQ群二维码
意见反馈