首页 / 专利库 / 门,大门和窗户 / 框架 / 一种电信诈骗库更新处理方法及装置

一种电信诈骗库更新处理方法及装置

阅读:290发布:2023-12-30

专利汇可以提供一种电信诈骗库更新处理方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 实施例 公开了一种电信诈骗库更新处理方法及装置,方法包括:将接收的主叫号码和电信诈骗库中的号码进行匹配,若匹配,则在核心网侧对主叫号码进行拦截;若未匹配电信诈骗库中的号码,则将主叫号码和疑似电信诈骗库中的号码进行匹配;若未匹配疑似电信诈骗库中的号码,则将主叫号码输入神经网络模型,并根据神经网络模型的输出结果确定主叫号码为诈骗号码,则将主叫号码添加至电信诈骗库。通过将接收的主叫号码和电信诈骗库以及疑似电信诈骗库进行匹配,当未匹配成功时输入神经网络模型进行验证,当根据输出结果确认为诈骗号码时将主叫号码添加至所述电信诈骗库,有效提高了电信诈骗识别的准确率,从而实现对电信诈骗行为的实时防控。,下面是一种电信诈骗库更新处理方法及装置专利的具体信息内容。

1.一种电信诈骗库更新处理方法,其特征在于,包括:
将接收的主叫号码和电信诈骗库中的号码进行匹配,若匹配所述电信诈骗库中的号码,则在核心网侧对所述主叫号码进行拦截;
若未匹配所述电信诈骗库中的号码,则将所述主叫号码和疑似电信诈骗库中的号码进行匹配;
若未匹配所述疑似电信诈骗库中的号码,则将所述主叫号码输入神经网络模型,接收所述神经网络模型的输出结果;
若根据所述输出结果确定所述主叫号码为诈骗号码,则将所述主叫号码添加至所述电信诈骗库。
2.根据权利要求1所述的方法,其特征在于,所述将所述主叫号码输入神经网络模型,接收所述神经网络模型的输出结果,具体包括:
获取运营商计费中心的历史话单数据以及核心网侧的历史通话数据,对所述历史话单数据和所述历史通话数据进行数据预处理,所述数据预处理包括:标记数据集、添加噪声、数据集标准化以及数据集划分;
使用深度学习框架建立神经网络模型,将正常通话的训练样本经过加噪后输入所述神经网络模型进行训练,根据所述历史通话数据学习正常通话的规律,待所述神经网络模型收敛后导出所述神经网络模型的权重;
将所述主叫号码输入所述神经网络模型,接收所述神经网络模型输出的重建数据,计算所述主叫号码与所述重建数据之间的重建误差,根据所述重建误差实时判别所述主叫号码是否为诈骗号码。
3.根据权利要求2所述的方法,其特征在于,所述神经网络模型包括1个输入层、8个隐藏层和1个输出层
其中,所述输入层包括32个神经元,所述输出层包括32个神经元,所述8个隐藏层中包括4层编码器和4层解码器
各编码器用于对输入的所述主叫号码进行压缩降维抽取各项多维运行参数的特征向量,将32维降至4维;
各解码器用于对压缩后的数据还原重建,根据抽取的特征向量对输入的各项运行参数进行重建。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若匹配所述疑似电信诈骗库中的号码,则生成提醒信息,并将所述提醒信息发送至所述主叫号码对应的被叫终端。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
接收所述被叫终端的反馈信息,并统计所述主叫号码对应的反馈信息;
若所述主叫号码对应的反馈信息为第一预设值的数量大于第一阈值,则将所述主叫号码添加至所述电信诈骗库;
若所述主叫号码对应的反馈信息为第二预设值的数量大于第二阈值,则将所述主叫号码从所述疑似电信诈骗库中移出。
6.一种电信诈骗库更新处理装置,其特征在于,包括:
号码拦截模,用于将接收的主叫号码和电信诈骗库中的号码进行匹配,若匹配所述电信诈骗库中的号码,则在核心网侧对所述主叫号码进行拦截;
号码匹配模块,用于若未匹配所述电信诈骗库中的号码,则将所述主叫号码和疑似电信诈骗库中的号码进行匹配;
模型检测模块,用于若未匹配所述疑似电信诈骗库中的号码,则将所述主叫号码输入神经网络模型,接收所述神经网络模型的输出结果;
诈骗库更新模块,用于若根据所述输出结果确定所述主叫号码为诈骗号码,则将所述主叫号码添加至所述电信诈骗库。
7.根据权利要求6所述的装置,其特征在于,所述模型检测模块具体包括:
预处理单元,用于获取运营商计费中心的历史话单数据以及核心网侧的历史通话数据,对所述历史话单数据和所述历史通话数据进行数据预处理,所述数据预处理包括:标记数据集、添加噪声、数据集标准化以及数据集划分;
模型训练单元,用于使用深度学习框架建立神经网络模型,将正常通话的训练样本经过加噪后输入所述神经网络模型进行训练,根据所述历史通话数据学习正常通话的规律,待所述神经网络模型收敛后导出所述神经网络模型的权重;
模型检测单元,用于将所述主叫号码输入所述神经网络模型,接收所述神经网络模型输出的重建数据,计算所述主叫号码与所述重建数据之间的重建误差,根据所述重建误差实时判别所述主叫号码是否为诈骗号码。
8.根据权利要求7所述的装置,其特征在于,所述神经网络模型包括1个输入层、8个隐藏层和1个输出层;
其中,所述输入层包括32个神经元,所述输出层包括32个神经元,所述8个隐藏层中包括4层编码器和4层解码器;
各编码器用于对输入的所述主叫号码进行压缩降维,抽取各项多维运行参数的特征向量,将32维降至4维;
各解码器用于对压缩后的数据还原重建,根据抽取的特征向量对输入的各项运行参数进行重建。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行如权利要求1至5任一所述的方法。

说明书全文

一种电信诈骗库更新处理方法及装置

技术领域

[0001] 本发明实施例涉及通信技术领域,具体涉及一种电信诈骗库更新处理方法及装置。

背景技术

[0002] 近年来电信诈骗活动非常猖獗,严重威胁人民群众的生命财产安全,严重影响社会稳定,已成为阻碍社会发展的毒瘤,从以往的盲打式诈骗到手握个人信息的精准式诈骗,诈骗分子的骗人手法、装备、技术都在不断更新,他们快速更换号码、快速变换手段,给电信欺诈防范带来了很大的难度。这些诈骗技术不仅迷惑性强,而且受骗人群也是涨船高,为应对不断“升级”的诈骗手段。
[0003] 现有电信诈骗识别的传统方法主要采用基于黑名单的诈骗库方式,但现有技术方案中无有效的电信诈骗库实时更新机制,大多数诈骗库需要定期从第三方平台更新数据,因此更新周期长、速度缓慢。
[0004] 运营商现有诈骗防范方法主要是通过“提醒彩印平台”实现用户在收到陌生来电的同时获知来电者是谁,以避免接听诈骗电话,给运营商的用户减少财产损失。“提醒彩印平台”是通过利用彩印平台对主被叫号码信息实时获取的能,当被叫用户接收到来电呼叫时,系统对来电号码自动和诈骗库进行特征信息识别,并在振铃界面以USSD或闪信的方式告知/提示,具体的组网方式如图1所示。
[0005] 现有诈骗库更新速度已远远跟不上诈骗号码的更换速度,使得现有诈骗库对电信诈骗活动的打击力度大打折扣,因此电信诈骗识别的及时性对于防范电信诈骗至关重要,同时目前电信诈骗识别方法中存在误报率高以及准确度低的问题,诈骗技术和手段迅速更新导致原有识别方法失效,现有技术已经无法准确的识别出变化多端的电信诈骗活动。

发明内容

[0006] 由于现有方法存在上述问题,本发明实施例提出一种电信诈骗库更新处理方法及装置。
[0007] 第一方面,本发明实施例提出一种电信诈骗库更新处理方法,包括:
[0008] 将接收的主叫号码和电信诈骗库中的号码进行匹配,若匹配所述电信诈骗库中的号码,则在核心网侧对所述主叫号码进行拦截;
[0009] 若未匹配所述电信诈骗库中的号码,则将所述主叫号码和疑似电信诈骗库中的号码进行匹配;
[0010] 若未匹配所述疑似电信诈骗库中的号码,则将所述主叫号码输入神经网络模型,接收所述神经网络模型的输出结果;
[0011] 若根据所述输出结果确定所述主叫号码为诈骗号码,则将所述主叫号码添加至所述电信诈骗库。
[0012] 可选地,所述将所述主叫号码输入神经网络模型,接收所述神经网络模型的输出结果,具体包括:
[0013] 获取运营商计费中心的历史话单数据以及核心网侧的历史通话数据,对所述历史话单数据和所述历史通话数据进行数据预处理,所述数据预处理包括:标记数据集、添加噪声、数据集标准化以及数据集划分;
[0014] 使用深度学习框架建立神经网络模型,将正常通话的训练样本经过加噪后输入所述神经网络模型进行训练,根据所述历史通话数据学习正常通话的规律,待所述神经网络模型收敛后导出所述神经网络模型的权重;
[0015] 将所述主叫号码输入所述神经网络模型,接收所述神经网络模型输出的重建数据,计算所述主叫号码与所述重建数据之间的重建误差,根据所述重建误差实时判别所述主叫号码是否为诈骗号码。
[0016] 可选地,所述神经网络模型包括1个输入层、8个隐藏层和1个输出层
[0017] 其中,所述输入层包括32个神经元,所述输出层包括32个神经元,所述8个隐藏层中包括4层编码器和4层解码器
[0018] 各编码器用于对输入的所述主叫号码进行压缩降维抽取各项多维运行参数的特征向量,将32维降至4维;
[0019] 各解码器用于对压缩后的数据还原重建,根据抽取的特征向量对输入的各项运行参数进行重建。
[0020] 可选地,所述方法还包括:
[0021] 若匹配所述疑似电信诈骗库中的号码,则生成提醒信息,并将所述提醒信息发送至所述主叫号码对应的被叫终端。
[0022] 可选地,所述方法还包括:
[0023] 接收所述被叫终端的反馈信息,并统计所述主叫号码对应的反馈信息;
[0024] 若所述主叫号码对应的反馈信息为第一预设值的数量大于第一阈值,则将所述主叫号码添加至所述电信诈骗库;
[0025] 若所述主叫号码对应的反馈信息为第二预设值的数量大于第二阈值,则将所述主叫号码从所述疑似电信诈骗库中移出。
[0026] 第二方面,本发明实施例还提出一种电信诈骗库更新处理装置,包括:
[0027] 号码拦截模,用于将接收的主叫号码和电信诈骗库中的号码进行匹配,若匹配所述电信诈骗库中的号码,则在核心网侧对所述主叫号码进行拦截;
[0028] 号码匹配模块,用于若未匹配所述电信诈骗库中的号码,则将所述主叫号码和疑似电信诈骗库中的号码进行匹配;
[0029] 模型检测模块,用于若未匹配所述疑似电信诈骗库中的号码,则将所述主叫号码输入神经网络模型,接收所述神经网络模型的输出结果;
[0030] 诈骗库更新模块,用于若根据所述输出结果确定所述主叫号码为诈骗号码,则将所述主叫号码添加至所述电信诈骗库。
[0031] 可选地,所述模型检测模块具体包括:
[0032] 预处理单元,用于获取运营商计费中心的历史话单数据以及核心网侧的历史通话数据,对所述历史话单数据和所述历史通话数据进行数据预处理,所述数据预处理包括:标记数据集、添加噪声、数据集标准化以及数据集划分;
[0033] 模型训练单元,用于使用深度学习框架建立神经网络模型,将正常通话的训练样本经过加噪后输入所述神经网络模型进行训练,根据所述历史通话数据学习正常通话的规律,待所述神经网络模型收敛后导出所述神经网络模型的权重;
[0034] 模型检测单元,用于将所述主叫号码输入所述神经网络模型,接收所述神经网络模型输出的重建数据,计算所述主叫号码与所述重建数据之间的重建误差,根据所述重建误差实时判别所述主叫号码是否为诈骗号码。
[0035] 可选地,所述神经网络模型包括1个输入层、8个隐藏层和1个输出层;
[0036] 其中,所述输入层包括32个神经元,所述输出层包括32个神经元,所述8个隐藏层中包括4层编码器和4层解码器;
[0037] 各编码器用于对输入的所述主叫号码进行压缩降维,抽取各项多维运行参数的特征向量,将32维降至4维;
[0038] 各解码器用于对压缩后的数据还原重建,根据抽取的特征向量对输入的各项运行参数进行重建。
[0039] 第三方面,本发明实施例还提出一种电子设备,包括:
[0040] 至少一个处理器;以及
[0041] 与所述处理器通信连接的至少一个存储器,其中:
[0042] 所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述方法。
[0043] 第四方面,本发明实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述方法。
[0044] 由上述技术方案可知,本发明实施例通过将接收的主叫号码和电信诈骗库以及疑似电信诈骗库进行匹配,当未匹配成功时输入神经网络模型进行验证,当根据输出结果确认为诈骗号码时将主叫号码添加至所述电信诈骗库,有效提高了电信诈骗识别的准确率,从而实现对电信诈骗行为的实时防控。附图说明
[0045] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
[0046] 图1为现有技术提供的电信诈骗号码识别方法的流程示意图;
[0047] 图2为本发明一实施例提供的一种电信诈骗库更新处理方法的流程示意图;
[0048] 图3为本发明一实施例提供的神经网络模型的结构示意图;
[0049] 图4为本发明一实施例提供的神经网络模型的框架参数示意图;
[0050] 图5为本发明一实施例提供的神经网络模型的训练过程示意图;
[0051] 图6为本发明一实施例提供的一种电信诈骗库更新处理方法的交互流程示意图;
[0052] 图7为本发明一实施例提供的提醒彩印平台的结构示意图;
[0053] 图8为本发明一实施例提供的提醒彩印平台的交互流程示意图;
[0054] 图9为本发明一实施例提供的一种电信诈骗库更新处理装置的结构示意图;
[0055] 图10为本发明一实施例提供的电子设备的逻辑框图

具体实施方式

[0056] 下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0057] 图2示出了本实施例提供的一种电信诈骗库更新处理方法的流程示意图,包括:
[0058] S201、将接收的主叫号码和电信诈骗库中的号码进行匹配,若匹配所述电信诈骗库中的号码,则在核心网侧对所述主叫号码进行拦截。
[0059] 具体地,本实施例包括电信诈骗库和疑似电信诈骗库两个数据库,其中,电信诈骗库中存储已确认为诈骗号码的号码。
[0060] 当接收的主叫号码匹配到电信诈骗库中的号码,则说明该主叫号码为诈骗号码,故需要对所述主叫号码进行拦截,以保证被叫终端不被骚扰。
[0061] S202、若未匹配所述电信诈骗库中的号码,则将所述主叫号码和疑似电信诈骗库中的号码进行匹配。
[0062] 其中,疑似电信诈骗库中存储未确认是否未诈骗号码也未确认是否为安全号码的号码。
[0063] S203、若未匹配所述疑似电信诈骗库中的号码,则将所述主叫号码输入神经网络模型,接收所述神经网络模型的输出结果。
[0064] 其中,所述神经网络模型为是深度学习的一种方法,由编码器(encoder)和解码器(decoder)两部分组成。所述神经网络模型的检测原理简单来说就是把输入数据进行一个压缩和解压缩的过程,通过将原数据进行压缩,然后再解压,通过对比原数据和解压后的数据,求出重建误差,进行反向传递,逐步提升自编码的准确性,训练好的自编码中间这一部分就是能总结原数据的精髓。从始至终只用到了输入数据X,并没有用到X对应的数据标签,所以也可以说自编码是一种监督学习
[0065] S204、若根据所述输出结果确定所述主叫号码为诈骗号码,则将所述主叫号码添加至所述电信诈骗库。
[0066] 本实施例通过将接收的主叫号码和电信诈骗库以及疑似电信诈骗库进行匹配,当未匹配成功时输入神经网络模型进行验证,当根据输出结果确认为诈骗号码时将主叫号码添加至所述电信诈骗库,有效提高了电信诈骗识别的准确率,从而实现对电信诈骗行为的实时防控。
[0067] 进一步地,在上述方法实施例的基础上,S203中所述将所述主叫号码输入神经网络模型,接收所述神经网络模型的输出结果,具体包括:
[0068] S2031、获取运营商计费中心的历史话单数据以及核心网侧的历史通话数据,对所述历史话单数据和所述历史通话数据进行数据预处理,所述数据预处理包括:标记数据集、添加噪声、数据集标准化以及数据集划分;
[0069] S2032、使用深度学习框架建立神经网络模型,将正常通话的训练样本经过加噪后输入所述神经网络模型进行训练,根据所述历史通话数据学习正常通话的规律,待所述神经网络模型收敛后导出所述神经网络模型的权重;
[0070] S2033、将所述主叫号码输入所述神经网络模型,接收所述神经网络模型输出的重建数据,计算所述主叫号码与所述重建数据之间的重建误差,根据所述重建误差实时判别所述主叫号码是否为诈骗号码。
[0071] 其中,所述神经网络模型包括1个输入层、8个隐藏层和1个输出层;
[0072] 其中,所述输入层包括32个神经元,所述输出层包括32个神经元,所述8个隐藏层中包括4层编码器和4层解码器;
[0073] 各编码器用于对输入的所述主叫号码进行压缩降维,抽取各项多维运行参数的特征向量,将32维降至4维;
[0074] 各解码器用于对压缩后的数据还原重建,根据抽取的特征向量对输入的各项运行参数进行重建。
[0075] 本实施例采用去噪自动编码器DAE(Denoising Autoencoder),该DAE是在自动编码器的基础上,对训练数据加入噪声,来训练整个网络,因为在实际的测试数据中,噪声是不可避免的,采用有噪声的训练数据训练网络,神经网络就能够学习到不加噪声的输入特征和噪声的主要特征。能够使网络在测试数据中有更强的泛化能力,使得自动编码器学习去除噪声,获得无噪声数据的能力,因此,这就迫使编码器去学习输入信号的更加鲁棒的表达,其泛化能力也就比一般编码器更强。
[0076] 对应地,去噪自编码神经网络对原始输入数据(raw input)添加噪声后形成“已损坏”的输入(corrupted input),经过编码器后压缩为低维度的隐藏代码(hidden code),隐藏代码经过解码器后输出重建数据(reconstruction),将原始输入数据和重建数据进行比较计算重建误差。
[0077] 去噪自动编码器分为编码器和解码器两部分:
[0078] 编码器(encoder):编码器能得到原数据的精髓,然后我们只需要再创建一个小的神经网络学习这个精髓的数据,不仅减少了神经网络的负担,而且同样能达到很好的效果。自编码可以像PCA一样给特征属性降维。
[0079] 解码器(decoder):解码器在训练的时候是要将精髓信息解压成原始信息。负责对压缩数据的还原重建,根据抽取的特征向量对输入的原始数据进行重建。
[0080] 具体地,基于深度去噪自动编码器的神经网络模型主要包括三个步骤:步骤一:获取运营商计费中心的CDR历史话单数据以及核心网侧的历史通话数据,并进行数据预处理,分别为标记数据集、添加噪声、数据集标准化处理、数据集划分;步骤二:使用深度学习框架tensorflow和keras搭建深度去噪自编码神经网络,将正常通话的训练样本经过加噪后输入模型进行训练,根据历史通话行为数据学习正常通话的规律,直至模型收敛后导出该模型的权重;步骤三:将实时通话数据输入到已收敛的模型中进行在线检测。输出该号码的通话行为重建数据,通过计算原始数据和重建数据之间的重建误差来实时判别电信诈骗通话。
[0081] 展开来说,步骤一主要获取历史通话数据并对数据作预处理,包括获取数据和数据预处理两部分内容:
[0082] 1)获取数据
[0083] 通过提醒彩印平台中的号码数据文件同步模块,获取运营商计费中心采集若干号码历史CDR原始话单、以及核心网设备侧采集若干号码通话历史数据,以每月颗粒度为例,作为本模型的数据集,数据集长度为n。从计费中心和核心网侧提取的30个特征为:ARPU值X1、总使用流量X2、4G使用流量X3、省外漫游流量X4、总通话次数X5、总通话时长X6、主叫通话次数X7、主叫用户个数X8、主叫通话总时长X9、主叫通话平均时长X10、被叫通话次数X11、被叫用户个数X12、被叫通话总时长X13、被叫通话平均时长X14、本地通话次数X15、本地通话时长X16、漫游通话次数X17、漫游通话时长X18、点对点短信次数X19、停机次数X20、停机天数X21、欠费次数X22、欠费天数X23、基本月租X24、在网时长(月)X25、是否为异网来话X26、是否为国际来话X27、是否为端局始发X28、是否为固话X29、是否实名制X30、作主叫时主叫侧拆线次数X31、作主叫时被叫侧拆线次数X32。(1=是,0=否)
[0084] 因此原始输入数据可表示为:
[0085] S={x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,...,x32}
[0086] 2)数据预处理
[0087] 首先对数据集进行标记:将正常通话号码标记为0,将电信诈骗通话号码标记为1。在异常检测问题中,训练集里只有正常的样本,但为了测试系统性能等指标,我们仍需要一些异常的样本,即我们需要一批已标记的数据,其中正常样本的标签为0,异常样本的标签为1,但训练时只用标签为0的样本。由于仍需要验证该模型的好坏,因此需要对验证集进行标记,但在训练集中会对该列去除。
[0088] 其次对数据集添加噪声。使用numpy中的函数np.random.normal(),设置μ=0、σ=1,从正态分布中随机生成噪声数据,并乘以一个噪声因子(noise_factor),设置noise_factor=0.5。加噪后的训练数据S’=S+noise_factor*np.random.normal(loc=0.0,scale=1.0,size=n)。
[0089] 加噪后的数据集可表示为:
[0090] S′={x1′,x2′,x3′,x4′,x5′,x6′,x7′,x8′,x9′,x10′,...,x32′}[0091] 然 后 对 数 据 集 做 标 准 化 处 理 :使 用 s k l e a r n 中 的 函 数preprocessing.StandardScaler()对数据集中的所有32个特征数据进行标准化处理,公式为:(X-mean)/std。计算时对每个属性/每列分别进行,将数据按期属性(按列进行)减去其均值,并除以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。标准化后将提升模型的收敛速度、提升模型的精度
[0092] 最后划分数据集:将数据集划分为训练数据和测试数据,取整个数据集的80%为训练数据,剩余20%为测试数据,并去除训练数据中标记为电信诈骗的号码,使得训练集中均为正常通话的号码,同时去除训练集和测试集中的标签列。用训练数据去训练本模型,然后用测试数据来检验本模型的性能。
[0093] 步骤二主要搭建并训练去噪自编码神经网络,包括搭建模型和模型训练及验证两部分内容:
[0094] 1)搭建模型:
[0095] 搭建去噪自编码神经网络:包含1个输入层、8个隐藏层(为8个全连接层dense)、1个输出层。输入层含有32个神经元,输出层含有32个神经元。8个隐藏层中前4层属于编码器,后4层属于解码器。
[0096] 编码器负责完成对原始数据的压缩降维,抽取出代表各项多维运行参数的特征向量,从原本的32维降至4维。编码器中第一层设置32个神经元,选择″tanh″为激活函数,第二层设置16个神经元,选择″relu″为激活函数,第三层设置8个神经元,选择″relu″为激活函数,第四层设置4个神经元,选择″relu″为激活函数。
[0097] 解码器负责对压缩数据的还原重建,根据抽取的特征向量对输入的各项运行参数进行重建。解码器中第一层设置4个神经元,选择'tanh'为激活函数,第二层设置8个神经元,选择'tanh'为激活函数,第三层设置16个神经元,选择'tanh'为激活函数,第四层设置32个神经元,选择″relu″为激活函数。
[0098] 搭建的深度去噪自编码神经网络参见图3,每个圆圈代表一个神经元,每个隐藏层均为全连接层,即每个神经元之间均两两连接,每条线上有不同的权重(weight),神经网络通过训练会自主学习到权重值。
[0099] 模型通过调用keras框架中的Model()类模型来搭建,通过给定输入张量和输出张量来实例化一个模型。autoencoder=Model(inputs=input_layer,outputs=decoder)。
[0100] 神经网络模型的框架参数如图4所示,模型总共包含2504个参数,自编码神经网络将通过训练自主学习到所有参数值,其自主学习过程如图5所示。
[0101] 2)模型训练及验证:
[0102] 模型训练:将训练1000个回合(epochs=1000),批处理大小设置为32(batch_size=32),选择均方误差MSE(Mean Squared Error)作为损失函数即目标函数(loss='mean_squared_error'),选择adam优化器用于改善传统梯度下降的学习速度(optimizer='adam')。自编码神经网络通过梯度下降,可以找到使目标函数最小的最优权重值,能够最大程度重建原始数据并且包含最丰富信息的压缩表示。通过调用model.fit()函数来训练本模型,用训练集(仅含正常样本)进行训练,使得重建数据与原始数据越接近越好,用测试集(含正常样本和异常样本)来评价验证模型。模型收敛后即可将计算得出的自编码神经网络权重导出,供在线检测使用。
[0103] 最后根据PRC曲线(precision recall curve)获取最佳阈值,来有效区分正常通话和电信诈骗通话。阈值的选择需要结合本应用场景及业务要求,本模型场景中希望每个电信诈骗通话行为均能检测出来,可牺牲一定准确率来换取较高的召回率。在正负样本分布得极不均匀的情况下,PRC曲线比ROC曲线能更有效地反应本模型的好坏,因此利用sklearn.metrics.precision_recall_curve绘制PRC曲线,该曲线是以精确率和召回率为轴,取不同的阈值绘制的。曲线下的面积(AUC)越大或曲线更接近右上(precision=1,recall=1),那么模型就越理想、越好。根据该曲线在设定合理的准确率下,将最高的召回率作为最优阈值点,从而找到该点对应的阈值。
[0104] 步骤三主要根据重建误差计算结果进行在线实时识别,具体包括以下步骤:
[0105] 将实时通话数据输入到已收敛的模型中,输出重建数据。通过调用keras.model中的predict函数autoencoder.predict(X_test),将实时通话数据输入到predict函数中去,即输入到已收敛的模型中,然后输出该号码重建后的通话行为数据。
[0106] 重建数据(输出数据):
[0107]
[0108] 原始数据(输入数据):
[0109] S={x1,x2,x3,x4,x5,x6,x7,x8,x9,x10′…,x32}
[0110] 然后计算原始数据和重建数据之间的重建误差,重建误差(reconstruction error)是指原始数据和重建后的数据之间差值绝对值的平方,用于衡量原始数据和重建数据之间的差异性。
[0111]
[0112] 最后根据设定的重建误差阈值检测出疑似电信诈骗号码,重建误差越大则说明该号码通话行为与正常通话行为的差距越大,当重建误差超过所设置阈值时该号码即被视为疑似电信诈骗号码,实时更新至疑似电信诈骗库。
[0113] 进一步地,在上述方法实施例的基础上,所述方法还包括:
[0114] S205、若匹配所述疑似电信诈骗库中的号码,则生成提醒信息,并将所述提醒信息发送至所述主叫号码对应的被叫终端。
[0115] S206、接收所述被叫终端的反馈信息,并统计所述主叫号码对应的反馈信息;
[0116] S207、若所述主叫号码对应的反馈信息为第一预设值的数量大于第一阈值,则将所述主叫号码添加至所述电信诈骗库;
[0117] S208、若所述主叫号码对应的反馈信息为第二预设值的数量大于第二阈值,则将所述主叫号码从所述疑似电信诈骗库中移出。
[0118] 本实施例提供的电信诈骗库更新处理方法的交互流程如图6所示;其中提醒彩印平台主要包括号码识别接口、特征库、号码数据文件同步模块三部分,如图7所示,本实施例将诈骗库分拆为已核实诈骗库和疑似诈骗库,以对诈骗号码分级处置,并且与新增的电信诈骗实时识别模块对接,以实时更新诈骗库。
[0119] 具体地,本实施例提供的提醒彩印平台的交互流程如图8所示,主叫号码触发至提醒彩印平台后,首先和已核实电信诈骗库进行匹配,如匹配则直接在核心网侧进行拦截,呼叫不会到达被叫用户;如不匹配已核实电信诈骗库,则和疑似电信诈骗库进行匹配,如匹配则将呼叫触发至彩印平台,下发闪信或短信提醒给被叫用户,提醒内容为“经识别为疑似诈骗号码,请回复是否属实?”,用户回复“是”或“否”。若回复“是”的用户数超过一定数量,则将该号码实时更新至已核实诈骗库;若回复“否”的用户数超过一定数量,则将该号码移出疑似诈骗库,作为FP(false positive)假异常点进一步优化模型;如不匹配疑似电信诈骗库,则将该主叫号码相关通话数据输入至“基于深度去噪自编码神经网络的电信诈骗识别模型”,如识别为疑似诈骗电话,则将该号码实时更新至疑似电信诈骗库,如识别为非诈骗电话,则不触发到彩印平台,继续后续的呼叫接续流程,若判别为正常的号码但被用户举报数超过一定数量,则作为FN(false negative)假正常点进一步优化模型。
[0120] 本实施例能解决现有电信诈骗库更新缓慢、以及诈骗识别误报率高和准确度低的问题。本发明将诈骗库分为已核实诈骗库和疑似诈骗库,对诈骗号码进行分级处置,并且与电信诈骗实时识别模型对接,以实时更新诈骗库,并利用彩印平台接收用户的反馈以不断优化模型。模型通过开源深度学习框架tensorflow来搭建深度去噪自编码神经网络,在自编码器的基础上对训练数据中加入噪声来提高模型的鲁棒性。通过获取运营商计费中心和核心网侧的历史通话数据,将正常通话的训练样本经过加噪后输入至模型进行训练,根据历史通话行为数据来学习正常通话的规律,在线检测时将实时通话数据输入至已收敛的模型,经过编码器压缩降维,抽取出代表该号码通话行为的特征表示,再经过解码器的解压缩,对输入的各项通话属性进行重建,通过计算原始数据和重建数据之间的重建误差来实时判别电信诈骗通话,并实时更新至疑似诈骗库,同时结合被叫用户的反馈更新至已核实诈骗库,有效提高了电信诈骗识别的准确率,从而实现对电信诈骗行为的实时防控。
[0121] 图9示出了本实施例提供的一种电信诈骗库更新处理装置的结构示意图,所述装置包括:号码拦截模块901、号码匹配模块902、模型检测模块903和诈骗库更新模块904,其中:
[0122] 所述号码拦截模块901用于将接收的主叫号码和电信诈骗库中的号码进行匹配,若匹配所述电信诈骗库中的号码,则在核心网侧对所述主叫号码进行拦截;
[0123] 所述号码匹配模块902用于若未匹配所述电信诈骗库中的号码,则将所述主叫号码和疑似电信诈骗库中的号码进行匹配;
[0124] 所述模型检测模块903用于若未匹配所述疑似电信诈骗库中的号码,则将所述主叫号码输入神经网络模型,接收所述神经网络模型的输出结果;
[0125] 所述诈骗库更新模块904用于若根据所述输出结果确定所述主叫号码为诈骗号码,则将所述主叫号码添加至所述电信诈骗库。
[0126] 具体地,所述号码拦截模块901将接收的主叫号码和电信诈骗库中的号码进行匹配,若匹配所述电信诈骗库中的号码,则在核心网侧对所述主叫号码进行拦截;所述号码匹配模块902若未匹配所述电信诈骗库中的号码,则将所述主叫号码和疑似电信诈骗库中的号码进行匹配;所述模型检测模块903若未匹配所述疑似电信诈骗库中的号码,则将所述主叫号码输入神经网络模型,接收所述神经网络模型的输出结果;所述诈骗库更新模块904若根据所述输出结果确定所述主叫号码为诈骗号码,则将所述主叫号码添加至所述电信诈骗库。
[0127] 本实施例通过将接收的主叫号码和电信诈骗库以及疑似电信诈骗库进行匹配,当未匹配成功时输入神经网络模型进行验证,当根据输出结果确认为诈骗号码时将主叫号码添加至所述电信诈骗库,有效提高了电信诈骗识别的准确率,从而实现对电信诈骗行为的实时防控。
[0128] 进一步地,在上述装置实施例的基础上,所述模型检测模块903具体包括:
[0129] 预处理单元,用于获取运营商计费中心的历史话单数据以及核心网侧的历史通话数据,对所述历史话单数据和所述历史通话数据进行数据预处理,所述数据预处理包括:标记数据集、添加噪声、数据集标准化以及数据集划分;
[0130] 模型训练单元,用于使用深度学习框架建立神经网络模型,将正常通话的训练样本经过加噪后输入所述神经网络模型进行训练,根据所述历史通话数据学习正常通话的规律,待所述神经网络模型收敛后导出所述神经网络模型的权重;
[0131] 模型检测单元,用于将所述主叫号码输入所述神经网络模型,接收所述神经网络模型输出的重建数据,计算所述主叫号码与所述重建数据之间的重建误差,根据所述重建误差实时判别所述主叫号码是否为诈骗号码。
[0132] 进一步地,在上述装置实施例的基础上,所述神经网络模型包括1个输入层、8个隐藏层和1个输出层;
[0133] 其中,所述输入层包括32个神经元,所述输出层包括32个神经元,所述8个隐藏层中包括4层编码器和4层解码器;
[0134] 各编码器用于对输入的所述主叫号码进行压缩降维,抽取各项多维运行参数的特征向量,将32维降至4维;
[0135] 各解码器用于对压缩后的数据还原重建,根据抽取的特征向量对输入的各项运行参数进行重建。
[0136] 本实施例所述的电信诈骗库更新处理装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
[0137] 参照图10,所述电子设备,包括:处理器(processor)1001、存储器(memory)1002和总线1003;
[0138] 其中,
[0139] 所述处理器1001和存储器1002通过所述总线1003完成相互间的通信;
[0140] 所述处理器1001用于调用所述存储器1002中的程序指令,以执行上述各方法实施例所提供的方法。
[0141] 本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。
[0142] 本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。
[0143] 以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0144] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0145] 应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈