一种实现短信过滤的方法及装置

申请号 CN201510152763.2 申请日 2015-04-01 公开(公告)号 CN104717623A 公开(公告)日 2015-06-17
申请人 中国联合网络通信集团有限公司; 发明人 王伟华; 罗云彬; 李浩; 尹为强;
摘要 本 申请 公开了一种实现短信过滤的方法及系统,包括:对手机号码,根据呼入呼出信息计算预设个数的疑似系数;去除计算获得的疑似系数的歧义点后换算为疑似分数;确定疑似分数大于预设分数 阈值 的手机号码为疑似黑名单号码;判断疑似黑名单号码发送的短信为垃圾短信时,将该号码确定为黑名单号码并过滤其发送的短信;否则,允许短信发送。本 发明 通过对发送短信的手机号码,通过呼入呼出信息确定疑似黑名单号码,对疑似黑名单号码发送的短信进行是否垃圾短息的判断,确定为垃圾短信时,将号码确定为黑名单号码并过滤短信,提高了垃圾短信的处理效率,降低了对所有短信进行是否垃圾短信判断的压 力 ,避免了短信暴增造成的处理延时。
权利要求

1.一种实现短信过滤的方法,其特征在于,包括:
对手机号码,根据呼入呼出信息计算预设个数的疑似系数;
去除计算获得的疑似系数的歧义点后,将去除歧义点的疑似系数换算为疑似分数;
确定疑似分数大于预设分数阈值的手机号码为疑似黑名单号码;
判断疑似黑名单号码发送的短信是否是垃圾短信,当判断结果为垃圾短信时,将疑似黑名单号码确定为黑名单号码,过滤该手机号码发送的所有短信;判断结果为非垃圾短信时,允许该手机号码发送短信。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
将所有手机号码按照预先设定的规则映射到由1开始的不同的内存位,在手机号对应的内存位中存储所述疑似分数。
3.根据权利要求1或2所述的方法,其特征在于,当所述疑似黑名单号码发送的短信为非垃圾短信时,该方法还包括:
将该手机号码的疑似分数减去预设数值。
4.根据权利要求1或2所述的方法,其特征在于,所述根据呼入呼出信息计算预设个数的疑似系数具体包括:
将预设时长内手机号码的呼出数除以呼入数获得所述疑似系数;
根据连续的预设个数的预设时长,计算预设个数的所述疑似系数;
所述将去除歧义点的疑似系数换算为疑似分数为:
根据去除歧义点后的所述疑似系数的个数计算疑似系数均值,对疑似系数均值求反正切后获得弧度值;
将获得的弧度值乘以200得到的积值再除以π,获得去除歧义点后的疑似系数对应的所述疑似分数。
5.根据权利要求1或2所述的方法,其特征在于,在根据呼入呼出信息计算预设个数的疑似系数之前,该方法还包括:
实时获取所有手机号码发送的短信数量,
当所有手机号码发送的短信数量小于处理压阈值时,直接将手机号码确定为所述疑似黑名单号码,对所述疑似黑名单号码发送的短信进行是否是垃圾短信的判断;
当所有手机号码发送的短信数量大于处理压力阈值时,根据呼入呼出信息计算预设个数的疑似系数并继续短信过滤的后续进程
6.一种实现短信过滤的系统,其特征在于,包括:第一判断装置和第二判断装置;其中,
第一判断装置包括:计算单元、换算单元、确定疑似单元及黑名单单元;其中,计算单元,用于对手机号码根据呼入呼出信息计算预设个数的疑似系数;
换算单元,用于去除计算获得的疑似系数的歧义点后,将去除歧义点的疑似系数换算为疑似分数;
确定疑似单元,用于确定疑似分数大于预设分数阈值的手机号码为疑似黑名单号码,并输出疑似黑名单号码发送的短信给第二判断装置;
黑名单单元,用于根据接收来自第二判断单元的黑名单号码,过滤所述黑名单号码发送的短信;对于未确定为黑名单号码的短信允许发送;
第二判断装置包括判断单元和发送单元,用于判断来自第一判断装置的疑似黑名单号码发送的短信是否是垃圾短信;当疑似黑名单号码发送的短信是垃圾短信时,确定疑似黑名单号码为黑名单号码,将黑名单号码发往第一判断装置;当疑似黑名单号码发送的短信是非垃圾短信时,允许该手机号码的短信发送;
发送单元,用于将确定为黑名单号码发往第一判断装置。
7.根据权利要求6所述的系统,其特征在于,所述换算单元还用于,
将所有手机号码按照预先设定的规则映射到由1开始的不同的内存位,在手机号对应的内存位中存储所述疑似分数。
8.根据权利要求6或7所述的系统,其特征在于,所述第一判断装置还包括疑似分数处理单元,用于当判断单元判断所述疑似黑名单号码发送的短信为非垃圾短信时,将该手机号码的疑似分数减去预设数值。
9.根据权利要求6或7所述的系统,其特征在于,所述计算单元具体用于,对手机号码,根据预设时长内各手机号码的呼出数除以呼入数获得所述疑似系数;
根据连续的预设个数的预设时长,计算预设个数的所述疑似系数;
所述换算单元具体用于,对计算获得的所述疑似系数去除歧义点,根据去除歧义点后的疑似系数的个数计算疑似系数均值,对疑似系数均值求反正切后获得弧度值;
将获得的弧度值乘以200得到的积值再除以π,获得去除歧义点后的疑似系数对应的所述疑似分数。
10.根据权利要求6或7所述的系统,其特征在于,所述第二判断装置还包括压力判断单元,用于在根据呼入呼出信息计算预设个数的疑似系数之前,
实时获取所有手机号码发送的短信数量,判断所有手机号码发送的短信数量是否小于预先设置的处理压力阈值;
当所有手机号码发送的短信数量小于处理压力阈值时,发送通知消息到第一判断装置,将所有手机号码确定为所述疑似黑名单号码;
当所有手机号码发送的短信数量大于处理压力阈值时,将所有手机号码发往第一判断装置的计算单元进行处理。

说明书全文

一种实现短信过滤的方法及装置

技术领域

[0001] 本申请涉及信息分析领域,尤指一种实现短信过滤的方法及装置。

背景技术

[0002] 当前对于垃圾短信的判断主要有两种方法,一种是通过发送短信的频率进行判断,即如果一个号码在一定时间间隔内发送的短信数目大于技术人员统计设定的阈值,则这个号码就会被确定为黑名单号码,黑名单号码发送的短信就会被确认为垃圾短信,这种方式确定的黑名单对于不同的区域,无法实现统一的标准,且只能对频率较高的垃圾短息进行过滤,对于不满足设定频率的垃圾短信,无法实现垃圾短息的判断;另一种方式是通过关键字进行是否垃圾短息的判断,例如、在短信中出现法轮功、汇款、发票等关键字时,会被确定为垃圾短信;采用第二种方式进行垃圾短信的判断,由于关键字不便识别,存在无法实现准确判断的问题。
[0003] 另外,对垃圾短信过滤主要有两种方式,一种方式是:由各省分公司独立建设,每个短信中心加装短信网关,通过短信网关对通过短信网关的短信进行是否是垃圾短信的过滤;另一种方式是:基于分布式流式计算的全国短消息处理中心,将全国所有的短消息中心都接入到分布式流式计算中心,由分布式流式计算中心对所有短信进行是否是垃圾短信的统一处理,将垃圾短信的处理结果按短消息中心的编码方式返回给各短信中心相应的垃圾短信列表。采用第一种方式进行垃圾短信过滤,判断耗时且存在标准不统一的问题,处理能低;基于分布式流式计算的全国短消息处理中心的垃圾短信处理方式,将所有短信都发往集中处理中心进行是否是垃圾短信的判断,对集中处理中心而言压力较大,在业务繁忙时段,短信暴增,容易造成短信的处理延时,实际没有起到应有的过滤效果。发明内容
[0004] 为了解决上述问题,本发明提供一种实现短息过滤的方法及系统,能够提高垃圾短信的处理能力,降低处理中心的压力,避免短信暴增造成的处理延时和对垃圾短信实现过滤。
[0005] 为了达到本发明的目的,本申请提供一种实现短信过滤的方法;包括:
[0006] 对手机号码,根据呼入呼出信息计算预设个数的疑似系数;
[0007] 去除计算获得的疑似系数的歧义点后,将去除歧义点的疑似系数换算为疑似分数;
[0008] 确定疑似分数大于预设分数阈值的手机号码为疑似黑名单号码;
[0009] 判断疑似黑名单号码发送的短信是否是垃圾短信,当判断结果为垃圾短信时,将疑似黑名单号码确定为黑名单号码,过滤该手机号码发送的所有短信;判断结果为非垃圾短信时,允许该手机号码发送短信。
[0010] 进一步地,该方法还包括:
[0011] 将所有手机号码按照预先设定的规则映射到由1开始的不同的内存位,在手机号对应的内存位中存储所述疑似分数。
[0012] 进一步地,当疑似黑名单号码发送的短信为非垃圾短信时,该方法还包括:将该手机号码的疑似分数减去预设数值。
[0013] 进一步地,根据呼入呼出信息计算预设个数的疑似系数具体包括:
[0014] 将预设时长内手机号码的呼出数除以呼入数获得所述疑似系数;
[0015] 根据连续的预设个数的预设时长,计算预设个数的所述疑似系数;
[0016] 将去除歧义点的疑似系数换算为疑似分数为:
[0017] 根据去除歧义点后的所述疑似系数的个数计算疑似系数均值,对疑似系数均值求反正切后获得弧度值;
[0018] 将获得的弧度值乘以200得到的积值再除以π,获得去除歧义点后的疑似系数对应的所述疑似分数。
[0019] 进一步地,在根据呼入呼出信息计算预设个数的疑似系数之前,该方法还包括,实时获取所有手机号码发送的短信数量,当所有手机号码发送的短信数量小于处理压力阈值时,直接将手机号码确定为所述疑似黑名单号码,对所述疑似黑名单号码发送的短信进行是否是垃圾短信的判断;当所有手机号码发送的短信数量大于处理压力阈值时,根据呼入呼出信息计算预设个数的疑似系数并继续短信过滤的后续进程
[0020] 另一方面,本申请还提供一种实现短信过滤的系统,包括:第一判断装置和第二判断装置;其中,
[0021] 第一判断装置包括:计算单元、换算单元、确定疑似单元及黑名单单元;其中,[0022] 计算单元,用于对手机号码,根据呼入呼出信息计算预设个数的疑似系数;
[0023] 换算单元,用于去除计算获得的疑似系数的歧义点后,将去除歧义点的疑似系数换算为疑似分数;
[0024] 确定疑似单元,用于确定疑似分数大于预设分数阈值的手机号码为疑似黑名单号码,并输出疑似黑名单号码发送的短信给第二判断装置;
[0025] 黑名单单元,用于根据接收来自第二判断单元的黑名单号码,过滤所述黑名单号码发送的短信;对于未确定为黑名单号码的短信允许发送;
[0026] 第二判断装置包括判断单元和发送单元,用于判断来自第一判断装置的疑似黑名单号码发送的短信是否是垃圾短信;当疑似黑名单号码发送的短信是垃圾短信时,确定疑似黑名单号码为黑名单号码,将黑名单号码发往第一判断装置;当疑似黑名单号码发送的短信是非垃圾短信时,允许该手机号码的短信发送;
[0027] 发送单元,用于将确定为黑名单号码发往第一判断装置。
[0028] 进一步地,换算单元还用于,
[0029] 将所有手机号码按照预先设定的规则映射到由1开始的不同的内存位,在手机号对应的内存位中存储所述疑似分数。
[0030] 进一步地,第一判断装置还包括疑似分数处理单元,用于当判断单元判断所述疑似黑名单号码发送的短信为非垃圾短信时,将该手机号码的疑似分数减去预设数值。
[0031] 进一步地,计算单元具体用于,对手机号码,根据预设时长内各手机号码的呼出数除以呼入数获得所述疑似系数;
[0032] 根据连续的预设个数的预设时长,计算预设个数的所述疑似系数;
[0033] 换算单元具体用于,对计算获得的所述疑似系数去除歧义点,根据去除歧义点后的疑似系数的个数计算疑似系数均值,对疑似系数均值求反正切后获得弧度值;
[0034] 将获得的弧度值乘以200得到的积值再除以π,获得去除歧义点后的疑似系数对应的所述疑似分数。
[0035] 进一步地,第二判断装置还包括压力判断单元,用于在根据呼入呼出信息计算预设个数的疑似系数之前,
[0036] 实时获取所有手机号码发送的短信数量,判断所有手机号码发送的短信数量是否小于预先设置的处理压力阈值;
[0037] 当所有手机号码发送的短信数量小于处理压力阈值时,发送通知消息到第一判断装置,将所有手机号码确定为所述疑似黑名单号码;
[0038] 当所有手机号码发送的短信数量大于处理压力阈值时,将所有手机号码发往第一判断装置的计算单元进行处理。
[0039] 与现有技术相比,本发明提供的技术方案,包括:对手机号码,根据呼入呼出信息计算预设个数的疑似系数;去除计算获得的疑似系数的歧义点后,将去除歧义点的疑似系数换算为疑似分数;确定疑似分数大于预设分数阈值的手机号码为疑似黑名单号码;将疑似黑名单号码发送的短信进行是否是垃圾短信的判断;判断结果为垃圾短信时,将疑似黑名单号码确定为黑名单号码,过滤该手机号码发送的所有短信;判断结果为非垃圾短信时,允许该手机号码发送短信。本发明通过对发送短信的手机号码,通过呼入呼出信息确定疑似黑名单号码,对疑似黑名单号码发送的短信进行是否垃圾短息的判断,确定为垃圾短信时,将号码确定为黑名单号码并过滤短信,提高了垃圾短信的处理效率,降低了对所有短信进行是否垃圾短信判断的压力,避免了短信暴增造成的处理延时。附图说明
[0040] 附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
[0041] 图1为本发明实现短信过滤的方法的流程图
[0042] 图2为本发明实现短信过滤的系统的结构框图

具体实施方式

[0043] 为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
[0044] 图1为本发明实现短信过滤的方法的流程图,如图1所示,包括:
[0045] 步骤100、对手机号码,根据呼入呼出信息计算预设个数的疑似系数。
[0046] 本步骤中,根据呼入呼出信息计算预设个数的疑似系数具体包括:
[0047] 根据预设时长内手机号码的呼出数除以呼入数获得疑似系数;
[0048] 根据连续的预设个数的预设时长,计算预设个数的疑似系数。
[0049] 需要说明的是预设时长是根据本领域技术人员基于该预设时长的信息可以确定较为稳定的用户通话频率的信息,一般的可以取一周,或以周为基本单位的时长,例如两周或一个月,具体时长可以根据实际统计的数据进行分析后调整;预设个数是指为了通过多个样本来提高疑似系数的稳定性而设定的,一般的可以取预设个数为4,具体的可以根据实际情况进行调整。呼入呼出信息可以通过运营商记录的通讯信息获得,也可以通过通信系统中保存这些信息的网元获得。
[0050] 假设预设时长取值为一个月,预设个数为4,手机号码为1800000000的用户连续四个月内的呼入呼出数据为:
[0051] 第一个月:呼出为20,呼入为12;
[0052] 第二个月:呼出为18,呼入为10;
[0053] 第三个月:呼出为34,呼入为18;
[0054] 第四个月:呼出为40,呼入为5;
[0055] 获得的四个疑似系数为:5/3、9/5、17/9、40/5。
[0056] 步骤101去除计算获得的疑似系数的歧义点后,将去除歧义点的疑似系数换算为疑似分数。
[0057] 本步骤中,将去除歧义点的疑似系数换算为疑似分数为:
[0058] 根据去除歧义点后的疑似系数的个数计算疑似系数均值,对疑似系数均值求反正切后获得弧度值;
[0059] 将获得的弧度值乘以200得到的积值再除以π,获得去除歧义点后的疑似系数对应的疑似分数。
[0060] 需要说明的是,需要说明的是,去除歧义点的方法为本领域技术人员的惯用技术手段,通过现有算法可以实现对不稳定疑似系数,即呼入呼出不正常的个别疑似系数进行剔除,例如疑似系数分别为5/3、9/5、17/9、40/5时,通过现有的歧义点去除方法,40/5的疑似系数将被删除。
[0061] 弧度值乘以200得到的积值再除以π是由:弧度值除以π*180除以90*100计算获得的,其中,弧度值除以π*180将弧度值转换为度,由于疑似分数采用呼出呼入比值作为疑似分数,因此将角度值除以90在乘以100以后可以通过100以内的分数值来表示手机号码呼出和呼入的状态信息。通过转换为100以内的分数值,可以更为直观准确的分析所有手机号码的呼出呼入状态,有利于后续步骤中对预设分数阈值的调整,使疑似黑名单号码的判断更为准确,提高系统的垃圾短信的处理效率。
[0062] 本发明方法还包括:
[0063] 将所有手机号码按照预先设定的规则映射到由1开始的不同的内存位,在手机号对应的内存位中存储疑似分数。
[0064] 需要说明的是,通过内存位进行疑似分数的存储,可以实现疑似分数的快速访问和处理,提高了短信过滤的处理过程。
[0065] 步骤102、确定疑似分数大于预设分数阈值的手机号码为疑似黑名单号码。
[0066] 需要说明的是,预设分数阈值是本领域技术人员基于数据分析获得的结果,一般的预设分数阈值越大,确定为黑名单的号码可能性越大;具体数值确定一般首先采用较高的预设分数阈值进行疑似黑名单号码的判断,当疑似黑名单号码中,疑似黑名单号码最终被确定为黑名单时,为了进一步降低判断是否为垃圾短信的工作压力,可以将预设分数阈值降低;反之,如果最终确定为黑名单的概率较小,则需要提高预设分数阈值的数值。当采用内存位进行疑似分数存储时,通过读取内存位中的数据,可以确定大于预设分数阈值的内存位对应的手机号码;手机号码被确定为黑名单时,可以快速的进行信息处理。
[0067] 步骤103、判断疑似黑名单号码发送的短信是否是垃圾短信,当判断结果为垃圾短信时,将疑似黑名单号码确定为黑名单号码,过滤该手机号码发送的所有短信;判断结果为非垃圾短信时,允许该手机号码发送短信。
[0068] 在根据呼入呼出信息计算预设个数的疑似系数之前,本发明方法还包括,实时获取所有手机号码发送的短信数量,当所有手机号码发送的短信数量小于处理压力阈值时,直接将手机号码确定为疑似黑名单号码,对疑似黑名单号码发送的短信进行是否是垃圾短信的判断;当所有手机号码发送的短信数量大于处理压力阈值时,根据呼入呼出信息计算预设个数的疑似系数并继续短信过滤的后续进程。即从步骤100开始执行本发明方法。
[0069] 需要说明的是,获取所有手机号码发送的短信数量属于本领域技术人员的惯用技术手段,一般的通过各省的短信网关进行实时的短信吞吐量查询后累加即可获得。这里的处理压力阈值是指根据现有系统判断短信是否为垃圾短信时,系统所能处理的数据量确定的数量值,具体根据系统性能进行确定。
[0070] 当疑似黑名单号码发送的短信为非垃圾短信时,该方法还包括:
[0071] 将该手机号码的疑似分数减去预设数值。
[0072] 这里,通过当疑似黑名单号码发送的短信为非垃圾短信时,对该手机号码的疑似分数减去预设数值,可以避免每次接收到短信时,都进行是否为垃圾短信的判断,只有在每一次按照周期重新确定新的疑似系数的情况下,才可能出现对该号码是否为黑名单号码的判断,避免不必要的重复判断,增加处理过程的工作效率。
[0073] 本发明通过对发送短信的手机号码,通过呼入呼出信息确定疑似黑名单号码,对疑似黑名单号码发送的短信进行是否垃圾短息的判断,确定为垃圾短信时,将号码确定为黑名单号码并过滤短信,提高了垃圾短信的处理效率,降低了对所有短信进行是否垃圾短信判断的压力,避免了短信暴增造成的处理延时。
[0074] 图2为本发明实现短信过滤的系统的结构框图,如图2所示,包括:第一判断装置和第二判断装置;其中,
[0075] 第一判断装置包括:计算单元、换算单元、确定疑似单元及黑名单单元;其中,[0076] 计算单元,用于对手机号码,根据呼入呼出信息计算预设个数的疑似系数;
[0077] 换算单元,用于去除计算获得的疑似系数的歧义点后,将去除歧义点的疑似系数换算为疑似分数;
[0078] 确定疑似单元,用于确定疑似分数大于预设分数阈值的手机号码为疑似黑名单号码,并输出疑似黑名单号码发送的短信给第二判断装置;
[0079] 黑名单单元,用于根据接收来自第二判断单元的黑名单号码,过滤所述黑名单号码发送的短信;对于未确定为黑名单号码的短信允许发送;
[0080] 第二判断装置包括判断单元和发送单元,用于判断来自第一判断装置的疑似黑名单号码发送的短信是否是垃圾短信;当疑似黑名单号码发送的短信是垃圾短信时,确定疑似黑名单号码为黑名单号码,将黑名单号码发往第一判断装置;当疑似黑名单号码发送的短信是非垃圾短信时,允许该手机号码的短信发送;
[0081] 发送单元,用于将确定为黑名单号码发往第一判断装置。
[0082] 换算单元还用于,将所有手机号码按照预先设定的规则映射到由1开始的不同的内存位,在手机号对应的内存位中存储所述疑似分数。
[0083] 第一判断装置还包括疑似分数处理单元,用于当判断单元判断疑似黑名单号码发送的短信为非垃圾短信时,将该手机号码的疑似分数减去预设数值。
[0084] 计算单元具体用于,对手机号码,根据预设时长内各手机号码的呼出数除以呼入数获得疑似系数;
[0085] 根据连续的预设个数的预设时长,计算预设个数的疑似系数;
[0086] 换算单元具体用于,对计算获得的疑似系数去除歧义点,根据去除歧义点后的疑似系数的个数计算疑似系数均值,对疑似系数均值求反正切后获得弧度值;
[0087] 将获得的弧度值乘以200得到的积值再除以π,获得去除歧义点后的疑似系数对应的所述疑似分数。
[0088] 第二判断装置还包括压力判断单元,用于在根据呼入呼出信息计算预设个数的疑似系数之前,
[0089] 实时获取所有手机号码发送的短信数量,判断所有手机号码发送的短信数量是否小于预先设置的处理压力阈值;
[0090] 当所有手机号码发送的短信数量小于处理压力阈值时,发送通知消息到第一判断装置,将所有手机号码确定为疑似黑名单号码;
[0091] 当所有手机号码发送的短信数量大于处理压力阈值时,将所有手机号码发往第一判断装置的计算单元进行处理。
[0092] 需要说明的是,本发明第一判断装置一般与通信系统中,各省的短信网关连接,或内置与短信网关中;第二判断装置一般设置与分布式流式计算中心连接,或嵌入融合在分布式流式计算中心中工作。
[0093] 虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请,如本发明实施方式中的具体的实现方法。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
QQ群二维码
意见反馈