一种垃圾短信过滤方法、系统、移动终端以及服务器

申请号 CN201310279728.8 申请日 2013-07-04 公开(公告)号 CN104284306A 公开(公告)日 2015-01-14
申请人 北京壹人壹本信息科技有限公司; 发明人 何通庆; 郭伟; 方礼勇; 杜国楹;
摘要 本 发明 实施方式公开了一种垃圾短信过滤方法,包括:移动终端根据其存储的分类词库对待处理短信进行分类以获得分类结果,当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,移动终端将分类错误信息上传到 云 服务器 以更新与移动终端对应的私有短信训练集,移动终端获得云服务器的词库更新信息以同步更新移动终端存储的分类词库。本发明实施方式还公开了一种移动终端、云服务器、垃圾短信过滤系统。通过上述方式,本发明能够提高移动终端对垃圾短信的过滤效率,使垃圾短信的过滤具有个性化。
权利要求

1.一种垃圾短信过滤方法,其特征在于,包括:
移动终端根据其存储的分类词库对待处理短信进行分类以获得分类结果,其中,所述分类结果为垃圾短信或非垃圾短信;
当所述分类结果被判定为错误的分类结果且移动终端接收到对应所述错误的分类结果的上传指令时,所述移动终端将分类错误信息上传到服务器以更新与所述移动终端对应的私有短信训练集,其中,所述分类错误信息包括待处理短信以及错误的分类结果;
所述移动终端获得云服务器的词库更新信息以同步更新所述移动终端存储的分类词库,其中,所述词库更新信息为在云服务器存储的与移动终端对应的私有短信训练集和/或公有短信训练集更新后云服务器对私有短信训练集和公有短信训练集进行学习而获得。
2.根据权利要求1所述的方法,其特征在于,所述移动终端根据其存储的分类词库对待处理短信进行分类以获得分类结果的步骤具体包括:
所述移动终端对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征;
所述移动终端将分类词库中存储的垃圾短信所占的比例P(C1)、非垃圾短信所占的比例P(C2)、单词特征以及规则特征在垃圾短信中的匹配概率P(xk|C1)以及非垃圾短信中的匹配概率P(xk|C2)代入贝叶斯分类公式中,以获得所述待处理短信属于垃圾短信的概率P(C1|X),所述贝叶斯分类公式具体如下所示:
所述移动终端获得待处理短信属于非垃圾短信的概率P(C2|X),具体如下所示:
P(C2|X)=1-P(C1|X)
所述移动终端获得待处理短信的分类结果,其中,当P(C1|X)>P(C2|X)时则所述待处理短信属于垃圾短信,否则所述待处理短信属于非垃圾短信。
3.根据权利要求2所述的方法,其特征在于,
在所述移动终端对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征的步骤之前还包括:
所述移动终端判断待处理短信的发送者号码是否在与移动终端对应的私有黑白名单中,其中,当所述发送者号码在与移动终端对应的私有黑名单中时则所述待处理短信属于垃圾短信,当所述发送者号码在与移动终端对应的私有白名单中时则所述待处理短信属于非垃圾短信;
当所述发送者号码不在与移动终端对应的私有黑白名单中时,所述移动终端继续判断发送者号码是否在公有黑白名单中,其中,当所述发送者号码在公有黑名单中时则所述待处理短信属于垃圾短信,当所述发送者号码在公有白名单中时则所述待处理短信属于非垃圾短信;
当所述发送者号码不在公有黑白名单中时,所述移动终端执行所述对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征的步骤。
4.根据权利要求3所述的方法,其特征在于,
当所述分类结果被判定为错误的分类结果且移动终端接收到对应所述错误的分类结果的上传指令时,所述移动终端上传到云服务器的分类错误信息还包括待处理短信的发送者号码,所述移动终端将发送者号码上传到云服务器以判断是否将发送者号码加入所述云服务器存储的与移动终端对应的私有黑白名单和/或公有黑白名单中;
当所述云服务器存储的与移动终端对应的私有黑白名单和/或公有黑白名单更新时,所述移动终端获得云服务器的私有黑白名单更新信息和/或公有黑白名单更新信息以同步更新移动终端存储的公有黑白名单和/或私有黑白名单。
5.根据权利要求1或4所述的方法,其特征在于,
所述错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信或者将属于非垃圾短信的待处理短信分类为垃圾短信;
所述词库更新信息至少包括私有短信训练集更新后待处理短信的单词特征以及规则特征在垃圾短信或非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。
6.一种垃圾短信过滤方法,其特征在于,包括:
云服务器对其存储的与移动终端对应的私有短信训练集和公有短信训练集进行学习以获得与移动终端对应的分类词库,所述分类词库用于移动终端对待处理短信进行分类以获得分类结果,其中,所述分类结果为垃圾短信或非垃圾短信;
当所述分类结果被判定为错误的分类结果且移动终端接收到对应所述错误的分类结果的上传指令时,所述云服务器接收移动终端上传的分类错误信息,其中,所述分类错误信息包括待处理短信以及错误的分类结果;
所述云服务器将待处理短信加入与移动终端对应的私有短信训练集中以更新私有短信训练集;
在所述私有短信训练集和/或公有短信训练集更新后,所述云服务器对私有短信训练集和公有短信训练集进行学习以获得词库更新信息。
7.根据权利要求6所述的方法,其特征在于,
所述错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信或者将属于非垃圾短信的待处理短信分类为垃圾短信;
当所述错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信时,在所述私有短信训练集更新后,所述云服务器对私有短信训练集和公有短信训练集进行学习以获得词库更新信息的步骤具体包括:
所述云服务器对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征;
所述云服务器根据公有短信训练集中所述单词特征和规则特征在垃圾短信中的匹配频次、私有训练集中所述单词特征和规则特征在垃圾短信中的匹配频次、私有短信训练集和公有短信训练集中的垃圾短信数量、非垃圾短信数量获得第一词库更新信息,其中,所述第一词库更新信息包括私有短信训练集更新后待处理短信的单词特征以及规则特征在垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例;
当所述错误的分类结果为将属于非垃圾短信的待处理短信分类为垃圾短信时,在所述私有短信训练集更新后,所述云服务器对私有短信训练集和公有短信训练集进行学习以获得词库更新信息的步骤具体包括:
所述云服务器对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征;
所述云服务器根据公有短信训练集中所述单词特征和规则特征在非垃圾短信中的匹配频次、私有训练集中所述单词特征和规则特征在非垃圾短信中的匹配频次、私有短信训练集和公有短信训练集中的垃圾短信数量、非垃圾短信数量获得第二词库更新信息,其中,所述第二词库更新信息包括私有短信训练集更新后待处理短信的单词特征以及规则特征在非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。
8.根据权利要求7所述的方法,其特征在于,
所述分类错误信息还包括待处理短信的发送者号码,所述云服务器判断是否将发送者号码加入云服务器存储的与移动终端对应的私有黑白名单和/或公有黑白名单中,若是则所述云服务器更新与移动终端对应的私有黑白名单和/或公有黑白名单以获得私有黑白名单更新信息和/或公有黑白名单更新信息,以使所述移动终端同步更新移动终端存储的公有黑白名单和/或私有黑白名单。
9.一种移动终端,其特征在于,包括:
分类模,用于根据移动终端存储的分类词库对待处理短信进行分类以获得分类结果,其中,所述分类结果为垃圾短信或非垃圾短信,所述分类词库为云服务器对其存储的与移动终端对应的私有短信训练集和公有短信训练集进行学习而获得;
上传模块,用于当所述分类结果被判定为错误的分类结果且移动终端接收到对应所述错误的分类结果的上传指令时,将分类错误信息上传到云服务器以更新与移动终端对应的私有短信训练集,其中,所述分类错误信息包括待处理短信以及错误的分类结果;
移动终端更新模块,用于获得云服务器的词库更新信息以同步更新所述移动终端中存储的分类词库,其中,所述词库更新信息为在私有短信训练集和/或公有短信训练集更新后云服务器对私有短信训练集和公有短信训练集进行学习而获得。
10.一种云服务器,其特征在于,包括:
学习模块,用于对云服务器存储的与移动终端对应的私有短信训练集和公有短信训练集进行学习以获得与移动终端对应的分类词库,所述分类词库用于移动终端对待处理短信进行分类以获得分类结果,其中,所述分类结果为垃圾短信或非垃圾短信;
云服务器更新模块,当所述分类结果被判定为错误的分类结果且移动终端接收到对应所述错误的分类结果的上传指令时,用于接收移动终端上传的分类错误信息,其中,所述分类错误信息包括待处理短信以及错误的分类结果;
所述云服务器更新模块还用于将待处理短信加入与移动终端对应的私有短信训练集中以更新私有短信训练集;
所述学习模块还用于在私有短信训练集和/或公有短信训练集更新后,对私有短信训练集和公有短信训练集进行学习以获得词库更新信息,进而使所述移动终端根据词库更新信息同步更新移动终端中存储的分类词库。
11.一种垃圾短信过滤系统,其特征在于,包括:如权利要求9所述的移动终端以及如权利要求10所述的云服务器。

说明书全文

一种垃圾短信过滤方法、系统、移动终端以及服务器

技术领域

[0001] 本发明涉及文本分类领域,特别是涉及一种垃圾短信过滤方法、系统、移动终端以及云服务器。

背景技术

[0002] 随着移动通信技术的飞速发展和手机普及率的迅速提升,短信正以其短小、迅速、简便、价格低廉等诸多优点日益成为人们的一种重要通信和交流方式,给用户带来了极大的交流方便,同时,垃圾短信日益猖獗,尤其是在智能手机快速普及、个人信息安全问题日益严峻的今天,不少用户都深受垃圾短信的困扰。垃圾短信是指用户没有定制过的,包含有广告、欺骗、色情等内容以及短时间内连续发送同样内容,影响用户正常使用、工作和生活的短信,常见的垃圾短信内容包括广告信息、色情信息、假中奖信息、欺诈信息、恶作剧等,即对用户没有价值的信息,给用户带来了很多的烦恼,因此急需对垃圾短信进行监控过滤。现有技术中主要包括两种垃圾短信的过滤方法:一种方法是在短信服务中心(SMSC)等短信处理中心进行处理;另一种方法则是在手机等移动终端上用编制的内嵌程序执行整个垃圾短信的过滤过程。
[0003] 本申请发明人在长期研发中发现,有些信息例如彩票信息、票务信息、广告信息等对于一部分用户来说可能是垃圾短信,但对于另一部分用户来说则不属于垃圾短信,在短信服务中心进行过滤可能导致被错误分类的信息无法到达用户的移动终端上,垃圾短信的过滤缺乏考虑不同用户的需求差异;此外由于移动终端的计算速度和空间都比较有限,在移动终端上执行整个垃圾短信的过滤过程会消耗过多的时间与空间,影响用户对短信的正常接收。

发明内容

[0004] 本发明主要解决的技术问题是提供一种垃圾短信过滤方法、系统、移动终端以及云服务器,能够提高移动终端对垃圾短信的过滤效率,使垃圾短信的过滤具有个性化。
[0005] 为解决上述技术问题,本发明的第一方面是:提供一种垃圾短信过滤方法,包括:移动终端根据其存储的分类词库对待处理短信进行分类以获得分类结果,其中,分类结果为垃圾短信或非垃圾短信;当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,移动终端将分类错误信息上传到云服务器以更新与移动终端对应的私有短信训练集,其中,分类错误信息包括待处理短信以及错误的分类结果;移动终端获得云服务器的词库更新信息以同步更新移动终端存储的分类词库,其中,词库更新信息为在云服务器存储的与移动终端对应的私有短信训练集和/或公有短信训练集更新后云服务器对私有短信训练集和公有短信训练集进行学习而获得。
[0006] 其中,移动终端根据其存储的分类词库对待处理短信进行分类以获得分类结果的步骤具体包括:移动终端对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征;移动终端将分类词库中存储的垃圾短信所占的比例P(C1)、非垃圾短信所占的比例P(C2)、单词特征以及规则特征在垃圾短信中的匹配概率P(xk|C1)以及非垃圾短信中的匹配概率P(xk|C2)代入贝叶斯分类公式中,以获得待处理短信属于垃圾短信的概率P(C1|X),贝叶斯分类公式具体如下所示:
[0007]
[0008] 移动终端获得待处理短信属于非垃圾短信的概率P(C2|X),具体如下所示:
[0009] P(C2|X)=1-P(C1|X)
[0010] 移动终端获得待处理短信的分类结果,其中,当P(C1|X)>P(C2|X)时则待处理短信属于垃圾短信,否则待处理短信属于非垃圾短信。
[0011] 其中,在移动终端对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征的步骤之前还包括:移动终端判断待处理短信的发送者号码是否在与移动终端对应的私有黑白名单中,其中,当发送者号码在与移动终端对应的私有黑名单中时则待处理短信属于垃圾短信,当发送者号码在与移动终端对应的私有白名单中时则待处理短信属于非垃圾短信;当发送者号码不在与移动终端对应的私有黑白名单中时,移动终端继续判断发送者号码是否在公有黑白名单中,其中,当发送者号码在公有黑名单中时则待处理短信属于垃圾短信,当发送者号码在公有白名单中时则待处理短信属于非垃圾短信;当发送者号码不在公有黑白名单中时,移动终端执行对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征的步骤。
[0012] 其中,当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,移动终端上传到云服务器的分类错误信息还包括待处理短信的发送者号码,移动终端将发送者号码上传到云服务器以判断是否将发送者号码加入云服务器存储的与移动终端对应的私有黑白名单和/或公有黑白名单中;当云服务器存储的与移动终端对应的私有黑白名单和/或公有黑白名单更新时,移动终端获得云服务器的私有黑白名单更新信息和/或公有黑白名单更新信息以同步更新移动终端存储的公有黑白名单和/或私有黑白名单。
[0013] 其中,错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信或者将属于非垃圾短信的待处理短信分类为垃圾短信;词库更新信息至少包括私有短信训练集更新后待处理短信的单词特征以及规则特征在垃圾短信或非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。
[0014] 为解决上述技术问题,本发明的第二方面是:提供一种垃圾短信过滤方法,包括:云服务器对其存储的与移动终端对应的私有短信训练集和公有短信训练集进行学习以获得与移动终端对应的分类词库,分类词库用于移动终端对待处理短信进行分类以获得分类结果,其中,分类结果为垃圾短信或非垃圾短信;当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,云服务器接收移动终端上传的分类错误信息,其中,分类错误信息包括待处理短信以及错误的分类结果;云服务器将待处理短信加入与移动终端对应的私有短信训练集中以更新私有短信训练集;在私有短信训练集和/或公有短信训练集更新后,云服务器对私有短信训练集和公有短信训练集进行学习以获得词库更新信息。
[0015] 其中,错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信或者将属于非垃圾短信的待处理短信分类为垃圾短信;当错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信时,在私有短信训练集更新后,云服务器对私有短信训练集和公有短信训练集进行学习以获得词库更新信息的步骤具体包括:云服务器对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征;云服务器根据公有短信训练集中单词特征和规则特征在垃圾短信中的匹配频次、私有训练集中单词特征和规则特征在垃圾短信中的匹配频次、私有短信训练集和公有短信训练集中的垃圾短信数量、非垃圾短信数量获得第一词库更新信息,其中,第一词库更新信息包括私有短信训练集更新后待处理短信的单词特征以及规则特征在垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例;当错误的分类结果为将属于非垃圾短信的待处理短信分类为垃圾短信时,在私有短信训练集更新后,云服务器对私有短信训练集和公有短信训练集进行学习以获得词库更新信息的步骤具体包括:云服务器对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征;云服务器根据公有短信训练集中单词特征和规则特征在非垃圾短信中的匹配频次、私有训练集中单词特征和规则特征在非垃圾短信中的匹配频次、私有短信训练集和公有短信训练集中的垃圾短信数量、非垃圾短信数量获得第二词库更新信息,其中,第二词库更新信息包括私有短信训练集更新后待处理短信的单词特征以及规则特征在非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。
[0016] 其中,分类错误信息还包括待处理短信的发送者号码,云服务器判断是否将发送者号码加入云服务器存储的与移动终端对应的私有黑白名单和/或公有黑白名单中,若是则云服务器更新与移动终端对应的私有黑白名单和/或公有黑白名单以获得私有黑白名单更新信息和/或公有黑白名单更新信息,以使移动终端同步更新移动终端存储的公有黑白名单和/或私有黑白名单。
[0017] 为解决上述技术问题,本发明的第三方面是:提供一种移动终端,包括:分类模,用于根据移动终端存储的分类词库对待处理短信进行分类以获得分类结果,其中,分类结果为垃圾短信或非垃圾短信,分类词库为云服务器对其存储的与移动终端对应的私有短信训练集和公有短信训练集进行学习而获得;上传模块,用于当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,将分类错误信息上传到云服务器以更新与移动终端对应的私有短信训练集,其中,分类错误信息包括待处理短信以及错误的分类结果;移动终端更新模块,用于获得云服务器的词库更新信息以同步更新移动终端中存储的分类词库,其中,词库更新信息为在私有短信训练集和/或公有短信训练集更新后云服务器对私有短信训练集和公有短信训练集进行学习而获得。
[0018] 为解决上述技术问题,本发明的第四方面是:提供一种云服务器,包括:学习模块,用于对云服务器存储的与移动终端对应的私有短信训练集和公有短信训练集进行学习以获得与移动终端对应的分类词库,分类词库用于移动终端对待处理短信进行分类以获得分类结果,其中,分类结果为垃圾短信或非垃圾短信;云服务器更新模块,当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,用于接收移动终端上传的分类错误信息,其中,分类错误信息包括待处理短信以及错误的分类结果;云服务器更新模块还用于将待处理短信加入与移动终端对应的私有短信训练集中以更新私有短信训练集;学习模块还用于在私有短信训练集和/或公有短信训练集更新后,对私有短信训练集和公有短信训练集进行学习以获得词库更新信息,进而使移动终端根据词库更新信息同步更新移动终端中存储的分类词库。
[0019] 为解决上述技术问题,本发明的第五方面是:提供一种垃圾短信过滤系统,包括如前所述的移动终端以及如前所述的云服务器。
[0020] 本发明的有益效果是:区别于现有技术的情况,本发明通过移动终端根据其存储的分类词库对待处理短信进行分类以获得分类结果,当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,移动终端将分类错误信息上传到云服务器以更新与移动终端对应的私有短信训练集,移动终端获得云服务器的词库更新信息以同步更新移动终端存储的分类词库,通过云服务器的强大处理能,对更新后的私有短信训练集和公有短信训练集进行再学习,为移动终端提供兼具个性化和普遍共性的分类词库,进而不断提高移动终端对垃圾短信过滤的准确性,提高移动终端对垃圾短信的过滤效率,使垃圾短信的过滤具有个性化。附图说明
[0021] 图1是本发明垃圾短信过滤方法第一实施方式的流程图
[0022] 图2是本发明垃圾短信过滤方法第一实施方式中移动终端根据其存储的分类词库对待处理短信进行分类以获得分类结果的流程图;
[0023] 图3是本发明垃圾短信过滤方法第二实施方式的流程图;
[0024] 图4是本发明垃圾短信过滤方法第二实施方式中当错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信时云服务器对私有短信训练集和公有短信训练集进行学习以获得词库更新信息的流程图;
[0025] 图5是本发明垃圾短信过滤方法第二实施方式中当错误的分类结果为将属于非垃圾短信的待处理短信分类为垃圾短信时云服务器对私有短信训练集和公有短信训练集进行学习以获得词库更新信息的流程图;
[0026] 图6是本发明移动终端一实施方式的原理框图
[0027] 图7是本发明云服务器一实施方式的原理框图;
[0028] 图8是本发明垃圾短信过滤系统一实施方式的原理框图。

具体实施方式

[0029] 下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,均属于本发明保护的范围。
[0030] 请参阅图1,本发明垃圾短信过滤方法第一实施方式包括:
[0031] 步骤S101:对待处理短信进行分类以获得分类结果;
[0032] 移动终端根据其存储的分类词库对待处理短信进行分类以获得待处理短信对应的分类结果,其中,分类结果为垃圾短信或非垃圾短信。移动终端存储的分类词库与云服务器存储的分类词库随时保持同步更新,云服务器存储的分类词库为云服务器对其存储的与移动终端对应的私有短信训练集和公有短信训练集进行学习而获得。与移动终端对应的私有短信训练集可为空或者存储有移动终端上传的已分类的垃圾短信和/或非垃圾短信,当与移动终端对应的私有短信训练集为空时,分类词库为云服务器对公有短信训练集以及为空的私有短信训练集进行学习而获得,即此时仅对公有短信训练集进行学习;当与移动终端对应的私有短信训练集不为空时,分类词库为云服务器对与移动终端对应的私有短信训练集和公有短信训练集进行学习而获得。云服务器存储有一个公有短信训练集和多个与移动终端对应的私有短信训练集,即云服务器存储有一个共有短信训练集和多个私有短信训练集,其中,每个私有短信训练集对应于一个移动终端。
[0033] 其中,公有短信训练集中存储有一定数量的已分类的垃圾短信与非垃圾短信,云服务器上的所有移动终端共用一个公有短信训练集;而私有短信训练集存储有移动终端上传的已分类的垃圾短信与非垃圾短信,不同移动终端对应不同的私有短信训练集。
[0034] 步骤S102:将分类错误信息上传到云服务器以更新与移动终端对应的私有短信训练集;
[0035] 当移动终端获得待处理短信的分类结果后,用户判断移动终端获得的分类结果是否为错误的分类结果,其中,错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信或者将属于非垃圾短信的待处理短信分类为垃圾短信。某些短信对于一些用户而言可能是垃圾短信,但对于另一些用户而言则可能是非垃圾短信,因此不同用户对于同一条待处理短信的分类结果的正确与否可能有不同的判断结果。
[0036] 当用户判定分类结果为错误的分类结果且移动终端接收到对应上述错误的分类结果的上传指令时,移动终端根据上传指令将分类错误信息上传到云服务器以更新与移动终端对应的私有短信训练集,即移动终端在接收到上传指令后将分类错误信息上传到与服务器,以便云服务器对与该移动终端对应的私有短信训练集进行更新,其中,分类错误信息包括待处理短信以及对应的错误的分类结果。
[0037] 步骤S103:获得云服务器的词库更新信息以同步更新移动终端存储的分类词库。
[0038] 移动终端获得云服务器的词库更新信息以同步更新移动终端存储的分类词库,其中,词库更新信息为在云服务器存储的与移动终端对应的私有短信训练集和/或公有短信训练集更新后云服务器对私有短信训练集和公有短信训练集进行学习而获得,即词库更新信息为当私有短信训练集和公有短信训练集中的至少一个更新时而获得,也即当出现如下三种情况中的一种情况的更新时而获得词库更新信息:(1)公有短信训练集更新,(2)私有短信训练集更新,(3)私有短信训练集和公有短信训练集同时更新。云服务器可定期加入一定数量的已分类的垃圾短信和/或非垃圾短信到公有短信训练集中以更新公有短信训练集。其中,当私有短信训练集为空即私有短信训练集中没有存储移动终端上传的已分类的短信且没有更新私有短信训练集时,词库更新信息为云服务器对更新后的公有短信训练集以及为空的私有短信训练集进行学习而获得即此时仅对更新后的公有短信训练集进行学习;当私有短信训练集不为空时,词库更新信息为在私有短信训练集和/或公有短信训练集更新后云服务器对私有短信训练集和公有短信训练集进行学习而获得。当云服务器通过学习而获得词库更新信息后,移动终端通过GPRS、WiFi等方式从云服务器上下载词库更新信息,移动终端只需下载信息容量较小的词库更新信息而无需下载云服务器中更新后的整个分类词库即可实现对移动终端存储的分类词库的更新,减少移动终端更新分类词库所需的流量。移动终端根据更新后的分类词库对后续待处理短信进行分类,从而形成一个循环过程。
[0039] 本发明通过云服务器的强大处理能力,根据移动终端上传的分类错误信息更新与移动终端对应的私有短信训练集,在私有短信训练集和/或公有短信训练集更新后,结合分词词库和停用词库进行再学习,通过进一步学习为移动终端提供兼具共性和个性化的分类词库,进而不断提高移动终端对垃圾短信过滤的处理速度和准确性,提高移动终端对垃圾短信的过滤效率,同时也为移动终端提供个性化的垃圾短信过滤,使垃圾短信的过滤具有个性化,满足不同用户对短信的不同过滤需求。
[0040] 请参阅图2,本发明垃圾短信过滤方法第一实施方式中移动终端根据其存储的分类词库对待处理短信进行分类以获得分类结果具体包括以下子步骤:
[0041] 子步骤S1011:对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征;
[0042] 移动终端对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征,具体包括:
[0043] 移动终端对待处理短信进行分词,通过查询其存储的分词词库将待处理短信分割成一个个有意义的单词特征,其中,中文分词是将中文短信文本分割成汉语最小的、能独立活动的、有意义的语言成分即词条;对于英文短信文本,根据词之间的分隔标记例如空格将英文短信文本分隔成一个个单词特征。本实施方式的分词方法为智能分词法,即利用隐尔科夫模型(Hidden Markov Model,HMM)算法。在其他实施方式中,也可利用词典分词法、切分标记法、基于统计的分词法、基于规则的分词法等方法进行分词,此处不作过多限制。
[0044] 移动终端根据其存储的停用词库删除对短信分类没有贡献的单词特征,其包括分词后形成的单个的字、叹词、语气助词、代词等。
[0045] 在删除没有贡献的单词特征后,移动终端进一步从剩余的单词特征中选取对短信分类贡献较高的单词特征,通过计算各个剩余的单词特征A出现与否和某个分类C的互信息MI(A;C),其中,分类C包括垃圾短信C1与非垃圾短信C2两类,互信息MI(A;C)的计算公式具体如下所示:
[0046]
[0047] 进一步从中选取具有最高互信息MI(A;C)的单词特征作为分类判断所用的单词特征。
[0048] 移动终端获得待处理短信的规则特征,规则特征包括短信长度、是否包含URL、是否包含电话号码以及短信发送者号码是否为手机号码。
[0049] 待处理短信X表示为:X={x1,x2,…,xn},xk(k=1,2,…,n)为待处理短信对应的单词特征以及规则特征。
[0050] 子步骤S1012:将垃圾短信、非垃圾短信所占的比例、单词特征以及规则特征在垃圾短信中的匹配概率以及非垃圾短信中的匹配概率代入贝叶斯分类公式中;
[0051] 移动终端将分类词库中存储的垃圾短信所占的比例P(C1)、非垃圾短信所占的比例P(C2)、待处理短信对应的单词特征以及规则特征xk在垃圾短信中的匹配概率P(xk|C1)以及非垃圾短信中的匹配概率P(xk|C2)代入贝叶斯分类公式中,以获得待处理短信属于垃圾短信的概率P(C1|X),贝叶斯分类公式具体如下所示:
[0052]
[0053] 其中,垃圾短信所占的比例P(C1)即与移动终端对应的私有短信训练集和公有短信训练集中垃圾短信数量占所有短信(即垃圾短信与非垃圾短信)数量的比例;非垃圾短信所占的比例P(C2)即与移动终端对应的私有短信训练集和公有短信训练集中非垃圾短信数量占所有短信数量的比例。与移动终端对应的分类词库中存储有垃圾短信所占的比例P(C1)、非垃圾短信所占的比例P(C2)、单词特征以及规则特征在垃圾短信中的匹配概率P(xk|C1)以及非垃圾短信中的匹配概率P(xk|C2),不同移动终端对应不同的分类词库。
[0054] 子步骤S1013:获得待处理短信属于非垃圾短信的概率;
[0055] 移动终端进一步获得待处理短信属于非垃圾短信的概率P(C2|X),具体如下所示:
[0056] P(C2|X)=1-P(C1|X)
[0057] 在其他实施方式中,也可利用贝叶斯分类公式获得待处理短信属于非垃圾短信的概率,此处不作过多限制。
[0058] 子步骤S1014:获得待处理短信的分类结果。
[0059] 移动终端根据待处理短信属于垃圾短信的概率P(C1|X)以及属于非垃圾短信的概率P(C2|X)获得待处理短信的分类结果,其中,当P(C1|X)>P(C2|X)时则待处理短信的分类结果为属于垃圾短信,否则待处理短信的分类结果为属于非垃圾短信。同时,也可通过判断P(C1|X)是否大于0.5而进行分类判断,当P(C1|X)大于0.5时则属于垃圾短信,否则属于非垃圾短信。
[0060] 当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,则至少云服务器存储的与移动终端对应的私有短信训练集得到更新,对应获得的词库更新信息至少包括私有短信训练集更新后待处理短信对应的单词特征以及规则特征在垃圾短信或非垃圾短信中的匹配概率、垃圾短信所占的比例P(C1)以及非垃圾短信所占的比例P(C2),具体地,当错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信时对应更新单词特征以及规则特征在垃圾短信中的匹配概率、垃圾短信所占的比例P(C1)以及非垃圾短信所占的比例P(C2);当错误的分类结果为将属于非垃圾短信的待处理短信分类为垃圾短信时对应更新单词特征以及规则特征在非垃圾短信中的匹配概率、垃圾短信所占的比例P(C1)以及非垃圾短信所占的比例P(C2)。
[0061] 此外,在移动终端对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征的步骤之前还包括:
[0062] 移动终端判断待处理短信的发送者号码是否在与移动终端对应的私有黑白名单中,其中,当发送者号码在与移动终端对应的私有黑名单中时则待处理短信属于垃圾短信,当发送者号码在与移动终端对应的私有白名单中时则待处理短信属于非垃圾短信。
[0063] 当发送者号码不在与移动终端对应的私有黑白名单中时,移动终端继续判断发送者号码是否在公有黑白名单中,其中,当发送者号码在公有黑名单中时则待处理短信属于垃圾短信,当发送者号码在公有白名单中时则待处理短信属于非垃圾短信。
[0064] 当发送者号码不在公有黑白名单中时,移动终端执行上述对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征的步骤即子步骤S1011。
[0065] 在移动终端执行上述步骤S101获得待处理短信的分类结果后,当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,移动终端上传到云服务器的分类错误信息还包括待处理短信的发送者号码,移动终端将发送者号码上传到云服务器以判断是否将发送者号码加入云服务器存储的与移动终端对应的私有黑白名单和/或公有黑白名单中,若是则云服务器更新云服务器存储的与移动终端对应的私有黑白名单和/或公有黑白名单。具体地,移动终端上传的待处理短信的发送者号码后,云服务器首先将发送者号码加入与移动终端对应的私有黑白名单中,而在该发送者号码达到一定数量后则加入公有黑白名单。例如,当超过一预设数量如1万名用户举报一发送者号码则将该发送者号码加入公有黑名单中;当超过另一预设数量如100名用户举报一发送者号码同时该短信内容明显含有违法内容的则将该发送者号码加入公有黑名单中。
[0066] 当云服务器存储的与移动终端对应的私有黑白名单和/或公有黑白名单更新时,移动终端通过GPRS、WiFi等方式获得云服务器的私有黑白名单更新信息和/或公有黑白名单更新信息以同步更新移动终端存储的公有黑白名单和/或私有黑白名单。进一步地,移动终端利用更新后的公有黑白名单和/或私有黑白名单对后续待处理短信进行判断。例如,在正确判断得到待处理短信属于垃圾短信或将属于垃圾短信的待处理短信分类为非垃圾短信后,将待处理短信对应的发送者号码上传到云服务器中,云服务器进一步将该发送者号码加入与移动终端对应的私有黑白名单中。
[0067] 可以理解,本发明垃圾短信过滤方法第一实施方式通过移动终端根据云服务器对与移动终端对应的私有短信训练集和公有短信训练集进行学习而获得的分类词库进行分类,当分类结果错误时,移动终端上传分类错误信息以及时更新移与动终端对应的分类词库,移动终端无需进行短信样本的学习就可进行分类,进而能够提高移动终端对垃圾短信的过滤效率,且不同移动终端对应不同的私有短信训练集以及分类词库,使垃圾短信的过滤具有个性化,且提高垃圾短信的过滤精度
[0068] 另外,本发明既利用分词词库和停用词库获取短信的单词特征,也获取短信长度、是否包含URL、是否包含电话号码以及短信发送者号码是否为手机号码等的规则特征,通过将单词特征和规则特征的匹配概率代入贝叶斯分类公式,更加准确直接计算出待处理短信属于垃圾短信的概率,并迅速作出判断,计算简单快速效率高,极大减少了移动终端的处理工作量。
[0069] 请参阅图3,本发明垃圾短信过滤方法第二实施方式包括:
[0070] 步骤S201:对私有短信训练集和公有短信训练集进行学习;
[0071] 云服务器对其存储的与移动终端对应的私有短信训练集和公有短信训练集进行学习以获得与移动终端对应的分类词库。与移动终端对应的私有短信训练集可为空或者存储有移动终端上传的已分类的垃圾短信和/或非垃圾短信,当与移动终端对应的私有短信训练集为空时,云服务器对公有短信训练集以及为空的私有短信训练集进行学习以获得分类词库即此时云服务器仅对公有短信训练集进行学习;当与移动终端对应的私有短信训练集不为空时,云服务器对与移动终端对应的私有短信训练集和公有短信训练集进行学习以获得分类词库。云服务器对与移动终端对应的私有短信训练集和公有短信训练集进行学习具体包括:云服务器根据其存储的分词词库、停用词库对与移动终端对应的私有短信训练集和公有短信训练集进行预处理以获得公有短信训练集、私有短信训练集中各个垃圾短信以及非垃圾短信对应的单词特征以及规则特征,进一步根据垃圾短信数量以及非垃圾短信数量获得各个单词特征以及规则特征在垃圾短信、非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。
[0072] 当云服务器存储的分词词库和/或停用词库更新时,移动终端存储的分词词库和/或停用词库与云服务器保持同步更新。分类词库用于移动终端对待处理短信进行分类以获得分类结果,其中,分类结果为垃圾短信或非垃圾短信。云服务器对应不同移动终端存储有与各个移动终端分别对应的分类词库。公有短信训练集中存储有一定数量的已分类的垃圾短信与非垃圾短信。
[0073] 在首次对待处理短信进行分类判断前,移动终端可上传用户判断得到一定数量的垃圾短信以及非垃圾短信到云服务器存储的与移动终端对应的私有短信训练集中;此外,垃圾短信过滤的初始时刻与移动终端对应的私有短信训练集也可为空。在首次对待处理短信进行分类判断前,移动终端通过GPRS、WiFi等方式获得云服务中存储的与移动终端对应的分类词库以进行分类判断。
[0074] 步骤S202:接收移动终端上传的分类错误信息;
[0075] 当用户判断得到移动终端获得的分类结果为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,云服务器接收移动终端上传的分类错误信息,分类错误信息包括待处理短信以及错误的分类结果,错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信或者将属于非垃圾短信的待处理短信分类为垃圾短信。
[0076] 步骤S203:将待处理短信加入私有短信训练集中;
[0077] 云服务器将分类错误信息中的待处理短信加入与移动终端对应的私有短信训练集中以更新与移动终端对应的私有短信训练集。当移动终端上传的错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信时,云服务器将待处理短信加入私有短信训练集中的垃圾短信类中;当移动终端上传的错误的分类结果为将属于非垃圾短信的待处理短信分类为垃圾短信时,云服务器将待处理短信加入私有短信训练集中的非垃圾短信类中。
[0078] 步骤S204:对私有短信训练集和公有短信训练集进行学习。
[0079] 在私有短信训练集和/或公有短信训练集更新后,云服务器对私有短信训练集和公有短信训练集进行学习以获得词库更新信息,词库更新信息的获得具体包括以下两种情况:(1)当私有短信训练集为空即私有短信训练集中没有存储移动终端上传的已分类的短信且没有更新私有短信训练集时,词库更新信息为云服务器对更新后的公有短信训练集进行学习而获得;(2)当私有短信训练集不为空时,词库更新信息为在私有短信训练集和/或公有短信训练集更新后云服务器对公有短信训练集和私有短信训练集进行学习而获得。移动终端根据词库更新信息同步更新移动终端中存储的分类词库,此时云服务器中的分类词库同样根据词库更新信息得到更新,其中,词库更新信息可存储于云服务器上的与移动终端对应的分类词库中。在对待处理短信进行分类判断前,移动终端存储的分类词库中的各个单词特征和规则特征在垃圾短信以及非垃圾短信中的匹配概率与云服务器上存储的与移动终端对应的分类词库保持同步。
[0080] 请参阅图4,当错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信时,本发明垃圾短信过滤方法第二实施方式中在私有短信训练集更新后云服务器对私有短信训练集和公有短信训练集进行学习以获得词库更新信息具体包括以下子步骤:
[0081] 子步骤S2041a:对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征;
[0082] 云服务器对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征,待处理短信X表示为:X={x1,x2,…,xn},xk(k=1,2,…,n)为待处理短信对应的单词特征以及规则特征。
[0083] 子步骤S2042a:根据单词特征和规则特征的匹配频次、垃圾短信数量、非垃圾短信数量获得第一词库更新信息。
[0084] 云服务器根据公有短信训练集中待处理短信对应的单词特征和规则特征xk在垃圾短信中的匹配频次、私有训练集中待处理短信对应的单词特征和规则特征xk在垃圾短信中的匹配频次、私有短信训练集和公有短信训练集中的垃圾短信数量、非垃圾短信数量获得第一词库更新信息,其中,第一词库更新信息包括在与移动终端对应的私有短信训练集更新后待处理短信对应的单词特征以及规则特征xk在垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。移动终端根据第一词库更新信息同步更新分类词库也即修改与移动终端对应的分类词库中存储的单词特征以及规则特征xk在垃圾短信中的匹配概率、将与移动终端对应的分类词库中没有包括的单词特征在垃圾短信中的匹配概率加入到分类词库中,以及修改分类词库中存储的垃圾短信所占的比例以及非垃圾短信所占的比例。单词特征以及规则特征xk在垃圾短信中的匹配概率等于公有短信训练集中待处理短信对应的单词特征和规则特征xk在垃圾短信中的匹配频次+私有训练集中待处理短信对应的单词特征和规则特征xk在垃圾短信中的匹配频次的和除以私有短信训练集和公有短信训练集中的垃圾短信数量。
[0085] 请参阅图5,当错误的分类结果为将属于非垃圾短信的待处理短信分类为垃圾短信时,本发明垃圾短信过滤方法第二实施方式中在私有短信训练集更新后云服务器对私有短信训练集和公有短信训练集进行学习以获得词库更新信息具体包括以下子步骤:
[0086] 子步骤S2041b:对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征;
[0087] 云服务器对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则特征。
[0088] 子步骤S2042b:根据单词特征、规则特征的匹配频次、垃圾短信数量、非垃圾短信数量获得第二词库更新信息。
[0089] 云服务器根据公有短信训练集中待处理短信对应的单词特征和规则特征xk在非垃圾短信中的匹配频次、私有训练集中待处理短信对应的单词特征和规则特征xk在非垃圾短信中的匹配频次、私有短信训练集和公有短信训练集中的垃圾短信数量、非垃圾短信数量获得第二词库更新信息,其中,第二词库更新信息包括在与移动终端对应的私有短信训练集更新后待处理短信对应的单词特征以及规则特征xk在非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。移动终端根据第二词库更新信息同步更新分类词库也即修改与移动终端对应的分类词库中存储的单词特征以及规则特征xk在非垃圾短信中的匹配概率、将与移动终端对应的分类词库中没有包括的单词特征在非垃圾短信中的匹配概率加入到分类词库中,以及修改分类词库中存储的垃圾短信所占的比例以及非垃圾短信所占的比例。单词特征以及规则特征xk在非垃圾短信中的匹配概率等于公有短信训练集中待处理短信对应的单词特征和规则特征xk在非垃圾短信中的匹配频次+私有训练集中待处理短信对应的单词特征和规则特征xk在非垃圾短信中的匹配频次的和除以私有短信训练集和公有短信训练集中的非垃圾短信数量。
[0090] 当公有短信训练集更新时,公有短信训练集的更新包括增加垃圾短信或增加非垃圾短信或同时增加垃圾短信以及非垃圾短信,与上述私有短信训练集的更新与学习同理,对公有短信训练集中更新部分的短信进行预处理,进一步根据单词特征、规则特征的匹配频次、垃圾短信数量、非垃圾短信数量获得对应的词库更新信息,以更新单词特征、规则特征在垃圾短信和/或非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。当私有短信训练集和公有短信训练集同时更新时,亦与上述公有短信训练集、私有短信训练集的更新与学习同理,此处不再赘述。
[0091] 云服务器对与移动终端对应的私有短信训练集和公有短信训练集进行学习即根据单词特征、规则特征在垃圾短信以及非垃圾短信中的匹配频次、垃圾短信数量以及非垃圾短信数量获得单词特征、规则特征在垃圾短信以及非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例,获得的匹配概率、所占的比例存储于分类词库中,不同移动终端对应不同的分类词库。当私有短信训练集和/或公有短信训练集更新时,云服务器只需对更新部分的短信进行预处理,即保留更新前私有短信训练集和/或公有短信训练集中的各个短信对应的单词特征以及规则特征,能够提高云服务器预处理以及学习的效率,进而提高更新分类词库的效率。
[0092] 此外,云服务器接收移动终端上传的分类错误信息中还包括待处理短信的发送者号码,在接收到发送者号码后云服务器判断是否将发送者号码加入云服务器存储的与移动终端对应的私有黑白名单和/或公有黑白名单中,若是则云服务器更新与移动终端对应的私有黑白名单和/或公有黑白名单以获得私有黑白名单更新信息和/或公有黑白名单更新信息,以使移动终端同步更新移动终端存储的公有黑白名单和/或私有黑白名单。公有黑白名单更新信息、私有黑白名单更新信息包括发送者号码以及该发送者号码对应加入的名单。例如,当超过一预设数量如1万名用户举报一发送者号码则将该发送者号码加入公有黑名单中;当超过另一预设数量如100名用户举报一发送者号码同时该短信内容明显含有违法内容的则将该发送者号码加入公有黑名单中。又例如,在正确判断得到待处理短信属于垃圾短信或将属于垃圾短信的待处理短信分类为非垃圾短信后,将待处理短信对应的发送者号码上传到云服务器中,云服务器进一步将该发送者号码加入与移动终端对应的私有黑白名单中。
[0093] 可以理解,本发明垃圾短信过滤方法第二实施方式通过云服务器对其存储的与移动终端对应的私有短信训练集和公有短信训练集进行学习以获得与移动终端对应的分类词库,移动终端根据分类词库对待处理短信进行分类判断,当接收到移动终端上传的分类错误信息后云服务器进行学习而获得词库更新信息,进而使移动终端同步更新移动终端存储的分类词库,云服务器存储占用空间较大的公有短信训练集、私有短信训练集以及执行计算量较大的学习过程,能够提高移动终端对垃圾短信的过滤效率以及减少移动终端的占用空间,且云服务器对应不同移动终端存储有相应的私有短信训练集以及分类词库,使垃圾短信的过滤具有个性化,进而提高垃圾短信的过滤精度。
[0094] 请参阅图6,本发明移动终端一实施方式包括:
[0095] 分类模块301,用于根据移动终端中存储的分类词库对待处理短信进行分类以获得分类结果,以及根据更新后的分类词库对后续待处理短信进行分类;具体实现可参考前述步骤S101对应的实现过程,在此不再重述。
[0096] 上传模块302,用于当分类模块301获得的分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,将分类错误信息上传到云服务器以更新与移动终端对应的私有短信训练集;具体实现可参考前述步骤S102对应的实现过程,在此不再重述。
[0097] 移动终端更新模块303,用于获得云服务器的词库更新信息以同步更新移动终端中存储的分类词库,以及获得云服务器的私有黑白名单更新信息和/或公有黑白名单更新信息以同步更新移动终端存储的公有黑白名单和/或私有黑白名单;具体实现可参考前述步骤S103对应的实现过程,在此不再重述。
[0098] 请参阅图7,本发明云服务器一实施方式包括:
[0099] 学习模块401,用于对云服务器存储的与移动终端对应的私有短信训练集和公有短信训练集进行学习以获得与移动终端对应的分类词库,还用于在私有短信训练集和/或公有短信训练集更新后,对私有短信训练集和公有短信训练集进行学习以获得词库更新信息,进而使移动终端根据词库更新信息同步更新移动终端中存储的分类词库;具体实现可参考前述步骤S201对应的实现过程,在此不再重述。
[0100] 云服务器更新模块402,用于当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,接收移动终端上传的分类错误信息,以及将分类错误信息中的待处理短信加入移动终端对应的私有短信训练集中以更新私有短信训练集;还用于判断是否将发送者号码加入其存储的与移动终端对应的私有黑白名单和/或公有黑白名单中,若是则云服务器更新模块402更新与移动终端对应的私有黑白名单和/或公有黑白名单以获得私有黑白名单更新信息和/或公有黑白名单更新信息;具体实现可参考前述步骤S202对应的实现过程,在此不再重述。
[0101] 请参阅图8,本发明短信过滤系统一实施方式包括移动终端以及服务器:
[0102] 移动终端包括:私有黑白名单、公有黑白名单、分类词库、分词词库、停用词库、私有黑白名单过滤模块501、公有黑白名单过滤模块502、分类模块503、上传模块504以及移动终端更新模块505,其中,私有黑白名单、公有黑白名单、分类词库、分词词库及停用词库均通过移动终端更新模块505与云服务器保持同步更新。
[0103] 私有黑白名单过滤模块501以及公有黑白名单过滤模块502,用于通过私有黑白名单和公有黑白名单对待处理短信进行黑白名单的过滤,实现垃圾短信的初步快速过滤;具体实现可参考前述黑白名单过滤步骤对应的实现过程,在此不再重述。
[0104] 分类模块503用于在待处理短信不在公有、私有黑白名单中时,首先根据分词词库和停用词库对待处理短信进行预处理获得单词特征和规则特征,其次根据移动终端中存储的分类词库对待处理短信进行分类以获得分类结果;具体实现可参考前述步骤S101对应的实现过程,在此不再重述。
[0105] 上传模块504,用于当上述分类模块503的分类结果为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时,将分类错误信息上传到云服务器以更新移动终端对应的私有短信训练集和私有黑白名单;具体实现可参考前述步骤S102对应的实现过程,在此不再重述。
[0106] 移动终端更新模块505用于获得云服务器的公有黑白名单更新信息和/或私有黑白名单更新信息以同步更新移动终端存储的公有黑白名单和/或私有黑白名单;还用于获得云服务器的词库更新信息以同步更新移动终端中存储的分类词库;还用于获得云服务器的分词词库更新信息和/或停用词库更新信息以同步更新移动终端存储的分词词库和/或停用词库;具体实现可参考前述步骤S103对应的实现过程,在此不再重述。
[0107] 云服务器包括:分词词库、停用词库、公有短信训练集、私有短信训练集、公有黑白名单、私有黑白名单、分类词库、学习模块506以及云服务器更新模块507。其中,分词词库、停用词库、公有短信训练集及公有黑白名单均是垃圾过滤系统中所有移动终端共用的,而私有短信训练集、私有黑白名单、分类词库则是分别对应各个移动终端,每个移动终端均不同。
[0108] 学习模块506,用于根据云服务器存储的分词词库以及停用词库对云服务器存储的公有短信训练集和/或移动终端对应的私有短信训练集进行学习以获得与移动终端对应的分类词库;还用于在公有短信训练集和/或私有短信训练集更新后,对公有短信训练集和/或私有短信训练集进行学习以获得词库更新信息,进而使移动终端根据词库更新信息同步更新移动终端中存储的分类词库;具体实现可参考前述步骤S201对应的实现过程,在此不再重述。
[0109] 云服务器更新模块507,用于接收移动终端上传的分类错误信息;还用于将待处理短信加入移动终端对应的私有短信训练集中以更新私有短信训练集,以及用于更新公有黑白名单和/或私有黑白名单以获得公有黑白名单更新信息和/或私有黑白名单更新信息;具体实现可参考前述步骤S202对应的实现过程,在此不再重述。
[0110] 公有短信训练集用于存储一定数量的已分类的垃圾短信与非垃圾短信,云服务器获得的公有短信训练集中短信对应的单词特征和规则特征在公有短信训练集的垃圾短信中的匹配频次、公有短信训练集中垃圾短信数量、单词特征和规则特征在公有短信训练集的非垃圾短信中的匹配频次、公有短信训练集中非垃圾短信数量可存储于公有短信训练集中,也可存储于云服务器的学习模块506等其它存储位置。私有短信训练集用于存储移动终端上传的已分类的垃圾短信与非垃圾短信,同理云服务器获得的私有短信训练集中短信对应的单词特征和规则特征在私有短信训练集中的匹配频次等信息可存储于私有短信训练集中,也可存储于云服务器的学习模块506等其它存储位置。分类词库用于存储云服务器对与移动终端对应的私有短信训练集和公有短信训练集进行学习而获得的单词特征和规则特征在垃圾短信中的匹配概率以及在非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。分词词库用于存储短信对应的各个有意义的单词特征。停用词库用于存储对短信分类没有贡献的单词特征,其包括分词后形成的单个的字、叹词、语气助词、代词等。公有黑白名单用于存储用户普遍加入黑名单的垃圾短信发送者号码以及加入白名单的非垃圾短信发送者号码。私有黑白名单用于与移动终端对应的加入黑名单的垃圾短信发送者号码以及加入白名单的非垃圾短信发送者号码。
[0111] 本发明短信过滤系统为分布式结构,移动终端执行短信的分类判断,利用处理能力较强和处理速度较快的云服务器执行分类判断所需的学习过程,能够提高垃圾短信的过滤效率,使垃圾短信的过滤具有个性化。
[0112] 以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
QQ群二维码
意见反馈