首页 / 专利库 / 人工智能 / 词性标注 / 垃圾短信中的关键词自动学习及更新方法

垃圾短信中的关键词自动学习及更新方法

阅读:960发布:2021-09-09

专利汇可以提供垃圾短信中的关键词自动学习及更新方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种垃圾短信中的关键词自动学习及更新方法,其步骤为:(1)在线过滤系统根据黑白名单和短信特征进行过滤(2)离线系统对一定周期内的实时短信进行短信文本预处理,并将其转化为短语向量;(3)采用 支持向量机 (SVM)对短信向量进行高准确率的离线分类;(4)针对分类结果,对特征进行统计分析,选择关键词并计算概率信息;(5)通过 接口 将结果反馈给垃圾短信在线过滤系统。本发明可根据垃圾短信的不断变化自动学习关键词,在此 基础 上,实时更新关键词列表,以达到自适应过滤垃圾短信的目的。,下面是垃圾短信中的关键词自动学习及更新方法专利的具体信息内容。

1.一种垃圾短信中的关键词自动学习及更新方法,其特征在于包括如下步骤: 1)在线过滤系统根据黑白名单和短信特征进行过滤; 2)离线系统对一定周期内的实时短信进行短信文本预处理,并将其转化为短语向量; 3)采用支持向量机对短信向量进行高准确率的离线分类; 4)针对分类结果,对特征进行统计分析,选择关键词并计算概率信息; 5)通过接口将结果反馈给垃圾短信在线过滤系统,实现关键词的更新。
2. 根据权利要求1所述的一种垃圾短信中的关键词自动学习及更新方法, 其特征在于所述的在线过滤系统根据黑白名单和短信特征进行过滤:短信首先 进入白名单模,若属白名单则直接放行;否则,进入黑名单模块,若属黑名 单则拒绝该主叫号码,若不属黑名单,则根据短信特征判断是否是垃圾短信。
3. 根据权利要求1所述的一种垃圾短信中的关键词自动学习及更新方法, 其特征在于所述的对实时短信进行短信文本预处理,并将其转化为短语向量: 对短信进行短信清洗、去除停用词、自动分词、词性标注、特征项提取、特征 项权重计算和生成短信向量预处理,以剔除短信文本,即由字、词、数字、标 点符号构成的文字串中所有与分类任务无关的内容,并将文本转化为由其包含 的基本语义单位组成的短语向量。
4. 根据权利要求1所述的一种垃圾短信中的关键词自动学习及更新方法, 其特征在于所述的采用支持向量机对短信进行高准确率的离线分类:利用 LibSVM工具包中的训练程序对训练样本进行训练,得到一个支持向量机模型, 然后利用LibSVM工具包中的预测程序和训练得到的模型对短信进行分类。
5. 根据权利要求1所述的一种垃圾短信中的关键词自动学习及更新方法, 其特征在于所述的针对分类结果,对特征进行统计分析,选择关键词并计算概率 信息:在分类结果中,对所有特征计算其信息增益,选择计算值较大的一些词 作为关键词,并对选择的关键词分别计算在正常短信和垃圾短信中的概率信息。
6. 根据权利要求1所述的一种垃圾短信中的关键词自动学习及更新方法, 其特征在于所述的通过接口将结果反馈给垃圾短信实时过滤系统:通过配置文件定义关键词的信息格式,离线系统通过配置文件把分析结果及时反馈给在线过滤系统。

说明书全文

垃圾短信中的关键词自动学习及更新方法

技术领域

发明涉及垃圾短信过滤方法,尤其涉及一种垃圾短信中的关键词自动学 习及更新方法。 背景技术
在传统的垃圾短信在线过滤系统中,其关键词由人工设置和添加,且一旦 设置了关键词后即固定不变。然而,随着移动通信运营商对垃圾短信打击度 的不断加强,垃圾短信发送者也在不断地改变垃圾短信的内容(主要是关键词) 及发送特征(如发送频率、短信长度等),因此,为适应这种变化,必须提高垃 圾短信过滤系统的自适应性和智能化平。 发明内容
本发明的目的是提供一种垃圾短信中的关键词自动学习及更新方法。 垃圾短信中的关键词自动学习及更新方法包括如下步骤:
1) 在线过滤系统根据黑白名单和短信特征进行过滤;
2) 对实时短信进行短信文本预处理,并将其转化为短语向量;
3) 采用支持向量机对短信进行高准确率的离线分类;
4) 针对分类结果,对特征进行统计分析,选择关键词并计算概率信息;
5) 通过接口将结果反馈给垃圾短信实时过滤系统。
所述的在线过滤系统根据黑白名单和短信特征进行过滤:短信首先进入白 名单模,若属白名单则直接放行;否则,进入黑名单模块,若属黑名单则拒 绝该主叫号码,若不属黑名单,则根据短信特征判断是否是垃圾短信。
所述的对实时短信进行短信文本预处理,并将其转化为短语向量:对短信 进行短信清洗、去除停用词、自动分词、词性标注、特征项提取、特征项权重 计算和生成短信向量预处理,以剔除短信文本,即由字、词、数字、标点符号 构成的文字串中所有与分类任务无关的内容,并将文本转化为由其包含的基本 语义单位组成的短语向量。
所述的采用支持向量机对短信进行高准确率的离线分类:利用LibSVM工
具包中的训练程序对训练样本进行训练,得到一个支持向量机模型,然后利用
LibSVM工具包中的预测程序和训练得到的模型对短信进行分类。
所述的针对分类结果,对特征进行统计分析,选择关键词并计算概率信息:
在分类结果中,对所有特征计算其信息增益,选择计算值较大的一些词作为关 键词,并对选择的关键词分别计算在正常短信和垃圾短信中的概率信息。
所述的通过接口将结果反馈给垃圾短信实时过滤系统:通过配置文件定义 关键词的信息格式,离线系统通过配置文件把分析结果及时反馈给在线过滤系统。
本发明具有的有益效果:
1) 提出一种基于支持向量机(SVM)增量算法的离线短信分类方法,充分 利用SVM单模型分类准确率最高的优点,大幅度提高短信关键词统计和分析的 准确性;
2) 提出一种关键词自动学习和更新方法,可有效解决短信在线过滤系统对 垃圾短信发送特征和内容不断变化的适应性问题。
附图说明
图1是在线过滤系统和离线系统实现的流程图; 图2是短信预处理的流程图;
图3是SVM分类器的训练流程图; 图4是SVM分类器的分类流程图。 具体实施方式
本发明的原理如下:
1) 在预处理阶段,对一定周期内的实时短信进行短信清洗、去除停用词、 自动分词、词性标注、特征项提取、特征项权重计算和生成短信向量等预处理, 以剔除短信文本(即由字、词、数字、标点符号等构成的文字串)中所有与分 类任务无关的内容,并将文本转化为由其包含的基本语义单位组成的短语向量。
2) 在模型层面,利用SVM进行训练和分类。通过训练得到一个SVM模型, 找到分类超平面,即垃圾短信和正常短信之间的分类超平面。
3) 在实际中,垃圾短信一般具有发送频率高、包含回复电话、长度较长等 行为特征,而在正常短信中出现这些特征的概率较小,故在短信向量中增加了 这些行为特征向量,以提高短信分类的准确率。
4) 在关键词选择时,采用了信息增益方法,即选择出能对整个分类提供最 大信息量的关键词用于垃圾短信的在线过滤,以减少特征的维数,提高在线分 类器的效率和推广能力。
垃圾短信中的关键词自动学习及更新方法的步骤如下:
1)在线过滤系统首先根据黑白名单进行过滤,黑白名单过滤可以对一些特 殊号码发出的短信直接进行拦截/放行操作,以节约处理时间和系统资源。白名 单模块和黑名单模块均维护一个独立的主叫号码列表。白名单模块中的主叫号
码(即白名单)主要包括一些大客户或特殊客户等信息,该列表通常由操作员 手工维护,黑名单则主要由系统自动添加,黑名单存在失效期, 一段时间内无 垃圾短信发送记录的主叫号码可自动从黑名单中去除,操作员亦可根据实际情 况维护黑名单。短信首先进入白名单模块,若属白名单则直接放行;否则,进 入黑名单模块,若属黑名单则拒绝该主叫号码,若不属黑名单,则综合评价函 数根据短信特征(包括反馈过来的关键词信息和发送频率、是否包含回复电话、 短信长度等行为特征)判断是否是垃圾短信,综合评价函数采用朴素贝叶斯方 法,充分发挥分类器速度快的特点,适应短信实时过滤的低延时要求。朴素贝叶 斯分类器根据类别的先验概率和各个特征的类条件概率来计算为垃圾短信和正 常短信的概率值,给出判定结果。 详细的流程图如图1所示。
2)离线系统对短信进行分类训练之前,需要对文本进行预处理,使文本更 适合后续分析的需要。文本预处理的主要任务是对进入分类器的短信进行前期 处理,即剔除所有与分类任务无关的内容,并将文本(即由字、词、数字、标 点符号等构成的文字串)转化为由其包含的基本语义单位组成的表列。进行短 信清洗、自动分词、词性标注、去除停用词、特征项提取、特征项权重计算和 生成短信向量等歩骤,经预处理后,可获得一系列待分类的短信向量。
a) 可采用已有的开源分词系统对短信进行分词,完成对短信清洗、去除停 用词、自动分词、词性标注,把连续字符分成一个个单独的有意义的词汇,然 后将词汇作为短信的特征。目前国内主要的分词系统有:中科院ICTCLAS分词 程序、哈丁大分词程序、北大天网分词程序。
以北大天网分词程序为例,将程序的源代码下载之后进行编译得到可执行 程序,把需要进行分词的文件作为输入给程序就可以得到经过分词的文件。
b) 将短信映射成向量。首先,统计短信数据集中所有的词汇及其出现的频 率;然后,以此为基础建立一个词汇索引表;同时,把行为特征发送频率、是 否包含回复电话、短信长度也放入词汇索引表中。
c) 建立词汇索引表之后,分别扫描每条短信,并统计每条短信中包含的词 频,然后,将每条短信映射成一个文本向量,其计算方法可采用如下的TF-IDF 公式:formula see original document page 5其中,〜是词z'在短信y中的词频,lDl是训练数据集中的短信数量,Z巧是
含有词/的短信数量。
详细的流程图如图2所示。
3) 步骤2)己将训练数据集映射到向量空间模型,本发明不采取任何降维 措施,因为实践表明降维会降低分类的准确率。对于已映射为向量的短信,只
需利用LibSVM工具包中的svm-train子程序即可由现有的训练数据集获得一个 SVM分类器模型。SVM分类器的训练流程如图3所示。
4) 对新的分类短信,经过步骤2),把需要分类的短信映射成文本向量;然 后,利用LibSVM工具包中的svm-predict,把新的文本向量和步骤2)中获得的 分类器模型作为参数输入,并选择支持向量回归(SVR)选项进行预测,得到 分类结果。SVM分类器的分类流程如图4所示。
5) 对分类结果计算词的信息增益,选择值最大的一些词作为关键词。词的 信息增益计算公式如下:
g(,)=尸虹尸(c, i m。g^^+尸齡fe i ;)iog^^
其中,P(0是/出现的概率,P(c,)是第Z'个目录的概率,P(c,U)是^出现时取第/ 个目录的概率,P(O是f不出现的概率,?(C,l?)是f不出现时取第Z'个目录的概率。
6) 对选择的关键词计算概率信息p(^/c,),为避免式中p(^/c,)等于0,可 采用拉普拉斯概率估计:
PK /。)=—
l+rF(xA-)
pi
其中,r表示训练样本总数,7Tc)表示类c,.中的训练样本数,iz)i表示属性空间的
维数,即特征词表中总单词数,7nx/c)表示、(即某一特征词)在类c,.的所有文
档中出现的频率之和。
7)离线系统通过接口把统计分析结果反馈给在线过滤子系统,接口定义为 配置文件。在配置文件记录每个词在正常短信和垃圾短信中的概率,在线过滤 子系统根据这些信息及其它行为特征计算分类结果。如图1所示。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈