专利汇可以提供一种垃圾邮件过滤的中文关键词规则生成方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种垃圾邮件过滤的中文关键词规则生成方法,该方法主要包括从邮件集中获取关键词候选词、特征提取得到关键词、获取关键词规则触发情况、为关键词规则赋分值四个步骤,对比当前技术,本发明提出的方法改进了关键词特征提取方法,结合词频和文档 频率 的特征提取方法降低通用词汇的影响,使用神经网络 算法 计算规则分值,比较 遗传算法 降低了学习的开销。本发明解决当前中文关键词规则时效性不足,并且能够根据一个特定的用户群体对于垃圾邮件的定义以及提供的邮件数据集生成最符合用户特征的关键词规则。,下面是一种垃圾邮件过滤的中文关键词规则生成方法专利的具体信息内容。
1.一种垃圾邮件过滤的中文关键词规则生成方法,其特征在于:该方法通过对给定邮件数据集进行数据预处理获取该数据集中邮件的邮件头以及邮件体部分的所有词汇作为关键词候选词,通过结合词频和文档频率的特征提取方法选定关键词,进而使用该关键词规则对上述邮件数据集进行邮件过滤从而得到关键词规则在垃圾邮件和正常邮件的触发情况,并且使用此触发情况作为神经网络算法的输入,通过随机下降方法训练神经网络直到过滤效果收敛,将训练得到的权重转化为规则的分数,最终得到的规则即可应用于基于规则的邮件过滤的解决方案中;其具体包括以下步骤:
1)通过邮件筛选、邮件解析、中文分词对邮件数据集进行预处理得到关键词候选词集合;
2)对候选词集合的全部词汇统计词频、文档频率,通过先比较词频后比较文档频率的特征提取从候选词集合中选出关键词;
3)收集邮件数据集中每封邮件的关键词触发情况,并格式化触发情况数据;
4)根据上述关键词触发情况通过神经网络算法对关键词规则赋分值。
2.根据权利要求1所述的一种垃圾邮件过滤的中文关键词规则生成方法,其特征在于:
在步骤1)中,所述邮件筛选是指剔除邮件数据集中的纯英文文件,所述邮件解析是实现基于RFC822和MIME协议对邮件内容进行解析分割出不同的部分选取邮件头和邮件体的部分,所述中文分词是利用中文分词工具对邮件头和邮件体的文本内容进行分词。
3.根据权利要求1所述的一种垃圾邮件过滤的中文关键词规则生成方法,其特征在于:
在步骤2)中,结合词频与文档频率的方法做特征选取,确定关键词,包括以下步骤:
2.1)统计词频、文档频次,词频指一个词在文档中出现的次数,文档频率指出现某个候选词的文档个数;
2.2)选取垃圾邮件中词频最高的N个词;
2.3)按照公式spam(wi)/spam(wi)+ham(wi)>T%筛选出关键词,符合该公式的wi即为一个关键词,其中wi表示在词频最高的N个词集合中的某个词,spam(wi)表示包含词wi的垃圾邮件个数,ham(wi)表示包含词wi的正常邮件个数,T%表示某个设置的阈值。
4.根据权利要求1所述的一种垃圾邮件过滤的中文关键词规则生成方法,其特征在于:
在步骤3)中,利用开源工具SpamAssassin收集邮件数据集中每封邮件的关键词触发情况,并格式化触发情况数据,包括以下步骤:
3.1)禁用SpamAssassin内置的所有规则,停用贝叶斯算法,消除其它规则的影响,添加步骤2)中生成的关键词规则;
3.2)使用SpamAssassin提供的mass-check脚本将训练集中的每份邮件调用SpamAssassin进行过滤,然后在日记中记录下每封邮件所触发的所有规则;
3.3)对日记文件进行二次处理,将处理结构结构化。
5.根据权利要求1所述的一种垃圾邮件过滤的中文关键词规则生成方法,其特征在于:
在步骤4)中,使用神经网络算法为步骤2)中生成的关键词规则赋分值,包括以下步骤:
4.1)首先将非垃圾邮件进行冗余复制,添加非垃圾邮件的数目的公式是1+(number_of_test_hit)*ham_preference,ham_preference为参数输入,默认为2.0,number_of_test_hit指该邮件触发了多少规则;
4.2)为每条规则随机分配在特定范围内的权重,范围由规则触发邮件数目的情况决定;
4.3)利用神经网络算法进行训练,迭代num_epochs次后停止,num_epochs指神经网络迭代的次数,在每一轮迭代指定weight_decay参数和bias参数,其中weight_decay参数是指一次迭代中权值衰减的速度,bias参数指偏差值用来平滑统计异常;
4.4)删除训练得到分值为0的规则,得到最终生成的规则。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于支持向量机的矢量跟踪通道故障检测方法 | 2020-07-11 | 0 |
转向系统中方向盘扭振的补偿方法和装置 | 2021-08-07 | 0 |
一种基于二维局部插值的雷达目标距离联合估计方法 | 2020-09-09 | 2 |
一种垃圾邮件过滤的中文关键词规则生成方法 | 2020-09-17 | 0 |
地铁现场缴费方法 | 2020-08-30 | 1 |
一种高强钛合金管材表面硬化方法 | 2021-01-17 | 0 |
基于改进信号分析的评分方法 | 2020-12-29 | 1 |
基于终端滑模的有源电力滤波器模糊神经网络控制方法 | 2021-09-22 | 1 |
地中レーダ装置の適応的な干渉抑制 | 2021-12-03 | 0 |
定位参考信号的传输方法、装置及计算机存储介质 | 2020-12-05 | 1 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。