专利汇可以提供网络文章原创性判定方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种网络文章原创性判定方法,首先对待判定文章进行分词,得到特征词条,统计特征词条的出现 频率 并计算Hash值,通过出现频率和Hash值计算特征词条的权值向量,将所有特征词条的权值向量累加得到文章的权值向量,对权值向量进行 降维 得到文章的判定向量,计算待判定文章与 数据库 中参考文章的判定向量的汉明距离,根据汉明距离进行原创性判定,得到是否具有原创性的结果;如果判定得到相似文章,则需要进一步精确判定:得到待判定文章与相似文章的特征词条,构建两篇文章的 特征向量 ,通过特征向量的相似度来进行原创性判定。本发明结合文章特征词条的出现频率和Hash值来计算网络文章之间的相似度,实现更为可靠有效的文章原创性判定。,下面是网络文章原创性判定方法专利的具体信息内容。
1.一种网络文章原创性判定方法,其特征在于,包括以下步骤:
S1:对待判定文章的文本进行分词处理,得到文章的特征词条;
S2:对于待判定文章的特征词条,统计每个特征词条在文章中的出现频率,按照出现频率从大到小抽取前N个特征词条,第i个特征词条记为fi,对应的出现频率记为di,其中i=1,
2,…,N,N根据实际需要进行设置;
S3:对于每个特征词条fi,使用Hash函数计算该词条的Hash值,计算结果取M位,记为Hi=(hi1,hi2,…,hiM),其中M=2α,α≥5;
S4:根据每个特征词条fi的权重di和Hash值Hi,计算特征词条的权值向量Wi=(wi1,wi2,…,wiM),其中第j个权值元素wij的计算公式为 j=1,2,…,M;
S5:将N个特征词条的权值向量Wi按位累加,得到权值向量Q=(q1,q2,…,qM),其中对权值向量Q进行降维,得到判定向量S=(s1,s2,…,sM),其具体方法为:
S6:计算待判定文章的判定向量S与数据库中参考文章的判定向量的汉明距离;如果待判定文章的判定向量与所有参考文章的判定向量的汉明距离都大于T1,则判定待判定文章具有原创性,判定结束;如果与一篇以上参考文章的判定向量的汉明距离在范围[T2,T1]内,则将这些参考文章作为待判定文章的相似文章,进入步骤S107;如果与一篇以上参考文章的判定向量的汉明距离小于T2,则将这些参考文章作为待判定文章的雷同文章,判定待判定文章不具有原创性,判定结束;T1和T2是预先设置的两个汉明距离阈值,其中T2<T1;
S7:对于待判定文章及其对应的相似文章,分别获取每篇文章的特征向量,获取特征向量的方法为:对文章进行分词处理,得到文章的特征词条,统计各个特征词条在文章中的出现频率,按照出现频率从大到小抽取前R个特征词条,第r个特征词条记为fr,对应的出现频率记为dr,其中r=1,2,…,R,R根据实际需要进行设置;
分别计算待判定文章和每篇相似文章的相似度,相似度计算方法为:记待判定文章的特征词条集合为A,相似文章的特征词条集合为B,求取两个集合的并集C=A∪B,根据特征词条集合C构建待判定文章的特征特征向量Va=(va1,va2,…,vaK)和相似文章的特征向量Vb=(vb1,vb2,…,vbK),其中K表示特征词条集合C中的特征词条数量,vak和vbk分别表示第k个特征词条在待判定文章和相似文章中的出现频率,k=1,2,…,K;计算特征向量Va和Vb之间的相似度,该相似度即为文章间的相似度;如果待判定文章与一篇以上相似文章的相似度大于预设相似度阈值T3,则将这些相似文章作为待判定文章的雷同文章,判定待判定文章不具有原创性,判定结束。
2.根据权利要求1所述的网络文章原创性判定方法,其特征在于,所述步骤S6中阈值T1和T2的计算公式为
3.根据权利要求2所述的网络文章原创性判定方法,其特征在于,所述步骤S6中,在计算汉明距离之前对数据库中参考文章进行预选,搜索潜在的相似文章或雷同文章,其具体方法为:将数据库中每篇参考文章的M位判定向量划分为X个部分,每个部分长度为8位,将每个部分字符串分别作为一个关键字,与判定向量建立映射关系。记数据库中所有参考文章得到的关键字数量为G,第g个关键字keyg对应的参考文章集合为setg,其中g=1,2,…,G,建立索引{keyg,setg},得到映射表;对于待判定文章,同样将其判定向量划分为X个部分,将每个部分作为关键字在索引表中搜索得到对应的文章集合,将X个文章集合合并,合并后集合所包含的参考文章即为潜在的相似文章或雷同文章。
4.根据权利要求1所述的网络文章原创性判定方法,其特征在于,所述步骤S7中特征词条数量R>N。
5.根据权利要求1所述的网络文章原创性判定方法,其特征在于,所述步骤S7中阈值T3=0.3。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于持续时间模型的驾驶员违章风险估计方法 | 2020-05-19 | 44 |
文章推荐方法、装置和终端 | 2020-05-17 | 740 |
一种给文章标注标签的方法和装置 | 2020-05-20 | 472 |
一种挖掘社区领域专家的方法和装置 | 2020-05-18 | 956 |
一种印章防伪方法 | 2020-05-18 | 278 |
WORD简化章节序号设置与使用的方法 | 2020-05-20 | 152 |
摩洛哥海域头足类资源丰度预测方法 | 2020-05-12 | 462 |
一种基于大数据的网络文章转发识别方法 | 2020-05-19 | 629 |
文章推荐方法及装置、存储介质、电子设备 | 2020-05-18 | 825 |
一种基于压电式传感器的机动车速度检测装置 | 2020-05-14 | 785 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。