专利汇可以提供文章相似度检测方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 实施例 提供一种文章相似度检测方法及装置,通过从第一文章中提取评价分值高于第一预设 阈值 的词作为目标关键词,根据提取获得的目标关键词,查找与第一文章之间相同目标关键词的数量大于第二预设阈值的第二文章作为相似度检测的参考文章,并基于预设滑动窗口,检测第一文章中各段内容与所述第二文章之间的第一相似度,以及第二文章中各段内容与第一文章之间的第二相似度,从而根据第一相似度和第二相似度,计算得到第一文章和第二文章之间的相似度,本发明实施例提供的技术方案能够对文章的相似度进行可靠有效的检测,从而解决了抄袭文章的识别问题。,下面是文章相似度检测方法及装置专利的具体信息内容。
1.一种文章相似度检测方法,其特征在于,包括:
从第一文章中提取目标关键词,所述目标关键词包括所述第一文章提供的关键词和所述第一文章中评价分值高于第一预设阈值的词;
根据所述目标关键词,查找第二文章,所述第二文章和所述第一文章之间相同目标关键词的数量大于第二预设阈值;
基于预设滑动窗口,检测所述第一文章中各段的内容与所述第二文章之间的第一相似度,以及第二文章中各段的内容与所述第一文章之间的第二相似度;
根据所述第一相似度和所述第二相似度,计算所述第一文章和所述第二文章之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述从第一文章中提取目标关键词,包括:
基于所述第一文章提供的关键词,采用bootstrapping算法提取所述第一文章中评价分值高于第一预设阈值的词作为目标关键词。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标关键词,查找第二文章,包括:
根据表达式:
S(A,B)=|F(A)∩F(B)|
查找与所述第一文章之间具有相同目标关键词的数量大于第二预设阈值的第二文章;
其中,F(A)为所述第一文章的目标关键词的集合,F(B)为所述第二文章的目标关键词的集合,S(A,B)为所述第二文章和所述第一文章之间具有的相同的目标关键词的集合。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述基于预设滑动窗口,检测所述第一文章中各段的内容与所述第二文章之间的第一相似度,以及第二文章中各段的内容与所述第一文章之间的第二相似度,包括:
基于预设滑动窗口,计算所述第一文章和所述第二文章中各段内容之间的相似度,确定所述第一文章中各段内容对应的最大相似度为各段内容与所述第二文章之间的相似度,确定所述第二文章中各段内容对应的最大相似度为所述第二文章中各段内容与所述第一文章之间的相似度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一相似度和所述第二相似度,计算所述第一文章和所述第二文章之间的相似度,包括:
根据表达式:
计算所述第一文章和所述第二文章之间的相似度sim(A,B),其中,ai为所述第一文章中第i段与所述第二文章的相似度,bi为所述第二文章中第i段与所述第一文章的相似度,xi为所述第一文章中第i段的权重,yi为所述第二文章中第i段的权重,n为所述第一文章中的段数,m为所述第二文章中的段数。
6.一种文章相似度检测装置,其特征在于,包括:
提取模块,用于从第一文章中提取目标关键词,所述目标关键词包括所述第一文章提供的关键词和所述第一文章中评价分值高于第一预设阈值的词;
查找模块,用于根据所述目标关键词,查找第二文章,所述第二文章和所述第一文章之间相同目标关键词的数量大于第二预设阈值;
检测模块,用于基于预设滑动窗口,检测所述第一文章中各段的内容与所述第二文章之间的第一相似度,以及第二文章中各段的内容与所述第一文章之间的第二相似度;
计算模块,用于根据所述第一相似度和所述第二相似度,计算所述第一文章和所述第二文章之间的相似度。
7.根据权利要求6所述的装置,其特征在于,所述提取模块,具体用于:
基于所述第一文章提供的关键词,采用bootstrapping算法提取所述第一文章中评价分值高于第一预设阈值的词作为目标关键词。
8.根据权利要求6所述的装置,其特征在于,所述查找模块,具体用于:
根据表达式:
S(A,B)=|F(A)∩F(B)|
查找与所述第一文章之间具有相同目标关键词的数量大于第二预设阈值的第二文章;
其中,F(A)为所述第一文章的目标关键词的集合,F(B)为所述第二文章的目标关键词的集合,S(A,B)为所述第二文章和所述第一文章之间具有的相同的目标关键词的集合。
9.根据权利要求6-8中任一项所述的装置,其特征在于,所述检测模块,具体用于:
基于预设滑动窗口,计算所述第一文章和所述第二文章中各段内容之间的相似度,确定所述第一文章中各段内容对应的最大相似度为各段内容与所述第二文章之间的相似度,确定所述第二文章中各段内容对应的最大相似度为所述第二文章中各段内容与所述第一文章之间的相似度。
10.根据权利要求9所述的装置,其特征在于,所述计算模块,具体用于:
根据表达式:
计算所述第一文章和所述第二文章之间的相似度sim(A,B),其中,ai为所述第一文章中第i段与所述第二文章的相似度,bi为所述第二文章中第i段与所述第一文章的相似度,xi为所述第一文章中第i段的权重,yi为所述第二文章中第i段的权重,n为所述第一文章中的段数,m为所述第二文章中的段数。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于持续时间模型的驾驶员违章风险估计方法 | 2020-05-19 | 44 |
文章推荐方法、装置和终端 | 2020-05-17 | 740 |
一种给文章标注标签的方法和装置 | 2020-05-20 | 472 |
一种挖掘社区领域专家的方法和装置 | 2020-05-18 | 956 |
一种印章防伪方法 | 2020-05-18 | 278 |
WORD简化章节序号设置与使用的方法 | 2020-05-20 | 152 |
摩洛哥海域头足类资源丰度预测方法 | 2020-05-12 | 462 |
一种基于大数据的网络文章转发识别方法 | 2020-05-19 | 629 |
文章推荐方法及装置、存储介质、电子设备 | 2020-05-18 | 825 |
一种基于压电式传感器的机动车速度检测装置 | 2020-05-14 | 785 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。