首页 / 专利库 / 人工智能 / 词性标注 / 特征撷取、数据解密方法以及抄袭文章搜寻的系统与方法

特征撷取、数据解密方法以及抄袭文章搜寻的系统与方法

阅读:27发布:2021-10-08

专利汇可以提供特征撷取、数据解密方法以及抄袭文章搜寻的系统与方法专利检索,专利查询,专利分析的服务。并且一种抄袭文章搜寻的系统与方法。首先,对已植入 水 印的文章进行特征撷取,根据所取得的词汇输入搜寻引擎以搜寻相关可疑文章。接着将搜寻所得的文章与原文比对,根据比对结果取得的句子进行水印解析。最后,将所取得的水印信息与原来的水印比对,然后根据比对结果判断该搜寻所得的文章是否为抄袭文章,若比对结果大于一临界值,则表示其为抄袭文章。,下面是特征撷取、数据解密方法以及抄袭文章搜寻的系统与方法专利的具体信息内容。

1.一种特征撷取方法,包括下列步骤:
分析一文章中的句子,根据一自订规则对其中包含的词汇予以特性标 记,即对上述词汇予以断词及词性标注
将上述文章中包含隐藏有印的词汇的句子自上述文章中取出;以及
根据上述特性标记的词汇,搜寻网络上的文章以执行一解密程序。
2.根据权利要求1所述的特征撷取方法,其中,在分析上述文章的 步骤中,当一词汇的出现次数超过一临界值时即予以特性标记。
3.一种数据解密方法,其用以判断一文章是否为一抄袭文章,包括 下列步骤:
比对一文章与一可能抄袭的文章以取得至少一可能抄袭的句子,其中 上述文章是为已植入水印的文章;
分析上述已植入水印的文章以取得其水印信息;
根据上述已植入水印的文章的水印信息解析上述可能抄袭的句子以 取得上述可能抄袭的句子的水印信息;
对上述可能抄袭的句子的水印信息进行错误纠正码修正;以及
比对上述已植入水印的文章的水印信息与上述修正后的水印信息以 取得一相似值。
4.根据权利要求3所述的数据解密方法,其中,上述已植入水印的 文章的水印信息包含一同义句型信息或一同义词信息。
5.一种抄袭文章搜寻的方法,包括下列步骤:
将一文章植入水印;
根据一自订规则对上述文章执行特征撷取程序,以取得上述文章的特 征;
根据上述特征搜寻网络,以取得至少一可能抄袭的文章;
执行一水印解析程序,以取得上述可能抄袭的文章其水印信息;以及
比对上述文章的水印信息与上述可能抄袭的文章其水印信息,以取得 一相似值。
6.根据权利要求5所述的抄袭文章搜寻的方法,其中,上述特征撷 取程序更包括下列步骤:
分析上述文章中的句子,根据上述自订规则对其中包含的词汇予以特 性标记;以及
将上述文章中包含隐藏有水印的词汇的句子自上述文章中取出。
7.根据权利要求5所述的抄袭文章搜寻的方法,其中,上述水印解 析程序更包括下列步骤:
比对上述文章与上述可能抄袭的文章以取得至少一可能抄袭的句子, 其中上述文章为已植入水印的文章;
分析上述已植入水印的文章以取得其水印信息;
根据上述已植入水印的文章的水印信息解析上述可能抄袭的句子以 取得上述可能抄袭的句子的水印信息;以及
对上述可能抄袭的句子的水印信息进行错误纠正码修正。
8.根据权利要求5所述的抄袭文章搜寻的方法,其中,上述已植入 水印的文章的水印信息包含一同义句型信息或一同义词信息。
9.一种抄袭文章搜寻的系统,其特征在于所述抄袭文章搜寻的系统 包括:
一搜寻引擎;
一水印植入单元,其用以将一文章植入水印;
一特征撷取单元,耦接于上述搜寻引擎与上述水印植入单元,其用以 根据一自订规则对上述文章执行特征撷取程序,以取得上述文章的特征, 并根据上述特征搜寻网络,以取得至少一可能抄袭的文章;以及
一水印解析单元,耦接于上述水印植入单元与上述特征撷取单元,其 用以执行一水印解析程序,以取得上述可能抄袭的文章其水印信息,以 及比对上述文章的水印信息与上述可能抄袭的文章其水印信息,以取得 一相似值。
10.根据权利要求9所述的抄袭文章搜寻的系统,其特征在于:上 述特征撷取单元分析上述文章中的句子,根据上述自订规则对其中包含 的词汇予以特性标记,以及将上述文章中包含隐藏有水印的词汇的句子 自上述文章中取出。
11.根据权利要求9所述的抄袭文章搜寻的系统,其特征在于:上 述水印解析单元比对上述文章与上述可能抄袭的文章以取得至少一可能 抄袭的句子,其中上述文章为已植入水印的文章,分析上述已植入水印 的文章以取得其水印信息,根据上述已植入水印的文章的水印信息解析 上述可能抄袭的句子以取得上述可能抄袭的句子的水印信息,以及对上 述可能抄袭的句子的水印信息进行错误纠正码修正。
12.根据权利要求9所述的抄袭文章搜寻的系统,其特征在于:上 述已植入水印的文章的水印信息包含一同义句型信息或一同义词信息。

说明书全文

技术领域

发明是有关于一种搜寻引擎,且特别有关于利用文章的特征撷取及 印解析的方法,查找网络上的剽窃文章。

背景技术

由于网络的普及,使用者可在网络上搜寻到其所需要的信息,如文章、 影像、音乐等,而且可以很容易的对所搜寻到的信息进行复制。举例来 说,学生要做报告时,会在网络上找寻相关数据并且加以引用,即将网 络上的文章部分或完全复制到报告中,然而,此乃抄袭的行为。
目前已有数种搜寻网络上剽窃文章的方法,如利用同义词替换的方 法,或者利用数据检索(IR)技术将文章中相同的句子标示出来,但无 法有效地完全搜寻出抄袭文章。除此之外,以往利用关键词来搜寻的搜 寻引擎,很难在网络上找出改变措辞的剽窃文章。

发明内容

本发明的目的在提供一种特征撷取方法,将文章内隐藏有水印信息的 词汇取出,并用以搜寻网络上可能抄袭的文章。
本发明的另一目的在提供一种数据解密方法,其用以解析可能抄袭的 文章的水印信息,以决定其与原文的相似度。
本发明的另一目的在提供一种,其用以对已植入水印的文章执行特征 撷取,以搜寻网络上可能抄袭的文章,以及水印解析的程序,并根据解 析结果判断可能抄袭的文章是否为抄袭文章。
基于上述目的,本发明提供一种特征撷取方法。首先,将自植入水印 的文章取得的句子、词汇予以断词及词性标注,根据文章中水印植入的 词与句型,利用同义词库与同义句型库,针对文章的内文产生其语意层 面的特征。然后以词汇以及词性作为查询定义的依据,在同义词数据库 中进行搜寻,以取得可作为该文章的特征的词汇。接着以该词汇为关键 词,利用搜寻引擎进行网络搜寻,以获得相关可能的抄袭文章。
本发明另外提供一种数据解密方法,首先,以句子为单位将可能的抄 袭文章与原文做一对应,以指出可能抄袭的语句在原文中的位置。接着 在进行水印解析之前,分析“已加入水印的文章”中的水印相关信息, 其中文章加入水印的方式是将水印信息以单一码(Unicode)的形态表示。 接下来,针对“可能抄袭的文章”中与“已加入水印的文章”中相对应 的句子进行水印的解析。然后利用错误纠正码(Error Correction Code) 以修正水印信息在传递时可能发生的错误(步骤S24)。最后,将可能抄 袭的文章中取得的水印与原文的水印比对,当其相似度大于等于一临界 值时,即判定其为抄袭的文章。
本发明另外提供一种抄袭文章搜寻的系统与方法。根据一自订规则对 一文章执行特征撷取程序,以取得该文章的特征,然后根据其特征搜寻 网络以取得可能抄袭的文章。接着执行一水印解析程序,以取得该可能 抄袭的文章的水印信息。最后比对该文章的水印信息与可能抄袭的文章 其水印信息,以取得一相似值,当其大于一临界值时便判定该可能抄袭 的文章为一抄袭文章。
附图说明
图1是显示本发明的抄袭文章搜寻引擎的系统架构图;
图2是显示本发明的特征撷取方法的步骤流程图
图3是显示本发明的数据解密方法的步骤流程图;
图4是显示本发明嵌入文章中的水印信息,包括同义词信息及同义句 型信息;
图5是显示本发明执行水印解析程序所得的可能抄袭的文章的水印 信息;
图6是显示本发明的错误纠正程序的示意图。
符号说明:
10~水印的文章
20~文件特征
30~搜寻引擎
40~索引数据库
50~可能抄袭的文章
60~水印信息
70~抄袭文章

具体实施方式

为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举 出较佳实施例,并配合所附图式,作详细说明如下。
本发明是提供一种特征撷取、数据解密方法以及抄袭文章搜寻的系统 与方法。
图1是显示本发明的抄袭文章搜寻引擎的系统架构图。本发明系统是 用以搜寻网络上的抄袭文章,其包括水印植入机制、文章内容特征撷取 机制以及水印解析机制与水印比对机制,其中水印植入机制非为本发明 的主要技术特征,故在本说明书中不予揭露。
首先,对已植入水印的文章10进行特征撷取,以取得文件特征20, 根据所取得的词汇输入搜寻引擎30,并且比对索引数据库40以搜寻因特 网上可能抄袭的文章50。接着将搜寻所得的文章50与原文比对,根据比 对结果取得的句子执行水印解析。最后,将所取得的水印信息60与原来 的水印比对,然后根据比对结果判断该搜寻所得的文章是否为抄袭文章, 若比对结果大于一临界值,则表示其为抄袭文章70。
图2是显示本发明的特征撷取方法的步骤流程图。文章内容特征撷取 机制将自植入水印的文章取得的句子、词汇予以断词及词性标注(步骤 S11),然后根据文章中水印植入的词与句型,利用同义词库与同义句型 库,针对文章的内文产生其语意层面的特征,即将内容中藏有水印的句 子与词汇取出(步骤S12)。然后以词汇以及词性作为查询定义的依据, 在同义词数据库中进行搜寻,以取得可作为该文章的特征的词汇(步骤 S13)。然后以该词汇为关键词,利用搜寻引擎进行网络搜寻(步骤S14), 以获得相关可能的抄袭文章。
图3是显示本发明的数据解密方法的步骤流程图。这些相关可疑的抄 袭文章利用水印的解析机制进行文章中句子与词的对应,并解析出水印。 最后将水印与植入的水印进行比对,当相似度大于一临界值时,则判定 为抄袭的文章。
首先,以句子为单位将可能的抄袭文章与原文做一对应,以指出可能 抄袭的语句在原文中的位置(步骤S21)。接着在进行水印解析之前,分 析“已加入水印的文章”中的水印相关信息(步骤S22),包括哪些句子 有加入水印、用何种型式在句子中加入水印、句子所加入的水印的位值 以及句子加入水印时所采用的随机数(Random Number)。文章加入水印 的方式是将水印信息以单一码(Unicode)的形态表示,举例来说,本发 明的水印信息为“财团法人信息工业策进会”,其以单一码表示可能为 “01100010”。而在植入水印时即将该二进制数值嵌入于欲加密的句子或 词汇中,以进行同义词或同义句的比对。
参考图4,某一句子为“妈妈不给我出去玩是因为我生病了”,其中 欲加密的词汇为“妈妈”、“因为”与“生病”,分别嵌入二进制数值“01”、 “1”与“0”。而为了避免抄袭者以类似句型替换,因此在该句子当中嵌 入同义句信息“因为...所以...”,其二进制数值表示为“10”。另外,每 一词汇或句型信息中包含的随机数是在水印植入流程时所嵌入的密钥, 此不在本发明揭露的范围,其说明透过该随机数可有效侦测出抄袭者所 抄袭的内容。
接下来,针对“可能抄袭的文章”中与“已加入水印的文章”中相对 应的句子进行水印的解析(步骤S23)。参考图5,原文的句子为“妈妈 不给我出去玩是因为我生病了”,而可能抄袭的文章其句子为“那天老妈 不给我出去玩的主要原因是因为我生病了”。原文的“妈妈”所解出来的 水印单一码为“01”,随机数码为“374”,而可能抄袭的文章用的词汇是 “老妈”,其解出来的水印单一码为“1”,随机数码为“374”。根据同义 词库中的词汇可知“老妈”为“妈妈”的同义词,因此将其水印单一码 修正为“01”。
接着,利用错误纠正码(Error Correction Code)以修正水印信息 在传递时可能发生的错误(步骤S24)。参考图6,原文的水印信息为 “0011110100000”,经过水印解析后所取得的抄袭文章,其水印信息为 “0010010000000”,经过错误纠正码修正后为“0010110100000”。
最后,将可能抄袭的文章中取得的水印与原文的水印比对(步骤 S25),当其相似度大于等于一临界值时,即判定其为抄袭的文章。
本发明根据文章的内容,配合语意处理技术,可有效处理改变同义词 与同义句改写的问题。另外,利用原文与涉嫌抄袭的文章对应,可有效 处理部分文章抄袭的问题,以保护创作者的智慧财产权。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈