首页 / 专利库 / 人工智能 / 词性标注 / 数据加密的方法与系统

数据加密的方法与系统

阅读:145发布:2021-09-01

专利汇可以提供数据加密的方法与系统专利检索,专利查询,专利分析的服务。并且一种数据加密的方法。首先,利用一中文断词方法将文章内容予以断词,并进行词性判断以标注词性。然后,产生文章的加密信息,包括将 水 印信息转换成位字符串,以及根据一质数产生一个二次剩余表,作为选取加密词语的判断标准。接下来,选取要进行加密的词语及其同义词,其依据相关词语筛选规则筛选不适合作为嵌入水印的词语。然后进行同义词替换。当找出适合作为嵌入水印的词语之后,便可将水印的位字符串,以一个位为单位,依照顺序嵌入至选出的词语中。最后,完成前述步骤后即可产生嵌入水印信息的密文。,下面是数据加密的方法与系统专利的具体信息内容。

1. 一种数据加密的方法,包括下列步骤:对一文章内容予以断词,并就所取得多个词语进行词性标注;产生上述文章加密信息以及一个二次剩余表,其中上述加密信息为一印信息,并且将其转换成一位字符串;根据上述二次剩余表自上述多个词语中选取要进行加密的词语及其相对应的同义词;根据上述加密信息与上述欲加密词语的词性对上述欲加密词语进行同义词替换;以及根据上述加密信息与上述同义词产生嵌入加密信息的密文。
2. 如权利要求1所述的数据加密的方法,其中,产生上述加密信息 的步骤更包括根据一质数建立上述二次剩余表,其用以选取上述加密的 词语。
3. 如权利要求1所述的数据加密的方法,其中,在选取上述加密词 语及其相对应的同义词的步骤中,当一^i加密词语与其相应之同义词进 行一逻辑运算,且参照上述二次剩余表所得计算结果相同时,则将上述 欲加密词语剔除,上述逻辑运算包括异或运算、与运算、或运算、加运 算、减运算以及乘运算。
4. 如权利要求1所述的数据加密的方法,其中,在选取上述加密词 语及其相对应的同义词的步骤中,自上述名夂加密的词语中剔除文章中的 标点符号、词语长度为1、词语以英文表示以及无同义词的词语,并且根 据一同义词库选取上述加密词语相对应的同义词。
5. 如权利要求1所述的数据加密的方法,其中,在上述进行同义词 替换的步骤中,当取得一可供替换之同义词,即将上述加密信息位字符 串值嵌入上述同义词中,且欲嵌入加密信息词语根据上述二次剩余表可 得一剩余对映值,当欲嵌入加密信息位值与上述剩余对映值相同,则选取另一同义词以进行加密信息的嵌入,以及更可根据上述欲加密词语的 词性与惯用性选取其同义词。
6. —种数据加密的系统,至少包括:一词语处理单元,其用以对一文章的内容予以断词,并就所取得的 多个词语进行词性标注;一加密信息产生单元,耦接于上述词语处理单元,其用以产生上述 文章的加密信息以及一个二次剩余表,其中上述加密信息为一水印信息, 并且将其转换成一位字符串;一词语选取单元,耦接于上述加密信息产生单元,其用以根据上述 二次剩余表自上述多个词语中选取要进行加密的词语及其相对应的同义词;一同义语替换单元,耦接于上述词语选取单元,其用以根据上述加密信息与上述欲加密词语的词性对上述欲加密词语进行同义词替换;以 及一密文产生单元,耦接于上述同义语替换单元,其用以根据上述加 密信息与上述同义词产生嵌入加密信息的密文。
7. 如权利要求6所述的数据加密的系统,其中,上述加密信息产 生单元根据一质数建立上述二次剩余表,用以选取上述加密的词语。
8. 如权利要求6所迷的数据加密的系统,其中,上述词语选取单 元于一欲加密词语与其相应的同义词进行一逻辑运算,且参照上述二次 剩余表所得之计算结果相同时,将上述欲加密之词语剔除该词语,其中 上述逻辑运算包括异或运算、与运算、或运算、加运算、减运算以及乘 运算。
9. 如权利要求6所述的数据加密的系统,其中,上述词语选取单 元自上述欲加密的词语中剔除文章中的标点符号、词语长度为1、词语以 英文表示以及无同义词的词语,并且根据一 同义词库选取上述加密词语相乂十应的同义词。
10. 如权利要求6所述的数据加密的系统,其中,上述同义词替换 单元于当取得 一可供替换的同义词时,即将上述加密信息位字符串值嵌 入上述同义词中,根据上述二次剩余表可得上述欲嵌入加密信息词语的 一剩余对映值,且当欲嵌入加密信息的位值与上述剩余对映值相同,上 述同义词替换单元选取另 一 同义词以进行加密信息的嵌入,以及根据上 述欲加密词语的词性与惯用性选取其同义词。

说明书全文

^t据加密的方法与系统

技术领域

发明是有关于一种数据加密的方法与系统,且特别有关于一 种印加密的方法与系统。

背景技术

r数字水印」指的是将水印的技术运用在数字媒体中,这些数字媒体包 含数字化的影像、声音及图片等。为了防止数字媒体在网络上遭人下载非法 使用,可以将一些具代表性的图案(如注册商标或版权信息),利用相关的技 术植入这些数字^?某体中,用以证明其合法的持有者,进而保护知识产权,该 具代表性的图案即所谓的「水印信息J。
当这些已经植入r数字水印j的数字媒体被非法使用时,可以利用相关 技术将「数字水印J取出来,用以证明其合法的持有者是谁。目前的「数字 水印」主要使用于图片的保护,图片植入水印后,与原有图片看起来并没有 任何不同,但实际上却已将水印信息隐藏于图片中,因此具备了水印的保密 性。
然而,目前的数字水印技术少有应用于文件的保护上。而已知应用于文 件保护上的数字水印技术具有下列缺点,其一是文件可以透过光学文字辨识 (OCR, Optical Character Recognition)被撷取使用,其二是剽窃者不以
拷贝的方式抄袭文件,而是以文字编辑软件自行输入使用。所以,现有的数
字水印技术无法有效地保护文件不被盗用。
发明内容有鉴于此,本发明的目的在提供一种数据加密的方法与系统,以保护文 章内容不被轻易盗用。
基于上述目的,本发明提供一种数据加密的方法。首先,利用一中文断 词方法将文章之内容予以断词,并进行词性判断以标注词性。然后,产生文 章的加密信息,包括将要嵌入文章当中的水印信息(如版权信息)转换成对 应的位字符串以嵌入文字内,以及任意选取一质数,并利用一个二次剩余的 数学定理产生一个二次剩余表,作为选取加密词语的判断标准。
接下来,选取要进行加密的词语及其同义词,其依据相关词语筛选规则 筛选不适合作为嵌入水印的词语。然后进行同义词替换。当找出适合作为嵌 入水印的词语后,便可将水印的位字符串,以一个位为单位,依照顺序嵌入 至选出的词语中,其嵌入的原则为将词语的剩余对映值与欲嵌入水印的位值 比较,当结果不同时即进行同义词的替换。最后,完成前迷步骤后即可产生 嵌入水印信息的密文。
本发明另外提供一种数据加密的系统,其包括一词语处理单元、 一加密
信息产生单元、 一词语选取单元、 一同义语替换单元以及一密文产生单元。
词语处理单元利用 一 中文断词方法将文章的内容予以断词,并进行词性判断
以标注词性。加密信息产生单元产生文章的加密信息,包括将要嵌入文章当
中的水印信息(如版权信息)转换成对应的位字符串以嵌入文字内,以及任
意选取一质数,并利用一个二次剩余的数学定理产生一个二次剩余表,作为
选取加密词语的判断标准。
接下来,词语选取单元选取要进行加密的词语及其同义词其依据相关词
语篩选规则筛选不适合作为嵌入水印的词语。然后,同义语替换单元进行同 义词替换。当找出适合作为嵌入水印的词语之后,便可将水印的位字符串, 以一个位为单位,依照顺序嵌入至选出的词语中,其嵌入的原则为将词语的剩余对映值与欲嵌入水印的位值比较,当结果不同时即进行同义词的替换。 最后,密文产生单元产生嵌入水印信息的密文。
附图说明
图1为显示本发明资料加密方法的实施步骤流程图。 图2显示本发明数据加密系统的架构示意图。
符号说明:
210-词语处理单元
220 -加密信息产生单元
230 -词语选取单元
240 -同义语替换单元 250 -密文产生单元

具体实施方式

为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举出 较佳实施例,并配合附图,作详细说明如下。 本发明提供一种数据加密方法与系统。
本方法将水印植入文件中,以达到保护文件的目的。利用本发明的算法, 依据所要隐藏的信息将文件中的内容加密成为语意上与原文无异的密文,其 实施流程如下所述。
图1显示本发明资料加密方法的实施步骤流程图。
欲保护的文件内斜艮据该水印植入程序,将数字水印嵌入于文字中而成 为一密文。假设一文章内容为:f Mob i 1 e Con tent新的价值链中,利润的分配亦因内容整合商由谁担任 而有所不同。如由系统业者扮演内容整合商/发行商的色,除可賺取其担任 内容整合商/发行商所应享的利润,因掌握账单系统,亦能賺取代收帐款的费 用,在此情形下,系统业者将賺取最多的利润。』
在步骤S1中,将文章的内容予以断词,并进行词性判断以标注词性。利 用 一中文断词方法将文章内容予以断词及进行词类标记,其断词后的结果如 下:
〖。(PERIODCATEGORY) Mobi le (FW) Content (FW) 新(VH) 的 (DE ) 价值(Na ) 链(Na ) 中(Ng ) , ( C0鹿ACATEG0RY ) , (C0醒ACATEG0RY ) 利润(Na ) 的(DE ) 分配(VD ) 亦(D ) 因(Cbb )
内容(Na) 整合商(Na) 由(P) 谁(Nh ) 担任(VG ) 而(Cbb )
有所(VJ) 不同(VH) 。 (PERIODCATEGORY) 。 ( PERIODCATEGORY) 如 (Cbb) 由(P) 系统(Na) 业者(Na) 扮演(VC) 内容(Na) 整
合商(Na) /(FW) 发行商(Na) 的(DE ) 角色(Na ), (CO醒ACATEGORY ) , ( CO固ACATEGORY ) 除(P ) 可(D ) 賺取(VC )
其(Nep) 担任(VG) 内容(Na) 整合商(Na ) / ( FW ) 发行商(Na )
所(D) 应(D) 享(VJ) 的(DE) 利润(Na) , (CO函ACATEGORY), (CO画ACATEGORY ) 因(Cbb ) 掌握(VC ) 账单(Na ) 系统(Na), (CO固ACATEGORY ) , ( CO画ACATEGORY ) 亦(D ) 能(D ) 賺取(VC )
代收(VC) 帐款(Na) 的(DE) 费用(Na) , (COMMACATEGORY), (COMMACATEGORY ) 在(P ) 此(N印) 情形(Na ) 下(Ng ) , (COMMACATEGORY) , (COMMACATEGORY) 系统(Na) 业者(Na) 将(D)
賺取(VC) 最多(VH) 的(DE) 利润(Na) 。 (PERIODCATEGORY" 在步骤S2中,产生文章的加密信息,其分成两个部分。第一部份是将要
嵌入文章当中的水印信息(如版权信息)转换成对应的位字符串(Bit String )以嵌入文字内。转换成位字符串的方式可采用Unicode、 ASCII、 Big5等转换 方式,举例来说,版权信息为『ACT』,经过位字符串转换后变为『00101』。
第二部分是任意选取一质数(假设为10007 ),并利用一个二次剩余 (Quadratic Residue) H学定理产生一个二次剩余表(Quadratic Residue Table),作为选取加密词i吾的判断标准。如表一所示,二次剩余表中记录从1 到所选取质数范围内,相应每一数值的剩余对映值,其以0或1表示。有关 加密词语的判断方式4又述于下文中。
1 table see original document page 9
表l
在步骤S3中,选取要进行加密的词语及其同义词。在取得上述的断词结 杲及二次剩余表后,依据下列规则筛选不适合作为嵌入水印的词语:(l)剔除 文章中的标点符号。(2)剔除经过断词程序后,取得的词语长度为l者,即为 一个中文字。(3)剔除词性为FW的词语(亦即该词语为英文)。(4)剔除没有 同义词的词语。(5)词语虽具有同义词,但将该词语与其同义词依序进行其位 字符串逻辑运算(包括XOR运算、AND运算、0R运算、+运算、-运算以及*运 算)后,并且根据运算结果查找二次剩余表所得剩余对映值相等时,也需剔 除该词语。
举例来说, 一词语为『分配』,其经过位字符串转换之后所得的位字符串 分别为『分:10011』和『配:10101』。才艮据一同义词库可取得『分配』的同 义词f分发i,其经过位字符串转换之后所得位字符串分别为『分:10001』 和『发:11101』。接着对两词语的位字符串进行逻辑运算,首先进行X0R运 算,『分配n位经过运算后可得『分配:00110』,转换为十进制后的数字为『6』, 『6』除以密钥的值『10007』所得剩余为『6』,查找二次剩余表可得剩余对映值为『分配:1』。而『分发』位经过运算后可得『分发:01100』,转换为十 进制后数字为『12〗,『12』除以密钥的值『10007』所得剩余为『12』,查找 二次剩余表可得剩余对映值为『分发:U。由上述运算结栗可得两词语剩余 对映值相同,因此接着进行AND运算,若运算结同样得到相同剩余对映值, 再接着进行OR运算,以此类推,直到取得两不同剩余对映值,或者执行全部 逻辑运算后仍未取得两不同的剩余对映值时,则剔除该词语。
另外,要注意的是,词语不限定在二个字,包含三个字以上的词语也可。 如某一词语为『水箱』,其同义词为『电箱』,同样需将『电H水H箱』 三个字分别转换成位字符串以进行逻辑运算。
执行词语的选取步骤后,可得到适合作为嵌入水印信息的词语、其相对 应的同义词以及查找二次剩余表所得的剩余对映值,如表2所示。
table see original document page 10
在步骤S4中,进行同义词替换。当找出适合作为嵌入水印的词语之后, 便可将水印的位字符串,以一个位为单位,依照顺序嵌入至选出的词语中, 其嵌入的原则为将词语剩余对映值与欲嵌入之水印的位值比较,当结果不同 时即进行同义词的替换。
例如,以下列文章来说:
『Mobile Content新的价值链中,利润的【分配(l,O)】亦因内容整合商由谁担《壬而有所不同。如由系统业者扮演内容整合商/发行商的角色,除可 【賺取(O,O)】其担任内容整合商/发行商所应享的利润,因掌握账单系统,
亦能【賺取(o, l)】代收帐款的费用,在此【情形(i,o)】下,系统业者将
【賺取(O,l)】最多的利润。』
其中,【分配(i, o )】的i表示词语『分配』的剩余对映值,而要植入的 水印之位值为『0』,因两者位值不同,故要进行同义词替换。另一方面,【賺 取(O,O)】的剩余对映值与要植入的水印位值皆为『(M,故不需进行同义词 替换。
此外, 一个词语可能有一个或以上的同义词,本方法利用下述规则来选 择替换词。
首先, 一个词语可能有多个同义词,在选择同义词替换时,需选择与原 来词语剩余对映值不同的。其次, 一个词语可能有多种词性,在选择同义词 替换时,需要考虑词语在文章中的词性,以免将名词的同义词替换成动词。 最后,相同词性的同义词也可能有一个或以上,此时必须利用平衡语言资料
库来选择惯用(连用)性高者作为替换的同义词。
因此,以上面的例子而言,经过上述选择替换词^见则后,可得结果如下: 『Mobile Content新的价值链中,利润的【分配(分发)】亦因内容整
合商由谁担任而有所不同。如由系统业者扮演内容整合商/发行商的角色,除
可【賺取(0, 0)】其担任内容整合商/发行商所应享的利润,因掌握账单系统,
亦能【賺取(盈利、创收)】代收帐款的费用,在此【情形(情况、状态)】
下,系统业者将【賺取(盈利、创收)】最多的利润。』
其中,【分配(分发)】表示词语『分配』可替换之同义词为『分发J。 在步骤S5中,产生嵌入水印信息的密文。经过前述四个步骤后,将文章
中可予以加密的词语进行同义词替换,加密后的密文结果(斜体字部分为水
印隐藏之处)如下所示:『Mobile Content新的价值链中,利润的r为、定」亦因内容整合商由谁 担任而有所不同。如由系统业者扮演内容整合商/发行商的角色,除可「嫌欢J 其担任内容整合商/发行商所应享的利润,因掌握账单系统,亦能「^^/」代 收帐款的费用,在此r炎'在」下,系统业者将r^WJ最多的利润。』
图2为显示本发明数据加密系统架构示意图。本系统包括一词语处理单 元210、 一加密信息产生单元220、 一词语选取单元230、 一同义语替换单元 240以及一密文产生单元250。
词语处理单元210利用一中文断词方法将文章内容予以断词,并进行词 性判断以标注词性。加密信息产生单元220产生文章的加密信息,其分成两 个部分。第一部份是将要嵌入文章当中的水印信息(如版权信息)转换成对 应的位字符串以嵌入文字内。第二部分是任意选取一质数,并利用一个二次 剩余数学定理产生一个二次剩余表,作为选取加密词语的判断标准。
接下来,词语选取单元230选取要进行加密的词语及其同义词。在取得 上述的断词结果及二次剩余表后,依据下列规则筛选不适合作为嵌入水印的 词语:(l)剔除文章中的标点符号。(2)剔除经过断词程序后,取得词语长度 为1者,即为一个中文字。(3)剔除词性为FW的词语(即该词语为英文)。(4) 剔除没有同义词的词语。(5)词语虽具有同义词,但将该词语与其同义词依序 进行其位字符串的逻辑运算(包括X0R运算、AND运算、0R运算、+运算、-运算以及*运算)后,并且根据运算结果查找二次剩余表所得剩余对映值相等 时,亦需剔除该词语。执行词语的选取步骤后,可得到适合作为嵌入水印信 息的词语、其相对应的同义词。
然后,同义语替换单元240进行同义词替换。当找出适合作为嵌入水印
的词语之后,便可将水印的位字符串,以一个位为单位,依照顺序嵌入至选 出的词语中,其嵌入的原则为将词语剩余对映值与欲嵌入水印的位值比较, 当结果不同时即进行同义词的替换。最后,密文产生单元250产生嵌入水印信息的密文。
本发明将水印信息隐藏于欲保护的文章中,即使利用光学文字辨识或打 字等方法盗用,仍可被检测出来。此外,本发明亦可应用于信息隐藏及信息 保护上,当在传递受保护的文件时,其中隐含的秘密信息不会被察觉。此外, 保密信息若被破坏,则受到保护的数据亦会遭到毁损,因此可降^^皮盗用的机会。
标题 发布/更新时间 阅读量
一种基于多任务联合学习的论辩挖掘系统及其工作方法 2020-05-13 806
基于深度问答的答案检索方法及装置 2020-05-13 567
一种基于深度学习的校园心理辅导的方法及装置 2020-05-13 942
一种网络社交媒体中地震信息的可视化方法和系统 2020-05-13 715
背景音乐的确定方法及相关设备 2020-05-13 173
一种使用重叠拆分规则的文本序列标注算法 2020-05-14 365
案情描述要素提取方法、机器学习模型获得方法及装置 2020-05-12 534
用于增强已标注样本的方法和设备 2020-05-11 934
一种基于主题模型和语义分析的实体指称项识别方法 2020-05-11 651
一种基于主题下的情感分析方法 2020-05-12 360
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈