r数字水印」指的是将水印的技术运用在数字媒体中,这些数字媒体包 含数字化的影像、声音及图片等。为了防止数字媒体在网络上遭人下载非法 使用,可以将一些具代表性的图案(如注册商标或
版权信息),利用相关的技 术植入这些数字^?某体中,用以证明其合法的持有者,进而保护知识产权,该 具代表性的图案即所谓的「水印信息J。
当这些已经植入r数字水印j的数字媒体被非法使用时,可以利用相关 技术将「数字水印J取出来,用以证明其合法的持有者是谁。目前的「数字 水印」主要使用于图片的保护,图片植入水印后,与原有图片看起来并没有 任何不同,但实际上却已将水印信息隐藏于图片中,因此具备了水印的保密 性。
然而,目前的数字水印技术少有应用于文件的保护上。而已知应用于文 件保护上的数字水印技术具有下列缺点,其一是文件可以透过光学文字辨识 (OCR, Optical Character Recognition)被撷取使用,其二是剽窃者不以
拷贝的方式抄袭文件,而是以文字编辑
软件自行输入使用。所以,现有的数
字水印技术无法有效地保护文件不被盗用。
发明内容有鉴于此,本发明的目的在提供一种数据加密的方法与系统,以保护文 章内容不被轻易盗用。
基于上述目的,本发明提供一种数据加密的方法。首先,利用一中文断 词方法将文章之内容予以断词,并进行词性判断以标注词性。然后,产生文 章的加密信息,包括将要嵌入文章当中的水印信息(如版权信息)转换成对 应的位字符串以嵌入文字内,以及任意选取一质数,并利用一个二次剩余的 数学定理产生一个二次剩余表,作为选取加密词语的判断标准。
接下来,选取要进行加密的词语及其同义词,其依据相关词语筛选规则 筛选不适合作为嵌入水印的词语。然后进行同义词替换。当找出适合作为嵌 入水印的词语后,便可将水印的位字符串,以一个位为单位,依照顺序嵌入 至选出的词语中,其嵌入的原则为将词语的剩余对映值与欲嵌入水印的位值 比较,当结果不同时即进行同义词的替换。最后,完成前迷步骤后即可产生 嵌入水印信息的密文。
本发明另外提供一种数据加密的系统,其包括一词语处理单元、 一加密
信息产生单元、 一词语选取单元、 一同义语替换单元以及一密文产生单元。
词语处理单元利用 一 中文断词方法将文章的内容予以断词,并进行词性判断
以标注词性。加密信息产生单元产生文章的加密信息,包括将要嵌入文章当
中的水印信息(如版权信息)转换成对应的位字符串以嵌入文字内,以及任
意选取一质数,并利用一个二次剩余的数学定理产生一个二次剩余表,作为
选取加密词语的判断标准。
接下来,词语选取单元选取要进行加密的词语及其同义词其依据相关词
语篩选规则筛选不适合作为嵌入水印的词语。然后,同义语替换单元进行同 义词替换。当找出适合作为嵌入水印的词语之后,便可将水印的位字符串, 以一个位为单位,依照顺序嵌入至选出的词语中,其嵌入的原则为将词语的剩余对映值与欲嵌入水印的位值比较,当结果不同时即进行同义词的替换。 最后,密文产生单元产生嵌入水印信息的密文。
附图说明
图1为显示本发明资料加密方法的实施步骤
流程图。 图2显示本发明数据加密系统的架构示意图。
符号说明:
210-词语处理单元
220 -加密信息产生单元
230 -词语选取单元
240 -同义语替换单元 250 -密文产生单元
为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举出 较佳
实施例,并配合附图,作详细说明如下。 本发明提供一种数据加密方法与系统。
本方法将水印植入文件中,以达到保护文件的目的。利用本发明的
算法, 依据所要隐藏的信息将文件中的内容加密成为语意上与原文无异的密文,其 实施流程如下所述。
图1显示本发明资料加密方法的实施步骤流程图。
欲保护的文件内斜艮据该水印植入程序,将数字水印嵌入于文字中而成 为一密文。假设一文章内容为:f Mob i 1 e Con tent新的价值链中,利润的分配亦因内容整合商由谁担任 而有所不同。如由系统业者扮演内容整合商/发行商的
角色,除可賺取其担任 内容整合商/发行商所应享的利润,因掌握账单系统,亦能賺取代收帐款的费 用,在此情形下,系统业者将賺取最多的利润。』
在步骤S1中,将文章的内容予以断词,并进行词性判断以标注词性。利 用 一中文断词方法将文章内容予以断词及进行词类标记,其断词后的结果如 下:
〖。(PERIODCATEGORY) Mobi le (FW) Content (FW) 新(VH) 的 (DE ) 价值(Na ) 链(Na ) 中(Ng ) , ( C0鹿ACATEG0RY ) , (C0醒ACATEG0RY ) 利润(Na ) 的(DE ) 分配(VD ) 亦(D ) 因(Cbb )
内容(Na) 整合商(Na) 由(P) 谁(Nh ) 担任(VG ) 而(Cbb )
有所(VJ) 不同(VH) 。 (PERIODCATEGORY) 。 ( PERIODCATEGORY) 如 (Cbb) 由(P) 系统(Na) 业者(Na) 扮演(VC) 内容(Na) 整
合商(Na) /(FW) 发行商(Na) 的(DE ) 角色(Na ), (CO醒ACATEGORY ) , ( CO固ACATEGORY ) 除(P ) 可(D ) 賺取(VC )
其(Nep) 担任(VG) 内容(Na) 整合商(Na ) / ( FW ) 发行商(Na )
所(D) 应(D) 享(VJ) 的(DE) 利润(Na) , (CO函ACATEGORY), (CO画ACATEGORY ) 因(Cbb ) 掌握(VC ) 账单(Na ) 系统(Na), (CO固ACATEGORY ) , ( CO画ACATEGORY ) 亦(D ) 能(D ) 賺取(VC )
代收(VC) 帐款(Na) 的(DE)
费用(Na) , (COMMACATEGORY), (COMMACATEGORY ) 在(P ) 此(N印) 情形(Na ) 下(Ng ) , (COMMACATEGORY) , (COMMACATEGORY) 系统(Na) 业者(Na) 将(D)
賺取(VC) 最多(VH) 的(DE) 利润(Na) 。 (PERIODCATEGORY" 在步骤S2中,产生文章的加密信息,其分成两个部分。第一部份是将要
嵌入文章当中的水印信息(如版权信息)转换成对应的位字符串(Bit String )以嵌入文字内。转换成位字符串的方式可采用Unicode、 ASCII、 Big5等转换 方式,举例来说,版权信息为『ACT』,经过位字符串转换后变为『00101』。
第二部分是任意选取一质数(假设为10007 ),并利用一个二次剩余 (Quadratic Residue) H学定理产生一个二次剩余表(Quadratic Residue Table),作为选取加密词i吾的判断标准。如表一所示,二次剩余表中记录从1 到所选取质数范围内,相应每一数值的剩余对映值,其以0或1表示。有关 加密词语的判断方式4又述于下文中。
1
table see original document page 9
表l
在步骤S3中,选取要进行加密的词语及其同义词。在取得上述的断词结 杲及二次剩余表后,依据下列规则筛选不适合作为嵌入水印的词语:(l)剔除 文章中的标点符号。(2)剔除经过断词程序后,取得的词语长度为l者,即为 一个中文字。(3)剔除词性为FW的词语(亦即该词语为英文)。(4)剔除没有 同义词的词语。(5)词语虽具有同义词,但将该词语与其同义词依序进行其位 字符串逻辑运算(包括XOR运算、AND运算、0R运算、+运算、-运算以及*运 算)后,并且根据运算结果查找二次剩余表所得剩余对映值相等时,也需剔 除该词语。
举例来说, 一词语为『分配』,其经过位字符串转换之后所得的位字符串 分别为『分:10011』和『配:10101』。才艮据一同义词库可取得『分配』的同 义词f分发i,其经过位字符串转换之后所得位字符串分别为『分:10001』 和『发:11101』。接着对两词语的位字符串进行逻辑运算,首先进行X0R运 算,『分配n位经过运算后可得『分配:00110』,转换为十进制后的数字为『6』, 『6』除以密钥的值『10007』所得剩余为『6』,查找二次剩余表可得剩余对映值为『分配:1』。而『分发』位经过运算后可得『分发:01100』,转换为十 进制后数字为『12〗,『12』除以密钥的值『10007』所得剩余为『12』,查找 二次剩余表可得剩余对映值为『分发:U。由上述运算结栗可得两词语剩余 对映值相同,因此接着进行AND运算,若运算结同样得到相同剩余对映值, 再接着进行OR运算,以此类推,直到取得两不同剩余对映值,或者执行全部 逻辑运算后仍未取得两不同的剩余对映值时,则剔除该词语。
另外,要注意的是,词语不限定在二个字,包含三个字以上的词语也可。 如某一词语为『水箱』,其同义词为『电冰箱』,同样需将『电H水H箱』 三个字分别转换成位字符串以进行逻辑运算。
执行词语的选取步骤后,可得到适合作为嵌入水印信息的词语、其相对 应的同义词以及查找二次剩余表所得的剩余对映值,如表2所示。
table see original document page 10
在步骤S4中,进行同义词替换。当找出适合作为嵌入水印的词语之后, 便可将水印的位字符串,以一个位为单位,依照顺序嵌入至选出的词语中, 其嵌入的原则为将词语剩余对映值与欲嵌入之水印的位值比较,当结果不同 时即进行同义词的替换。
例如,以下列文章来说:
『Mobile Content新的价值链中,利润的【分配(l,O)】亦因内容整合商由谁担《壬而有所不同。如由系统业者扮演内容整合商/发行商的角色,除可 【賺取(O,O)】其担任内容整合商/发行商所应享的利润,因掌握账单系统,
亦能【賺取(o, l)】代收帐款的费用,在此【情形(i,o)】下,系统业者将
【賺取(O,l)】最多的利润。』
其中,【分配(i, o )】的i表示词语『分配』的剩余对映值,而要植入的 水印之位值为『0』,因两者位值不同,故要进行同义词替换。另一方面,【賺 取(O,O)】的剩余对映值与要植入的水印位值皆为『(M,故不需进行同义词 替换。
此外, 一个词语可能有一个或以上的同义词,本方法利用下述规则来选 择替换词。
首先, 一个词语可能有多个同义词,在选择同义词替换时,需选择与原 来词语剩余对映值不同的。其次, 一个词语可能有多种词性,在选择同义词 替换时,需要考虑词语在文章中的词性,以免将名词的同义词替换成动词。 最后,相同词性的同义词也可能有一个或以上,此时必须利用平衡语言资料
库来选择惯用(连用)性高者作为替换的同义词。
因此,以上面的例子而言,经过上述选择替换词^见则后,可得结果如下: 『Mobile Content新的价值链中,利润的【分配(分发)】亦因内容整
合商由谁担任而有所不同。如由系统业者扮演内容整合商/发行商的角色,除
可【賺取(0, 0)】其担任内容整合商/发行商所应享的利润,因掌握账单系统,
亦能【賺取(盈利、创收)】代收帐款的费用,在此【情形(情况、状态)】
下,系统业者将【賺取(盈利、创收)】最多的利润。』
其中,【分配(分发)】表示词语『分配』可替换之同义词为『分发J。 在步骤S5中,产生嵌入水印信息的密文。经过前述四个步骤后,将文章
中可予以加密的词语进行同义词替换,加密后的密文结果(斜体字部分为水
印隐藏之处)如下所示:『Mobile Content新的价值链中,利润的r为、定」亦因内容整合商由谁 担任而有所不同。如由系统业者扮演内容整合商/发行商的角色,除可「嫌欢J 其担任内容整合商/发行商所应享的利润,因掌握账单系统,亦能「^^/」代 收帐款的费用,在此r炎'在」下,系统业者将r^WJ最多的利润。』
图2为显示本发明数据加密系统架构示意图。本系统包括一词语处理单 元210、 一加密信息产生单元220、 一词语选取单元230、 一同义语替换单元 240以及一密文产生单元250。
词语处理单元210利用一中文断词方法将文章内容予以断词,并进行词 性判断以标注词性。加密信息产生单元220产生文章的加密信息,其分成两 个部分。第一部份是将要嵌入文章当中的水印信息(如版权信息)转换成对 应的位字符串以嵌入文字内。第二部分是任意选取一质数,并利用一个二次 剩余数学定理产生一个二次剩余表,作为选取加密词语的判断标准。
接下来,词语选取单元230选取要进行加密的词语及其同义词。在取得 上述的断词结果及二次剩余表后,依据下列规则筛选不适合作为嵌入水印的 词语:(l)剔除文章中的标点符号。(2)剔除经过断词程序后,取得词语长度 为1者,即为一个中文字。(3)剔除词性为FW的词语(即该词语为英文)。(4) 剔除没有同义词的词语。(5)词语虽具有同义词,但将该词语与其同义词依序 进行其位字符串的逻辑运算(包括X0R运算、AND运算、0R运算、+运算、-运算以及*运算)后,并且根据运算结果查找二次剩余表所得剩余对映值相等 时,亦需剔除该词语。执行词语的选取步骤后,可得到适合作为嵌入水印信 息的词语、其相对应的同义词。
然后,同义语替换单元240进行同义词替换。当找出适合作为嵌入水印
的词语之后,便可将水印的位字符串,以一个位为单位,依照顺序嵌入至选 出的词语中,其嵌入的原则为将词语剩余对映值与欲嵌入水印的位值比较, 当结果不同时即进行同义词的替换。最后,密文产生单元250产生嵌入水印信息的密文。
本发明将水印信息隐藏于欲保护的文章中,即使利用光学文字辨识或打 字等方法盗用,仍可被检测出来。此外,本发明亦可应用于信息隐藏及信息 保护上,当在传递受保护的文件时,其中隐含的秘密信息不会被察觉。此外, 保密信息若被破坏,则受到保护的数据亦会遭到毁损,因此可降^^皮盗用的机会。
高效检索全球专利
专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
申请试用
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。
申请试用
该功能需要专业版企业版VIP权限,您可以:
您也可以联系官方QQ: 2157717237 电话: 13264338900