首页 / 专利库 / 人工智能 / 文本字符串 / 一种基于区块链的文本比对方法及装置

一种基于链的文本比对方法及装置

阅读:706发布:2020-05-12

专利汇可以提供一种基于链的文本比对方法及装置专利检索,专利查询,专利分析的服务。并且本 申请 实施例 公开了一种基于 区 块 链 的文本比对方法,包括:当监测到第一应用平台发布待验证文本数据,基于待验证文本数据的第一分片值对待验证文本数据进行拆分,得到至少一个第一分片文本,获取每个第一分片文本的分片哈希值;将每个第一分片文本的分片哈希值进行拼接,得到待验证文本数据的验证哈希值;从区块链中获取与第二应用平台相关联的多个文本发布区块,根据多个文本发布区块得到第二应用平台对应的权属哈希集合,权属哈希集合包括多个权属哈希值;根据多个权属哈希值分别与验证哈希值的相似度,确定待验证文本数据的侵权鉴定结果。采用本申请,可以提高文本比对的效率。,下面是一种基于链的文本比对方法及装置专利的具体信息内容。

1.一种基于链的文本比对方法,其特征在于,所述方法包括:
当监测到第一应用平台发布待验证文本数据,基于所述待验证文本数据的第一分片值对所述待验证文本数据进行拆分,得到至少一个第一分片文本,获取每个第一分片文本的分片哈希值;
将所述每个第一分片文本的分片哈希值进行拼接,得到所述待验证文本数据的验证哈希值;
从区块链中获取与第二应用平台相关联的多个文本发布区块,根据所述多个文本发布区块得到所述第二应用平台对应的权属哈希集合,所述权属哈希集合包括多个权属哈希值;所述权属哈希值是通过将所述第二应用平台中的文本数据对应的分片哈希值进行拼接得到;所述文本数据对应的分片哈希值是指所述文本数据分片后得到的第二分片文本对应的哈希值;
根据所述多个权属哈希值分别与所述验证哈希值的相似度,确定所述待验证文本数据的侵权鉴定结果。
2.如权利要求1所述的方法,其特征在于,所述多个权属哈希值包括第一权属哈希值;
所述方法还包括:
获取第二应用平台的所述文本数据及所述文本数据的第二分片值;
根据所述第二分片值将所述文本数据进行拆分,得到至少一个第二分片文本,获取每个第二分片文本的分片哈希值;
将所述每个第二分片文本的分片哈希值进行拼接,得到所述文本数据的第一权属哈希值,根据所述第一权属哈希值生成所述文本发布区块,将所述文本发布区块加入所述区块链中。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
基于压缩映射算法对所述每个第一分片文本的分片哈希值进行压缩,得到所述每个第一分片文本的压缩哈希值;
所述将所述每个第一分片文本的分片哈希值进行拼接,得到所述待验证文本数据的验证哈希值,包括:
基于所述每个第一分片文本在所述待验证文本数据中的相对位置,将所述每个第一分片文本的压缩哈希值依次进行拼接,得到所述待验证文本数据的验证哈希值。
4.如权利要求1所述的方法,其特征在于,所述基于所述待验证文本数据的第一分片值对所述待验证文本数据进行拆分,得到至少一个第一分片文本,包括:
通过弱哈希算法得到所述待验证文本数据在滑动窗口中的字符串对应的弱哈希值,基于所述第一分片值对所述弱哈希值取余;
若对所述弱哈希值取余的结果等于指定分片值,则在所述待验证文本数据中处于所述滑动窗口中的最后一个字符后进行拆分,得到一个第一分片文本,将所述滑动窗口滑动到拆分位置之后,继续通过所述弱哈希算法获取所述待验证文本数据在滑动后的滑动窗口中字符串对应的弱哈希值,直至所述待验证文本数据的最后一个字符位于所述滑动后的滑动窗口中,得到所述待验证文本数据的至少一个第一分片文本;
若对所述弱哈希值取余的结果不等于指定分片值,则将所述滑动窗口沿所述待验证文本数据滑动一个字符,继续通过所述弱哈希算法获取所述待验证文本数据在滑动后的滑动窗口中字符串对应的弱哈希值,直至所述待验证文本数据的最后一个字符位于所述滑动后的滑动窗口中,得到所述待验证文本数据的至少一个第一分片文本。
5.如权利要求2所述的方法,其特征在于,所述根据所述第一权属哈希值生成所述文本发布区块,将所述文本发布区块加入所述区块链中,包括:
根据所述第一权属哈希值、所述第一权属哈希值对应的文本数据的标识及所述第二应用平台的平台标识生成所述文本发布区块,将所述文本发布区块广播至所述区块链中的共识节点,若所述共识节点针对所述文本发布区块共识通过,则将所述文本发布区块添加到所述区块链中。
6.如权利要求1所述的方法,其特征在于,所述根据所述多个权属哈希值分别与所述验证哈希值的相似度,确定所述待验证文本数据的侵权鉴定结果,包括:
获取所述多个权属哈希值分别与所述验证哈希值的相似度,若所述多个权属哈希值中存在与所述验证哈希值的相似度大于侵权相似值的第二权属哈希值,则确定所述待验证文本数据的侵权鉴定结果为数据侵权结果。
7.如权利要求5和6中任意一项所述的方法,其特征在于,所述方法还包括:
若确定所述待验证文本数据的侵权鉴定结果为数据侵权结果,则从所述区块链中获取与所述第二权属哈希值及所述第二应用平台相关联的文本发布区块,作为侵权文本发布区块;
从所述侵权文本发布区块中获取所述第二权属哈希值对应的文本数据的标识,将所述第二权属哈希值对应的文本数据确定为对照文本数据;
向所述第一应用平台发送文本侵权通知,所述文本侵权通知包括所述对照文本数据、所述第二权属哈希值、所述第二权属哈希值与所述验证哈希值的相似度及所述待验证文本数据,以使所述第一应用平台基于所述文本侵权通知删除所述待验证文本数据。
8.如权利要求7所述的方法,其特征在于,所述方法还包括:
根据所述对照文本数据的标识、所述第二权属哈希值、所述第二权属哈希值与所述验证哈希值的相似度及所述待验证文本数据生成侵权区块,将所述侵权区块广播至所述区块链中的共识节点,若所述共识节点对所述侵权区块共识通过,则将所述侵权区块上传到所述区块链中;
在向所述第一应用平台发送所述文本侵权通知并经过指定时间长度后,从所述第一应用平台中查找所述待验证文本数据;
若在所述第一应用平台中查找出所述待验证文本数据,则向侵权管理部提交侵权证明,所述侵权证明包括所述侵权区块在所述区块链中的地址。
9.一种电子设备,其特征在于,包括处理器、存储器、输入输出接口
所述处理器分别与所述存储器和所述输入输出接口相连,其中,所述输入输出接口用于与共识节点间进行交互,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-8任一项所述的方法。

说明书全文

一种基于链的文本比对方法及装置

技术领域

[0001] 本申请涉及区块链技术领域,尤其涉及一种基于区块链的文本比对方法及装置。

背景技术

[0002] 随着互联网的发展,通过互联网进行传播的电子文本数据越来越多,用于传播电子文本数据的应用平台也更加多样化,可以说,几乎各种类型的电子文本数据都可以在互联网中获取到相关的数据,如实验报告、论文、电子小说、影视分析等等。然而由于电子文本数据的抄袭十分方便,几乎零成本,且难以获取抄袭痕迹,使得计算机网络中的抄袭现象盛行,因此,对于应用平台来说,保障本应用平台中所发布的文本数据不被盗用也就十分重要,而对于电子文本数据来说,一般电子文本数据的文本长度可能会较长,如果一一比对该电子文本数据与其他电子文本数据,以得到其他电子文本数据与该电子文本数据间的相似度,进而判断其他电子文本数据是否侵权,这个过程需要很大的工作量,耗费资源,使得文本数据的侵权判定过程效率较低。发明内容
[0003] 本申请实施例提供了一种基于区块链的文本比对方法和装置,可以提高文本比对的效率。
[0004] 本申请实施例第一方面提供了一种基于区块链的文本比对方法,包括:
[0005] 当监测到第一应用平台发布待验证文本数据,基于所述待验证文本数据的第一分片值对所述待验证文本数据进行拆分,得到至少一个第一分片文本,获取每个第一分片文本的分片哈希值;
[0006] 将所述每个第一分片文本的分片哈希值进行拼接,得到所述待验证文本数据的验证哈希值;
[0007] 从区块链中获取与第二应用平台相关联的多个文本发布区块,根据所述多个文本发布区块得到所述第二应用平台对应的权属哈希集合,所述权属哈希集合包括多个权属哈希值;所述权属哈希值是通过将所述第二应用平台中的文本数据对应的分片哈希值进行拼接得到;所述文本数据对应的分片哈希值是指所述文本数据分片后得到的第二分片文本对应的哈希值;
[0008] 根据所述多个权属哈希值分别与所述验证哈希值的相似度,确定所述待验证文本数据的侵权鉴定结果。
[0009] 其中,所述多个权属哈希值包括第一权属哈希值;所述方法还包括:
[0010] 获取第二应用平台的所述文本数据及所述文本数据的第二分片值;
[0011] 根据所述第二分片值将所述文本数据进行拆分,得到至少一个第二分片文本,获取每个第二分片文本的分片哈希值;
[0012] 将所述每个第二分片文本的分片哈希值进行拼接,得到所述文本数据的第一权属哈希值,根据所述第一权属哈希值生成所述文本发布区块,将所述文本发布区块加入所述区块链中。
[0013] 其中,所述方法还包括:
[0014] 基于压缩映射算法对所述每个第一分片文本的分片哈希值进行压缩,得到所述每个第一分片文本的压缩哈希值;
[0015] 所述将所述每个第一分片文本的分片哈希值进行拼接,得到所述待验证文本数据的验证哈希值,包括:
[0016] 基于所述每个第一分片文本在所述待验证文本数据中的相对位置,将所述每个第一分片文本的压缩哈希值依次进行拼接,得到所述待验证文本数据的验证哈希值。
[0017] 其中,所述基于所述待验证文本数据的第一分片值对所述待验证文本数据进行拆分,得到至少一个第一分片文本,包括:
[0018] 通过弱哈希算法得到所述待验证文本数据在滑动窗口中的字符串对应的弱哈希值,基于所述第一分片值对所述弱哈希值取余;
[0019] 若对所述弱哈希值取余的结果等于指定分片值,则在所述待验证文本数据中处于所述滑动窗口中的最后一个字符后进行拆分,得到一个第一分片文本,将所述滑动窗口滑动到拆分位置之后,继续通过所述弱哈希算法获取所述待验证文本数据在滑动后的滑动窗口中字符串对应的弱哈希值,直至所述待验证文本数据的最后一个字符位于所述滑动后的滑动窗口中,得到所述待验证文本数据的至少一个第一分片文本;
[0020] 若对所述弱哈希值取余的结果不等于指定分片值,则将所述滑动窗口沿所述待验证文本数据滑动一个字符,继续通过所述弱哈希算法获取所述待验证文本数据在滑动后的滑动窗口中字符串对应的弱哈希值,直至所述待验证文本数据的最后一个字符位于所述滑动后的滑动窗口中,得到所述待验证文本数据的至少一个第一分片文本。
[0021] 其中,所述根据所述第一权属哈希值生成所述文本发布区块,将所述文本发布区块加入所述区块链中,包括:
[0022] 根据所述第一权属哈希值、所述第一权属哈希值对应的文本数据的标识及所述第二应用平台的平台标识生成所述文本发布区块,将所述文本发布区块广播至所述区块链中的共识节点,若所述共识节点针对所述文本发布区块共识通过,则将所述文本发布区块添加到所述区块链中。
[0023] 其中,所述根据所述多个权属哈希值分别与所述验证哈希值的相似度,确定所述待验证文本数据的侵权鉴定结果,包括:
[0024] 获取所述多个权属哈希值分别与所述验证哈希值的相似度,若所述多个权属哈希值中存在与所述验证哈希值的相似度大于侵权相似值的第二权属哈希值,则确定所述待验证文本数据的侵权鉴定结果为数据侵权结果。
[0025] 其中,所述方法还包括:
[0026] 若确定所述待验证文本数据的侵权鉴定结果为数据侵权结果,则从所述区块链中获取与所述第二权属哈希值及所述第二应用平台相关联的文本发布区块,作为侵权文本发布区块;
[0027] 从所述侵权文本发布区块中获取所述第二权属哈希值对应的文本数据的标识,将所述第二权属哈希值对应的文本数据确定为对照文本数据;
[0028] 向所述第一应用平台发送文本侵权通知,所述文本侵权通知包括所述对照文本数据、所述第二权属哈希值、所述第二权属哈希值与所述验证哈希值的相似度及所述待验证文本数据,以使所述第一应用平台基于所述文本侵权通知删除所述待验证文本数据。
[0029] 其中,所述方法还包括:
[0030] 根据所述对照文本数据的标识、所述第二权属哈希值、所述第二权属哈希值与所述验证哈希值的相似度及所述待验证文本数据生成侵权区块,将所述侵权区块广播至所述区块链中的共识节点,若所述共识节点对所述侵权区块共识通过,则将所述侵权区块上传到所述区块链中;
[0031] 在向所述第一应用平台发送所述文本侵权通知并经过指定时间长度后,从所述第一应用平台中查找所述待验证文本数据;
[0032] 若在所述第一应用平台中查找出所述待验证文本数据,则向侵权管理部提交侵权证明,所述侵权证明包括所述侵权区块在所述区块链中的地址。
[0033] 本申请实施例第二方面提供了一种基于区块链的文本比对装置,所述装置包括:
[0034] 第一分片模块,用于当监测到第一应用平台发布待验证文本数据,基于所述待验证文本数据的第一分片值对所述待验证文本数据进行拆分,得到至少一个第一分片文本;
[0035] 第一获取模块,用于获取每个第一分片文本的分片哈希值;
[0036] 第一拼接模块,用于将所述每个第一分片文本的分片哈希值进行拼接,得到所述待验证文本数据的验证哈希值;
[0037] 第一查找模块,用于从区块链中获取与第二应用平台相关联的多个文本发布区块,根据所述多个文本发布区块得到所述第二应用平台对应的权属哈希集合,所述权属哈希集合包括多个权属哈希值;所述权属哈希值是通过将所述第二应用平台中的文本数据对应的分片哈希值进行拼接得到;所述文本数据对应的分片哈希值是指所述文本数据分片后得到的第二分片文本对应的哈希值;
[0038] 确定模块,用于根据所述多个权属哈希值分别与所述验证哈希值的相似度,确定所述待验证文本数据的侵权鉴定结果。
[0039] 其中,所述多个权属哈希值包括第一权属哈希值;所述装置还包括:
[0040] 第二获取模块,用于获取第二应用平台的所述文本数据及所述文本数据的第二分片值;
[0041] 第二分片模块,用于根据所述第二分片值将所述文本数据进行拆分,得到至少一个第二分片文本,获取每个第二分片文本的分片哈希值;
[0042] 第二拼接模块,用于将所述每个第二分片文本的分片哈希值进行拼接,得到所述文本数据的第一权属哈希值;
[0043] 第一生成模块,用于根据所述第一权属哈希值生成所述文本发布区块,将所述文本发布区块加入所述区块链中。
[0044] 其中,所述装置还包括:
[0045] 压缩模块,用于基于压缩映射算法对所述每个第一分片文本的分片哈希值进行压缩,得到所述每个第一分片文本的压缩哈希值;
[0046] 所述第一拼接模块,具体用于:
[0047] 基于所述每个第一分片文本在所述待验证文本数据中的相对位置,将所述每个第一分片文本的压缩哈希值依次进行拼接,得到所述待验证文本数据的验证哈希值。
[0048] 其中,所述第一分片模块,包括:
[0049] 第一获取单元,用于通过弱哈希算法得到所述待验证文本数据在滑动窗口中的字符串对应的弱哈希值,基于所述第一分片值对所述弱哈希值取余;
[0050] 拆分单元,用于若对所述弱哈希值取余的结果等于指定分片值,则在所述待验证文本数据中处于所述滑动窗口中的最后一个字符后进行拆分,得到一个第一分片文本,将所述滑动窗口滑动到拆分位置之后,继续基于所述获取单元通过所述弱哈希算法获取所述待验证文本数据在滑动后的滑动窗口中字符串对应的弱哈希值,直至所述待验证文本数据的最后一个字符位于所述滑动后的滑动窗口中,得到所述待验证文本数据的至少一个第一分片文本;
[0051] 滑窗单元,用于若对所述弱哈希值取余的结果不等于指定分片值,则将所述滑动窗口沿所述待验证文本数据滑动一个字符,继续基于所述获取单元通过所述弱哈希算法获取所述待验证文本数据在滑动后的滑动窗口中字符串对应的弱哈希值,直至所述待验证文本数据的最后一个字符位于所述滑动后的滑动窗口中,得到所述待验证文本数据的至少一个第一分片文本。
[0052] 其中,所述生成模块,包括:
[0053] 生成单元,用于根据所述第一权属哈希值、所述第一权属哈希值对应的文本数据的标识及所述第二应用平台的平台标识生成所述文本发布区块;
[0054] 共识单元,用于将所述文本发布区块广播至所述区块链中的共识节点;
[0055] 上链单元,用于若所述共识节点针对所述文本发布区块共识通过,则将所述文本发布区块添加到所述区块链中。
[0056] 其中,所述确定模块,包括:
[0057] 第二获取单元,用于获取所述多个权属哈希值分别与所述验证哈希值的相似度;
[0058] 确定单元,用于若所述多个权属哈希值中存在与所述验证哈希值的相似度大于侵权相似值的第二权属哈希值,则确定所述待验证文本数据的侵权鉴定结果为数据侵权结果。
[0059] 其中,所述装置还包括:
[0060] 第三获取模块,用于若确定所述待验证文本数据的侵权鉴定结果为数据侵权结果,则从所述区块链中获取与所述第二权属哈希值及所述第二应用平台相关联的文本发布区块,作为侵权文本发布区块;
[0061] 第四获取模块,用于从所述侵权文本发布区块中获取所述第二权属哈希值对应的文本数据的标识,将所述第二权属哈希值对应的文本数据确定为对照文本数据;
[0062] 发送模块,用于向所述第一应用平台发送文本侵权通知,所述文本侵权通知包括所述对照文本数据、所述第二权属哈希值、所述第二权属哈希值与所述验证哈希值的相似度及所述待验证文本数据,以使所述第一应用平台基于所述文本侵权通知删除所述待验证文本数据。
[0063] 其中,所述装置还包括:
[0064] 第二生成模块,用于根据所述对照文本数据的标识、所述第二权属哈希值、所述第二权属哈希值与所述验证哈希值的相似度及所述待验证文本数据生成侵权区块,将所述侵权区块广播至所述区块链中的共识节点,若所述共识节点对所述侵权区块共识通过,则将所述侵权区块上传到所述区块链中;
[0065] 第二查找模块,用于在向所述第一应用平台发送所述文本侵权通知并经过指定时间长度后,从所述第一应用平台中查找所述待验证文本数据;
[0066] 提交模块,用于若在所述第一应用平台中查找出所述待验证文本数据,则向侵权管理部门提交侵权证明,所述侵权证明包括所述侵权区块在所述区块链中的地址。
[0067] 本申请实施例第三方面提供了一种电子设备,包括处理器、存储器、输入输出接口
[0068] 所述处理器分别与所述存储器和所述输入输出接口相连,其中,所述输入输出接口用于与共识节点间进行交互,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如本申请实施例第一方面中所述的基于区块链的文本比对方法。
[0069] 本申请实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如本申请实施例第一方面中所述的基于区块链的文本比对方法。
[0070] 实施本申请实施例,将具有如下有益效果:
[0071] 本申请实施例实现了当监测到第一应用平台发布待验证文本数据,基于待验证文本数据的第一分片值对待验证文本数据进行拆分,得到至少一个第一分片文本,获取每个第一分片文本的分片哈希值;将每个第一分片文本的分片哈希值进行拼接,得到待验证文本数据的验证哈希值;从区块链中获取与第二应用平台相关联的多个文本发布区块,根据多个文本发布区块得到第二应用平台对应的权属哈希集合,权属哈希集合包括多个权属哈希值;根据多个权属哈希值分别与验证哈希值的相似度,确定待验证文本数据的侵权鉴定结果。本申请通过上述过程,通过对文本数据进行分片,基于分片结果得到文本数据的分片哈希值,并将分片哈希值拼接成该文本数据的哈希值,通过对比不同文本数据的哈希值,基于哈希值间的相似度确定文本数据的相似度,进而得到文本数据的侵权鉴定结果,减少了文本数据间进行对比所耗费的资源,提高了文本比对的效率。附图说明
[0072] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0073] 其中:
[0074] 图1是本申请实施例提供的一种文本比对架构图;
[0075] 图2是本申请实施例提供的一种文本比对过程场景示意图;
[0076] 图3是本申请实施例提供的一种基于区块链的文本比对方法流程图
[0077] 图4是本申请实施例提供的一种文本数据分片示意图;
[0078] 图5是本申请实施例提供的一种哈希值比对示意图;
[0079] 图6是本申请实施例提供的一种基于区块链的文本比对装置示意图;
[0080] 图7是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

[0081] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0082] 首先,对本申请实施例中提到的区块链、区块、链、交易及共识机制进行介绍。
[0083] 1、区块链:狭义上,区块链是一种以区块为基本单位的链式数据结构,区块中利用数字摘要对之前的交易历史进行校验,适合分布式记账场景下防篡改和可扩展性的需求;广义上,区块链还指代区块链结构实现的分布式记账技术,包括分布式共识、隐私与安全保护、点对点通信技术、网络协议、智能合约等。区块链的目标是实现一个分布的数据记录账本,此账本只允许添加,不允许删除。账本底层的基本结构是一个线性的链表。链表由一个个“区块”串联组成,后继区块中记录前继区块的哈希(Hash)值,每个区块(以及区块中的交易)是否合法,可通过计算哈希值的方式进行快速检验。若网络中节点提议添加一个新的区块,必须经过共识机制对区块达成确认。
[0084] 2、区块(Block):记录一段时间内发生的所有交易和状态结果等,是对当前账本状态的一次共识。具体的,对于区块链来说,每次写入数据,即上述的交易过程,就是创建一个区块。
[0085] 3、链(Chain):由区块按照发生顺序串联而成,是整个账本状态变化的日志记录。
[0086] 4、交易(Transaction):一次对账本的操作,导致账本状态的一次改变,如添加一条转账记录。
[0087] 5、共识机制:通过特殊节点的投票,在很短的时间内完成对交易的验证和确认,目标是使所有的诚实节点保存一致的区块链式图,其中,投票的特殊节点即为本申请中的共识节点。
[0088] 具体的,请参见图1,图1为本申请实施例提供的一种文本比对架构图,如图1所示,该文本比对架构中一般由三方组成,分别为多个第一应用平台102、第二应用平台101及区块链网络103,当任一第一应用平台102中发布了文本数据时,该文本数据对于第二应用平台101来说为待验证文本数据。当第二应用平台101监测到第一应用平台102发布了待验证文本数据,则对该待验证文本数据进行分片,得到该待验证文本数据分片后的至少一个第一分片文本对应的分片哈希值,将各个第一分片文本的分片哈希值进行拼接,得到该待验证文本数据的验证哈希值,从区块链103中获取与第二平台应用101相关联的多个文本发布区块,从各个文本发布区块中获取权属哈希值,得到权属哈希集合,对比权属哈希集合中的各个权属哈希值与验证哈希值,得到各个权属哈希值分别与该验证哈希值间的相似度,以得到该待验证文本数据的侵权鉴定结果。其中,每个文本发布区块是基于第二应用平台中相应的文本数据的权属哈希值生成的,而权属哈希值的生成过程与验证哈希值的生成过程类似。由于验证哈希值或权属哈希值是由文本数据分片后的分片文本的分片哈希值拼接而成,使得在文本数据中发生部分变化时,只有发生变化的部分内容所属的分片文本的分片哈希值会发生变化,该文本数据的其他分片文本的分片哈希值不变,从而使得文本数据的哈希值变化较少。因此,当待验证文本数据是基于其他文本数据改编得到,则该待验证文本数据的哈希值与被改编的文本数据的哈希值相似度就会较高,从而可以通过比对该待验证文本数据的哈希值与其他文本数据的哈希值,得到该待验证文本数据与其他文本数据的相似度,以确定待验证文本数据的侵权鉴定结果,减少了文本比对过程所耗费的资源,提高了文本比对的效率。
[0089] 进一步地,参见图2,图2是本申请提供的一种文本比对过程场景示意图。如图2所示,当第二应用平台201监测到第一应用平台中发布了待验证文本数据202,则从第一应用平台中获取该待验证文本数据202,基于该待验证文本数据202的第一分片值对待验证文本数据202进行拆分,得到至少一个第一分片文本203,并获取每个第一分片文本的分片哈希值204,假定对待验证文本数据202进行拆分后得到n个第一分片文本203,每个第一分片文本203对应一个分片哈希值,即组成该待验证文本数据的第一分片文本的分片哈希值204包括分片哈希值1、分片哈希值2、分片哈希值3到分片哈希值n,将分片哈希值1、分片哈希值2、分片哈希值3到分片哈希值n进行拼接,得到该待验证文本数据202的验证哈希值205。第二应用平台201从区块链网络206中获取区块链207,并从区块链207中获取与第二应用平台201相关联的多个文本发布区块208,与第二应用平台相关联的多个文本发布区块208中的各个文本发布区块用于表征该文本发布区块中记录了对应文本数据的权属哈希值,且该文本数据发布于第二应用平台201中。第二应用平台201根据多个文本发布区块208得到每个文本发布区块中的权属哈希值,将得到的各个权属哈希值作为权属哈希集合209,该权属哈希集合209中所包含的各个权属哈希值分别与第二应用平台201中的各个文本数据210一一对应,换句话说,每个权属哈希值为第二应用平台201中的对应文本数据的分片哈希值进行拼接得到,该文本数据的分片哈希值是指将该文本数据进行分片后得到的第二分片文本对应的哈希值。第二应用平台201将权属哈希集合209中的各个权属哈希值分别与验证哈希值
205进行对比,得到每个权属哈希值与验证哈希值205的相似度,根据该相似度确定待验证文本数据202的侵权鉴定结果。其中,第一应用平台可以是第二应用平台201中预先设置的需要进行侵权鉴定的应用平台,该第一应用平台可以是一个应用平台或多个应用平台。由于直接通过待验证文本数据的哈希值和其他文本数据的哈希值间的相似度,代表该待验证文本数据和其他文本数据间的相似度,从而可以在不需要逐字符比对的情况下,实现对待验证文本数据和其他文本数据的比对,减少了资源的消耗,提高了文本比对的效率。
[0090] 请参见图3,图3是本申请实施例提供的一种基于区块链的文本比对方法流程图。如图3所示,该文本比对过程包括如下步骤:
[0091] 步骤S301,当监测到第一应用平台发布待验证文本数据,基于待验证文本数据的第一分片值对待验证文本数据进行拆分,得到至少一个第一分片文文本,获取每个第一分片文本的分片哈希值。
[0092] 具体的,当第二应用平台监测到第一应用平台发布待验证文本数据,基于该待验证文本数据的第一分片值对待验证文本数据进行拆分,得到至少一个第一分片文本,获取每个第一分片文本的分片哈希值。其中,该第一应用平台是预先设置的需要关注的应用平台。具体的,可以将第一分片值作为固定分片长度对待验证文本数据进行分片处理,此时,第二应用平台获取第一应用平台中发布的待验证文本数据,将第一分片值作为固定分片长度,基于该固定分片长度对待验证文本数据进行拆分,得到至少一个第一分片文本,此时,除该待验证文本数据拆分后得到的最后一个第一分片文本外的其他第一分片文本中包括的字符数量等于该第一分片值,计算每个第一分片文本的分片哈希值。
[0093] 可选的,可以在第一分片值的基础上,对待验证文本数据进行非固定长度分片,即待验证文本数据在进行分片后得到的各个第一分片文本的文本长度不一定相同。在该情况下,将滑动窗口置于该待验证文本数据的起始位置,即该滑动窗口中的字符串的起始字符为该待验证文本数据的第一个字符,通过弱哈希算法得到该待验证文本数据在滑动窗口中的字符串对应的弱哈希值,基于第一分片值对弱哈希值取余,例如,该弱哈希算法可以是Alder-32等算法;若对弱哈希值取余的结果等于指定分片值,则在待验证文本数据中处于滑动窗口中的最后一个字符后进行拆分,得到一个第一分片文本,将滑动窗口滑动到拆分位置之后,继续通过弱哈希算法获取待验证文本数据在滑动后的滑动窗口中字符串对应的弱哈希值,直至待验证文本数据的最后一个字符位于滑动后的滑动窗口中,得到待验证文本数据的至少一个第一分片文本;若对弱哈希值取余的结果不等于指定分片值,则将滑动窗口沿待验证文本数据滑动一个字符,继续通过弱哈希算法获取待验证文本数据在滑动后的滑动窗口中字符串对应的弱哈希值,直至待验证文本数据的最后一个字符位于滑动后的滑动窗口中,得到待验证文本数据的至少一个第一分片文本。其中,第一分片值是预先设定的用于待验证文本数据分片的一个数值,指定分片值是以第一分片值为基础预先设定的,假定该第一分片值预设为m,则指定分片值可以是m-1,m为正整数,可选的,m可以是2的整数次方。其中,计算第一分片文本的分片哈希值的哈希算法与对待验证文本数据进行分片时所使用的弱哈希算法不同。
[0094] 举例来说,假定待验证文本数据的文本内容为“adsfofjofgsjofk******dadada的时候。”,以该待验证文本数据中开始部分的内容“adsfofjofgs”为例,参见图4,图4是本申请实施例提供的一种文本数据分片示意图。如图4所示,当第一分片值为m,指定分片值为m-1时,假定滑动窗口的窗口长度为4,计算该待验证文本数据中处于滑动窗口401a中的字符串“adsf”,通过弱哈希算法得到该字符串“adsf”的弱哈希值1,基于第一分片值对弱哈希值
1进行取余,假定取余后的结果不等于指定分片值m-1,则将该滑动窗口401a滑动一个字符,滑动到滑动窗口401b的位置;计算该待验证文本数据中处于滑动窗口401b中的字符串“dsfo”的弱哈希值2,基于第一分片值对弱哈希值2进行取余,假定取余后的结果等于指定分片值m-1,则在待验证文本数据中处于滑动窗口401b中的最后一个字符o后进行拆分,得到一个第一分片文本“adsfo”,将滑动窗口401b滑动到拆分位置之后,滑动到滑动窗口401c处;计算该待验证文本数据中处于滑动窗口401c中的字符串“fjof”的弱哈希值3,基于第一分片值对弱哈希值3进行取余,假定取余后的结果等于指定分片值m-1,则在待验证文本数据中处于滑动窗口401c中的最后一个字符f后进行拆分,得到一个第一分片文本“fjof”,将滑动窗口401c滑动到拆分位置之后,滑动到滑动窗口401d处;同理,直至得到该待验证文本数据的至少一个第一分片文本,获取每个第一分片文本的分片哈希值。
[0095] 步骤S302,将每个第一分片文本的分片哈希值进行拼接,得到待验证文本数据的验证哈希值。
[0096] 具体的,将每个第一分片文本的分片哈希值进行拼接,得到待验证文本数据的验证哈希值。可选的,基于压缩映射算法对每个第一分片文本的分片哈希值进行压缩,得到每个第一分片文本的压缩哈希值;基于每个第一分片文本在待验证文本数据中的相对位置,将每个第一分片文本的压缩哈希值依次进行拼接,得到待验证文本数据的验证哈希值。其中,该压缩映射算法是一种将较长的字符串压缩为较短长度的字符串的一种算法,可以是直接将分片哈希值中指定位置段的字符串确定为该分片哈希值对应的压缩哈希值,也可以是基于传统的数据压缩算法将分片哈希值转换为对应的压缩哈希值,即该压缩映射算法指的是可以将较长的分片哈希值转换为较短的压缩哈希值的一种算法,在此不做限定。
[0097] 其中,可以参见图2中验证哈希值205所示的拼接方式,若组成待验证文本数据的各个第一分片文本依次对应分片哈希值1、分片哈希值2、分片哈希值3、…及分片哈希值n,对各个第一分片文本对应的分片哈希值依次进行拼接,得到该验证文本数据的验证哈希值,如分片哈希值1为“shda”,分片哈希值2为“dahfw”,进行拼接后为“shdadahfw”。其中,当权属哈希值在生成时未对第二分片文本的分片哈希值进行压缩时,在生成验证哈希值时也无需对第一分片文本的分片哈希值进行压缩,即第一应用平台的待验证文本数据的验证哈希值生成时是否压缩,取决于第二应用平台中的文本数据的权属哈希值生成时是否进行了压缩,两者要保持一致,且如果两者都进行了压缩时,所使用的压缩映射算法一致。
[0098] 步骤S303,基于区块链获取第二应用平台对应的权属哈希集合,该权属哈希集合包括多个权属哈希值。
[0099] 具体的,从区块链中获取与第二应用平台相关联的多个文本发布区块,根据多个文本发布区块得到第二应用平台对应的权属哈希集合,权属哈希集合包括多个权属哈希值;权属哈希值是通过将第二应用平台中的文本数据对应的分片哈希值进行拼接得到;文本数据对应的分片哈希值是指文本数据分片后得到的第二分片文本对应的哈希值。
[0100] 具体的,第二应用平台中每发布一个文本数据,便生成该文本数据的权属哈希值,并将该权属哈希值添加到区块链中,以在第一应用平台中发布了待验证文本数据后,可以从区块链中获取到该第二应用平台中所发布的文本数据的权属哈希值,通过对比区块链中所记录的第二应用平台对应的各个权属哈希值与待验证文本数据的验证哈希值,得到第二应用平台中发布的各个文本数据分别与待验证文本数据的相似度,以判断该待验证文本的侵权鉴定结果。其中,以第二应用平台中的一个权属哈希值的生成过程进行描述,获取第二应用平台的文本数据及文本数据的第二分片值,根据第二分片值将文本数据进行拆分,得到至少一个第二分片文本,获取每个第二分片文本的分片哈希值,将每个第二分片文本的分片哈希值进行拼接,得到文本数据的第一权属哈希值,根据第一权属哈希值生成文本发布区块,将文本发布区块加入区块链中。其中,第二应用平台中的各个文本数据的权属哈希值的生成过程都可以参见第一权属哈希值的生成过程,第一权属哈希值的生成过程可以参见待验证文本数据的验证哈希值的生成过程。可选的,可以每经过固定时间长度后,获取第二应用平台中在固定时间长度中发布的各个文本数据,得到每个文本数据的权属哈希值,将各个文本数据的权属哈希值添加到区块链中。其中,该第一权属哈希值在生成过程中,得到组成当前处理的文本数据的各个第二分片文本分别对应的分片哈希值后,对每个第二分片文本对应的分片哈希值进行压缩,得到每个第二分片文本对应的压缩哈希值,对每个第二分片文本对应的压缩哈希值依次进行拼接,得到第一权属哈希值。
[0101] 其中,以第一权属哈希值加入区块链为例进行描述,表示各个权属哈希值添加到区块链中的过程。具体的,根据第一权属哈希值、第一权属哈希值对应的文本数据的标识及第二应用平台的平台标识生成文本发布区块,将文本发布区块广播至区块链中的共识节点,若共识节点针对文本发布区块共识通过,则将文本发布区块添加到区块链中。
[0102] 可选的,可以基于不同的第二分片值得到第二应用平台中各个文本数据的不同权属哈希值,此时,在将各个文本数据的权属哈希值添加到区块链中时,会同时将得到该权属哈希值对应的第二分片值添加到区块链中。当将权属哈希集合中的各个权属哈希值分别与验证哈希值进行对比时,从权属哈希值中查找使用的第二分片值与生成验证哈希值的第一分片值相同的一段权属哈希值,将查找到的一段权属哈希值与验证哈希值进行对比。在这种情况下,举例来说,以一个文本数据为例,当基于第二分片值m和m/2生成该文本数据的两段权属哈希值,进行拼接后,得到该文本数据的权属哈希值,该权属哈希值可以由第二分片值m对应的一段权属哈希值及第二分片值m/2对应的一段权属哈希值组成,可以记作m:h(m):h(m/2),分别用于表示基础的第二分片值、第二分片值为m时的一段权属哈希值及第二分片值为m/2时的一段权属哈希值。
[0103] 步骤S304,根据多个权属哈希值与验证哈希值的相似度,确定待验证文本数据的侵权鉴定结果。
[0104] 具体的,根据多个权属哈希值分别与验证哈希值的相似度,确定待验证文本数据的侵权鉴定结果。获取多个权属哈希值分别与验证哈希值的相似度,若多个权属哈希值中存在与验证哈希值的相似度大于侵权相似值的第二权属哈希值,则确定待验证文本数据的侵权鉴定结果为数据侵权结果,其中,该数据侵权结果用于表征该待验证文本数据侵权了第二应用平台中发布的其中一个文本数据。具体的,若确定待验证文本数据的侵权鉴定结果为数据侵权结果,则从区块链中获取与第二权属哈希值及第二应用平台相关联的文本发布区块,作为侵权文本发布区块;从侵权文本发布区块中获取第二权属哈希值对应的文本数据的标识,将第二权属哈希值对应的文本数据确定为对照文本数据;向第一应用平台发送文本侵权通知,文本侵权通知包括对照文本数据、第二权属哈希值、第二权属哈希值与验证哈希值的相似度及待验证文本数据,以使第一应用平台基于文本侵权通知删除待验证文本数据。其中,该侵权相似值可以是一个百分数或者小于1的小数,如侵权相似值为90%,则验证哈希值与某一个权属哈希值间的相似度大于90%时,认为该验证哈希值与该权属哈希值间的相似度,确定了待验证文本数据的侵权鉴定结果为数据侵权结果,与验证哈希值间的相似度大于侵权相似值的权属哈希值作为第二权属哈希值。
[0105] 可选的,根据对照文本数据的标识、第二权属哈希值、第二权属哈希值与验证哈希值的相似度及待验证文本数据生成侵权区块,将侵权区块广播至区块链中的共识节点,若共识节点对侵权区块共识通过,则将侵权区块上传到区块链中;在向第一应用平台发送文本侵权通知并经过指定时间长度后,从第一应用平台中查找待验证文本数据;若在第一应用平台中查找出待验证文本数据,则向侵权管理部门提交侵权证明,侵权证明包括侵权区块在区块链中的地址。可选的,若获取到的权属哈希集合中的每个权属哈希值由多段权属哈希值组成的,各段权属哈希值分别基于不同的第二分片值得到的,则可以选取与第一分片值相同的第二分片值对应的一段权属哈希值与验证哈希值进行对比,举例来说,当第一分片值为m时,则对比验证哈希值与h(m),当第一分片值为m/2时,则对比验证哈希值与h(m/2)。
[0106] 具体的,参见图5,图5是本申请实施例提供的一种哈希值比对示意图。如图5所示,以权属哈希集合中一个权属哈希值与验证哈希值比对为例,依次对比权属哈希值501与验证哈希值502,此处的权属哈希值501由“分片哈希值1.1、分片哈希值2.1、分片哈希值3.1直至分片哈希值n.1”依次拼接得到,验证哈希值502由“分片哈希值1.2、分片哈希值2.2、分片哈希值3.2直至分片哈希值n.2”依次拼接得到,对比权属哈希值501与验证哈希值502,得到两者的相似度,若该相似度大于侵权相似值,则确定该验证哈希值502对应的待验证文本数据的侵权鉴定结果为数据侵权结果,向第一应用平台发送文本侵权通知,以使第一应用平台基于该文本侵权通知确定待验证文本数据真的侵权了文本侵权通知中的对照文本数据,并在确定待验证文本数据侵权后删除该待验证文本数据。其中,如果在对照文本数据中修改一个字节,有以下的情况:
[0107] 1、这个字节在对照文本数据中不影响分片,在改后也不影响分片,则这次修改只会影响一个分片哈希值,对全局的影响微乎其微,最后相似结果极高,如果待验证文本数据是在对照文本数据的基础上修改得到,则验证哈希值与对照文本数据的权属哈希值的相似度很高;
[0108] 2、这个字节在对照文本数据不影响分片,在改动后影响分片,则这次修改会影响两个分片哈希值,并且造成对照文本数据更改前和更改后的权属哈希值不一样长,但在对比得到相似度时允许这种差异(无非是在对照文本数据的基础上改动一个及插入一个字母),其他大部分结果依然一致,因此验证哈希值与对照文本数据的权属哈希值的相似度依然很高;
[0109] 3、这个字节在对照文本数据中影响分片,在改动后不影响分片,与情况2类似;
[0110] 4、这个字节在对照文本数据中影响分片,在改动后依然影响分片,与情况1类似。
[0111] 如果在一个文本数据中增加一个字节,同样有上述四种情况,但与上述逻辑类似,同样的对改动前的文本数据的哈希值与改动后的文本数据的哈希值影响极小。如果在对照文本数据中删除一个字节,也与此类似。
[0112] 因此,如果待验证文本数据是在对照文本数据的基础上修改得到的,则两者对应的哈希值相似度就会很高,在该相似度大于侵权相似值时,就可以认为该待验证文本数据侵权了对照文本数据。例如,参见图5,若待验证文本数据是在对照文本数据的基础上修改得到,当图5中权属哈希值501为对照文本数据的权属哈希值时,对待验证文本数据的验证哈希值502与对照文本数据的权属哈希值501进行对比时,n个分片哈希值中只会有部分的分片哈希值不同,假定对照文本数据中第二个第二分片文本发生了部分字符变化,且在改变前后不影响文本数据的分片结果,得到了待验证文本数据,则对照文本数据的权属哈希值501中的分片哈希值2.1与待验证文本数据的验证哈希值502中的分片哈希值2.2不同,对照文本数据的权属哈希值501中的其他分片哈希值与验证哈希值502中的其他分片哈希值一一对应,可以认为对照文本数据的权属哈希值501与验证哈希值502的相似度,可以代表对照文本数据与待验证文本数据的相似度。因此,在需要对两个文本数据进行比对以得到两者间的相似度时,可以通过比对两个文本数据各自的哈希值得到两个文本数据间的相似度,减少了需要比对的数据量,以提高文本比对的效率。
[0113] 本申请实施例通过实现了当监测到第一应用平台发布待验证文本数据,基于待验证文本数据的第一分片值对待验证文本数据进行拆分,得到至少一个第一分片文本,获取每个第一分片文本的分片哈希值;将每个第一分片文本的分片哈希值进行拼接,得到待验证文本数据的验证哈希值;从区块链中获取与第二应用平台相关联的多个文本发布区块,根据多个文本发布区块得到第二应用平台对应的权属哈希集合,权属哈希集合包括多个权属哈希值;根据多个权属哈希值分别与验证哈希值的相似度,确定待验证文本数据的侵权鉴定结果。本申请通过上述过程,通过对文本数据进行分片,基于分片结果得到文本数据的分片哈希值,并将分片哈希值拼接成该文本数据的哈希值,通过对比不同文本数据的哈希值,在待验证文本数据是基于一个文本数据更改得到的情况下,只有修改部分的部分哈希值会发生更改,待验证文本数据与该文本数据的哈希值的相似度就会很高,在这种情况下,就可以基于各个权属哈希值分别与验证哈希值间的相似度,确定对应的各个文本数据分别与待验证文本数据的相似度,进而得到待验证文本数据的侵权鉴定结果,减少了文本数据间进行对比所耗费的资源,提高了文本比对的效率。同时,在第二应用平台中发布了文本数据时,会将该文本数据的权属哈希值上传到区块链,在确定待验证文本数据的侵权鉴定结果为数据侵权结果时,会根据比对过程中产生的数据生成侵权区块,将该侵权区块加入区块链中,使得第二应用平台中的每个文本数据都可以进行追溯,而且每个侵权的数据都可以查询到,提高了文本比对的真实可靠性。
[0114] 参见图6,图6是本申请实施例提供的基于区块链的文本比对装置示意图,如图6所示,该基于区块链的文本比对装置60可以用于上述图3所对应实施例中的电子设备,具体的,该装置可以包括:第一分片模块11、第一获取模块12、第一拼接模块13、第一查找模块14及确定模块15。
[0115] 第一分片模块11,用于当监测到第一应用平台发布待验证文本数据,基于上述待验证文本数据的第一分片值对上述待验证文本数据进行拆分,得到至少一个第一分片文本;
[0116] 第一获取模块12,用于获取每个第一分片文本的分片哈希值;
[0117] 第一拼接模块13,用于将上述每个第一分片文本的分片哈希值进行拼接,得到上述待验证文本数据的验证哈希值;
[0118] 第一查找模块14,用于从区块链中获取与第二应用平台相关联的多个文本发布区块,根据上述多个文本发布区块得到上述第二应用平台对应的权属哈希集合,上述权属哈希集合包括多个权属哈希值;上述权属哈希值是通过将上述第二应用平台中的文本数据对应的分片哈希值进行拼接得到;上述文本数据对应的分片哈希值是指上述文本数据分片后得到的第二分片文本对应的哈希值;
[0119] 确定模块15,用于根据上述多个权属哈希值分别与上述验证哈希值的相似度,确定上述待验证文本数据的侵权鉴定结果。
[0120] 其中,上述多个权属哈希值包括第一权属哈希值;上述装置60还包括:
[0121] 第二获取模块16,用于获取第二应用平台的上述文本数据及上述文本数据的第二分片值;
[0122] 第二分片模块17,用于根据上述第二分片值将上述文本数据进行拆分,得到至少一个第二分片文本,获取每个第二分片文本的分片哈希值;
[0123] 第二拼接模块18,用于将上述每个第二分片文本的分片哈希值进行拼接,得到上述文本数据的第一权属哈希值;
[0124] 第一生成模块19,用于根据上述第一权属哈希值生成上述文本发布区块,将上述文本发布区块加入上述区块链中。
[0125] 其中,上述装置60还包括:
[0126] 压缩模块20,用于基于压缩映射算法对上述每个第一分片文本的分片哈希值进行压缩,得到上述每个第一分片文本的压缩哈希值;
[0127] 上述第一拼接模块13,具体用于:
[0128] 基于上述每个第一分片文本在上述待验证文本数据中的相对位置,将上述每个第一分片文本的压缩哈希值依次进行拼接,得到上述待验证文本数据的验证哈希值。
[0129] 其中,上述第一分片模块11,包括:
[0130] 第一获取单元111,用于通过弱哈希算法得到上述待验证文本数据在滑动窗口中的字符串对应的弱哈希值,基于上述第一分片值对上述弱哈希值取余;
[0131] 拆分单元112,用于若对上述弱哈希值取余的结果等于指定分片值,则在上述待验证文本数据中处于上述滑动窗口中的最后一个字符后进行拆分,得到一个第一分片文本,将上述滑动窗口滑动到拆分位置之后,继续基于上述第一获取单元111通过上述弱哈希算法获取上述待验证文本数据在滑动后的滑动窗口中字符串对应的弱哈希值,直至上述待验证文本数据的最后一个字符位于上述滑动后的滑动窗口中,得到上述待验证文本数据的至少一个第一分片文本;
[0132] 滑窗单元113,用于若对上述弱哈希值取余的结果不等于指定分片值,则将上述滑动窗口沿上述待验证文本数据滑动一个字符,继续基于上述第一获取单元111通过上述弱哈希算法获取上述待验证文本数据在滑动后的滑动窗口中字符串对应的弱哈希值,直至上述待验证文本数据的最后一个字符位于上述滑动后的滑动窗口中,得到上述待验证文本数据的至少一个第一分片文本。
[0133] 其中,上述生成模块19,包括:
[0134] 生成单元191,用于根据上述第一权属哈希值、上述第一权属哈希值对应的文本数据的标识及上述第二应用平台的平台标识生成上述文本发布区块;
[0135] 共识单元192,用于将上述文本发布区块广播至上述区块链中的共识节点;
[0136] 上链单元193,用于若上述共识节点针对上述文本发布区块共识通过,则将上述文本发布区块添加到上述区块链中。
[0137] 其中,上述确定模块15,包括:
[0138] 第二获取单元151,用于获取上述多个权属哈希值分别与上述验证哈希值的相似度;
[0139] 确定单元152,用于若上述多个权属哈希值中存在与上述验证哈希值的相似度大于侵权相似值的第二权属哈希值,则确定上述待验证文本数据的侵权鉴定结果为数据侵权结果。
[0140] 其中,上述装置60还包括:
[0141] 第三获取模块21,用于若确定上述待验证文本数据的侵权鉴定结果为数据侵权结果,则从上述区块链中获取与上述第二权属哈希值及上述第二应用平台相关联的文本发布区块,作为侵权文本发布区块;
[0142] 第四获取模块22,用于从上述侵权文本发布区块中获取上述第二权属哈希值对应的文本数据的标识,将上述第二权属哈希值对应的文本数据确定为对照文本数据;
[0143] 发送模块23,用于向上述第一应用平台发送文本侵权通知,上述文本侵权通知包括上述对照文本数据、上述第二权属哈希值、上述第二权属哈希值与上述验证哈希值的相似度及上述待验证文本数据,以使上述第一应用平台基于上述文本侵权通知删除上述待验证文本数据。
[0144] 其中,上述装置60还包括:
[0145] 第二生成模块24,用于根据上述对照文本数据的标识、上述第二权属哈希值、上述第二权属哈希值与上述验证哈希值的相似度及上述待验证文本数据生成侵权区块,将上述侵权区块广播至上述区块链中的共识节点,若上述共识节点对上述侵权区块共识通过,则将上述侵权区块上传到上述区块链中;
[0146] 第二查找模块25,用于在向上述第一应用平台发送上述文本侵权通知并经过指定时间长度后,从上述第一应用平台中查找上述待验证文本数据;
[0147] 提交模块26,用于若在上述第一应用平台中查找出上述待验证文本数据,则向侵权管理部门提交侵权证明,上述侵权证明包括上述侵权区块在上述区块链中的地址。
[0148] 本申请实施例提供了一种基于区块链的文本比对装置,上述装置实现了当监测到第一应用平台发布待验证文本数据,基于待验证文本数据的第一分片值对待验证文本数据进行拆分,得到至少一个第一分片文本,获取每个第一分片文本的分片哈希值;将每个第一分片文本的分片哈希值进行拼接,得到待验证文本数据的验证哈希值;从区块链中获取与第二应用平台相关联的多个文本发布区块,根据多个文本发布区块得到第二应用平台对应的权属哈希集合,权属哈希集合包括多个权属哈希值;根据多个权属哈希值分别与验证哈希值的相似度,确定待验证文本数据的侵权鉴定结果。本申请通过上述过程,通过对文本数据进行分片,基于分片结果得到文本数据的分片哈希值,并将分片哈希值拼接成该文本数据的哈希值,通过对比不同文本数据的哈希值,基于哈希值间的相似度确定文本数据的相似度,进而得到文本数据的侵权鉴定结果,减少了文本数据间进行对比所耗费的资源,提高了文本比对的效率。
[0149] 参见图7,图7是本申请实施例提供的一种电子设备的结构示意图。如图7所示,本实施例中的电子设备可以包括:一个或多个处理器701、存储器702和输入输出接口703。上述处理器701、存储器702和输入输出接口703通过总线704连接。存储器702用于存储计算机程序,该计算机程序包括程序指令,输入输出接口703用于与各个参与节点交互;处理器701用于执行存储器702存储的程序指令,执行如下操作:
[0150] 当监测到第一应用平台发布待验证文本数据,基于上述待验证文本数据的第一分片值对上述待验证文本数据进行拆分,得到至少一个第一分片文本,获取每个第一分片文本的分片哈希值;
[0151] 将上述每个第一分片文本的分片哈希值进行拼接,得到上述待验证文本数据的验证哈希值;
[0152] 从区块链中获取与第二应用平台相关联的多个文本发布区块,根据上述多个文本发布区块得到上述第二应用平台对应的权属哈希集合,上述权属哈希集合包括多个权属哈希值;上述权属哈希值是通过将上述第二应用平台中的文本数据对应的分片哈希值进行拼接得到;上述文本数据对应的分片哈希值是指上述文本数据分片后得到的第二分片文本对应的哈希值;
[0153] 根据上述多个权属哈希值分别与上述验证哈希值的相似度,确定上述待验证文本数据的侵权鉴定结果。
[0154] 在一些可行的实施方式中,上述处理器701可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0155] 该存储器702可以包括只读存储器随机存取存储器,并向处理器701和输入输出接口703提供指令和数据。存储器702的一部分还可以包括非易失性随机存取存储器。例如,存储器702还可以存储设备类型的信息。
[0156] 具体实现中,上述电子设备可通过其内置的各个功能模块执行如上述图3中各个步骤所提供的实现方式,具体可参见上述图3中各个步骤所提供的实现方式,在此不再赘述。
[0157] 本申请实施例通过提供一种电子设备,包括:处理器、输入输出接口、存储器,通过处理器获取存储器中的计算机指令,执行上述图3中所示方法的各个步骤,进行文本比对操作。通过存储器中的计算机指令,处理器执行基于第一应用平台中的待验证文本数据的验证哈希值与第二应用平台中的各个文本数据的权属哈希值进行对比,得到各个文本数据的权属哈希值分别与验证哈希值间的相似度,以哈希值间的相似度代表各个文本数据分别与待验证文本数据间的相似度,得到待验证文本数据的侵权鉴定结果,减少了需要比对的数据量,以减少文本数据比对耗费的资源,从而提高文本比对的效率。
[0158] 本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图3中各个步骤所提供的文本比对方法,具体可参见上述图3各个步骤所提供的实现方式,在此不再赘述。
[0159] 上述计算机可读存储介质可以是前述任一实施例提供的文本比对装置或者上述电子设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0160] 本申请实施例的说明书权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
[0161] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
[0162] 本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
[0163] 以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈