技术领域
[0001] 本
申请涉及互联网应用技术领域,尤其涉及一种用于版权认证的文本相似性分析方法与系统。
背景技术
[0002] 随着博客、公众号等网络媒体的迅速发展,对网络原创文字内容的
版权保护越来越受到重视。目前网络媒体上经常发生未经原创作者允许的转载、摘录甚至抄袭剽窃文字内容的行为,严重侵害了版权方的合法权益,非常不利于网络媒体平台的健康成长。
[0003] 目前,网络媒体为原创作者提供的版权保护主要依靠投诉机制,要求原创作者自行提供侵权者的网络地址或者注册公众号、侵权文字内容以及作者最初发表的原创文字内容,进而由负责处理投诉的审核员人工比对,确认被诉侵权文字内容和原创文字内容是否相同,进而做出是否构成侵犯版权的认定,对构成侵权的内容会采取删除、禁止他人
访问、封闭网址或公众号等处罚。
[0004] 但是,人工进行被诉侵权文字内容和原创文字内容之间的比对会产生大量的人
力和时间成本,而且往往只能对侵权文字内容和原创文字内容全文或局部段落完全一致的情形进行认证。但是,很多侵权者并不是直接照搬原创文字内容,而是会利用编辑手段进行必要的处理,例如将原创文字内容中的A关键词整体替换为B关键词,调换原创内容中部分段落甚至句子的语序,等等。人工的版权认证方法对此类较隐蔽的侵权行为的识别准确率不高,且具有较大的主观随意性。
[0005]
人工智能(Artificial Intelligence,AI)是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括
机器人、语言识别、
图像识别、
自然语言处理和
专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。其中,在文本学习领域,人工智能技术已经应用于自然语言的语义识别、
机器翻译等许多方面。在互联网平台应用人工智能技术已经成为一种普遍趋势的情况下,希望将该技术应用于以版权认证为目标的文本相似性分析,从而缓解运营博客、公众号的网络媒体应对侵犯版权投诉的人力和时间压力,提高响应速度,加强认证客观性与准确度。
发明内容
[0006] 有鉴于此,本申请的目的在于提出一种用于版权认证的文本相似性分析方法与系统,基于语义特征的相似性,判断被诉侵权文本内容是否属于由原创文本内容经过一定编辑处理所得到的,来解决
现有技术中通过人工比对进行版权认证存在的效率低、准确性差、主观随意性大的技术问题。
[0007] 基于上述目的,在本申请的一个方面,提出了一种用于版权认证的文本相似性分析方法,包括:
[0008] 获取原创的第一文本内容和被诉侵权的第二文本内容;
[0009] 对所述第一文本内容进行特征提取,生成文本
特征向量;
[0010] 利用预先训练的向量匹配模型根据所述文本特征向量将所述第一文本内容与样本库中的样本进行匹配,获取目标样本,其中,所述样本包括样本编辑文本以及与样本编辑文本对应的样本原始文本;
[0011] 利用预先训练的编辑规律模式确定模型根据所述目标样本的样本原始文本与对应的样本编辑文本之间的文本特征一致性,确定编辑规律模式;
[0012] 根据所述编辑规律模式,判断所述第二文本内容是否符合所述编辑规律模式,如果符合则判定文本相似。
[0013] 在一些
实施例中,所述对第一文本内容进行特征提取,生成文本特征向量,包括:
[0014] 提取所述第一文本内容中的词组,对所述词组进行属性分类,统计各类别词组的词频,根据词组类别和各类别词组的词频生成文本特征向量。
[0015] 在一些实施例中,所述提取所述第一文本内容中的词组,对所述词组进行属性分类,统计各类别词组的词频,包括:
[0016] 对所述文本进行分词,将所述文本切分为多个词组,对每个词组进行归类,确定每个词组的属性类别,并对每个属性类别的词组进行词频统计。
[0017] 在一些实施例中,对每个词组进行归类,确定每个词组的属性类别,具体包括:
[0018] 构建词组属性分类表,所述词组属性分类表包括词组属性类别以及对应该类别的词组语义,对每个词组进行语义识别,确定所述词组的词组属性类别。
[0019] 在一些实施例中,在对所述文本进行分词,将所述文本切分为多个词组,对每个词组进行语义识别之后,还包括:
[0020] 对语义识别后的多个词组进行去停用词过滤去噪,滤除所述多个词组中包含的噪音词组。
[0021] 在一些实施例中,所述利用预先训练的向量匹配模型根据所述文本特征向量将所述第一文本内容与样本库中的样本进行匹配,包括:
[0022] 预先训练神经网络模型,生成向量匹配模型,并利用所述向量匹配模型,计算第一文本内容的所述文本特征向量与所述样本库中的样本原始文本的文本特征向量的标准差,并当该标准差小于预设
阈值时,匹配成功,并将匹配成功的样本原始文本作为目标样本原始文本。
[0023] 在一些实施例中,所述利用预先训练的编辑规律模式确定模型根据所述目标样本的样本原始文本与对应的样本编辑文本之间的文本特征一致性,确定编辑规律模式,包括:
[0024] 计算所述目标样本原始文本与对应的样本编辑文本的文本特征向量,根据目标样本原始文本与对应的样本编辑文本的文本特征向量中的同类词组的词组
频率的一致性,确定所述编辑规律模式。
[0025] 基于上述目的,在本申请的另一方面,提出了一种用于版权认证的文本相似性分析系统,包括:
[0026] 文本获取模
块,用于获取原创的第一文本内容和被诉侵权的第二文本内容;
[0027] 文本特征向量生成模块,对所述第一文本内容进行特征提取,生成文本特征向量;
[0028] 向量匹配模块,用于根据所述第一文本内容的文本特征向量将所述第一文本内容与样本库中的样本进行匹配,获取目标样本;
[0029] 编辑规律模式确定模块,用于根据所述目标样本的样本原始文本与对应的样本编辑文本之间的文本特征一致性,确定编辑规律模式;
[0030] 文本相似性判断模块,用于根据所述编辑规律模式,判断所述第二文本内容是否符合所述编辑规律模式,如果符合则判定文本相似。
[0031] 在一些实施例中,所述文本特征向量生成模块,具体用于:
[0032] 提取所述第一文本内容中的词组,对所述词组进行属性分类,统计各属性类别词组的词频,根据词组属性类别和各类别词组的词频生成文本特征向量。
[0033] 在一些实施例中,所述编辑规律模式确定模块,具体用于:
[0034] 计算所述目标样本原始文本与对应的样本编辑文本的文本特征向量,根据目标样本原始文本与对应的样本编辑文本的文本特征向量中的同类词组的词组频率的一致性,确定所述编辑规律模式。
[0035] 本申请实施例提供的一种用于版权认证的文本相似性分析方法与系统,其对原创的第一文本内容进行特征提取,生成文本特征向量;利用预先训练的向量匹配模型根据所述文本特征向量将所述文本与样本库中的样本进行匹配,获取目标样本,根据所述目标样本的样本原始文本与对应的目标样本编辑文本之间的文本特征一致性,确定文本的编辑规律模式;根据所述文本的编辑规律模式,判断被诉侵权的第二文本内容是否符合所述编辑规律模式,如果符合则判定文本相似。本申请实施例的通过人工智能学习的方法,判断被诉侵权文本内容是否属于由原创文本内容经过一定编辑处理所得到的,具有准确率高、标准客观、提高效率、节约时间人力成本的优势。
附图说明
[0036] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0037] 图1是本申请实施例一的用于版权认证的文本相似性分析方法的
流程图;
[0038] 图2是本申请实施例二的用于版权认证的文本相似性分析方法的流程图;
[0039] 图3是本申请实施例三的用于版权认证的文本相似性分析系统的结构示意图;
[0040] 图4是本申请实施例四的利用本申请实施例的用于版权认证的文本相似性分析系统判断文本相似性的流程示意图。
具体实施方式
[0041] 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
[0042] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0043] 作为本申请的一个实施例,如图1所示,是本申请实施例一的用于版权认证的文本相似性分析方法的流程图。从图中可以看出,本实施例提供的用于版权认证的文本相似性分析方法,包括以下步骤:
[0044] S101:获取原创的第一文本内容和被诉侵权的第二文本内容;
[0045] 在本实施例中,作为版权方的原创作者可以向博客、公众号等网络媒体的运营方提起侵犯版权投诉,并且提供自身原创文本内容最初发表的网址、被诉侵权文本内容的网址,从而可以获取原创的第一文本内容和被诉侵权的第二文本内容。本实施例及以下实施例中以下述文本内容作为示例,例如,文本内容为“光色是光学里一种以K(kevin)为计算单位表示光
颜色的数值,生活中一般
接触到的光色为2700K~6500K,工业照明和特殊领域(如
汽车照明)会使用超过7000K光色的
光源照明”,或者“高速公路标明了车道的行驶速度,最高车速不得超过每小时120公里,最低车速不得低于每小时60公里,高速公路上行驶的小型载客汽车最高车速不得超过每小时120公里,其他机动车不得超过每小时100公里,摩托车不得超过每小时80公里”。S102:对所述第一文本内容进行特征提取,生成文本特征向量。
[0046] 在本实施例中,当获取到第一文本内容后,可以对所述文本进行特征提取,以生成文本特征向量。具体地,可以将所述文本分为多个词组,进而可以通过去停用词处理去除其中无实际意义的词组,可以参照常见停用词表实施去停用词处理;去停用词是对分词所得的多个词组进行过滤去噪,滤除所述多个词组中包含的噪音词组;由于所述文本可能包含有关联词和副词,在对所述文本进行语义识别的过程中,这类词组没有实际的含义,因此,可以对语义识别后的多个词组进行过滤去噪,将关联词和副词等没有实际意思的词组滤除,可以大大减轻机器的工作量。
[0047] 然后,对保留下来的所述词组进行归类,将词组归为预定类型的类别,然后以每个类别为单位统计词频,也就是原始文档中每个类别的词组数量;根据词组的类别以及相应类别中的词组数量生成文本特征向量。仍以“高速公路标明了车道的行驶速度,最高车速不得超过每小时120公里,最低车速不得低于每小时60公里,高速公路上行驶的小型载客汽车最高车速不得超过每小时120公里,其他机动车不得超过每小时100公里,摩托车不得超过每小时80公里”为例进行说明,在本实例中,词组的类别可以包括:概念词组、关系词组和数量词组,具体地,概念词组中的词组包括“小型载客汽车”、“其他机动车”和“摩托车”,关系词组包括“超过”、“低于”、“最高”、“最低”,数量词组的词组包括“每小时120公里”、“每小时100公里”、“每小时80公里”和“每小时60公里”。
[0048] 对于上面提到的词组的归类,可以建立词组类别索引表,词组类别索引表中记录每个类别对应的常见词组,通过调用对应的词组类别索引表,将从第一文本内容中提取并去停用词之后保留的词组对应该索引表归入词组类别。
[0049] 进而,利用统计的词组类别和每个类别的词频(词组数量),将本第一文本内容生成对应的文本特征向量,表示为{(S1,N1),(S2,N2)…(Sn,Nn)},其中S1、S2…Sn为词组类别,例如上文中的概念词组、数量词组等;N1、N2…Nn为每个词组类别的词频,也就是归入该类别下的词组的数量;例如,上面提到的素材文本,其提取的文本特征向量应为{(概念词组,3),(关系词组,4),(数量词组,4)},其中数字3、4表示词频。
[0050] S103:利用预先训练的向量匹配模型根据所述文本特征向量将所述第一文本内容与样本库中的样本进行匹配,获取目标样本,其中,所述样本包括样本编辑文本以及与样本编辑文本对应的样本原始文本。
[0051] 样本库收录了大量以样本编辑文本和对应的样本原始文本组成的样本,这些样本可以是根据以往的版权投诉,聚合积累确认构成侵权的实例。
[0052] 在本实施例中,在生成第一文本内容的文本特征向量以后,可以利用向量匹配模型将该文本特征向量与样本库中的样本进行匹配。具体地,所述向量匹配模型是一个经过对样本库中的大量的样本进行学习而生成的神经网络模型,使得所述向量匹配模型在输入是第一文本内容的前提下,输出是与输入的第一文本内容文本相似度较高的样本原始文本,这里的相似度是指文本的文本特征向量之间的相似度,包括词组的类别间的相似度以及同类词组间词组数量的相似度。
[0053] 向量匹配模型作为预先训练神经网络模型,当输入当前第一文本内容特征向量之后,会计算并输出当前第一文本内容特征向量与所述样本库中的每个样本原始文本的文本特征向量的标准差,并当该标准差小于预设阈值时,匹配成功,并将匹配成功的样本原始文本作为目标样本原始文本。具体来说,如果第一文本内容的文本特征向量为{(S1,N1),(S2,N2)…(Sn,Nn)},而样本原始文本的文本特征向量{(S1,N1’),(S2,N2’)…(Sn,Nn’)},则两个文本特征向量的标准差表示为 如果ε小于阈值则认为匹配成功,该目标样本原始文本与当前自然语言原始文本相对应。
[0054] S104:利用预先训练的编辑规律模式确定模型,根据所述目标样本原始文本与对应的目标样本编辑文本之间的文本特征一致性,确定编辑规律模式。
[0055] 在本实施例中,在利用向量匹配模型确定所述第一文本内容对应的目标样本原始文本后,可以根据样本原始文本和与其对应的样本编辑文本之间的文本特征一致性,来确定经过文本替换、语序调整等编辑后,样本编辑文本相对于样本原始文本来说未变化的词组所涉及的词组类别,即文本特征一致性。
[0056] 具体地,本实施例中的编辑规律模式确定模型是一个经过对样本库中的大量的样本进行学习而生成的神经网络模型,通过对样本库中大量的样本编辑文本及对应的样本原始文本进行学习,使得所述编辑规律模式确定模型能够确定样本编辑文本及对应的样本原始文本的文本特征向量的一致性,并根据该一致性确定样本编辑文本相对于样本原始文本来说未变化的词组所涉及的词组类别。具体来说,所述编辑规律模式确定模型计算所述样本原始文本与对应的样本编辑文本二者的文本特征向量,根据目标样本原始文本与对应的样本编辑文本的文本特征向量中的同类词组的词组频率,确定在二者中都具有较高词频的词组类型为未变化的词组所涉及的词组类别。
[0057] 以下面的例子为例,样本原始文本为文本“光色是光学里一种以K(kevin)为计算单位表示光颜色的数值,生活中一般接触到的光色为2700K~6500K,工业照明和特殊领域(如汽车照明)会使用超过7000K光色的光源照明”,该样本原始文本的词组类别包括概念词组和数量词组,其中提取的“光色”、“光学”、“照明”、“光源”属于概念词组,“超过”属于关系词组,“2700K”,“6500K”、“7000K”属于数量词组,文本特征向量是{(概念词组,4),(关系词组,1),(数量词组,3)},对应的样本编辑文本为“光色是表示光颜色的数值,以K(kevin)为计算单位,生活中一般接触到的光色不低于2700K且不高于6500K,工业照明和例如汽车照明等特殊领域使用的光源具有超过7000K光色”样本索引集的文本特征向量可以是{(概念词组,3),(关系词组,3),(数量词组,3)},则两个文本特征向量的一致性在于概念词组、数量词组维度上的词频都较高,而在关系词组上不具有一致性。
[0058] S105:根据所述编辑规律模式,判断所述第二文本内容是否符合所述编辑规律模式,如果符合则判定文本相似。
[0059] 步骤103中获取当前的第一文本内容与样本库中样本的样本原始文本的文本特征向量相似度,确定与当前的第一文本内容最匹配的样本原始文本,进而根据该样本原始文本与样本编辑文本之间的文本一致性,确定在样本原始文本和样本编辑文本二者中都具有较高词频的词组类型,作为所述编辑规律模式;进而,提取被诉侵权的第二文本内容的文本特征向量,与第一文本内容的文本特征向量进行比对,判断二者都具有较高词频的词组类型是否符合上述编辑规律模式,如果符合则判定文本相似。
[0060] 例如,对于第一文本内容“高速公路标明了车道的行驶速度,最高车速不得超过每小时120公里,最低车速不得低于每小时60公里,高速公路上行驶的小型载客汽车最高车速不得超过每小时120公里,其他机动车不得超过每小时100公里,摩托车不得超过每小时80公里”,其提取的文本特征向量应为{(概念词组,3),(关系词组,4),(数量词组,4)}。如果第二文本内容为“高速公路标明了车道的行驶速度,最高车速是每小时120公里,最低车速是每小时60公里,高速公路上行驶的小型载客汽车最高车速是每小时120公里,其他机动车是每小时100公里,摩托车是每小时80公里”,其提取的文本特征向量应为{(概念词组,3),(关系词组,0),(数量词组,4)}。而步骤104中确定与第一文本内容匹配的样本原始文本和样本编辑文本的文本一致性在于概念词组、数量词组维度上的词频都较高,因而第二文本内容的文本特征向量与第一文本内容的文本特征向量进行比对符合该编辑规律模式,因而认证经过编辑的第二文本内容与第一文本内容符合文本相似。可以将该结果作为构成侵权的判定依据,或者推送给网络媒体平台的审核人员进行人工确认。
[0061] 本申请实施例的用于版权认证的文本相似性分析方法,对所述第一文本内容进行特征提取,进而根据所述文本特征向量与样本库中的样本进行匹配,获取目标样本,利用预先训练的编辑规律模式确定模型,根据所述目标样本的样本原始文本与对应的样本编辑文本之间的文本特征一致性,确定文本的编辑规律模式,再根据编辑规律模式判断第一文本内容与被诉侵权的第二文本内容是否符合该模式,从而通过对样本的
机器学习解决了对原始文本和经过简单编辑的文本自动实现相似性比较的问题,能够实现准确度高、客观性好、速度快的
版权侵权认证。
[0062] 如图2所示,是本申请实施例二的用于版权认证的文本相似性分析方法的流程图。作为本申请的一个具体实施例,上述用于版权认证的文本相似性分析方法,包括以下步骤:
[0063] S201:获取原创的第一文本内容和被诉侵权的第二文本内容。
[0064] 在本实施例中,作为版权方的原创作者可以向博客、公众号等网络媒体的运营方提起侵犯版权投诉,并且提供自身原创文本内容最初发表的网址、被诉侵权文本内容的网址,从而可以获取原创的第一文本内容和被诉侵权的第二文本内容。具体请参见实施例一,这里不再赘述。
[0065] S202:对所述第一文本内容进行分词,将所述文本切分为多个词组,对每个词组进行语义识别,确定每个词组的属性类别,并对同一属性类别的词组进行归类。
[0066] 在对上述文本进行分词后,可以将上述文本切分为多个词组,并根据各个词组的词义对每个词组进行语义识别,确定每个词组的属性类别,并对同一属性类别的词组进行归类。具体地,可以构建词组属性分类表,所述词组属性分类表包括词组属性类别以及对应该类别的词组语义,对每个词组进行语义识别,确定所述词组的词组属性类别。
[0067] S203:统计所述词组属性类别当中的词组频率,根据词组属性类别和各属性类别词组的词频生成文本特征向量。
[0068] S204:利用预先训练的向量匹配模型根据所述文本特征向量将所述第一文本内容与样本库中的样本进行匹配,获取目标样本,其中,所述样本包括样本编辑文本以及与样本编辑文本对应的样本原始文本。
[0069] S205:利用预先训练的编辑规律模式确定模型,根据所述目标样本原始文本与对应的目标样本编辑文本之间的文本特征一致性,确定编辑规律模式。
[0070] S206:根据所述编辑规律模式,判断所述第二文本内容是否符合所述编辑规律模式,如果符合则判定文本相似。
[0071] 本实施例能够取得与上述实施例相类似的技术效果,这里不再赘述。
[0072] 如图3所示,是本申请实施例三的用于版权认证的文本相似性分析系统的结构示意图。本实施例提供的用于版权认证的文本相似性分析系统,包括:
[0073] 文本获取模块301,用于获取原创的第一文本内容和被诉侵权的第二文本内容。
[0074] 文本特征向量生成模块302,对所述第一文本内容进行特征提取,生成文本特征向量;
[0075] 向量匹配模块303,用于根据所述文本特征向量将所述第一文本内容与样本库中的样本进行匹配,获取目标样本,其中,所述样本包括样本编辑文本以及与样本编辑文本对应的样本原始文本;
[0076] 编辑规律模式确定模块304,用于根据所述目标样本原始文本与对应的样本编辑文本之间的文本特征一致性,确定编辑规律模式;
[0077] 文本相似性判断模块305,用于根据所述编辑规律模式,判断所述第二文本内容是否符合所述编辑规律模式,如果符合则判定文本相似。
[0078] 进一步地,所述文本特征向量生成模块302,具体用于:
[0079] 提取所述第一文本内容中的词组,对所述词组进行属性分类,统计各属性类别词组的词频,根据词组属性类别和各类别词组的词频生成文本特征向量。
[0080] 所述编辑规律模式确定模块304,具体用于:
[0081] 计算所述目标样本原始文本与对应的样本编辑文本的文本特征向量,根据目标样本原始文本与对应的样本编辑文本的文本特征向量中的同类词组的词组频率的一致性,确定所述编辑规律模式。
[0082] 本实施例的用于版权认证的文本相似性分析系统能够取得与上述方法实施例相类似的技术效果,这里不再赘述。
[0083] 如图4所示,是本申请实施例四的利用本申请实施例的用于版权认证的文本相似性分析系统的实现版权侵权认证的流程示意图。从图4中可以看出,当利用本申请实施例的用于版权认证的文本相似性分析系统时,可以输入第一文本内容,通过文本特征向量生成模块生成所述第一文本内容的文本特征向量,并将所述文本特征向量发送至向量匹配模块,在本实施例中,所述向量匹配模块是一个预先训练神经网络模型,当输入当前第一文本内容特征向量之后,会计算并输出当前第一文本内容特征向量与所述样本库中的每个样本原始文本的文本特征向量的标准差,并当该标准差小于预设阈值时,匹配成功,并将匹配成功的样本原始文本作为目标样本原始文本。具体地,可以预先利用样本库中存有的大量的样本原始文本对神经网络模型进行学习训练,以生成所述向量匹配模块,使得所述向量匹配模块根据输入的第一文本内容的文本特征向量与样本库中的样本原始文本的文本特征向量进行匹配。由于所述文本特征向量包括文本中的词组的种类以及同类词组的数量,因此,在所述向量匹配模块将第一文本内容与样本原始文本进行匹配的过程中,可以基于第一文本内容与样本原始文本包含的词组以及对应词组的数量进行匹配。在得到与第一文本内容对应的样本原始文本后,由编辑规律模式确定模块根据样本原始文本及所述样本原始文本对应的样本编辑文本的文本特征一致性,确定编辑规律模式。具体地,所述编辑规律模式确定模块根据输入的样本原始文本和对应的样本编辑文本的文本特征向量,确定二者的文本特征向量中的同类词组的词组频率的一致性,确定编辑规律模式。文本相似性判断模块用于根据所述编辑规律模式,判断所述第二文本内容是否符合所述编辑规律模式,如果符合则判定文本相似。
[0084] 以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。