首页 / 专利库 / 人工智能 / 语言建模 / 一种基于协同训练的双语命名实体识别方法

一种基于协同训练的双语命名实体识别方法

阅读:1020发布:2020-10-03

专利汇可以提供一种基于协同训练的双语命名实体识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于双语协同训练的 命名实体 的识别方法,属于计算机科学中的 自然语言处理 技术领域。把平行的汉语句子和英语句子这两个数据集看作为一个数据集的两个不同的视图进行双语协同训练。在投射过程中使用一个对数线性模型修正投射标记,在利用模型对未见示例进行预测时引入命名实体双语对齐标注一致率作为标记 置信度 估计的衡量指标。本方法对比 现有技术 ,降低了命名实体识别的领域依赖性,融合了双语识别的优势,解决了单语识别中的部分识别歧义问题,尤其适合用于大规模语料的双语命名实体同步识别。,下面是一种基于协同训练的双语命名实体识别方法专利的具体信息内容。

1.一种基于协同训练的双语命名实体识别方法,其特征在于包括以下步骤:
步骤一、初始化标注模型;在2000句已标注命名实体的双语语料上,分别训练汉英命名实体初始标注模型;
步骤二、在汉英句子级别对齐的未标注命名实体语料上,利用10倍交叉选择增量标注,进行双语协同训练;具体过程如下:
首先,从汉英句子级别对齐的未标注命名实体语料集合中随机抽取1000个对齐的句子,表示为 利用步骤一得到的标注模型,对双语句子分别进行命名实体标注;计算双语标注一致率,初始化标注语料增量集合为空;
然后,随机从 中抽取10%的句对,形成 依据词对齐从 到进行标注投
射,并对投射命名实体标注区域进行扩展,使之容纳更多的目标语言命名实体假设,每个命名实体投射假设与源语言命名实体组成一个双语命名实体假设;之后,融合目标语言命名实体的单语特征和双语命名实体的对齐特征,对投射结果进行修正,将修正后的结果作为目标语言端标注语料增量 在 上重新进行目标语言命名实体标注模型训练,并用训练后的标注模型重新对 中的 进行标注,重新计算 双语标注一致率;
循环执行上述过程,进行10倍交叉,将循环中双语标注一致率最高时对应的标注语料增量作为本次协同训练的目标语言端标注语料增量 在 上重新进行目标语言命名实体标注模型训练;
使用同样的方法,寻找源语言端的增量标注语料 在 上重新进行源语言命名实体标注模型训练;
步骤三、循环执行步骤二,通过在开发集上实验直至算法收敛;循环结束后,最终产生汉英两个命名实体标注模型,即训练好的双语命名实体识别模型;最后,对跨领域的双语语料进行命名实体的识别,进一步构建命名实体词典。
2.如权利要求1所述的一种基于协同训练的双语命名实体识别方法,其特征在于,计算双语标注一致率的方法如下:
设 双语标注一致率为, 初始化
初始化标注语料增量集合为空,
其中, (wsi,wtj)k表示平行句对的
第k(1≤k≤K)对词对;T(wsi),T(wtj)分别表示命名实体汉英两端的标记;U表示未标注语料集;n表示U中的句子数;标注语料中,共标注三种命名实体,分别是PER——人名、LOC——地名和ORG——组织机构名;按照BIO标注集标记,所有字符有7种标注:B-PER、I-PER、B-LOC、I-LOC、B-ORG、I-ORG和O;
计算对齐标注一致率时,忽略标记“B”和“I”的差别,认为它们是相同的标记。
3.如权利要求1所述的一种基于协同训练的双语命名实体识别方法,其特征在于所述步骤二中,对投射命名实体标注区域进行扩展的方法如下:
首先对从源语言到目标语言的命名实体投射区域进行扩展,使之容纳更多的目标语言命名实体假设,每个命名实体投射假设与源语言命名实体组成一个双语命名实体假设;
中任意一个命名实体表示为 通过词投射得到目标语言端连续的且包含投射中心词的中心词作为最小候选区域 把包含所有投射词的投射区域 两端分别向外扩展4个词作为最大候选区域;
在目标语言端,建立一个滑动窗,从最小候选区域出发,不断向句子任意一侧扩充词,直至达到最大候选区域边界为止,从而扩展产生一系列的目标语言端候选命名实体假设;
每个目标语言端命名实体假设与 组合,形成一个双语命名实体假设,表示为
4.如权利要求1所述的一种基于协同训练的双语命名实体识别方法,其特征在于所述步骤二中,融合目标语言命名实体的单语特征和双语命名实体的对齐特征,并对投射结果进行修正的方法如下:
通过构造一个对数线性模型,融合目标语言命名实体的句法置信度和双语命名实体的对齐置信度,对所有的双语命名实体假设综合打分;
为确保目标语言端命名实体投射满足命名实体的句法特征,选用左右边界分布概率作为目标语言的命名实体句法置信度;边界分布概率包含左边界二元词性共现频率和右边界二元词性共现频率;左边界二元词性共现频率定义如公式⑵所示:
右边界二元词性共现频率的定义如公式⑶所示:
其中,公式中的ti,ti-1,ti+1分别表示边界词wi的词性、边界词wi前一个词wi-1的词性和边界词wi的后一个词wi+1的词性;count(*,*,*)表示语料库中命名实体边界词wi的二元词性组合出现的次数;count(rwi)和count(lwi)分别表示左右边界在语料中出现的次数;
融合左右边界信息,投射命名实体的单语句法置信度的计算如公式⑷所示:
最大熵模型能够融合不同类型的特征,对于双语命名实体的对齐置信度
造特征函数 m=1,2,…,M,利用最大
熵模型进行建模,如公式⑸所示;对于每一个特征函数fm,对应的模型参数为λm,m=1,2,…,M;
采用3个特征,对双语命名实体对齐置信度进行建模,分别为:双语命名实体词性组合共现特征、双语命名实体互译特征以及双语命名实体长度关联特征;词性组合共现特征指的是双语命名实体中对应的汉英词性组合在整个语料库中的共现频率;计算如公式⑹所示:
其中, 表示命名实体词性组合在语料中共现的次数,count
(*,*)表示语料中命名实体的数量;
对于候选双语命名实体,把源语言命名实体与目标语言端投射命名实体之间的相互翻译概率分别用 和 来表示,则双语命名实体互译特征如
公式⑺所示:
对于最优的双语命名实体 而言, 的长度差异近似满足
标准正态分布,定义长度关联特征如公式⑻所示:
其中, 其中,
count(*)表示*包含的字符数,英语为字母数,汉语为汉字数;
把扩展双语命名实体假设集合 中的每个假设 的分值
表示为公式⑼的形式:
最后,通过一个贪心搜索得到句对最优的双语命名实体假设集合,从而得到最优的目标语言命名实体投射;源语言在目标语言端的最优的投射结果就是与源语言命名实体组成最优双语命名实体假设的目标语言命名实体。
5.如权利要求4所述的一种基于协同训练的双语命名实体识别方法,其特征在于,所述贪心搜索过程为:
首先,初始化该最优双语命名实体假设集合为空;
然后,根据 计
算句对中所有双语命名实体假设的score(hi)并按降序排列;
之后,依次选取一个和当前最优双语命名实体假设集合中的双语命名实体没有边界冲突的扩展双语命名实体假设hi放入最优双语命名实体假设集合;重复本步骤,直到找不到满足条件的扩展双语命名实体假设为止;
最后,依次对 中的句子进行投射修正,形成投射结果

说明书全文

一种基于协同训练的双语命名实体识别方法

技术领域

[0001] 本发明涉及一种双语命名实体的识别方法,尤其适用于作为机器翻译的前期处理,对大规模跨领域的双语语料进行命名实体的识别,属于计算机科学中的自然语言处理(NLP)技术领域。

背景技术

[0002] 命名实体是唯一个体的专有名称。命名实体识别是自然语言处理领域中的一个重要基础技术难题,已经成为跨语言信息检索以及机器翻译等多语言信息处理领域的技术瓶颈之一。
[0003] 目前,研究人员已经开发了很多模型用于命名实体识别。其中,由于基于规则的方法不利于在不同种类语言之间推广,近些年来,基于统计的方法受到了广泛关注。在统计方法中,有监督学习方法在命名实体识别任务中有良好的表现,但是它有两个不足之处:其一,该方法需要大量的已标注数据保证学习的准确性,因此不适于那些资源相对贫乏的语言;其二,当已有的标注数据与待判定的数据不属于同一个领域时,有监督学习方法的性能会明显下降。而无监督的方法性能则不尽人意。改进这些不足的方法就是结合少量标注语料和大量的未标注语料,采用基于半监督学习的协同训练方法。

发明内容

[0004] 本发明的目的是为了克服现有技术在解决大规模跨领域语料中双语命名实体识别中的不足,提出一种基于协同训练的双语命名实体识别方法。
[0005] 本发明所采用的技术方案是:将平行的汉英双语句子这两个数据集,看作一个数据集的两个不同的视图进行双语协同训练。在汉英两端,分别在少量的标注数据上进行初始标注模型训练,产生两个初始序列标注模型。利用训练好的初始序列标注模型对跨领域的小部分未标注语料进行命名实体标注,然后把标注结果投射到对应的另一语言端。在投射过程中使用一个对数线性模型,融合单语句法特征和双语对齐特征对投射标记进行修正,从而降低标记示例错误标注的可能性,减少另外一个序列标注模型的噪音引入,进而提高协同训练的质量。在利用序列标注模型对未见示例进行预测时,引入命名实体双语对齐标注一致率作为标记置信度估计的衡量指标,隐式估计标记置信度,把在未标注样本中双语对齐标注一致率最高的标注集合作为另一端的增量标注,由此摆脱了对小样本标记数据的依赖,提高了算法的泛化能,从而提高命名实体的跨领域识别能力。
[0006] 为使命名实体双语协同识别任务顺利进行,本方法将采用三个步骤,分别是:标注模型初始化、双语协同训练、双语命名实体标注。如图1所示,具体实现过程如下:
[0007] 步骤一、初始化序列标注模型,在汉英句子级别对齐的若干已标注语料集合上分别训练初始序列标注模型。其中,序列标注模型可以选用条件随机场(CRF)、最大熵等。
[0008] 步骤二、如图2所示,从汉英句子级别对齐的未标注语料集合中抽取若干对齐的句子,利用序列标注模型对双语句子分别标注,形成(Us,Ut);计算(Us,Ut)双语标注一致率,初始化标注语料增量集合为空。
[0009] 所述双语标注一致率是指在少量的双语未标注语料上,用序列标注模型标注后的对齐字词的标注一致比例。
[0010] 所述标注语料增量集合是指在完成一次协同训练时,作为标注语料添加到另一个模型的自动标注语料。
[0011] 具体的,随机从 中抽取10%的句对,形成 依据词对齐从 到 进 行标注投射。首先对从源语言目标语言的命名实体投射区域进行扩展,使之容纳更多的目标语言命名实体假设。然后融合目标语言命名实体的单语特征和双语命名实体的对齐特征,建立一个对数线性模型对投射结果进行修正。修正后的结果作为标注语料增量,重新进行模型训练。训练后的模型再次对 进行标注,重新计算双语标注一致率,如此循环10次,最后把双语标注一致率最高时对应的标注语料增量作为本次协同训练的源语言端标注语料增量。同样的方法寻找目标语言端的增量标注语料。
[0012] 所述命名实体的单语特征是指单语端命名实体的边界组合特征,主要用于保障协同训练中增量标记语料符合命名实体的特征。
[0013] 所述双语命名实体的对齐特征是指双语命名实体的一致性,充分利用了双语的识别互补性。
[0014] 步骤三、循环执行步骤二,通过在开发集上实验,直至算法收敛。循环结束后,最终产生两个双语序列标注模型,即训练好的双语命名实体识别模型。然后对大规模的跨领域的双语语料进行命名实体的识别,进一步构建命名实体词典;也可以直接对待翻译的单语句子进行命名实体的识别,提高机器翻译的质量。
[0015] 有益效果
[0016] 本发明通过在命名实体的序列标注模型的训练过程中引入了协同训练的思想,利用双语命名实体识别的互补性和命名实体的可互译性,进行识别模型的协同训练。本方法对比现有技术,能够实现双语命名实体的识别互补,提高在大规模跨领域语料中命名实体的识别正确率和召回率;有效减少命名实体识别对标注语料的领域依赖,使模型具有更强的泛化能力;本发明同时产生双语命名实体识别模型,协同训练的引入使命名实体双语识别一致性提高,有助于进一步命名实体词典的构建。综合上述,本发明尤其适合用于大规模跨领域的语料中双语命名实体的一致识别。附图说明
[0017] 图1为本发明方法的流程示意图;
[0018] 图2为本发明方法中协同训练过程的流程示意图。

具体实施方式

[0019] 下面结合附图对本发明的具体实施方式做进一步详细说明。
[0020] 一种基于协同训练的双语命名实体识别方法,包括以下步骤:
[0021] 步骤一、初始化双语序列标注模型,在汉英句子级别对齐的已标注语料集合Ls、Lt上分别训练汉英序列标注模型:Cmodel(s)和Cmodel(t)。标注语料中共标注了三种命名实体,分别是PER(人名)、LOC(地名)和ORG(组织机构名)。选用了BIO标注集合,所有字词共有7种标注:B-PER、I-PER、B-LOC、I-LOC、B-ORG、I-ORG和O。汉语选用了单一字特征、单一词特征、2-3个位置的字或者词组合特征;英语选用了词、词性、词首字母大小写特征组合模版
[0022] 步骤二、从汉英句子级别对齐的未标注语料集合Us和Ut中抽取1000个对齐的句子,分别利用序列标注模型Cmodel(s)和Cmodel(t)进行标注,形成 和 计算双语标注一致率conformity_ration ,初始化 初始化标注语料增量集合为空,
[0023]
[0024] 在双语命名实体协同训练过程中,一旦某个增量标注选择错误出错,这个错误将被将进一步学习和加强,导致协同训练算法的性能下降。这就需要协同训练算法采取有效的措施防止噪声数据引入。命名实体具备互译性,正确识别的汉英命名实体应该具有标注的一致性。因此,以对齐标注一致率作为选择增量标注的衡量指标。对齐标注一致率的计算如公式⑴所示:
[0025]
[0026] 其中, ,(wsi,wtj)k表示平行句对的第k(1≤k≤K)对词对;T(wsi),T(wtj)分别表示命名实体汉英两端的标记;U表示未标注语料集;n表示U中的句子数。由于汉语和英语在语序上有较大的差异,在计算对齐标注一致率时,忽略标记“B”和“I”的差别,认为它们是相同的标记。
[0027] 随机从 中抽取100个句对形成 依据词对齐从 到 进行标注投射。汉英之间的语言差异较大,仅通过标注投射获得目标语言命名实体,结果会有不尽如人意之处。通过融合目标语言命名实体的单语特征和双语命名实体的对齐特征,对投射结果进行修正。首先对从源语言到目标语言的命名实体投射区域进行扩展,使之容纳更多的目标语言命名实体假设,每个命名实体投射假设与源语言命名实体组成一个双语命名实体假设。 中任意一个命名实体表示为 通过词投射得到目标语言端连续的且包含投射中心词的中心词作为最小候选区域 把包含所有投射词的投射区域 两端分
别向外扩展4个词(到达句首或者句尾可能不到4个词)作为最大候选区域。
[0028] 在目标语言端,建立一个滑动窗,从最小候选区域出发,不断向句子任意一侧扩充词,直至达到最大候选区域边界为止,从而扩展产生一系列的目标语言端候选命名实体假设。每个目标语言端命名实体假设与 组合,形成一个双语命名实体假设,表示为[0029] 然后,构造一个对数线性模型,融合目标语言命名实体的句法置信度和双语命名实体的对齐置信度,对所有的双语命名实体假设综合打分。其中命名实体单语句法置信度。为了确保目标语言端命名实体投射满足命名实体的句法特征,选用左右边界分布概率作为目标语言的命名实体句法置信度。边界分布概率包含左边界二元词性共现频率和右边界二元词性共现频率。左边界二元词性共现频率定义如公式⑵所示:
[0030]
[0031] 右边界二元词性共现频率的定义如公式⑶所示:
[0032]
[0033] 其中,公式中的ti,ti-1,ti+1分别表示边界词wi的词性、边界词wi前一个词wi-1的词性和边界词wi的后一个词wi+1的词性;count(*,*,*)表示语料库中命名实体边界词wi的二元词性组合出现的次数;count(rwi)和count(lwi)分别表示左右边界在语料中出现的次数。数据平滑处理使用Katz back-off,计算方法如公式⑷所示:
[0034]
[0035] 融合左右边界信息,投射命名实体的单语句法置信度的计算如公式⑸所示:
[0036]
[0037] 最大熵模型能够融合不同类型的特征,对于双语命名实体的对齐置信度造特征函数 m=1,2,…,M,利用最大熵模型进行建模,如公式⑹所示。对于每一个特征函数fm,对应的模型参数为λm,m=1,2,…,M。
[0038]
[0039] 采用3个特征,对双语命名实体对齐置信度进行建模,分别为:双语命名实体词性组合共现特征、双语命名实体互译特征以及双语命名实体长度关联特征。词性组合共现特征指的是双语命名实体中对应的汉英词性组合在整个语料库中的共现频率。具体计算如公式⑺所示:
[0040]
[0041] 其中, 表示命名实体词性组合在语料中共现的次数,count(*,*)表示语料中命名实体的数量。
[0042] 对于候选双语命名实体,把源语言命名实体与目标语言端投射命名实体之间的相互翻译概率分别用 和 来表示,则双语命名实体互译特征如公式⑻所示:
[0043]
[0044] 对于最优的双语命名实体 而言, 的长度差异近似满足标准正态分布,定义长度关联特征如公式⑼所示:
[0045]
[0046] 其中, 其中,count(*)表示*包含的字符数,英语为字母数,汉语为汉字数。
[0047] 把扩展双语命名实体假设集合 中的每个假设 的分值表示为公式⑽的形式:
[0048]
[0049] 最后,通过一个贪心搜索得到句对最优的双语命名实体假设集合。源语言在目标语言端的最优的投射结果就是与源语言命名实体组成最优双语命名实体假设的那个目标语言命名实体。利用式(10)对句对中的所有扩展双语命名实体假设进行打分,通过以下的贪心搜索过程选出句对的最优双语命名实体假设集合,从而得到最优的目标语言命名实体投射:
[0050] 首先,初始化该最优双语命名实体假设集合为空;
[0051] 然后,根据公式(10)计算句对中所有双语命名实体假设的score(hi),并按降序排列;
[0052] 之后,依次选取一个和当前最优双语命名实体假设集合中的双语命名实体没有边界冲突的扩展双语命名实体假设hi放入最优双语命名实体假设集合。重复本步骤,直到找不到满足条件的扩展双语命名实体假设为止。
[0053] 而后,依次对 中的句子进行投射修正,形成投射结果
[0054] 在 上重新训练序列标注模型, 利用序列标注模型Cmodel(t)对 再次进行标注,计算 如果

在Lt上重新训练序列标注模型Cmodel(t)←Cmodel(Lt)。
[0055] 类似,随机从 中抽取100个句对形成 依据词对齐从 到 进行标注投射,投射结果融合 修正后形成
[0056] 在 上重新训练序列标注模型
[0057] 利用序列标注模型Cmodel(s)对 进行标注,重新计算如 果 则
在Ls上重新训练序列标注模型
[0058] 步骤三、循环执行步骤二,观察双语序列标注模型在开发集上的测试结果,直到算法收敛,最终产生模型Cmodel(s)和Cmodel(t)。利用Cmodel(s)对源语言语料进行命名实体识别,利用Cmodel(s)对目标语言语料进行命名实体识别,并进一步编纂命名实体词典。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈