一种基于协同训练的双语命名实体识别方法专利检索-语言建模人工智能专利检索查询-专利查询网

一种基于协同训练的双语命名实体识别方法

阅读：1020发布：2020-10-03

专利汇可以提供一种基于协同训练的双语命名实体识别方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于双语协同训练的命名实体的识别方法，属于计算机科学中的自然语言处理技术领域。把平行的汉语句子和英语句子这两个数据集看作为一个数据集的两个不同的视图进行双语协同训练。在投射过程中使用一个对数线性模型修正投射标记，在利用模型对未见示例进行预测时引入命名实体双语对齐标注一致率作为标记置信度估计的衡量指标。本方法对比现有技术，降低了命名实体识别的领域依赖性，融合了双语识别的优势，解决了单语识别中的部分识别歧义问题，尤其适合用于大规模语料的双语命名实体同步识别。，下面是一种基于协同训练的双语命名实体识别方法专利的具体信息内容。

权利要求

1.一种基于协同训练的双语命名实体识别方法，其特征在于包括以下步骤：
步骤一、初始化标注模型；在2000句已标注命名实体的双语语料上，分别训练汉英命名实体初始标注模型；
步骤二、在汉英句子级别对齐的未标注命名实体语料上，利用10倍交叉选择增量标注，进行双语协同训练；具体过程如下：
首先，从汉英句子级别对齐的未标注命名实体语料集合中随机抽取1000个对齐的句子，表示为利用步骤一得到的标注模型，对双语句子分别进行命名实体标注；计算双语标注一致率，初始化标注语料增量集合为空；
然后，随机从中抽取10％的句对，形成依据词对齐从到进行标注投
射，并对投射命名实体标注区域进行扩展，使之容纳更多的目标语言命名实体假设，每个命名实体投射假设与源语言命名实体组成一个双语命名实体假设；之后，融合目标语言命名实体的单语特征和双语命名实体的对齐特征，对投射结果进行修正，将修正后的结果作为目标语言端标注语料增量在上重新进行目标语言命名实体标注模型训练，并用训练后的标注模型重新对中的进行标注，重新计算双语标注一致率；
循环执行上述过程，进行10倍交叉，将循环中双语标注一致率最高时对应的标注语料增量作为本次协同训练的目标语言端标注语料增量在上重新进行目标语言命名实体标注模型训练；
使用同样的方法，寻找源语言端的增量标注语料在上重新进行源语言命名实体标注模型训练；
步骤三、循环执行步骤二，通过在开发集上实验直至算法收敛；循环结束后，最终产生汉英两个命名实体标注模型，即训练好的双语命名实体识别模型；最后，对跨领域的双语语料进行命名实体的识别，进一步构建命名实体词典。
2.如权利要求1所述的一种基于协同训练的双语命名实体识别方法，其特征在于，计算双语标注一致率的方法如下：
设双语标注一致率为，初始化
初始化标注语料增量集合为空，
其中, (wsi,wtj)k表示平行句对的
第k(1≤k≤K)对词对；T(wsi),T(wtj)分别表示命名实体汉英两端的标记；U表示未标注语料集；n表示U中的句子数；标注语料中，共标注三种命名实体，分别是PER——人名、LOC——地名和ORG——组织机构名；按照BIO标注集标记，所有字符有7种标注：B-PER、I-PER、B-LOC、I-LOC、B-ORG、I-ORG和O；
计算对齐标注一致率时，忽略标记“B”和“I”的差别，认为它们是相同的标记。
3.如权利要求1所述的一种基于协同训练的双语命名实体识别方法，其特征在于所述步骤二中，对投射命名实体标注区域进行扩展的方法如下：
首先对从源语言到目标语言的命名实体投射区域进行扩展，使之容纳更多的目标语言命名实体假设，每个命名实体投射假设与源语言命名实体组成一个双语命名实体假设；
中任意一个命名实体表示为通过词投射得到目标语言端连续的且包含投射中心词的中心词块作为最小候选区域把包含所有投射词的投射区域两端分别向外扩展4个词作为最大候选区域；
在目标语言端，建立一个滑动窗，从最小候选区域出发，不断向句子任意一侧扩充词，直至达到最大候选区域边界为止，从而扩展产生一系列的目标语言端候选命名实体假设；
每个目标语言端命名实体假设与组合，形成一个双语命名实体假设，表示为
4.如权利要求1所述的一种基于协同训练的双语命名实体识别方法，其特征在于所述步骤二中，融合目标语言命名实体的单语特征和双语命名实体的对齐特征，并对投射结果进行修正的方法如下：
通过构造一个对数线性模型，融合目标语言命名实体的句法置信度和双语命名实体的对齐置信度，对所有的双语命名实体假设综合打分；
为确保目标语言端命名实体投射满足命名实体的句法特征，选用左右边界分布概率作为目标语言的命名实体句法置信度；边界分布概率包含左边界二元词性共现频率和右边界二元词性共现频率；左边界二元词性共现频率定义如公式⑵所示：
右边界二元词性共现频率的定义如公式⑶所示：
其中，公式中的ti,ti-1,ti+1分别表示边界词wi的词性、边界词wi前一个词wi-1的词性和边界词wi的后一个词wi+1的词性；count(*,*,*)表示语料库中命名实体边界词wi的二元词性组合出现的次数；count(rwi)和count(lwi)分别表示左右边界在语料中出现的次数；
融合左右边界信息，投射命名实体的单语句法置信度的计算如公式⑷所示：
最大熵模型能够融合不同类型的特征，对于双语命名实体的对齐置信度
造特征函数 m＝1,2,…,M，利用最大
熵模型进行建模，如公式⑸所示；对于每一个特征函数fm,对应的模型参数为λm,m＝1,2,…,M；
采用3个特征，对双语命名实体对齐置信度进行建模，分别为：双语命名实体词性组合共现特征、双语命名实体互译特征以及双语命名实体长度关联特征；词性组合共现特征指的是双语命名实体中对应的汉英词性组合在整个语料库中的共现频率；计算如公式⑹所示：
其中，表示命名实体词性组合在语料中共现的次数，count
(*,*)表示语料中命名实体的数量；
对于候选双语命名实体，把源语言命名实体与目标语言端投射命名实体之间的相互翻译概率分别用和来表示，则双语命名实体互译特征如
公式⑺所示：
对于最优的双语命名实体而言, 的长度差异近似满足
标准正态分布，定义长度关联特征如公式⑻所示：
其中，其中，
count(*)表示*包含的字符数，英语为字母数，汉语为汉字数；
把扩展双语命名实体假设集合中的每个假设的分值
表示为公式⑼的形式：
最后，通过一个贪心搜索得到句对最优的双语命名实体假设集合，从而得到最优的目标语言命名实体投射；源语言在目标语言端的最优的投射结果就是与源语言命名实体组成最优双语命名实体假设的目标语言命名实体。
5.如权利要求4所述的一种基于协同训练的双语命名实体识别方法，其特征在于，所述贪心搜索过程为：
首先，初始化该最优双语命名实体假设集合为空；
然后，根据计
算句对中所有双语命名实体假设的score(hi)并按降序排列；
之后，依次选取一个和当前最优双语命名实体假设集合中的双语命名实体没有边界冲突的扩展双语命名实体假设hi放入最优双语命名实体假设集合；重复本步骤，直到找不到满足条件的扩展双语命名实体假设为止；
最后，依次对中的句子进行投射修正，形成投射结果

说明书全文

一种基于协同训练的双语命名实体识别方法

技术领域

[0001] 本发明涉及一种双语命名实体的识别方法，尤其适用于作为机器翻译的前期处理，对大规模跨领域的双语语料进行命名实体的识别，属于计算机科学中的自然语言处理（NLP）技术领域。

背景技术

[0002] 命名实体是唯一个体的专有名称。命名实体识别是自然语言处理领域中的一个重要基础技术难题，已经成为跨语言信息检索以及机器翻译等多语言信息处理领域的技术瓶颈之一。

[0003] 目前，研究人员已经开发了很多模型用于命名实体识别。其中，由于基于规则的方法不利于在不同种类语言之间推广，近些年来，基于统计的方法受到了广泛关注。在统计方法中，有监督学习方法在命名实体识别任务中有良好的表现，但是它有两个不足之处：其一，该方法需要大量的已标注数据保证学习的准确性，因此不适于那些资源相对贫乏的语言；其二，当已有的标注数据与待判定的数据不属于同一个领域时，有监督学习方法的性能会明显下降。而无监督的方法性能则不尽人意。改进这些不足的方法就是结合少量标注语料和大量的未标注语料，采用基于半监督学习的协同训练方法。

发明内容

[0004] 本发明的目的是为了克服现有技术在解决大规模跨领域语料中双语命名实体识别中的不足，提出一种基于协同训练的双语命名实体识别方法。

[0005] 本发明所采用的技术方案是：将平行的汉英双语句子这两个数据集，看作一个数据集的两个不同的视图进行双语协同训练。在汉英两端，分别在少量的标注数据上进行初始标注模型训练，产生两个初始序列标注模型。利用训练好的初始序列标注模型对跨领域的小部分未标注语料进行命名实体标注，然后把标注结果投射到对应的另一语言端。在投射过程中使用一个对数线性模型，融合单语句法特征和双语对齐特征对投射标记进行修正，从而降低标记示例错误标注的可能性，减少另外一个序列标注模型的噪音引入，进而提高协同训练的质量。在利用序列标注模型对未见示例进行预测时，引入命名实体双语对齐标注一致率作为标记置信度估计的衡量指标，隐式估计标记置信度，把在未标注样本中双语对齐标注一致率最高的标注集合作为另一端的增量标注，由此摆脱了对小样本标记数据的依赖，提高了算法的泛化能力，从而提高命名实体的跨领域识别能力。

[0006] 为使命名实体双语协同识别任务顺利进行，本方法将采用三个步骤，分别是：标注模型初始化、双语协同训练、双语命名实体标注。如图1所示，具体实现过程如下：

[0007] 步骤一、初始化序列标注模型，在汉英句子级别对齐的若干已标注语料集合上分别训练初始序列标注模型。其中，序列标注模型可以选用条件随机场（CRF）、最大熵等。

[0008] 步骤二、如图2所示，从汉英句子级别对齐的未标注语料集合中抽取若干对齐的句子，利用序列标注模型对双语句子分别标注，形成(Us,Ut)；计算(Us,Ut)双语标注一致率，初始化标注语料增量集合为空。

[0009] 所述双语标注一致率是指在少量的双语未标注语料上，用序列标注模型标注后的对齐字词的标注一致比例。

[0010] 所述标注语料增量集合是指在完成一次协同训练时，作为标注语料添加到另一个模型的自动标注语料。

[0011] 具体的，随机从中抽取10%的句对，形成依据词对齐从到进行标注投射。首先对从源语言到目标语言的命名实体投射区域进行扩展，使之容纳更多的目标语言命名实体假设。然后融合目标语言命名实体的单语特征和双语命名实体的对齐特征，建立一个对数线性模型对投射结果进行修正。修正后的结果作为标注语料增量，重新进行模型训练。训练后的模型再次对进行标注，重新计算双语标注一致率，如此循环10次，最后把双语标注一致率最高时对应的标注语料增量作为本次协同训练的源语言端标注语料增量。同样的方法寻找目标语言端的增量标注语料。

[0012] 所述命名实体的单语特征是指单语端命名实体的边界组合特征，主要用于保障协同训练中增量标记语料符合命名实体的特征。

[0013] 所述双语命名实体的对齐特征是指双语命名实体的一致性，充分利用了双语的识别互补性。

[0014] 步骤三、循环执行步骤二，通过在开发集上实验，直至算法收敛。循环结束后，最终产生两个双语序列标注模型，即训练好的双语命名实体识别模型。然后对大规模的跨领域的双语语料进行命名实体的识别，进一步构建命名实体词典；也可以直接对待翻译的单语句子进行命名实体的识别，提高机器翻译的质量。

[0015] 有益效果

[0016] 本发明通过在命名实体的序列标注模型的训练过程中引入了协同训练的思想，利用双语命名实体识别的互补性和命名实体的可互译性，进行识别模型的协同训练。本方法对比现有技术，能够实现双语命名实体的识别互补，提高在大规模跨领域语料中命名实体的识别正确率和召回率；有效减少命名实体识别对标注语料的领域依赖，使模型具有更强的泛化能力；本发明同时产生双语命名实体识别模型，协同训练的引入使命名实体双语识别一致性提高，有助于进一步命名实体词典的构建。综合上述，本发明尤其适合用于大规模跨领域的语料中双语命名实体的一致识别。附图说明

[0017] 图1为本发明方法的流程示意图；

[0018] 图2为本发明方法中协同训练过程的流程示意图。

具体实施方式

[0019] 下面结合附图对本发明的具体实施方式做进一步详细说明。

[0020] 一种基于协同训练的双语命名实体识别方法，包括以下步骤：

[0021] 步骤一、初始化双语序列标注模型，在汉英句子级别对齐的已标注语料集合Ls、Lt上分别训练汉英序列标注模型:Cmodel(s)和Cmodel(t)。标注语料中共标注了三种命名实体，分别是PER（人名）、LOC（地名）和ORG（组织机构名）。选用了BIO标注集合，所有字词共有7种标注：B-PER、I-PER、B-LOC、I-LOC、B-ORG、I-ORG和O。汉语选用了单一字特征、单一词特征、2-3个位置的字或者词组合特征；英语选用了词、词性、词首字母大小写特征组合模版。

[0022] 步骤二、从汉英句子级别对齐的未标注语料集合Us和Ut中抽取1000个对齐的句子，分别利用序列标注模型Cmodel(s)和Cmodel(t)进行标注，形成和计算双语标注一致率conformity_ration ,初始化初始化标注语料增量集合为空，

[0023]

[0024] 在双语命名实体协同训练过程中,一旦某个增量标注选择错误出错，这个错误将被将进一步学习和加强，导致协同训练算法的性能下降。这就需要协同训练算法采取有效的措施防止噪声数据引入。命名实体具备互译性，正确识别的汉英命名实体应该具有标注的一致性。因此，以对齐标注一致率作为选择增量标注的衡量指标。对齐标注一致率的计算如公式⑴所示：

[0025]

[0026] 其中， ,(wsi,wtj)k表示平行句对的第k（1≤k≤K）对词对；T(wsi),T(wtj)分别表示命名实体汉英两端的标记；U表示未标注语料集；n表示U中的句子数。由于汉语和英语在语序上有较大的差异，在计算对齐标注一致率时，忽略标记“B”和“I”的差别，认为它们是相同的标记。

[0027] 随机从中抽取100个句对形成依据词对齐从到进行标注投射。汉英之间的语言差异较大，仅通过标注投射获得目标语言命名实体，结果会有不尽如人意之处。通过融合目标语言命名实体的单语特征和双语命名实体的对齐特征，对投射结果进行修正。首先对从源语言到目标语言的命名实体投射区域进行扩展，使之容纳更多的目标语言命名实体假设，每个命名实体投射假设与源语言命名实体组成一个双语命名实体假设。中任意一个命名实体表示为通过词投射得到目标语言端连续的且包含投射中心词的中心词块作为最小候选区域把包含所有投射词的投射区域两端分
别向外扩展4个词（到达句首或者句尾可能不到4个词）作为最大候选区域。

[0028] 在目标语言端，建立一个滑动窗，从最小候选区域出发，不断向句子任意一侧扩充词，直至达到最大候选区域边界为止，从而扩展产生一系列的目标语言端候选命名实体假设。每个目标语言端命名实体假设与组合，形成一个双语命名实体假设，表示为[0029] 然后，构造一个对数线性模型，融合目标语言命名实体的句法置信度和双语命名实体的对齐置信度，对所有的双语命名实体假设综合打分。其中命名实体单语句法置信度。为了确保目标语言端命名实体投射满足命名实体的句法特征，选用左右边界分布概率作为目标语言的命名实体句法置信度。边界分布概率包含左边界二元词性共现频率和右边界二元词性共现频率。左边界二元词性共现频率定义如公式⑵所示：

[0030]

[0031] 右边界二元词性共现频率的定义如公式⑶所示：

[0032]

[0033] 其中，公式中的ti,ti-1,ti+1分别表示边界词wi的词性、边界词wi前一个词wi-1的词性和边界词wi的后一个词wi+1的词性；count(*,*,*)表示语料库中命名实体边界词wi的二元词性组合出现的次数；count(rwi)和count(lwi)分别表示左右边界在语料中出现的次数。数据平滑处理使用Katz back-off，计算方法如公式⑷所示：

[0034]

[0035] 融合左右边界信息，投射命名实体的单语句法置信度的计算如公式⑸所示：

[0036]

[0037] 最大熵模型能够融合不同类型的特征，对于双语命名实体的对齐置信度造特征函数 m＝1,2,…,M，利用最大熵模型进行建模，如公式⑹所示。对于每一个特征函数fm,对应的模型参数为λm,m＝1,2,…,M。

[0038]

[0039] 采用3个特征，对双语命名实体对齐置信度进行建模，分别为：双语命名实体词性组合共现特征、双语命名实体互译特征以及双语命名实体长度关联特征。词性组合共现特征指的是双语命名实体中对应的汉英词性组合在整个语料库中的共现频率。具体计算如公式⑺所示：

[0040]

[0041] 其中，表示命名实体词性组合在语料中共现的次数，count(*,*)表示语料中命名实体的数量。

[0042] 对于候选双语命名实体，把源语言命名实体与目标语言端投射命名实体之间的相互翻译概率分别用和来表示，则双语命名实体互译特征如公式⑻所示：

[0043]

[0044] 对于最优的双语命名实体而言, 的长度差异近似满足标准正态分布，定义长度关联特征如公式⑼所示：

[0045]

[0046] 其中，其中，count(*)表示*包含的字符数，英语为字母数，汉语为汉字数。

[0047] 把扩展双语命名实体假设集合中的每个假设的分值表示为公式⑽的形式：

[0048]

[0049] 最后，通过一个贪心搜索得到句对最优的双语命名实体假设集合。源语言在目标语言端的最优的投射结果就是与源语言命名实体组成最优双语命名实体假设的那个目标语言命名实体。利用式(10)对句对中的所有扩展双语命名实体假设进行打分，通过以下的贪心搜索过程选出句对的最优双语命名实体假设集合，从而得到最优的目标语言命名实体投射：

[0050] 首先，初始化该最优双语命名实体假设集合为空；

[0051] 然后，根据公式(10)计算句对中所有双语命名实体假设的score(hi),并按降序排列；

[0052] 之后，依次选取一个和当前最优双语命名实体假设集合中的双语命名实体没有边界冲突的扩展双语命名实体假设hi放入最优双语命名实体假设集合。重复本步骤，直到找不到满足条件的扩展双语命名实体假设为止。

[0053] 而后，依次对中的句子进行投射修正，形成投射结果

[0054] 在上重新训练序列标注模型，利用序列标注模型Cmodel(t)对再次进行标注，计算如果
则
在Lt上重新训练序列标注模型Cmodel(t)←Cmodel(Lt)。

[0055] 类似，随机从中抽取100个句对形成依据词对齐从到进行标注投射，投射结果融合修正后形成

[0056] 在上重新训练序列标注模型

[0057] 利用序列标注模型Cmodel(s)对进行标注，重新计算如果则
在Ls上重新训练序列标注模型

[0058] 步骤三、循环执行步骤二，观察双语序列标注模型在开发集上的测试结果，直到算法收敛，最终产生模型Cmodel(s)和Cmodel(t)。利用Cmodel(s)对源语言语料进行命名实体识别，利用Cmodel(s)对目标语言语料进行命名实体识别，并进一步编纂命名实体词典。

标题	发布/更新时间	阅读量
基于JAVA平台的CIM模型潮流数据转换方法及装置	2020-05-14	764
基于AADL的Web应用架构安全性的评估方法	2020-05-12	864
一种基于本体的UUV态势感知推理方法	2020-05-12	817
数据处理方法和装置	2020-05-13	760
基于关系型数据库索引的自动运维系统和方法	2020-05-14	262
一种基于语音识别的呼叫中心的菜单系统	2020-05-08	526
一种基于张量分解技术的神经语言模型的压缩方法	2020-05-12	106
一种基于BSVC方法的城市土地利用变化模拟元胞自动机方法	2020-05-12	309
一种智能问答平台	2020-05-14	451
语言模型训练方法、解码方法、装置、存储介质及设备	2020-05-12	820

一种基于协同训练的双语命名实体识别方法

一种基于协同训练的双语命名实体识别方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：