专利汇可以提供一种基于协同训练的双语命名实体识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于双语协同训练的 命名实体 的识别方法,属于计算机科学中的 自然语言处理 技术领域。把平行的汉语句子和英语句子这两个数据集看作为一个数据集的两个不同的视图进行双语协同训练。在投射过程中使用一个对数线性模型修正投射标记,在利用模型对未见示例进行预测时引入命名实体双语对齐标注一致率作为标记 置信度 估计的衡量指标。本方法对比 现有技术 ,降低了命名实体识别的领域依赖性,融合了双语识别的优势,解决了单语识别中的部分识别歧义问题,尤其适合用于大规模语料的双语命名实体同步识别。,下面是一种基于协同训练的双语命名实体识别方法专利的具体信息内容。
1.一种基于协同训练的双语命名实体识别方法,其特征在于包括以下步骤:
步骤一、初始化标注模型;在2000句已标注命名实体的双语语料上,分别训练汉英命名实体初始标注模型;
步骤二、在汉英句子级别对齐的未标注命名实体语料上,利用10倍交叉选择增量标注,进行双语协同训练;具体过程如下:
首先,从汉英句子级别对齐的未标注命名实体语料集合中随机抽取1000个对齐的句子,表示为 利用步骤一得到的标注模型,对双语句子分别进行命名实体标注;计算双语标注一致率,初始化标注语料增量集合为空;
然后,随机从 中抽取10%的句对,形成 依据词对齐从 到进行标注投
射,并对投射命名实体标注区域进行扩展,使之容纳更多的目标语言命名实体假设,每个命名实体投射假设与源语言命名实体组成一个双语命名实体假设;之后,融合目标语言命名实体的单语特征和双语命名实体的对齐特征,对投射结果进行修正,将修正后的结果作为目标语言端标注语料增量 在 上重新进行目标语言命名实体标注模型训练,并用训练后的标注模型重新对 中的 进行标注,重新计算 双语标注一致率;
循环执行上述过程,进行10倍交叉,将循环中双语标注一致率最高时对应的标注语料增量作为本次协同训练的目标语言端标注语料增量 在 上重新进行目标语言命名实体标注模型训练;
使用同样的方法,寻找源语言端的增量标注语料 在 上重新进行源语言命名实体标注模型训练;
步骤三、循环执行步骤二,通过在开发集上实验直至算法收敛;循环结束后,最终产生汉英两个命名实体标注模型,即训练好的双语命名实体识别模型;最后,对跨领域的双语语料进行命名实体的识别,进一步构建命名实体词典。
2.如权利要求1所述的一种基于协同训练的双语命名实体识别方法,其特征在于,计算双语标注一致率的方法如下:
设 双语标注一致率为, 初始化
初始化标注语料增量集合为空,
其中, (wsi,wtj)k表示平行句对的
第k(1≤k≤K)对词对;T(wsi),T(wtj)分别表示命名实体汉英两端的标记;U表示未标注语料集;n表示U中的句子数;标注语料中,共标注三种命名实体,分别是PER——人名、LOC——地名和ORG——组织机构名;按照BIO标注集标记,所有字符有7种标注:B-PER、I-PER、B-LOC、I-LOC、B-ORG、I-ORG和O;
计算对齐标注一致率时,忽略标记“B”和“I”的差别,认为它们是相同的标记。
3.如权利要求1所述的一种基于协同训练的双语命名实体识别方法,其特征在于所述步骤二中,对投射命名实体标注区域进行扩展的方法如下:
首先对从源语言到目标语言的命名实体投射区域进行扩展,使之容纳更多的目标语言命名实体假设,每个命名实体投射假设与源语言命名实体组成一个双语命名实体假设;
中任意一个命名实体表示为 通过词投射得到目标语言端连续的且包含投射中心词的中心词块作为最小候选区域 把包含所有投射词的投射区域 两端分别向外扩展4个词作为最大候选区域;
在目标语言端,建立一个滑动窗,从最小候选区域出发,不断向句子任意一侧扩充词,直至达到最大候选区域边界为止,从而扩展产生一系列的目标语言端候选命名实体假设;
每个目标语言端命名实体假设与 组合,形成一个双语命名实体假设,表示为
4.如权利要求1所述的一种基于协同训练的双语命名实体识别方法,其特征在于所述步骤二中,融合目标语言命名实体的单语特征和双语命名实体的对齐特征,并对投射结果进行修正的方法如下:
通过构造一个对数线性模型,融合目标语言命名实体的句法置信度和双语命名实体的对齐置信度,对所有的双语命名实体假设综合打分;
为确保目标语言端命名实体投射满足命名实体的句法特征,选用左右边界分布概率作为目标语言的命名实体句法置信度;边界分布概率包含左边界二元词性共现频率和右边界二元词性共现频率;左边界二元词性共现频率定义如公式⑵所示:
右边界二元词性共现频率的定义如公式⑶所示:
其中,公式中的ti,ti-1,ti+1分别表示边界词wi的词性、边界词wi前一个词wi-1的词性和边界词wi的后一个词wi+1的词性;count(*,*,*)表示语料库中命名实体边界词wi的二元词性组合出现的次数;count(rwi)和count(lwi)分别表示左右边界在语料中出现的次数;
融合左右边界信息,投射命名实体的单语句法置信度的计算如公式⑷所示:
最大熵模型能够融合不同类型的特征,对于双语命名实体的对齐置信度
造特征函数 m=1,2,…,M,利用最大
熵模型进行建模,如公式⑸所示;对于每一个特征函数fm,对应的模型参数为λm,m=1,2,…,M;
采用3个特征,对双语命名实体对齐置信度进行建模,分别为:双语命名实体词性组合共现特征、双语命名实体互译特征以及双语命名实体长度关联特征;词性组合共现特征指的是双语命名实体中对应的汉英词性组合在整个语料库中的共现频率;计算如公式⑹所示:
其中, 表示命名实体词性组合在语料中共现的次数,count
(*,*)表示语料中命名实体的数量;
对于候选双语命名实体,把源语言命名实体与目标语言端投射命名实体之间的相互翻译概率分别用 和 来表示,则双语命名实体互译特征如
公式⑺所示:
对于最优的双语命名实体 而言, 的长度差异近似满足
标准正态分布,定义长度关联特征如公式⑻所示:
其中, 其中,
count(*)表示*包含的字符数,英语为字母数,汉语为汉字数;
把扩展双语命名实体假设集合 中的每个假设 的分值
表示为公式⑼的形式:
最后,通过一个贪心搜索得到句对最优的双语命名实体假设集合,从而得到最优的目标语言命名实体投射;源语言在目标语言端的最优的投射结果就是与源语言命名实体组成最优双语命名实体假设的目标语言命名实体。
5.如权利要求4所述的一种基于协同训练的双语命名实体识别方法,其特征在于,所述贪心搜索过程为:
首先,初始化该最优双语命名实体假设集合为空;
然后,根据 计
算句对中所有双语命名实体假设的score(hi)并按降序排列;
之后,依次选取一个和当前最优双语命名实体假设集合中的双语命名实体没有边界冲突的扩展双语命名实体假设hi放入最优双语命名实体假设集合;重复本步骤,直到找不到满足条件的扩展双语命名实体假设为止;
最后,依次对 中的句子进行投射修正,形成投射结果
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于JAVA平台的CIM模型潮流数据转换方法及装置 | 2020-05-14 | 764 |
基于AADL的Web应用架构安全性的评估方法 | 2020-05-12 | 864 |
一种基于本体的UUV态势感知推理方法 | 2020-05-12 | 817 |
数据处理方法和装置 | 2020-05-13 | 760 |
基于关系型数据库索引的自动运维系统和方法 | 2020-05-14 | 262 |
一种基于语音识别的呼叫中心的菜单系统 | 2020-05-08 | 526 |
一种基于张量分解技术的神经语言模型的压缩方法 | 2020-05-12 | 106 |
一种基于BSVC方法的城市土地利用变化模拟元胞自动机方法 | 2020-05-12 | 309 |
一种智能问答平台 | 2020-05-14 | 451 |
语言模型训练方法、解码方法、装置、存储介质及设备 | 2020-05-12 | 820 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。