首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 半监督学习 / 一种基于特征字的半监督中医命名实体获取方法

一种基于特征字的半监督中医命名实体获取方法

阅读:346发布:2020-05-13

专利汇可以提供一种基于特征字的半监督中医命名实体获取方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种基于特征字的半监督中医 命名实体 获取方法,涉及 人工智能 及中文 自然语言处理 技术领域。针对目前中医命名实体获取方法的召回率和准确率不够好的这种问题,该方法使用通识类语料和中医相关语料训练出字向量加权组合,并对于中医领域特殊的特征词的字向量进行特殊处理,并使用半监督的方法进行训练语料的扩充,在减少训练标注数据的情况下,使模型在中医命名实体获取上取得较好的效果,有效提升了中医语料中的命名实体的 抽取 效果。,下面是一种基于特征字的半监督中医命名实体获取方法专利的具体信息内容。

1.一种基于特征字的半监督中医命名实体获取方法,其特征在于:包括以下步骤:
步骤1、以字为单位,使用大规模通识类语料训练用于中医命名实体抽取的字向量;
步骤2、收集整理特征字集合表,划分为不同类别的子集合,将步骤1最终训练形成的字向量按是否属于特征字进行不同处理,对特征字字向量及非特征字向量进行特殊填充;
步骤2.1、收集整理中医命名实体中出现频率大于设定阈值T的字作为特征字,整合为特征字集合表;
步骤2.2、将不同种类的特征字进行类别划分,对每一类别的特征字的字向量加长一定维度进行扩展,加长的维度使用高斯分布初始化的数值;
步骤2.3、对非特征字的字向量进行加长至与特征字的字向量同样的维度,但加长的维度使用0进行填充;
步骤3、对中医类别的术语抽取数据集中各类中医命名实体进行标注,并将标注数据集划分为训练集、测试集和验证集;
步骤4、建立中医命名实体获取模型,并使用半监督学习,使用训练集和测试集进行模型阶段一训练,然后使用训练后模型对大规模未标注数据集进行中医命名实体预测,得到预测数据集;
步骤5、整合预测数据集和标注数据集,进行模型阶段二训练,得到最终的中医命名实体获取模型;
步骤6、基于步骤5中训练的最终中医命名实体获取模型对中医语料中的命名实体进行抽取。
2.根据权利要求1所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:所述步骤1的具体方法为:
步骤1.1、使用中医类别的语料对用于中医命名实体抽取的字向量进行训练,得到训练的字向量 wi表示第i个字,i=1,2,...,M,M表示整体训练字向量的语料中出现的字所在字表大小,默认为汉字的个数;
步骤1 .2、使用通识百科类语料进行字向量的训练,得到训练的字向量步骤1.3、自定义权重λ,将两部分语料训练的字向量进行加权整合,形成最终训练的字向量。
3.根据权利要求1所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:步骤1.3所述形成的最终训练的字向量如下公式所示:
其中,0≤λ≤1。
4.根据权利要求3所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:步骤2.2所述对每一类别的特征字的字向量加长一定维度进行扩展后如下公式所示:
其中,wi∈Q表示wi属于特征字的总集合,Q为特征字集合表中特征字总集合,为对特征字的字向量增加的维度,其生成公式为:
其中, 为指示函数,如下公式所示:
表示字wi是否属于特征字子集Pj,如果字或词wi属于集合Pj,用wij∈Pj来表示,j=
1,2,...,N, 表示集合Pj,j=1,2,...,N的并集组成特征字总集合Q;
扩展后的特征字的字向量维度表示为:
其中,em:N(0,1),m=1,2,...,k,即em的取值属于均值为0,方差为1的正态分布。
5.根据权利要求4所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:步骤2.3所述对非特征字的字向量进行加长至与特征字的字向量同样的维度后如下公式所示:
其中, 表示wi不属于特征字的总集合;对于Embedding_ZERO,其生成公式为:
6.根据权利要求1所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:所述步骤3的具体方法为:
步骤3.1、采用“BIO”标注形式对数据集中数据进行标注,标注的类别包括中药、方剂、证候、症状和疾病
步骤3.2、对标注数据进行划分,划分出80%标注数据集作为训练集,同时划分10%标注数据集作为测试集,以及10%标注数据集作为验证集。
7.根据权利要求6所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:所述步骤4的具体方法为:
步骤4.1、采用BiLSTM-CRF的深度学习模型作为中医命名实体获取模型的隐含层和输出层,使用步骤2整合而成的特征字字向量与非特征字字向量作为中医命名实体获取模型输入层,并使用步骤3已标注后的训练集和标注后的测试集进行模型阶段一训练;
步骤4.2、采用半监督的学习方法,使用步骤4.1中训练后模型对大规模未标注数据集进行中医命名实体预测,学习到更广泛的数据分析特征,此处同样以特征字和非特征字的字向量作为模型输入层,BiLSTM-CRF作为模型的隐含层和输出层。
8.根据权利要求7所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:所述步骤5的具体方法为:
步骤5.1、将步骤4.2中半监督学习方法对大规模未标注数据集进行中医命名实体预测后的结果,与步骤3.2中标注的训练集进行数据集整合;
步骤5.2、使用步骤4中BiLSTM-CRF模型在整合后的数据集中进行阶段二训练,得到最终的中医命名实体获取模型。

说明书全文

一种基于特征字的半监督中医命名实体获取方法

技术领域

[0001] 本发明涉及人工智能及中文自然语言处理技术领域,尤其涉及一种基于特征字的半监督中医命名实体获取方法。

背景技术

[0002] 中医语料中的命名实体抽取是自然语言处理的应用之一,同样也是自然语言处理中的一项难点,由于中医命名实体的语言形式多为古文或半白话文,并且在中医古籍和医案中,即使相同含义的命名实体,但也常有不同的表达方式。同时,中医命名实体又分有多种种类,包括:疾病、症状、证候、中药、方剂等。当前已有的获取方法在处理效果上也不尽完善,同时各种方法对于训练语料上需要大量的人工标注数据,时间和人代价很大。

发明内容

[0003] 本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于特征字的半监督中医命名实体获取方法,在减少人工数据标注的同时,完善中医命名实体的获取效果,获取中医语料中的命名实体。
[0004] 为解决上述技术问题,本发明所采取的技术方案是:一种基于特征字的半监督中医命名实体获取方法,包括以下步骤:
[0005] 步骤1、以字为单位,使用大规模通识类语料训练用于中医命名实体抽取的字向量;
[0006] 步骤1.1、使用中医类别的语料对用于中医命名实体抽取的字向量进行训练,得到训练的字向量 wi表示第i个字,i=1,2,...,M,M表示整体训练字向量的语料中出现的字所在字表大小,默认为汉字的个数;
[0007] 步骤1.2、使用通识百科类语料进行字向量的训练,得到训练的字向量[0008] 步骤1.3、自定义权重λ,将两部分语料训练的字向量进行加权整合,形成最终训练的字向量,如下公式所示:
[0009]
[0010] 其中,0≤λ≤1;
[0011] 步骤2、收集整理特征字集合表,划分为不同类别的子集合,将步骤1最终训练形成的字向量按是否属于特征字进行不同处理,对特征字字向量及非特征字向量进行特殊填充;
[0012] 步骤2.1、收集整理中医命名实体中出现频率大于设定阈值T的字作为特征字,整合为特征字集合表;
[0013] 步骤2.2、将不同种类的特征字进行类别划分,对每一类别的特征字的字向量加长一定维度进行扩展,加长的维度使用高斯分布初始化的数值,如下公式所示:
[0014]
[0015] 其中,wi∈Q表示wi属于特征字的总集合,Q为特征字集合表中特征字总集合,为对特征字的字向量增加的维度,其生成公式为:
[0016]
[0017] 其中, 为指示函数,如下公式所示:
[0018]
[0019] 表示字wi是否属于特征字子集Pj,如果字或词wi属于集合Pj,用wij∈Pj来表示,j=1,2,...,N, 表示集合Pj,j=1,2,...,N的并集组成特征字总集合Q;
[0020] 扩展后的特征字的字向量维度表示为:
[0021]
[0022] 其中,em:N(0,1),m=1,2,...,k,即em的取值属于均值为0,方差为1的正态分布;
[0023] 步骤2.3、对非特征字的字向量进行加长至与特征字的字向量同样的维度,但加长的维度使用0进行填充,如下公式所示:
[0024]
[0025] 其中, 表示wi不属于特征字的总集合;对于Embedding_ZERO,其生成公式为:
[0026]
[0027] 步骤3、对中医类别的术语抽取数据集中各类中医命名实体进行标注及划分;
[0028] 步骤3.1、采用“BIO”标注形式对数据集中数据进行标注,标注的类别包括中药、方剂、证候、症状和疾病;
[0029] 步骤3.2、对标注数据进行划分,划分出80%标注数据集作为训练集,同时划分10%标注数据集作为测试集,以及10%标注数据集作为验证集;
[0030] 步骤4、建立中医命名实体获取模型,并使用半监督学习,进行模型阶段一训练,使用训练后模型对大规模未标注数据集进行中医命名实体预测,得到预测数据集;
[0031] 步骤4.1、采用BiLSTM-CRF的深度学习模型作为中医命名实体获取模型的隐含层和输出层,使用步骤2整合而成的特征字字向量与非特征字字向量作为中医命名实体获取模型输入层,并使用步骤3已标注后的训练集和标注后的测试集进行模型阶段一训练;
[0032] 步骤4.2、采用半监督的学习方法,使用步骤4.1中训练后模型对大规模未标注数据集进行中医命名实体预测,学习到更广泛的数据分析特征,此处同样以特征字和非特征字的字向量作为模型输入层,BiLSTM-CRF作为模型的隐含层和输出层;
[0033] 步骤5、整合预测数据集和标注数据集,进行模型阶段二训练,得到最终的中医命名实体获取模型;
[0034] 步骤5.1、将步骤4.2中半监督学习方法对大规模未标注数据集进行中医命名实体预测后的结果,与步骤3.2中标注的训练集进行数据集整合;
[0035] 步骤5.2、使用步骤4中BiLSTM-CRF模型在整合后的数据集中进行阶段二训练,得到最终的中医命名实体获取模型;
[0036] 步骤6、基于步骤5中训练的最终中医命名实体获取模型对中医语料中的命名实体进行抽取。
[0037] 采用上述技术方案所产生的有益效果在于:本发明提供的一种基于特征字的半监督中医命名实体获取方法,在三个方面提升了中医语料中的命名实体的抽取效果:1)本发明将中医类语料和百科类语料训练的词向量进行自定义权重结合,提升了对于中医富含偏向于古文和半白话文的表述方式的命名实体的抽取效果;2)本发明基于半监督的学习方法,在减少人工标注代价下,学习到更广泛的未标注中医命名实体数据的特征分布,提升了模型的特征学习和实体抽取效果;3)本发明整理中医命名实体特征字集合表,对属于特征字和不属于特征字的字向量进行不同的处理,有效学习了中医命名实体中特征字和非特征字的不同数据分布特点,提升了模型的实体的抽取效果。附图说明
[0038] 图1为本发明实施例提供的一种基于特征字的半监督中医命名实体获取方法的流程图
[0039] 图2为本发明实施例提供的进行填充后的字向量生成图。

具体实施方式

[0040] 下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
[0041] 一种基于特征字的半监督中医命名实体获取方法,如图1所示,包括以下步骤:
[0042] 步骤1、以字为单位,使用大规模通识类语料训练用于中医命名实体抽取的字向量;
[0043] 步骤1.1、使用中医类别的语料(如医案、中医古籍等)对用于中医命名实体抽取的字向量进行训练,得到训练的字向量 wi表示第i个字,i=1,2,...,M,M表示整体训练字向量的语料中出现的字所在字表大小,默认为汉字的个数;
[0044] 步骤1.2、使用通识百科类语料(如百度百科或WIKI百科语料等)进行字向量的训练,得到训练的字向量
[0045] 字向量是整个中医命名实体获取模型的输入,对于一般通识类语料中的命名实体,可使用预训练好后的词向量或字向量作为输入。对于中医命名实体,因实体的上下文多以古文或半白话文形式进行表述,同时又结合有白话文的表述,因此使用通识类语料训练的字向量,以及结合基于中医语料训练的字向量,对于实体抽取结果将会有所提升。本实施例中,使用大规模通识类语料如维基百科或百度百科语料,同时使用中医类别的语料,如:医案、中医古籍等分别进行字向量的训练。
[0046] 其中具体的训练采用Word2Vec的训练模型,最终训练出对于每个字符的向量表示,维度可自定义,一般为100维。以字符“痛”为例,在进行语料训练后将呈现出如下表示:
[0047]
[0048] 该向量将包含该字符的本身的特征信息,同时包含该字符在训练语料中的上下文特征信息。
[0049] 步骤1.3、自定义权重λ,将两部分语料训练的字向量进行加权整合,形成最终训练的字向量,如下公式所示:
[0050]
[0051] 其中,0≤λ≤1;
[0052] 使用自定义的权重将两部分语料训练的字向量进行加权的整合形成最终的字向量。基于通识语料训练的字向量和中医语料训练的字向量包含了两种语料类别下的信息,使用自定义的权重将两者进行结合,可以使得字向量从形式上包含两种通识类实体和中医命名实体,两种语境下的信息。
[0053] 步骤2、收集整理特征字集合表,划分为不同类别的子集合,将步骤1最终训练形成的字向量按是否属于特征字进行不同处理,对特征字字向量及非特征字向量进行特殊填充;
[0054] 步骤2.1、收集整理中医命名实体中出现频率大于设定阈值T的字作为特征字,整合为特征字集合表;
[0055] 步骤2.2、将不同种类的特征字进行类别划分,对每一类别的特征字的字向量加长一定维度进行扩展,加长的维度使用高斯分布初始化的数值,如下公式所示:
[0056]
[0057] 其中,wi∈Q表示wi属于特征字的总集合,Q为特征字集合表中特征字总集合,为对特征字的字向量增加的维度,其生成公式为:
[0058]
[0059] 其中, 为指示函数,如下公式所示:
[0060]
[0061] 表示字wi是否属于特征字子集Pj,如果字或词wi属于集合Pj,用wij∈Pj来表示,j=1,2,...,N, 表示集合Pj,j=1,2,...,N的并集组成特征字总集合Q;
[0062] 扩展后的特征字的字向量维度表示为:
[0063]
[0064] 其中,em:N(0,1),m=1,2,...,k,即em的取值属于均值为0,方差为1的正态分布;
[0065] 步骤2.3、对非特征字的字向量进行加长至与特征字的字向量同样的维度,但加长的维度使用0进行填充,如下公式所示:
[0066]
[0067] 其中, 表示wi不属于特征字的总集合;对于Embedding_ZERO,其生成公式为:
[0068]
[0069] 本实施例中,对于中医类命名实体语料进行标注,对如:症状、证候、中药、疾病、方剂等各种类别的数据进行字符级的特征分析,将字频率大于一定阈值的字进行提取,并按字的类别整合为不同类别的特征字,本实施例中共整理有39类特征字类别,具体如表1所示的部分特征字字表;
[0070] 表1部分特征字表
[0071]
[0072] 本实施例中,对每一类别的特征字的字向量进行加长一定维度,加长的维度使用正态分布数值初始化的数值,对非特征字的字向量进行加长同样的维度,但加长的维度只使用0进行填充。具体参考如图2所示的字向量生成图:
[0073] 在图2中,基于以上已有的通识类和中医语料训练得到字向量,采用自设定的权重,将两种语料训练得到的字向量进行整合。图2中设定得到的字向量为N维。在此基础上,将特征字字表中的字按类别生成K维的字向量拼接在相应的字向量之后,每一种类别的字向量使用正态分布的随机数进行填充,如若不是特征字字表中的字,则使用0进行填充K维拼接在相应的字向量之后。本实施例中,实验效果较好的参数:N=100、K=20。
[0074] 步骤3、对中医类别的术语抽取数据集中各类中医命名实体进行标注及划分;
[0075] 步骤3.1、采用“BIO”标注形式对数据集中数据进行标注,标注的类别包括中药、方剂、证候、症状和疾病;
[0076] 步骤3.2、对标注数据进行划分,划分出80%标注数据集作为训练集,同时划分10%标注数据集作为测试集,以及10%标注数据集作为验证集;
[0077] 步骤4、建立中医命名实体获取模型,并使用半监督学习,进行模型阶段一训练,使用训练后模型对大规模未标注数据集进行中医命名实体预测,得到预测数据集;
[0078] 步骤4.1、采用BiLSTM-CRF的深度学习模型作为中医命名实体获取模型的隐含层和输出层,使用步骤2整合而成的特征字字向量与非特征字字向量作为中医命名实体获取模型输入层,并使用步骤3已标注后的训练集和标注后的测试集进行模型阶段一训练;
[0079] 步骤4.2、采用半监督的学习方法,使用步骤4.1中训练后模型对大规模未标注数据集进行中医命名实体预测,学习到更广泛的数据分析特征,此处同样以特征字和非特征字的字向量作为模型输入层,BiLSTM-CRF作为模型的隐含层和输出层;
[0080] 步骤5、整合预测数据集和标注数据集,进行模型阶段二训练,得到最终的中医命名实体获取模型;
[0081] 步骤5.1、将步骤4.2中半监督学习方法对大规模未标注数据集进行中医命名实体预测后的结果,与步骤3.2中标注的训练集进行数据集整合;
[0082] 步骤5.2、使用步骤4中BiLSTM-CRF模型在整合后的数据集中进行阶段二训练,得到最终的中医命名实体获取模型;
[0083] 步骤6、基于步骤5中训练的最终中医命名实体获取模型对中医语料中的命名实体进行抽取。
[0084] 本实施例中,经过多次开放的测试,实验采用2万字标注训练语料对10万字未标注语料进行中医命名实体标签预测,在5千字的测试集语料中达到79%的F1值。相较于仅使用2万字的标注训练语料,对5千字的测试语料进行验证,本发明的中医命名实体获取模型在实体抽取效果上,F1值提高5%。在使用自定义特征字字表进行字向量优化后,本发明的中医命名实体获取模型在实体抽取效果上,F1值提高3%。总体上,本发明的基于特征字的半监督中医命名实体获取方法在减少训练数据标注的情况下,实现了较好的中医命名实体获取效果,方法具有扩展和使用价值。
[0085] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈