专利汇可以提供一种基于特征字的半监督中医命名实体获取方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种基于特征字的半监督中医 命名实体 获取方法,涉及 人工智能 及中文 自然语言处理 技术领域。针对目前中医命名实体获取方法的召回率和准确率不够好的这种问题,该方法使用通识类语料和中医相关语料训练出字向量加权组合,并对于中医领域特殊的特征词的字向量进行特殊处理,并使用半监督的方法进行训练语料的扩充,在减少训练标注数据的情况下,使模型在中医命名实体获取上取得较好的效果,有效提升了中医语料中的命名实体的 抽取 效果。,下面是一种基于特征字的半监督中医命名实体获取方法专利的具体信息内容。
1.一种基于特征字的半监督中医命名实体获取方法,其特征在于:包括以下步骤:
步骤1、以字为单位,使用大规模通识类语料训练用于中医命名实体抽取的字向量;
步骤2、收集整理特征字集合表,划分为不同类别的子集合,将步骤1最终训练形成的字向量按是否属于特征字进行不同处理,对特征字字向量及非特征字向量进行特殊填充;
步骤2.1、收集整理中医命名实体中出现频率大于设定阈值T的字作为特征字,整合为特征字集合表;
步骤2.2、将不同种类的特征字进行类别划分,对每一类别的特征字的字向量加长一定维度进行扩展,加长的维度使用高斯分布初始化的数值;
步骤2.3、对非特征字的字向量进行加长至与特征字的字向量同样的维度,但加长的维度使用0进行填充;
步骤3、对中医类别的术语抽取数据集中各类中医命名实体进行标注,并将标注数据集划分为训练集、测试集和验证集;
步骤4、建立中医命名实体获取模型,并使用半监督学习,使用训练集和测试集进行模型阶段一训练,然后使用训练后模型对大规模未标注数据集进行中医命名实体预测,得到预测数据集;
步骤5、整合预测数据集和标注数据集,进行模型阶段二训练,得到最终的中医命名实体获取模型;
步骤6、基于步骤5中训练的最终中医命名实体获取模型对中医语料中的命名实体进行抽取。
2.根据权利要求1所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:所述步骤1的具体方法为:
步骤1.1、使用中医类别的语料对用于中医命名实体抽取的字向量进行训练,得到训练的字向量 wi表示第i个字,i=1,2,...,M,M表示整体训练字向量的语料中出现的字所在字表大小,默认为汉字的个数;
步骤1 .2、使用通识百科类语料进行字向量的训练,得到训练的字向量步骤1.3、自定义权重λ,将两部分语料训练的字向量进行加权整合,形成最终训练的字向量。
3.根据权利要求1所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:步骤1.3所述形成的最终训练的字向量如下公式所示:
其中,0≤λ≤1。
4.根据权利要求3所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:步骤2.2所述对每一类别的特征字的字向量加长一定维度进行扩展后如下公式所示:
其中,wi∈Q表示wi属于特征字的总集合,Q为特征字集合表中特征字总集合,为对特征字的字向量增加的维度,其生成公式为:
其中, 为指示函数,如下公式所示:
表示字wi是否属于特征字子集Pj,如果字或词wi属于集合Pj,用wij∈Pj来表示,j=
1,2,...,N, 表示集合Pj,j=1,2,...,N的并集组成特征字总集合Q;
扩展后的特征字的字向量维度表示为:
其中,em:N(0,1),m=1,2,...,k,即em的取值属于均值为0,方差为1的正态分布。
5.根据权利要求4所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:步骤2.3所述对非特征字的字向量进行加长至与特征字的字向量同样的维度后如下公式所示:
其中, 表示wi不属于特征字的总集合;对于Embedding_ZERO,其生成公式为:
6.根据权利要求1所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:所述步骤3的具体方法为:
步骤3.1、采用“BIO”标注形式对数据集中数据进行标注,标注的类别包括中药、方剂、证候、症状和疾病;
步骤3.2、对标注数据进行划分,划分出80%标注数据集作为训练集,同时划分10%标注数据集作为测试集,以及10%标注数据集作为验证集。
7.根据权利要求6所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:所述步骤4的具体方法为:
步骤4.1、采用BiLSTM-CRF的深度学习模型作为中医命名实体获取模型的隐含层和输出层,使用步骤2整合而成的特征字字向量与非特征字字向量作为中医命名实体获取模型输入层,并使用步骤3已标注后的训练集和标注后的测试集进行模型阶段一训练;
步骤4.2、采用半监督的学习方法,使用步骤4.1中训练后模型对大规模未标注数据集进行中医命名实体预测,学习到更广泛的数据分析特征,此处同样以特征字和非特征字的字向量作为模型输入层,BiLSTM-CRF作为模型的隐含层和输出层。
8.根据权利要求7所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:所述步骤5的具体方法为:
步骤5.1、将步骤4.2中半监督学习方法对大规模未标注数据集进行中医命名实体预测后的结果,与步骤3.2中标注的训练集进行数据集整合;
步骤5.2、使用步骤4中BiLSTM-CRF模型在整合后的数据集中进行阶段二训练,得到最终的中医命名实体获取模型。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于半监督学习算法的移动设备实体识别方法及装置 | 2020-05-12 | 843 |
一种基于层次注意力机制的半监督网络表示学习模型 | 2020-05-13 | 599 |
基于半监督学习的DPI数据中host的自动化挖掘方法及系统 | 2020-05-18 | 540 |
一种特征权重自学习的睡眠质量检测关键脑区判定方法 | 2020-05-08 | 88 |
基于对抗训练的跨领域虚假评论识别方法 | 2020-05-13 | 239 |
基于半监督学习的检测模型训练方法、装置、设备及介质 | 2020-05-12 | 875 |
一种获取临床数据预测模型的方法、装置、可读介质及电子设备 | 2020-05-15 | 546 |
一种面向半结构化数据流的实时主题分类方法 | 2020-05-16 | 842 |
一种基于半监督学习的多标签语料库文本分类方法 | 2020-05-13 | 481 |
一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法 | 2020-05-13 | 482 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。