首页 / 专利库 / 人工智能 / 人工智能 / 自然语言处理 / 共指消解 / 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法

西里尔蒙古文和传统蒙古文双文种知识图谱构建方法

阅读:1009发布:2020-05-26

专利汇可以提供西里尔蒙古文和传统蒙古文双文种知识图谱构建方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种西里尔蒙古文和传统蒙古文双文种知识图谱构建方法,具体为:将开源知识图谱和蒙古文网页资源进行抓取和预处理;将预处理后的西里尔蒙古文文本转传统蒙古文文本;建立传统蒙古文知识图谱数据模式;传统蒙古文 命名实体 识别和消解;传统蒙古文事实 抽取 ;传统蒙古文知识图谱集成;建立西里尔蒙古文和传统蒙古文双文种知识图谱。获得西里尔蒙古文和传统蒙古文双文种知识图谱,解决了 现有技术 中尚无公开的、具备一定规模且满足应用需求的蒙古文知识图谱,制约蒙古文智能信息处理相关研究和应用发展的问题。,下面是西里尔蒙古文和传统蒙古文双文种知识图谱构建方法专利的具体信息内容。

1.一种西里尔蒙古文和传统蒙古文双文种知识图谱构建方法,其特征在于,具体按照以下步骤进行:
步骤一,将开源知识图谱和蒙古文网页资源进行抓取和预处理;
步骤二,将预处理后的西里尔蒙古文文本转传统蒙古文文本;
步骤三,建立传统蒙古文知识图谱数据模式;
步骤四,传统蒙古文命名实体识别和消解;
步骤五,传统蒙古文事实抽取
步骤六,传统蒙古文知识图谱集成;
步骤七,建立西里尔蒙古文和传统蒙古文双文种知识图谱。
2.根据权利要求1所述的一种西里尔蒙古文和传统蒙古文双文种知识图谱构建方法,其特征在于,所述步骤二中,西里尔蒙古文文本转传统蒙古文文本,具体按照以下步骤进行:集内词采用西里尔蒙古文和传统蒙古文对照词典进行相互转换;未登录词采用长短时记忆循环神经网络模型进行相互转换。
3.根据权利要求1所述的一种西里尔蒙古文和传统蒙古文双文种知识图谱构建方法,其特征在于,所述步骤三中,传统蒙古文知识图谱数据模式,采用基于翻译和蒙古文概念层次聚类相结合的方法建立,具体按照以下步骤进行:
步骤a,利用蒙英翻译的方法将开源英文知识图谱DBpedia的数据模式翻译为蒙古文知识图谱的数据模式;
步骤b,从蒙古文网站的蒙古文词条中抽取概念并采用基于层次聚类的方法构建新获取概念间层次关系;
步骤c,将构建的概念间层次关系合并到翻译的蒙古文知识图谱的数据模式中,建立传统蒙古文知识图谱数据模式。
4.根据权利要求1所述的一种西里尔蒙古文和传统蒙古文双文种知识图谱构建方法,其特征在于,所述步骤四中,传统蒙古文命名实体识别,具体按照以下步骤进行:
步骤(1),基于众包的传统蒙古文命名实体语料标注:利用Bayes分类方法将获得的蒙古文文档划分为政治、经济、文化、体育、历史、地理、科技、教育、军事九个类别,然后根据标注人员的兴趣和专业领域为其分配待标记文本语料,采用自动化的方法检验用户标注的准确度,准确度合格后得到传统蒙古文命名实体标注语料;
步骤(2),基于多特征和条件随机模型进行传统蒙古文命名实体识别:将传统蒙古文命名实体标注语料中句子的单词预处理得到单词特征,每个单词特征按照向量的形式输出,将各向量合并实现特征融合,将融合后的单词特征输入条件随机模型,得到对完整句子的每个单词的标注结果,利用标注结果读取句中命名实体,训练条件随机模型;将蒙古文命名实体标注语料替换为未进行命名实体识别的传统蒙古文文本,运行训练好的条件随机模型,即完成传统蒙古文命名实体识别。
5.根据权利要求1所述的一种西里尔蒙古文和传统蒙古文双文种知识图谱构建方法,其特征在于,所述步骤四中,传统蒙古文命名实体消解,具体为:方法一,采用词向量模型将每个单词转换为一个向量,通过计算两个向量间的距离,得到两个单词间的相似性;方法二,根据指代项的属性计算命名实体指代项之间的相似性Sim(ri ,rj),
其中,ri、rj表示两个命名实体指代项,aik表示ri第k个属性,
ajk表示rj第k个属性,simk为对第k个属性定义的相似函数,wk为对第k个相似函数的所占的权重;方法三,基于共同邻居的方法,计算与两个命名实体指代项有关系的实体集合的相似性Common(ri,rj), 其中,Nbr(ri)、Nbr(rj)分别表示与ri、
rj有关系的实体集,K用于规范化|Nbr(ri)∩Nbr(rj)|,从而使Common(ri,rj)的值大于0且小于1;对三种方法计算的相似性加权求和,作为两个命名实体指代项的相似性,利用命名实体指代项的相似性进行聚类,确定所有指向相同命名实体的指代项,完成传统蒙古文命名实体消解。
6.根据权利要求1所述的一种西里尔蒙古文和传统蒙古文双文种知识图谱构建方法,其特征在于,所述步骤五中,传统蒙古文事实抽取,包括实体关系知识抽取、实体属性知识抽取、概念实体类属关系知识抽取;
实体关系知识抽取:采用基于距离监督的方法生成带实体标注的训练样本,将训练样本中包含实体对的句子中的单词转换为向量表示,向量由单词的词向量和位置向量两部分合在一起构成,词向量用于表示单词的句法和语义信息,位置向量表示当前单词距离两个实体的距离信息,采用卷积神经网络整合全部向量信息,抽取实体特征,采用最大池化方法将抽取的实体特征合并为固定长度的特征,最后由Softmax分类器完成类别置信度计算,选取置信度最高类别作为分类结果,完成实体关系知识抽取;
实体属性知识抽取:通过对英文开源知识图谱中对应类型实体属性进行自动统计和翻译,获得蒙古文各类命名实体的常见属性列表,根据每类实体所具有的属性列表,编制用于实体属性知识抽取的语言模式,对包含实体的句子采用语言模式逐个匹配,如果匹配成功,则把匹配到的值记录下来作为目标的候选;如果匹配不成功,则将句子放回语料库以备下次使用;对于数值型属性,选取支撑规则和句子最多的值作为最终值;对于对象型属性,如果是单值型属性,则进行与数值属性同样的筛选操作,如果是多值型属性,则将出现的结果合并;
概念实体类属关系抽取:利用单词POS属性将命名实体以外的修饰性和限制性词语去除,然后采用基于语言模式的方法完成概念实体类属关系抽取。
7.根据权利要求1所述的一种西里尔蒙古文和传统蒙古文双文种知识图谱构建方法,其特征在于,所述步骤六中,传统蒙古文知识图谱集成:采用OWL格式作为知识图谱的存储格式,使用JAVA语言开发用于传统蒙古文知识图谱集成的工具。
8.根据权利要求1所述的一种西里尔蒙古文和传统蒙古文双文种知识图谱构建方法,其特征在于,所述步骤七中,建立西里尔蒙古文和传统蒙古文双文种知识图谱:采用基于LSTM模型的方法完成西里尔蒙古文和传统蒙古文中未登录词的相互转换,将传统蒙古文知识图谱转换为西里尔蒙古文和传统蒙古文双文种知识图谱。

说明书全文

西里尔蒙古文和传统蒙古文双文种知识图谱构建方法

技术领域

[0001] 本发明属于少数民族语言处理技术领域,涉及一种西里尔蒙古文和传统蒙古文双文种知识图谱构建方法,主要应用于语义分析、智能问答、知识推理、分析决策等领域。

背景技术

[0002] 知识图谱(Knowledge Graph)描述客观世界中的概念、实体、事件以及相互关系,将互联网信息以更加接近人类认知的形式展现出来,实现了海量信息的高效组织和管理,为信息深层加工和利用奠定了基础。知识图谱作为信息化时代下自然语言处理人工智能发展的驱动之一,在语义分析、智能问答、知识推理、分析决策等领域受到广泛应用。鉴于知识图谱在智能知识服务中的巨大应用价值,企业和科研人员对其进行了大量和深入的研究,构建了多种语言的知识图谱,如DBpedia,Freebase,YAGO,Zhishi.me,XLORE,KnowItAll,TextRunner等。这些知识图谱与大数据处理深度学习以及自然语言处理技术相互融合,成为互联网时代智能信息处理的重要基础。
[0003] 智能搜索引擎,主要通过自然语言处理和知识图谱等人工智能技术,来实现人工智能在搜索引擎产品的落地。它更注重与其他科学相融合、个性化搜索、智能化比较高。换句话说,它是非常智能、需要理解用户需求、以用户为中心的搜索技术。以往在搜索引擎上搜索信息,用户往往面临不少痛点:表达的搜索需求和搜索结果往往难以匹配,经常有“搜”非所问的情况;此外,搜索结果中地址,解答等内容编排无序,显示杂乱。而运用了知识图谱的智能搜索引擎,则可以返回更加精准的结果。就知识图谱而言,研究语义分析方面至关重要,知识库的构建和知识搜索都需要语义分析。未来的搜索引擎,会以用户为核心,越来越智能化。
[0004] 蒙古文是一种跨多国和多地区的语言,在世界上具有广泛影响力,使用者主要为蒙古族,分布在中国、蒙古国、俄罗斯以及中亚的一些国家,人数达到1000多万,中国和蒙古国使用的蒙古语言文字是“语同文不同”,即语言相同,文字不同,在中国使用的蒙古文被称为“传统蒙古文”,在蒙古文使用的蒙古文称为“西里尔蒙古文”。互联网上有海量的西里尔蒙古文和传统蒙古文的文本和多媒体数据,这些数据每天不断增加,蒙古族用户依赖于蒙古文搜索引擎、推荐系统、问答系统等智能知识系统获取所需信息和服务,为采用知识图谱技术改进和优化相关蒙古文智能服务系统提出了需求。
[0005] 目前,蒙古文知识图谱的研究处于起步阶段,尚无公开的、具备一定规模且满足应用需求的蒙古文知识图谱,一定程度上制约了蒙古文智能信息处理相关研究和应用的发展。蒙古文知识图谱研究缓慢的原因主要有三点:首先,蒙古文信息化起步较晚,各类软件和系统对蒙古文的支持不够完善;其次,蒙古文构词方式特殊导致其词汇数量巨大且兼类词多,其句法结构与英文、汉文有显著区别,词法和句法的分析处理难度大;第三,互联网上没有完善的蒙古文百科知识网站,仅维基百科包含少量的蒙古文词条,结构化的蒙古文数据资源相对稀缺,增加了蒙古文知识图谱构建的难度。
[0006] 构建蒙古文知识图谱主要存在以下挑战:
[0007] (1)西里尔蒙古文和传统蒙古文。蒙古文存在着“语同文不同”的现象,在中国使用的蒙古文称为“传统蒙古文”,在蒙古使用的蒙古文称为“西里尔蒙古文”。西里尔蒙古文是从传统蒙古文演变而成的,词法和句法基本相似,区别主要体现在字母表构成、单词中字母大小写、文字书写方向、以及口语转写书面语这四方面。由于西里尔蒙古文和传统蒙古文两者存在差异,抽取不同文种文本中的知识应根据文种采取不同的方法,这增加了知识图谱构建的难度。
[0008] (2)蒙古文知识图谱数据模式层建立。数据模式层描述了概念节点之间的关联关系,包括分类关系和非分类关系,是整个知识图谱的骨干结构和逻辑基础。目前主要有两种构建数据模式层的方法:一种是,基于人工构建数据模式层的方法,这种方法效率耗时耗力且动态扩展性差。另一种是,借助于相应语言的百科知识网站自动建立模式层,然而目前没有蒙古文的百科知识网站。我们主要研究了蒙古文知识图谱数据模式层的构建方法,确保其广度、精确度和效率。
[0009] (3)传统蒙古文命名实体识别。传统蒙古文命名实体识别是蒙古文知识图谱构建过程中的必要步骤,其目的是识别出文本中的人名、机构名、地名、物名、时间、事件、数值等多种命名实体。识别过程通常包括两部分:识别实体边界和确定实体类别。传统蒙古文命名实体识别的难点在于五个方面:第一,传统蒙古文没有类似英文文本中的首字母大写,不便于确定命名实体的左边界;第二,传统蒙古文中有很多兼类词,很多带有良好寓意的普通名词或形容词都同时被用作专有名词,判断这些词是否是专有名词非常困难;第三,蒙古文语序是“主语+宾语+谓语”形式,缺少可以区分主语和宾语的明显界限,增加了从主语和宾语中查找命名实体的难度;第四,蒙古文是一种黏着语,单词后面的格后缀增加了单词匹配的难度;第五,随着社会的发展,蒙古文的新词和外来词越来越多,进一步增加了实体识别的难度。
[0010] (4)传统蒙古文事实抽取。传统蒙古文事实抽取就是在传统蒙古文命名实体识别的基础上抽取实体属性知识和实体关系知识,在此过程中使用了与命名实体抽取同样的互联网蒙古文网页,绝大部分属于非结构化的文本语料。相比于结构化的百科知识类语料,从非结构化的文本语料中抽取实体属性知识和实体关系知识的难度更大。

发明内容

[0011] 为了解决上述问题,本发明提供一种西里尔蒙古文和传统蒙古文双文种知识图谱构建方法,获得西里尔蒙古文和传统蒙古文双文种知识图谱,优化蒙古文搜索引擎,提高返回结果的精准度,提升用户体验质量,为改进蒙古文智能信息处理系统奠定基础,解决了现有技术中存在的问题。
[0012] 本发明所采用的技术方案是,一种西里尔蒙古文和传统蒙古文双文种知识图谱构建方法,具体按照以下步骤进行:
[0013] 步骤一,将开源知识图谱和蒙古文网页资源进行抓取和预处理;
[0014] 步骤二,将预处理后的西里尔蒙古文文本转传统蒙古文文本;
[0015] 步骤三,建立传统蒙古文知识图谱数据模式;
[0016] 步骤四,传统蒙古文命名实体识别和消解;
[0017] 步骤五,传统蒙古文事实抽取;
[0018] 步骤六,传统蒙古文知识图谱集成;
[0019] 步骤七,建立西里尔蒙古文和传统蒙古文双文种知识图谱。
[0020] 本发明的特征还在于,进一步的,所述步骤二中,西里尔蒙古文文本转传统蒙古文文本,具体按照以下步骤进行:集内词采用西里尔蒙古文和传统蒙古文对照词典进行相互转换;未登录词采用长短时记忆循环神经网络模型进行相互转换。
[0021] 进一步的,所述步骤三中,传统蒙古文知识图谱数据模式,采用基于翻译和蒙古文概念层次聚类相结合的方法建立,具体按照以下步骤进行:
[0022] 步骤a,利用蒙英翻译的方式将开源英文知识图谱DBpedia的数据模式翻译为蒙古文知识图谱的数据模式;
[0023] 步骤b,从蒙古文网站的蒙古文词条中抽取概念并采用基于层次聚类的方法构建新获取概念间层次关系;
[0024] 步骤c,将构建的概念间层次关系合并到翻译的蒙古文知识图谱的数据模式中,建立传统蒙古文知识图谱数据模式。
[0025] 进一步的,所述步骤四中,传统蒙古文命名实体识别,具体按照以下步骤进行:
[0026] 步骤(1),基于众包的传统蒙古文命名实体语料标注:利用Bayes分类方法将获得的蒙古文文档划分为政治、经济、文化、体育、历史、地理、科技、教育、军事九个类别,然后根据标注人员的兴趣和专业领域为其分配待标记文本语料,采用自动化的方法检验用户标注的准确度,准确度合格后得到传统蒙古文命名实体标注语料;
[0027] 步骤(2),基于多特征和条件随机模型进行传统蒙古文命名实体识别:将传统蒙古文命名实体标注语料中句子的单词预处理得到单词特征,每个单词特征按照向量的形式输出,将各向量合并实现特征融合,将融合后的单词特征输入条件随机模型,得到对完整句子的每个单词的标注结果,利用标注结果读取句中命名实体,训练条件随机模型;将蒙古文命名实体标注语料替换为未进行命名实体识别的传统蒙古文文本,运行训练好的条件随机模型,即完成传统蒙古文命名实体识别。
[0028] 进一步的,所述步骤四中,传统蒙古文命名实体消解,具体为:方法一,采用词向量模型将每个单词转换为一个向量,通过计算两个向量间的距离,得到两个单词间的相似性;方法二,根据指代项的属性计算命名实体指代项之间的相似性,
其中,ri、rj表示两个命名实体指代项,aik、ajk表示ai、aj第k个
属性,simk为对第k个属性定义的相似函数,wk为对第k个相似函数的所占的权重;方法三,基于共同邻居的方法,计算与两个命名实体指代项有关系的实体集合的相似性,其中,Nbr(ri)、Nbr(rj)分别表示与ri、rj有关系的实体
集,K用于规范化|Nbr(ri)∩Nbr(rj)|,从而使Common(ri,rj)的值大于0且小于1;对三种方法计算得出的相似性加权求和,作为两个命名实体指代项的相似性,利用命名实体指代项的相似性进行聚类,确定所有指向相同命名实体的指代项,完成传统蒙古文命名实体消解。
[0029] 进一步的,所述步骤五中,传统蒙古文事实抽取,包括实体关系知识抽取、实体属性知识抽取、概念实体类属关系知识抽取;
[0030] 实体关系知识抽取:采用基于距离监督的方法生成带实体标注的训练样本,将训练样本中包含实体对的句子中的单词转换为向量表示,向量由单词的词向量和位置向量两部分合在一起构成,词向量用于表示单词的句法和语义信息,位置向量表示当前单词距离两个实体的距离信息,采用卷积神经网络整合全部向量信息,抽取实体特征,采用最大池化方法将抽取的实体特征合并为固定长度的特征,最后由Softmax分类器完成类别置信度计算,选取置信度最高类别作为分类结果,完成实体关系知识抽取;
[0031] 实体属性知识抽取:通过对英文开源知识图谱中对应类型实体属性进行自动统计和翻译,获得蒙古文各类命名实体的常见属性列表,根据每类实体所具有的属性列表,编制用于实体属性知识抽取的语言模式,对包含实体的句子采用语言模式逐个匹配,如果匹配成功,则把匹配到的值记录下来作为目标的候选;如果匹配不成功,则将句子放回语料库以备下次使用;对于数值型属性,选取支撑规则和句子最多的值作为最终值;对于对象型属性,如果是单值型属性,则进行与数值属性同样的筛选操作,如果是多值型属性,则将出现的结果合并;
[0032] 概念实体类属关系抽取:利用单词POS属性将命名实体以外的修饰性和限制性词语去除,然后采用基于语言模式的方法完成概念实体类属关系抽取。
[0033] 进一步的,所述步骤六中,传统蒙古文知识图谱集成:采用OWL格式作为知识图谱的存储格式,使用JAVA语言开发用于传统蒙古文知识图谱集成的工具。
[0034] 进一步的,所述步骤七中,建立西里尔蒙古文和传统蒙古文双文种知识图谱:采用基于LSTM模型的方法完成西里尔蒙古文和传统蒙古文中未登录词的相互转换,将传统蒙古文知识图谱转换为西里尔蒙古文和传统蒙古文双文种知识图谱。本发明的有益效果是,本发明深入研究传统蒙古文知识图谱构建系统和构建方法,解决知识图谱构建过程中的关键问题,依据蒙古文的语法特征,借鉴其他语言知识图谱构建经验和方法,结合现有蒙古文数据资源和蒙古文信息处理研究成果,采用机器学习和信息抽取方法,突破传统蒙古文知识图谱构建过程中的一系列重难点问题。本发明利用海量的西里尔蒙古文和传统蒙古文网页文本,建立西里尔蒙古文和传统蒙古文双文种知识图谱,包含了互联网上两种蒙古文网页文本知识,可以应用于蒙古文智能知识服务的很多领域,有利于推动蒙古文语义研究的发展,提高蒙古文智能信息服务平,具有十分重要的学术和应用价值。
[0035] 本发明还具有以下优点:
[0036] 1、首次对蒙古文知识图谱构建开展比较系统的研究工作,建立西里尔蒙古文和传统蒙古文双文种知识图谱,填补了蒙古文知识图谱的空白,且能够满足不同文种蒙古族用户的实际需要,为改进蒙古文智能知识系统奠定了基础。
[0037] 2、本发明提出了有效的西里尔蒙古文和传统蒙古文相互转换方法,采用一种方案获取两种文种文本的知识,使得最终的知识图谱包含的知识更加丰富和全面。
[0038] 3、提出基于蒙英翻译和蒙古文概念层次聚类相融合的蒙古文知识图谱数据模式建立方法,解决了缺少百科知识和结构化数据情况下的蒙古文知识图谱概念层次建立难的问题。
[0039] 4、基于众包模式有效解决了蒙古文命名实体语料库标注难题,通过在标注过程中采用多种策略保证语料库标注的效率和准确度。结合蒙古文构词特征和语法特点,将多种特征相融合用于蒙古文命名实体的识别过程,提高蒙古文命名实体识别的精度,同时采用多种方法相融合的方法完成传统蒙古文命名实体消解。
[0040] 5、针对非结构化的互联网蒙古文语料,提出有效的知识抽取方法,包括实体属性知识、实体分类关系和实体非关系知识的抽取方法。
[0041] 6、本发明建立了6.6万多条的西里尔蒙古文和传统蒙古文的对照词干库、对照词缀库和转换规则库,并实现了基于对照词典和规则的西里尔蒙古文和传统蒙古文的相互转换系统;构建了西里尔蒙古文、传统蒙古文、英文和汉文的多语种对照词典,词典包含200万以上的词条。
[0042] 7、建立较大规模的传统蒙古文命名实体标记语料库和知识库。实体语料库的文本语料来源于蒙古文主流新闻网站,包括www.nmg.xinhuanet.com、mongol.people.com.cn、www.mgyxw.net,时间范围为2014年01月到2015年10月,内容涵盖政治、经济、文化、娱乐等各个方面。经过对每类网页的HTML标签逐一分析,抽取每个新闻的正文、标题、作者、日期等关键信息,以XML格式存储作为待标注语料。最终知识库包含粗语料网页1.5万条,命名实体15万个,50万条知识。
[0043] 目前,蒙古族用户从互联网查询需要的信息,使用传统的蒙古文搜索引擎返回的内容通常是包含所需信息的网页,并非用户需要的答案。在构建西里尔蒙古文和传统蒙古文双文种知识图谱以后,传统蒙古文搜索引擎能够利用西里尔蒙古文和传统蒙古文双文种知识图谱为用户直接提供答案,使得查询结果的精准度更高,从而提升搜索引擎的服务质量。此外搜索引擎也可以利用知识图谱进行查询扩展,提升网页搜索的精度和召回率,改善整体系统的性能。附图说明
[0044] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0045] 图1是本发明知识图谱构建方法的主要流程图
[0046] 图2是本发明知识图谱构建方法的详细操作流程图。
[0047] 图3是本发明中双向LSTM模型的示例图。
[0048] 图4是本发明中传统蒙古文命名实体标注示意图。
[0049] 图5是本发明中传统蒙古文实体关系抽取的网络结构图。

具体实施方式

[0050] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0051] 本发明所构建的西里尔蒙古文和传统蒙古文双文种知识图谱为面向开放领域的知识图谱,具有更加规范的数据表达和更强的数据关联特点,主要应用于西里尔蒙古文和传统蒙古文语义分析、智能问答、知识推理、分析决策等领域。
[0052] 西里尔蒙古文和传统蒙古文双文种知识图谱构建系统,包括:抓取和预处理模,用于将开源知识图谱和蒙古文网页资源进行抓取和预处理;蒙古文文种转换模块,用于将预处理后的西里尔蒙古文文本转为传统蒙古文文本;知识图谱数据模式建立模块,用于基于翻译和蒙古文概念层次聚类相结合的方法建立传统蒙古文知识图谱数据模式;命名实体识别和消解模块,用于对传统蒙古文文本中的命名实体进行识别和消解;事实抽取模块,用于在传统蒙古文命名实体识别的基础上抽取实体属性知识和实体关系知识;知识图谱集成模块,用于集成传统蒙古文知识图谱;双向LSTM模块,用于完成西里尔蒙古文和传统蒙古文中未登录词的相互转换,将传统蒙古文知识图谱转换为西里尔蒙古文和传统蒙古文双文种知识图谱。
[0053] 本发明西里尔蒙古文和传统蒙古文双文种知识图谱构建方法,如图1所示,具体按照以下步骤进行:
[0054] 步骤一,将开源知识图谱和蒙古文网页资源进行抓取和预处理;
[0055] 步骤二,将预处理后的西里尔蒙古文文本转传统蒙古文文本;
[0056] 步骤三,建立传统蒙古文知识图谱数据模式;
[0057] 步骤四,传统蒙古文命名实体识别和消解;
[0058] 步骤五,传统蒙古文事实抽取;
[0059] 步骤六,传统蒙古文知识图谱集成;
[0060] 步骤七,建立西里尔蒙古文和传统蒙古文双文种知识图谱。
[0061] 本发明西里尔蒙古文和传统蒙古文双文种知识图谱构建方法的详细操作流程,如图2所示。
[0062] 西里尔蒙古文文本转传统蒙古文文本:西里尔蒙古文和传统蒙古文相互转换主要采用基于对照词典和深度学习中的长短时记忆(LSTM)循环神经网络(RNN)模型进行转换,其中西里尔蒙古文和传统蒙古文对照词典用于集内词的相互转换,长短时记忆(LSTM)循环神经网络(RNN)模型用于未登录词的相互转换,这里集内词是指可以通过现有蒙古文词干库词典和后缀库词典能够生成的蒙古文单词,其他词为未登录词。
[0063] 传统蒙古文知识图谱数据模式建立:本发明采用基于翻译和蒙古文概念层次聚类相结合的方法建立蒙古文知识图谱的数据模式,具体按照以下步骤进行:步骤a,利用基于蒙英翻译的方式将开源英文知识图谱DBpedia的数据模式(本体层)翻译为蒙古文知识图谱的数据模式;步骤b,从蒙古文网站(如维基百科)的蒙古文词条中抽取概念并采用基于层次聚类的方法构建新获取概念间层次关系;步骤c,将构建的概念间层次关系合并到翻译的蒙古文知识图谱的数据模式中,作为最终的蒙古文知识图谱数据模式。相比于实体的数量,知识图谱数据模式中的概念和概念关系的数量要少的多,其翻译过程属于词语级对照翻译,比句子级翻译相对容易很多,精度和速度均能够得到很好的保证。
[0064] 传统蒙古文命名实体识别,在蒙古文知识图谱的构建过程中,蒙古文命名实体的识别是一个非常关键的环节,我们将其转化为序列标注问题并采用条件随机场CRF完成该项任务,本发明采用众包模式建立一定规模的传统蒙古文命名实体库,采用条件随机场CRF进行传统蒙古文命名实体的识别。
[0065] 具体按照以下步骤进行:
[0066] 步骤(1),基于众包的传统蒙古文命名实体语料标注。
[0067] 基于众包模式的传统蒙古文命名实体语料标注库的建立:基于众包模式的传统蒙古文命名实体语料标注库的建立:参考CoNLL和MUC的标记规范,本发明制定了蒙古文命名实体的标记规范,包括标记范围和标记规则;标记范围包括五大类,分别为人名、地名、机构名、事件名和其他类别。标记规则有:人名的职务、称谓、关系一律不标注;各个类别间不存在嵌套;当多个实体具有并列从属关系时需要分开标记。将传统蒙古文命名实体的标注语料转换为BIO标签格式,用于训练条件随机场(CRF)模型,获得条件随机场(CRF)模型运行效果最优的模型参数。
[0068] 在基于众包模式的蒙古文命名实体标注过程中,重点要关注的问题是标注任务的分配和质量控制。利用Bayes分类方法将蒙古文文档划分为政治、经济、文化、体育、历史、地理、科技、教育、军事九个类别,然后根据标注人员的兴趣和专业领域为其分配待标记文本语料,如图4。本发明对开源平台Brat进行扩展,提供用户兴趣设定功能,实现标注语料的合理分配,以便达到准确的标注效果。采用三种自动化的方法检验用户标注的准确度,准确度合格后得到传统蒙古文命名实体标注语料;检验用户标注的准确度的方法:结果汇聚,同样的数据由多个人标记,一个实体如果存在多种标注结果,以多数人的标注结果为最终结果;重复标注,对比一个人对同一数据在不同时间的标注结果,如果两个标注结果一致,表明标注人员的标注结果比较可信,如果不一致,则该标注人员的标注结果可信度低;样本比对,将已有标准结果的文档发给标注人员进行标注,对比标注结果和标准答案,如果一致表明该标注人员的标注结果可信度高,否则可信度低。
[0069] 步骤(2),基于多特征和条件随机模型(CRF)的传统蒙古文命名实体识别。
[0070] 条件随机场CRF是一种概率无向图模型,没有尔科夫模型那样严格的独立性假设,可以有效地消除标记偏置的问题,已经被成功地应用于很多序列标注任务中。步骤(2),基于多特征和条件随机模型进行传统蒙古文命名实体识别:将传统蒙古文命名实体标注语料中句子的单词预处理得到单词特征,每个单词特征按照向量的形式输出,将各向量合并实现特征融合,将融合后的单词特征输入条件随机模型,得到对完整句子的每个单词的标注结果,利用标注结果读取句中命名实体,训练条件随机模型;将蒙古文命名实体标注语料替换为未进行命名实体识别的传统蒙古文文本,运行训练好的条件随机模型,即完成传统蒙古文命名实体识别。以蒙古文命名实体标注语料作为数据集进行训练,经过多组特征实验组合,最终发现选取所有特征可获得最优实验结果。
[0071] 本发明标注过程融合多种蒙古文相关特征,设计了语境特征、音节特征、查表特征、形态学特征、语义特征共五大类特征用于命名实体识别标注过程,其中语境特征是指标注单元和相邻单元的组合;音节特征包含标注单元的音节数以及起始和结束音节两小类特征;查表特征包含人名地名词典、音译表、头衔和职位表三个数据词典的信息;形态学特征包含NNBS特征和POS特征两类;语义特征包含词向量聚类ID和LDA词簇类ID两类信息。蒙古文单词具有曲折变化和派生的显著特点,单词由词干或词干后连接一个或多个词缀构成,NNBS后缀是格后缀、反身后缀和部分复数的后缀的统称,通过一个窄无间断空格(NNBS)(unicode编码:“202F”)与词干相连接。生成特征向量的过程如下:根据句子中上下文信息,自动生成语境向量,窗口大小为[-1,1];根据蒙古语的语法,设计了28个关于蒙古语音节规则,标记是命名实体的音节,每个单词根据音节生成音节特征;收集8735地名、2731人名和564个汉化蒙古文形成列表待查,查表特征为0,1形式,如果在列表中则为1,否则为0;形态学特征,包含NNBS特征和POS特征,当蒙古文词包含NNBS词缀时,就将该特征位改写为‘F’,否则为‘T’;并使用了一个规则和基于字典的POS来生成这一特性,POS标记集共包括15个类;语义特征包含词向量聚类ID和LDA词簇类ID两类信息。
[0072] 将语境特征、音节特征、查表特征、形态学特征、语义特征的向量合并实现特征融合的方法:将上述五种特征按照向量的形式输出,将五个向量按顺序连接在一起,合并为一个完整的向量,从而实现多种特征融合。
[0073] 传统蒙古文命名实体消解,基于词向量模型、相似属性、共同邻居加权融合,对传统蒙古文命名实体进行消解。
[0074] 词向量模型将每个单词转换为一个向量,即形成单词的分布式表示。它的优点是用较低维度的向量就可以表示一个单词,同时让相关或相似的词在距离上更接近。向量的距离可以用欧氏距离来衡量,也可以用夹余弦来衡量。对于同一个命名实体的不同指代项,如果用词向量对其进行表示的话,词向量应该非常相似,词向量的距离会非常小,因此可以利用词向量作为判断指代项相似性的有效方法。实验中采用Word2Vec中的CBOW模型进行词向量的计算,通过计算两个向量间的距离,得到两个单词间的相似性。
[0075] 对应于相同实体的指代项往往具有相似的属性特征,根据指代项的属性计算命名实体指代项之间的相似性,利用公式(1)计算:
[0076]
[0077] 其中,ri、rj表示两个指代项,aik表示ri第k个属性,ajk表示rj第k个属性,simk为对第k个属性定义的相似函数,wk为对第k个相似函数的所占的权重。为了提高属性匹配的精确度,对不同类型、不同属性需要定义不同的相似函数。ri、rj分别表示第i和第j个指代项,Sim(ri,rj)表示两个指代项之间的相似性。
[0078] 基于共同邻居的方法在于建立指代项和指代项或者实体与实体之间的联系,从联系上判断两个指代项是否对应于同一个实体。计算与两个命名实体指代项有关系的实体集合的相似性,利用公式(2)计算:
[0079]
[0080] 其中,ri、rj表示两个指代项,Nbr(ri)、Nbr(rj)分别表示与ri、rj有关系的实体集,K用于规范化|Nbr(ri)∩Nbr(rj)|,从而使Common(ri,rj)的值大于0且小于1;
[0081] 对上述三种方法计算得出的相似性加权求和,作为两个命名实体指代项的相似性,利用命名实体指代项的相似性进行聚类,确定所有指向相同命名实体的指代项,完成传统蒙古文命名实体消解。
[0082] 传统蒙古文事实抽取:包括实体实体关系知识、实体属性知识、概念实体类属关系知识的抽取方法。传统蒙古文关系和事实抽取部分要抽取三种知识,分别为实体关系知识、实体属性知识、概念实体类属关系知识,所用语料与命名实体识别环节相同,为非结构化的传统蒙古文文本语料。根据不同类型知识的特点和抽取难度,本发明分别采用以下三种方法完成事实抽取任务。
[0083] (1)基于距离监督(Distance Supervision)和卷积神经网络(CNN)的传统蒙古文实体关系抽取;实体关系抽取的目的是判断语句中两个实体之间是否存在关联关系,并给出对应关系的类型,这是一个分类过程,关系类型是分类目标。本发明采取基于距离监督和注意力卷积神经网络进行实体关系的抽取,其中距离监督主要用于产生带实体标注的训练样本,卷积神经网络用于学习句子级表示。
[0084] 如图5所示,对于包含实体对的句子,句中单词首先被转换向量表示,由单词的词向量(Word Embeding)和位置向量(Position Embeding)两部分合在一起构成,词向量用于表示单词的句法和语义信息,位置向量表示当前单词距离两个实体的距离信息,然后利用全部向量信息完成关系预测任务。由于句子长度可变且重要信息可以出现在句中任何位置,因此采用卷积神经网络整合全部向量信息,在此基础上由最大池化层将卷积网络抽取的特征合并为固定长度的特征,最后由Softmax分类器完成类别置信度计算,选取置信度最高类别作为分类结果。
[0085] 给定长度为n的句子x={w1,w2,w3...wn},其中wi为句中第i个单词,所有单词对应的向量表示为v={v1,v2,v3...vn},其中vi代表第i个单词的向量,由词向量 和位置向量构成 卷积矩阵为W∈REL×l×d,卷积层操作可以表示为公式(3):
[0086] p=Wq+b   (3)
[0087] 其中,p表示卷积结果,q表示参与卷积的单词向量vi所构成的矩阵,b代表卷积层对应的偏置向量。
[0088] 最大池化层的向量为公式(4):
[0089] x=max(p)   (4)
[0090] 其中,x表示最大池化后的结果。
[0091] 网络输出的实体关系分类结果o,根据公式(5)计算:
[0092] o=Wox+bo   (5)
[0093] 其中,Wo表示权重,bo表示偏置向量,o表示实体关系分类结果。
[0094] 传统蒙古文中的窄无间断(NNBS)后缀出现频率很高,这些后缀能够体现具体单词在句中的语法功能和单词间的语义关系,对实体关系分类非常重要。为获取这类后缀的特征信息,我们将包含这类后缀的单词切分为词干和NNBS后缀两部分,并将词干和NNBS后缀当做与单词同样的独立单元,后缀切分增加了句子长度。
[0095] 采用基于距离监督的方法生成带实体标注的训练样本:鉴于传统蒙古文没有大规模的知识库,我们采用人工方式建立一定规模的实体关系三元组;对Freebase中全部实体关系进行统计,人工将相近关系进行合并,选取最高频的一百种关系类型,将其翻译为传统蒙古文的关系类型。将传统蒙古文命名实体标注库中同时包含两个实体的语句抽取出来,人工为两个实体(即实体对)标注关系类型,获得满足实验要求的基础知识库,将基础知识库中实体关系r1和语料中同时包含实体e1、e2的语句进行对齐,并将这些语句作为具有实体关系r1的训练数据,从而利用知识库中关系知识生成大规模训练样本。
[0096] 我们采用随机梯度下降法(stochastic gradient descent,SGD)对模型进行参数训练,训练过程中将采用dropout方法预防过拟合现象,采用注意力卷积网络来避免训练样本中噪声数据,实验结果表明,注意力机制可以使得卷积神经网络的全局特性更为显著,抗噪声能力明显增强。在正确标签相对于每个类别的错误标签有数倍的数量优势的条件下(正确标签占70%以上),得到能够承受噪声干扰的相对精确的模型。采用分段最大池化方法(piecewise max pooling)改进所提取的特征。
[0097] (2)融合实体类别和语言模式的传统蒙古文实体属性知识抽取;在命名实体识别环节,我们获得了传统蒙古文命名实体及其相应类别。不同类别的命名实体,通常具备不同的属性,比如人具有 (中文:“身高”)、 (中文:“职业”)等属性,而事件具有 (中文:“时间”)、 (中文:“地点”)等属性。通过对英文开源知识图谱Freebase中对应类型实体属性进行自动统计和翻译,获得蒙古文各类命名实体的常见属性列表。根据每类实体所具有的属性列表,由蒙古语专家编制用于实体属性知识抽取的语言模式。对于语言模式中不同属性,目标属性值不同,语言模式中对于数值属性和对象属性进行区分,对相应属性增加了属性值类型的约束。数值属性的目标值通常情况下是数值型,少数情况下是布尔型或字符串型,对象属性的目标值是实体。
[0098] 语言学模式生成完毕之后,接下来对包含实体的句子使用所构建的语言学模式逐个匹配,如果匹配成功,则把匹配到的值记录下来作为目标的候选。对于数值型属性,其值通常是唯一的,因此选取支撑规则和句子最多的值作为最终值;对于对象型属性,如果是单值型属性,则进行与数值属性同样的筛选操作,如果是多值型属性,则将出现的结果合并。
[0099] (3)基于语言模式的传统蒙古文概念实体关系抽取;概念与实体关联关系中最重要和最普遍的关系就是概念实体类属关系(上下位关系),这类关系也是知识图谱中连接数据模式层和实体层所必不可少的知识,本发明仅抽取概念实体类属关系。
[0100] 传统蒙古文中概念实体类属关系有比较固定的表达形式,如 (中文:“是一种”), (中文:“是一个”), (中文:“属于”)等。本发明采用基于语言模式的方法完成概念实体类属关系抽取任务,语言模式将由内蒙古大学的蒙古文语言研究者协助来制定。基于语言模式的方法抽取速度快,匹配精度高,能够获得高质量的关系知识。为简化模式匹配难度,我们在模式匹配之前利用单词POS属性将命名实体以外的修饰性和限制性词语去除,然后利用自动化程序对文本进行模式匹配。
[0101] 传统蒙古文知识图谱集成:采用OWL格式作为知识图谱的存储格式,使用JAVA语言开发了一套工具用于传统蒙古文知识图谱集成。
[0102] 建立西里尔蒙古文和传统蒙古文双文种知识图谱:以Python、JAVA作为开发语言,借鉴和整合部分开源工具,搭建一套完整的西里尔蒙古文和传统蒙古文双文种知识图谱,同时开发相应的API,为知识图谱的使用提供便利。
[0103] 西里尔蒙古文和传统蒙古文相互转换LSTM网络:本发明采用基于LSTM模型的方法完成西里尔蒙古文和传统蒙古文中未登录词的相互转换。西里尔蒙古文单词和传统蒙古文单词都是由字母组成,西里尔蒙古文转传统蒙古文或传统蒙古文转西里尔蒙古文的过程实质就是将一个字符串转化为另外一个字符串,被转换的字符串作为输入,转换后的字符串作为输出,转换过程采用序列转换模型实现。
[0104] LSTM模型是一类适用于序列建模的循环神经网络模型,相比于传统的联合序列模型,它避免了模型训练前的序列子串对齐操作,它采用了动态的语境窗口大小,在输出目标串之前能够考虑多个原序列的子串,使其能够做出语境相关的决策。在双向LSTM模型中,一个RNN过程从左至右处理输入字符串,另外一个RNN过程从右至左处理输入字符串,两个RNN输出的结果组合后输入第三个RNN,生成最终的目标字符串。假设给定源字符串X,X=(x1,x2,…,xI)和对应目标字符串为Y,Y=(y1,y2,…,yJ)其中I和J是两个序列的长度,那么双向LSTM学习的目标是:
[0105]
[0106] 在图3中,矩形方框代表神经网络的LSTM单元,展示了双向LSTM模型转换西里尔蒙古文单词“тэмцээнд”(中文:“在比赛中”)到传统蒙古文单词 (拉丁转写:“temeqegen-du”)的过程;其中,,表示蒙文词(由左至右)的开始符号和结束符号,,表示蒙文词(由右至左)开始符号和结束符号;字符C、A、T为双向LSTM网络输入字符,K、AE、T为对应的输出字符。利用序列到序列的LSTM模型实现,训练好的模型以西里尔蒙古文单词“тэмцээнд”作为输入,就能自动输出传统蒙古文单词
[0107] 表1超参数设置
[0108]模型参数 参数值
Bi-LSTM层 2
学习率 0.01
学习率衰减系数 0.80
隐层单元数 128
源语言端词典 200
目标语言端词典 200
Dropout比率 0.7
[0109] 本发明使用反向传播算法对双向LSTM模型进行端到端的训练,对比不同的学习速率、不同的隐层的转换效果,最终LSTM模型的超参数如表1所示,使用双向LSTM模型自动完成西里尔蒙古文单词到传统蒙古文单词的转化,克服了人工编写词典的难题,而且在这一框架下生成的蒙古文单词转换系统拥有更好的性能、易用性和用户友好性。
[0110] 我们搭建了一个基于西里尔蒙古文和传统蒙古文双文种知识图谱应用的智能问答系统。该系统工作流程如下:第一步,用户在系统中输入问句;第二步,系统对问句分析,包括问句类型、问题领域、问句中命名实体、问句答案类型;第三步,利用问句分析结果,生成分段查询图,构造知识图谱查询语句;第四步,在采用本发明构建方法构建的西里尔蒙古文和传统蒙古文双文种知识图谱的图数据库上执行查询,获得问句答案;第五步,系统利用答案生成模块生成答案,并呈现给用户。实验结果表明采用基于本发明西里尔蒙古文和传统蒙古文双文种知识图谱应用的智能问答系统,可以返回更加精准的结果。西里尔蒙古文和传统蒙古文双文种知识图谱包含本体层面的知识,如事物的分类关系、概念的层次关系、事物的属性等知识,这些知识可以在蒙古文语义分析中加以应用,提升语义分析的精度,从而在辅助相关智能应用。
[0111] 以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈