技术领域
[0001] 本
发明涉及中文
知识库应用技术领域,特别是涉及一种基于知识图谱的对外汉语学习内容的构建方法。
背景技术
[0002] 随着中国国际地位和影响
力的提升,作为经济和文化载体的汉语得到了越来越多的重视,世界各国学习汉语的人数也在不断增多。汉语学习不仅能促进沟通交流,也能使外国人更好的了解语言及词汇系统下所承载的厚重的地理、历史、文化内涵,加强他们对中华文化的认同感。
[0003] 词语教学是华文教学最基本的任务之一,贯穿于对外汉语教学的始终。可实际教学中,词语教学长期处于薄弱环节,致使很多学生关注词语的敏感性不够,感悟词语的能力不强,严重影响着他们的阅读、写作、口头表达等语文能力的提升。以
大数据为
支撑的
人工智能+教育的模式,正受到社会各界的关注。为了帮助海外汉语学习者更好地掌握中文词语,基于对外汉语教学资源中的知识点挖掘和知识图谱构建,将帮助海外汉语学习者有效进行汉语词语学习,借助知识图谱的良好的知识表示结构、高速的信息查询和深层次的关系推理等优点,引导学生感受词语情意,体验词语情感,走进词语的感性世界,悟得词语在特定语境中的表达意图,把握词语的深层意蕴,使得汉语学习词语练习更加便捷、智能和人性化。
发明内容
[0004] 本发明针对当前汉语词语学习中存在所学词语的关联知识缺失,关联知识无法高效率查询和关联知识无法深层次推理展示等问题,提出一种结合通用知识图谱,构造面向对外汉语学习领域知识图谱的方法,为对外汉语学习构造知识网络,从而实现对汉语词语学习的关联知识智能推荐和关联知识多
角度深层次推理展示。
[0005] 本发明解决其技术问题所采用的技术方案是:
[0006] 本发明一种基于知识图谱的对外汉语学习内容的构建方法,包括以下步骤:
[0007] S1,概念层设计
[0008] S11,构建
种子概念集合,包括四级概念:一级概念(即根结点)是《中文》教材,二级概念是词和字;三级概念包括词概念下的词组、例句、基于该词的交际对话、词所在的教材
位置信息和字概念下的书写动图、组词、例句、基于该字的交际对话、字所在的教材位置信息,四级概念是针对例句、词组等的图片、视频、音频的多媒体;
[0009] S12,基于通用知识图谱从种子概念集合得到对应的实体,加入核心实体集合,核心实体集合为由种子概念下的实体所组成的集合;
[0010] S13,扫描核心实体,产生不在种子概念集合中的概念,称作候选概念,加入候选概念集合。候选概念集合为由核心实体所属并且未出现在核心概念集合中的概念所组成的集合;
[0011] S14,计算候选概念集合中候选概念与核心概念集合之间的语义相关性,所述核心概念集合是由与对外汉语学习领域密切相关的概念所组成的集合,由种子概念和与其相似性较大的概念组成;
[0012] S15,将大于给定
阈值的候选概念作为相关概念,加入核心概念集合中;
[0013] S16,以
迭代方式增量地扩展核心概念集合,直至没有新的概念产生,就得到全部的与对外汉语学习相关的概念集;
[0014] S17,根据步骤S16获得的概念集进一步进行概念清洗,将通过计算概念的IDF值来把一些比较通用但和对外汉语主题相关性不强的概念删除掉。
[0015] S18,概念融合,将具有
别名或者特殊称呼的指代概念进行概念对齐,将利用通用知识图谱的同义词映射表和知识库Infobox表中的同义词描述属性,包括“别名”、“曾用名”、“学名”、“笔名”等来将指代概念关联到核心概念集中;
[0016] S19,基于Infobox的概念关系挖掘。检查百度百科、互动百科、中文维基百科等知识库中的Infobox,如果核心概念集合中的概念落入Infobox,则将该Infobox中的概念以三元组形式进行
抽取,并加入该概念层集合C。
[0017] S2,实例层学习
[0018] S21,构建对外汉语语料,以《中文》教材为
基础,并囊括《对外汉语教育学引论》、《对外汉语常用词语对比例释》、《中华文化大乐园》、《发展汉语中级口语》等教材,以及贴合海外汉语学习者实际生活的问答句为汉语学习语料;
[0019] S22,使用
自然语言处理的方法并结合中文分词识别实体,即先从一个句子中找出“关系”的位置,然后分别向前、向后寻找最近的核心实体或者名词实体;
[0020] S23,根据步骤S22获得的实体集进一步进行实体清洗,将通过计算实体的IDF值来把一些比较通用但和对外汉语主题相关性不强的实体删除掉;
[0021] S24,实体融合,将具有别名或者特殊称呼的指代实体进行实体对齐,将利用通用知识图谱的同义词映射表和知识库Infobox表中的同义词描述属性,包括“别名”、“曾用名”、“学名”、“笔名”等来将指代实体关联到实体集中;
[0022] S25,将实体、关系和实体三元组加入实例层E中。所述实例层是根据概念层进行数据实例化的结果,由与对外汉语学习领域密切相关的三元组所组成;
[0023] S26,将步骤S25得到的三元组存储在Neo4j图
数据库中,形成对外汉语知识图谱;
[0024] S3,智能学习系统应用;对用户选中的对汉语词语实现关联知识智能推荐和关联知识多角度深层次推理展示;
[0025] S31,接收用户选中的对外汉语文本;
[0026] S32,提取知识图谱特征,额外地使用一个实体的上下文实体特征;
[0027] S33,基于
卷积神经网络进行文本特征提取:将子向量、词向量实体上下文向量作为多个通道,在CNN的
框架下进行融合;
[0028] S34,基于注意力机制进行用户的历史兴趣融合:在判断用户对当前知识点的兴趣时,使用注意力网络,给用户历史记录分配不同的权重;
[0029] S35,根据S34按权值降序进行相关知识点检索;
[0030] S36,利用S35的结果,完成关联知识智能推荐和关联知识多角度深层次推理展示。
[0031] 由上述对本发明的描述可知,与
现有技术相比,本发明具有如下有益效果:
[0032] 帮助海外汉语学习者有效进行汉语词语学习,借助知识图谱的良好的知识表示结构、高速的信息查询和深层次的关系推理等优点,引导学生感受词语情意,体验词语情感,走进词语的感性世界,悟得词语在特定语境中的表达意图,把握词语的深层意蕴,使汉语学习词语练习更加便捷、智能和人性化。
[0033] 以下结合
附图及
实施例对本发明作进一步详细说明;但本发明的一种基于知识图谱的对外汉语学习系统构建方法不局限于实施例。
附图说明
[0034] 图1为本发明方法的总体架构图。
具体实施方式
[0035] 下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或
修改,这些等价形式同样落于本
申请所附
权利要求书所限定的范围。
[0036] 参见图1所示,本发明的一种基于知识图谱的对外汉语学习内容的构建方法,包括以下步骤:(1)概念层设计;(2)实例层学习;(3)智能学习系统应用。
[0037] 步骤S1,概念层设计。
[0038] S11,通过查询OpenKG.CN平台(中文开放知识图谱)等通用知识图谱中与中文学习相关的分类信息纲目表,构建字和词的概念集合,其中字的概念集包括书写动图、拼音、部首、笔画、五行、繁体、五笔、基本释义、详细释义、相关组词、近反义词、英文翻译、相关字;词的概念集包括基本释义、详细释义、近反义词、英文翻译、相关词。
[0039] S12,基于通用知识图谱从种子概念集合得到对应的实体,加入核心实体集合,以“草”这一字概念为例,得到其书写动图、拼音(cǎo)、部首(艹)、笔画(9)、五行(木)、五笔(AJJ)、基本释义(高等
植物中栽培植物以外的草本植物的统称)、详细释义(草本植物的总称,指用作
燃料、
饲料的干草,未开垦过的荒地……)、相关组词(花草草书小草草原起草草地野草草本草木干草草绿百草青草草丛)、英文翻译(variant of肏;manuscript;straw;CL:棵,撮,株,根;variant of草,draft(of a document);careless;rough;grass)、相关字(劳宽敬满芳苍);以“火柴”这一词概念为例包括基本释义(用细小的木条蘸上磷或硫的化合物制成的取火的东西。现在常用的是安全火柴)、详细释义(烧火的干柴,一端蘸有磷或硫的化合物,用以擦划取火的细小木棒……)、近义词(洋火)、英文翻译(match(for lighting fire));
[0040] S13,扫描核心实体,产生不在种子概念集合中的概念,称作候选概念,加入候选概念集合,包括其中字的概念集包括交际对话、例句、图文声等多媒体;词的概念集包括短语、交际对话、例句、图文声等多媒体。候选概念集合为由核心实体所属并且未出现在核心概念集合中的概念所组成的集合;
[0041] S14,计算候选概念集合中候选概念与核心概念集合之间的语义相关性,所述核心概念集合是由与对外汉语学习领域密切相关的概念所组成的集合,由种子概念和与其相似性较大的概念组成;
[0042] S15,将大于给定阈值的候选概念作为相关概念,加入核心概念集合中;
[0043] S16,以迭代方式增量地扩展核心概念集合,直至没有新的概念产生,就得到全部的与对外汉语学习相关的概念集,具体为字和词的概念集,其中字的概念集包括书写动图、拼音、部首、笔画、五行、繁体、五笔、基本释义、详细释义、相关组词、近反义词、英文翻译、相关字、交际对话、例句、图文声等多媒体;词的概念集包括基本释义、详细释义、近反义词、英文翻译、相关词、短语、交际对话、例句、图文声等多媒体;
[0044] S17,根据步骤S16获得的概念集进一步进行概念清洗,将通过计算概念的IDF值来把一些比较通用但和对外汉语主题相关性不强的概念删除掉,如字概念集中的部首、五行、五笔、详细释义;词概念集中的详细释义;
[0045] S18,概念融合,将具有别名或者特殊称呼的指代概念进行概念对齐,将利用通用知识图谱的同义词映射表和知识库Infobox表中的同义词描述属性,包括“别名”、“曾用名”、“学名”、“笔名”等来将指代概念关联到核心概念集中,如红楼梦、石头记、情僧录、
风月宝鉴、金陵十二钗;
[0046] S19,基于Infobox的概念关系挖掘。检查百度百科、互动百科、中文维基百科等知识库中的Infobox,如果核心概念集合中的概念落入Infobox,则将该Infobox中的概念以三元组形式进行抽取,并加入该概念层集合,如<中国,首都,北京>;
[0047] S2,实例层学习。
[0048] S21,构建对外汉语语料,以《中文》教材为基础,并囊括《对外汉语教育学引论》、《对外汉语常用词语对比例释》、《中华文化大乐园》、《发展汉语中级口语》等教材,以及贴合海外汉语学习者实际生活的问答句为汉语学习语料;
[0049] S22,使用自然语言处理的方法并结合中文分词识别实体,即先从一个句子中找出“关系”的位置,然后分别向前、向后寻找最近的核心实体或者名词实体,如“《思想者》是一个伟大的雕塑作品”,找出关系词“是”,向前向后找出实体“思想者”和“雕塑作品”;
[0050] S23,根据步骤S22获得的实体集进一步进行实体清洗,将通过计算实体的IDF值(TF-IDF(term frequency–inverse document frequency)是一种用于
信息检索与
数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本
频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。因此,某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到)来把一些比较通用但和对外汉语主题相关性不强的实体删除掉,如“三明治”等;
[0051] S24,实体融合,将具有别名或者特殊称呼的指代实体进行实体对齐,将利用通用知识图谱的同义词映射表和知识库Infobox表中的同义词描述属性,包括“别名”、“曾用名”、“学名”、“笔名”等来将指代实体关联到实体集中,如端午节、端阳节、午日节、五月节、
艾节、端五、重午、午日、夏节;
[0052] S25,将实体、关系和实体三元组加入实例层中。所述实例层是根据概念层进行数据实例化的结果,由与对外汉语学习领域密切相关的三元组所组成,如<思想者,作品形式,雕塑>;
[0053] S26:将步骤S25得到的三元组存储在Neo4j图数据库中,形成对外汉语知识图谱。
[0054] 步骤S3,实例层学习(以知识拓展模
块为例)。
[0055] S31,接收用户选中的对外汉语文本,如标题为《姓氏、取名的小知识》的知识拓展文本;
[0056] S32,提取知识图谱特征(姓氏取名),额外地使用一个实体的上下文实体特征;
[0057] S33,基于卷积神经网络进行文本特征提取:将子向量、词向量实体上下文向量作为多个通道,在CNN的框架下进行融合;
[0058] S34,基于注意力机制进行用户的历史兴趣融合:在判断用户对当前知识点的兴趣(如趣味故事)时,使用注意力网络,给用户历史记录分配不同的权重;
[0059] S35,根据S34按权值降序进行相关知识点检索,如针对上述标题为《姓氏、取名的小知识》的知识拓展文本,进行一系列文本处理和分析后,得到推荐的文章《李四光的取名故事》;
[0060] S36,利用S35的结果,将文章《李四光的取名故事》以
可视化方式推荐给用户,并在知识图谱中记录本次推荐数据。
[0061] 本发明一种基于知识图谱的对外汉语学习内容的构建方法对外汉语知识图谱具有良好的知识表示结构、高速的信息查询和深层次的关系推理等优点,使得汉语学习词语练习更加便捷、智能和人性化。
[0062] 上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。