首页 / 专利库 / 人工智能 / 自动推理 / 一种知识图谱的构建方法、系统及存储介质

一种知识图谱的构建方法、系统及存储介质

阅读:135发布:2020-05-12

专利汇可以提供一种知识图谱的构建方法、系统及存储介质专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种知识图谱的构建方法、系统及存储介质,所述方法包括:采集初始学习数据并存储至学习资源 数据库 中,根据学科教学大纲及教材对初始学习数据进行本体术语提取和标注;录入每个元知识点之间的联系及顺序,通过本体编辑器构建有向的学科知识图谱,生成OWL文件并以三元组的形式存储至学习系统中;实时更新录入用户的学习过程状态数据,通过DKT 算法 对用户的学习过程状态数据进行多知识点建模,得到用户的学习掌握状态;根据用户的学习掌握状态挖掘各知识点之间的联系,动态更新学科知识图谱。本发明通过基于 深度学习 跟踪 DKT,有效解决多知识点建模的场景,精准检测学习者最新的知识掌握状态,完成知识图谱的构建并获取知识点内在联系。,下面是一种知识图谱的构建方法、系统及存储介质专利的具体信息内容。

1.一种知识图谱的构建方法,其特征在于,至少包括如下步骤:
采集初始学习数据并存储至学习资源数据库中,根据学科教学大纲及教材对所述初始学习数据进行本体术语提取,并对提取得到的本体术语进行标注;
录入每个元知识点之间的联系及顺序,通过本体编辑器构建有向的学科知识图谱,生成OWL文件并以三元组的形式存储至学习系统中;
实时更新录入用户的学习过程状态数据,通过DKT算法对用户的学习过程状态数据进行多知识点建模,得到用户的学习掌握状态;
根据所述用户的学习掌握状态挖掘各知识点之间的联系,动态更新学科知识图谱。
2.根据权利要求1所述的知识图谱的构建方法,其特征在于,还包括:
采用TransE算法对所述学科知识图谱进行知识推理,增加新的元知识点及其层级关系,进一步完善所述学科知识图谱。
3.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述初始学习数据,包括学习者个人信息、学科学习内容信息、学科练习测试数据和学习资源数据。
4.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述标注包括自动标注和手动标注,其中,
所述自动标注,具体为:在本体编辑器构建有向的学科知识图谱过程中,使用Jena框架实现本体术语的层级关系;
所述手动标注,具体为:整理所述提取得到的本体术语的属性关系和相关关系,通过Jena框架导入本体编辑器中。
5.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述学习过程状态数据,包括知识状态记录和知识平测试记录,其中,
所述知识状态记录包括已掌握知识点的统计信息和未掌握知识点的统计信息,所述知识水平测试记录包括题目、答题结果、答题次数和答题时间。
6.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述实时更新录入用户的学习过程状态数据,通过DKT算法对用户的学习过程状态数据进行多知识点建模,得到用户的学习掌握状态,具体为:
获取学习者在系统里所有时序的学习测试数据作为DKT模型的训练样本;
采用tensorflow方法实现一个LSTM训练;
将每个学习者的学习数据作为一个批次输入后进行模型训练处理;
模型训练完成后导出DKT模型,部署至tensorflow serving中;
通过tensorflow serving实时在线调用所述DKT模型,反馈学生知识点掌握状态以及知识点下次答题正确概率。
7.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述根据所述用户的学习掌握状态挖掘各知识点之间的联系,动态更新学科知识图谱,具体为:
通过DKT模型获取当前所有学习者的每个知识点的答题正确概率;
采用概率关联规则挖掘技术来识别关系获取知识点之间的隐含关系;
根据所述知识点之间的隐含关系,判断用户对知识点的掌握状态,实时动态更新学科知识图谱。
8.一种知识图谱的构建系统,其特征在于,包括:
数据模,用于采集初始学习数据并存储至学习资源数据库中,根据学科教学大纲及教材对所述初始学习数据进行本体术语提取,并对提取得到的本体术语进行标注;
图谱构建模块,用于录入每个元知识点之间的联系及顺序,通过本体编辑器构建有向的学科知识图谱,生成OWL文件并以三元组的形式存储至学习系统中;
DKT模块,用于实时更新录入用户的学习过程状态数据,通过DKT算法对用户的学习过程状态数据进行多知识点建模,得到用户的学习掌握状态;
知识点挖掘模块,用于根据所述用户的学习掌握状态挖掘各知识点之间的联系,动态更新学科知识图谱;
知识推理模块,用于采用TransE算法对所述学科知识图谱进行知识推理,增加新的元知识点及其层级关系,进一步完善所述学科知识图谱。
9.根据权利要求8所述的知识图谱的构建系统,其特征在于,所述DKT模块,具体为:
获取学习者在系统里所有时序的学习测试数据作为DKT模型的训练样本;
采用tensorflow方法实现一个LSTM训练;
将每个学习者的学习数据作为一个批次输入后进行模型训练处理;
模型训练完成后导出DKT模型,部署至tensorflow serving中;
通过tensorflow serving实时在线调用所述DKT模型,反馈学生知识点掌握状态以及知识点下次答题正确概率。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7任一项所述的知识图谱的构建方法。

说明书全文

一种知识图谱的构建方法、系统及存储介质

技术领域

[0001] 本发明涉及教育信息化技术领域,具体涉及一种知识图谱的构建方法、系统及存储介质。

背景技术

[0002] 随着互联网和大数据时代的到来,传统的教育方式越来越难以满足学生日益增长的个性化学习需求。自适应在线学习由于其因材施教和使用方便等特点,开始逐渐被广泛使用。自适应学习的重要组成部分是学生能评估和学习资源推荐,这些都需要基于一个结构化的教育领域知识体系。因此,构建一个教育知识图谱以支持自适应学习成为当前迫切需要解决的问题。
[0003] 在对现有技术的研究与实践过程中,本发明的发明人发现,现有技术中的知识图谱结构的构建一般采用静态模型,并且利用IRT或BKT知识点追踪法进行知识状态的评估。但是,采用静态模型构建知识图谱无法表现知识点之间的关联性和动态发展特性,并且,IRT和BKT技术是假定用户一旦掌握某一知识点就不会遗忘,并没有考虑到用户对知识点的遗忘性,导致用户在以后做到属于该知识点的题目时往往就会表现很好,而现实中却会发生遗忘该知识点的情况,造成预测准确率低的缺陷

发明内容

[0004] 本发明实施例所要解决的技术问题在于,提供一种知识图谱的构建方法、系统及存储介质,能够通过构建知识图谱获取知识点间关系,精准掌握学习者的知识状态。
[0005] 为解决上述问题,本发明的一个实施例提供一种知识图谱的构建方法,至少包括如下步骤:
[0006] 采集初始学习数据并存储至学习资源数据库中,根据学科教学大纲及教材对所述初始学习数据进行本体术语提取,并对提取得到的本体术语进行标注;
[0007] 录入每个元知识点之间的联系及顺序,通过本体编辑器构建有向的学科知识图谱,生成OWL文件并以三元组的形式存储至学习系统中;
[0008] 实时更新录入用户的学习过程状态数据,通过DKT算法对用户的学习过程状态数据进行多知识点建模,得到用户的学习掌握状态;
[0009] 根据所述用户的学习掌握状态挖掘各知识点之间的联系,动态更新学科知识图谱。
[0010] 进一步地,所述知识图谱的构建方法,还包括:
[0011] 采用TransE算法对所述学科知识图谱进行知识推理,增加新的元知识点及其层级关系,进一步完善所述学科知识图谱。
[0012] 进一步地,所述初始学习数据,包括学习者个人信息、学科学习内容信息、学科练习测试数据和学习资源数据。
[0013] 进一步地,所述标注包括自动标注和手动标注,其中,
[0014] 所述自动标注,具体为:在本体编辑器构建有向的学科知识图谱过程中,使用Jena框架实现本体术语的层级关系;
[0015] 所述手动标注,具体为:整理所述提取得到的本体术语的属性关系和相关关系,通过Jena框架导入本体编辑器中。
[0016] 进一步地,所述学习过程状态数据,包括知识状态记录和知识平测试记录,其中,
[0017] 所述知识状态记录包括已掌握知识点的统计信息和未掌握知识点的统计信息,所述知识水平测试记录包括题目、答题结果、答题次数和答题时间。
[0018] 进一步地,所述实时更新录入用户的学习过程状态数据,通过DKT算法对用户的学习过程状态数据进行多知识点建模,得到用户的学习掌握状态,具体为:
[0019] 获取学习者在系统里所有时序的学习测试数据作为DKT模型的训练样本;
[0020] 采用tensorflow方法实现一个LSTM训练;
[0021] 将每个学习者的学习数据作为一个批次输入后进行模型训练处理;
[0022] 模型训练完成后导出DKT模型,部署至tensorflow serving中;
[0023] 通过tensorflow serving实时在线调用所述DKT模型,反馈学生知识点掌握状态以及知识点下次答题正确概率。
[0024] 进一步地,所述根据所述用户的学习掌握状态挖掘各知识点之间的联系,动态更新学科知识图谱,具体为:
[0025] 通过DKT模型获取当前所有学习者的每个知识点的答题正确概率;
[0026] 采用概率关联规则挖掘技术来识别关系获取知识点之间的隐含关系;
[0027] 根据所述知识点之间的隐含关系,判断用户对知识点的掌握状态,实时动态更新学科知识图谱。
[0028] 本发明的一个实施例还提供了一种知识图谱的构建系统,包括:
[0029] 数据模,用于采集初始学习数据并存储至学习资源数据库中,根据学科教学大纲及教材对所述初始学习数据进行本体术语提取,并对提取得到的本体术语进行标注;
[0030] 图谱构建模块,用于录入每个元知识点之间的联系及顺序,通过本体编辑器构建有向的学科知识图谱,生成OWL文件并以三元组的形式存储至学习系统中;
[0031] DKT模块,用于实时更新录入用户的学习过程状态数据,通过DKT算法对用户的学习过程状态数据进行多知识点建模,得到用户的学习掌握状态;
[0032] 知识点挖掘模块,用于根据所述用户的学习掌握状态挖掘各知识点之间的联系,动态更新学科知识图谱;
[0033] 知识推理模块,用于采用TransE算法对所述学科知识图谱进行知识推理,增加新的元知识点及其层级关系,进一步完善所述学科知识图谱。
[0034] 进一步地,所述DKT模块,具体为:
[0035] 获取学习者在系统里所有时序的学习测试数据作为DKT模型的训练样本;
[0036] 采用tensorflow方法实现一个LSTM训练;
[0037] 将每个学习者的学习数据作为一个批次输入后进行模型训练处理;
[0038] 模型训练完成后导出DKT模型,部署至tensorflow serving中;
[0039] 通过tensorflow serving实时在线调用所述DKT模型,反馈学生知识点掌握状态以及知识点下次答题正确概率。
[0040] 本发明的另一个实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的知识图谱的构建方法。
[0041] 实施本发明实施例,具有如下有益效果:
[0042] 本发明实施例提供的一种知识图谱的构建方法、系统及存储介质,所述方法包括:采集初始学习数据并存储至学习资源数据库中,根据学科教学大纲及教材对初始学习数据进行本体术语提取和标注;录入每个元知识点之间的联系及顺序,通过本体编辑器构建有向的学科知识图谱,生成OWL文件并以三元组的形式存储至学习系统中;实时更新录入用户的学习过程状态数据,通过DKT 算法对用户的学习过程状态数据进行多知识点建模,得到用户的学习掌握状态;根据所述用户的学习掌握状态挖掘各知识点之间的联系,动态更新学科知识图谱。本发明能够通过基于深度学习跟踪DKT,有效解决多知识点建模的场景,精准掌握学习者最新的知识状态,完成知识谱图的构建并获取知识点内在联系,对知识图谱进行知识推理,动态更新知识图谱。
附图说明
[0043] 图1为本发明实施例提供的一种知识图谱的构建方法的流程示意图;
[0044] 图2为本发明实施例提供的DKT模型的结构示意图;
[0045] 图3为本发明实施例提供的构建DKT模型的流程示意图;
[0046] 图4为本发明实施例提供的挖掘知识点间联系的流程示意图;
[0047] 图5为本发明实施例提供的一种知识图谱的构建系统的结构示意图。

具体实施方式

[0048] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0049] 首先介绍本发明可以提供的应用场景,如构建知识图谱。
[0050] 本发明第一实施例:
[0051] 请参阅图1-4。
[0052] 如图1所示,本实施例提供的一种知识图谱的构建方法,至少包括如下步骤:
[0053] S101、采集初始学习数据并存储至学习资源数据库中,根据学科教学大纲及教材对所述初始学习数据进行本体术语提取,并对提取得到的本体术语进行标注;
[0054] 具体的,对于步骤S101,采集初始学习数据,包括各领域的课程教育目标、学习资源、课程结构、教学策略和练习测试题库等,预先由学科专家对学科教学大纲及教材进行本体术语的提取,在对本体术语进行标注还分为系统自动标注和手动标注两种方式,可针对不同情景切换更有效率的标注方式,提高灵活性和工作效率。
[0055] S102、录入每个元知识点之间的联系及顺序,通过本体编辑器构建有向的学科知识图谱,生成OWL文件并以三元组的形式存储至学习系统中;
[0056] 具体的,对于步骤S102,根据步骤S101中采集的初始学习数据,在录入每个元知识点之间的联系和顺序后,根据提取和标注后的本体术语以及元知识点之间的联系和顺序,使用本体编辑器Protégé构建有向的学科知识图谱,构建完成后生成OWL文件以三元组的形式存储至学习系统中。
[0057] S103、实时更新录入用户的学习过程状态数据,通过DKT算法对用户的学习过程状态数据进行多知识点建模,得到用户的学习掌握状态;
[0058] 具体的,对于步骤S103,学习者登入学习系统进行学习和测试,在学习过程中,根据学习者的学习和测试数据,通过DKT算法实现对学习者的多知识点建模,得到学习者当前的学习掌握状态,例如对每个知识点的掌握状态、答题时间、答题正确率等数据。
[0059] S104、根据所述用户的学习掌握状态挖掘各知识点之间的联系,动态更新学科知识图谱。
[0060] 具体的,对于步骤S104,通过DKT获取当前学习者的所有知识点答对概率,得到对应的学习掌握状态,通过概率关联规则挖掘技术来识别关系获取知识点间的隐含关系,动态更新学科知识图谱。
[0061] 在优选的实施例中,所述知识图谱的构建方法,还包括:
[0062] 采用TransE算法对所述学科知识图谱进行知识推理,增加新的元知识点及其层级关系,进一步完善所述学科知识图谱。
[0063] 具体的,通过将学习系统中存储的三元组形式的OWL文件进行翻译,包括主体、关系和客体,而主体和客体统称为实体。在构建有向的知识图谱时,将三者链接起来为一个图,其中,每个节点是一个实体,每条边是一个关系,主体指向客体,TransE的直观含义,就是TransE基于实体和关系的分布式向量表示,将每个三元组进行中的关系看作从主体到客体的翻译,通过不断调整主体、关系和客体,使得主体的向量值加关系的向量值尽可能与客体的向量值,完成对主体和客体之间的关系推演,增减新的元知识点及其关系,进一步完善所述学科知识图谱,提高知识图谱的预测精准性和有效性。
[0064] 所述TransE算法训练过程步骤如下:首先,确定训练集,超参数γ,学习率λ;初始化关系向量与实体向量,对于每个向量的每个维度在预设值范围内随机取一个值,对所有的向量初始化之后要进行归一化;进入循环,采用 minibatch,一批一批的训练会加快训练速度,对于每批数据进行负采样(将训练集中的三元组某一实体随机替换掉),T_batch初始为一个空列表,然后向其添加由元组对(原三元组,打碎的三元组)组成的列表:T_batch=[([h,r,t], [h',r,t']),([ ],[ ]),......];拿到T_batch后进行训练,采用梯度下降进行调整参数。
[0065] 在优选的实施例中,所述初始学习数据,包括学习者个人信息、学科学习内容信息、学科练习测试数据和学习资源数据。
[0066] 具体的,学习资源数据以及学科学习内容信息预先由教育机构采集并进行系统录入,学习者登入系统注册个人信息,在完成学科知识前测后,得到学习者对应的学科练习测试数据。
[0067] 在优选的实施例中,所述标注包括自动标注和手动标注,其中,[0068] 所述自动标注,具体为:在本体编辑器构建有向的学科知识图谱过程中,使用Jena框架实现本体术语的层级关系;
[0069] 所述手动标注,具体为:整理所述提取得到的本体术语的属性关系和相关关系,通过Jena框架导入本体编辑器中。
[0070] 具体的,在对本体术语进行标注还分为系统自动标注和手动标注两种方式,在使用Protégé对本体进行构建过程中,使用Jena框架实现本体的层级关系;属性关系和相关关系由学科专家整理后通过Jena框架导入Protégé,针对不同情景切换更有效率的标注方式,提高灵活性和工作效率。
[0071] 在优选的实施例中,所述学习过程状态数据,包括知识状态记录和知识水平测试记录,其中,
[0072] 所述知识状态记录包括已掌握知识点的统计信息和未掌握知识点的统计信息,所述知识水平测试记录包括题目、答题结果、答题次数和答题时间。
[0073] 具体的,在学习者学习过程中,实时采集并更新学习过程状态数据,包括知识状态记录和知识水平测试记录,检测学习者对各个知识点的掌握状态以及知识点测试记录。
[0074] 在优选的实施例中,如图3所示,所述实时更新录入用户的学习过程状态数据,通过DKT算法对用户的学习过程状态数据进行多知识点建模,得到用户的学习掌握状态,具体为:
[0075] 获取学习者在系统里所有时序的学习测试数据作为DKT模型的训练样本;
[0076] 采用tensorflow方法实现一个LSTM训练;
[0077] 将每个学习者的学习数据作为一个批次输入后进行模型训练处理;
[0078] 模型训练完成后导出DKT模型,部署至tensorflow serving中;
[0079] 通过tensorflow serving实时在线调用所述DKT模型,反馈学生知识点掌握状态以及知识点下次答题正确概率。
[0080] 具体的,如图2所示的DKT模型按照时间顺序展开,序列x1,x2,x3...对应了t1,t2,t3...时刻学生答题信息的编码,x′1,x′2,x′3…对应输入序列x1,x2,x3 的外部特征(答题次数、答题时间),隐层状态h0,h1,h2…对应了各个时刻学生的知识点掌握情况,模型的输出序列y1,y2,y3…对应了各时刻学生回答题库中的所有习题回答正确的概率,当学习者答题时,系统通过tensorflow serving进行模型的实时在线调用,从隐层返回学生知识点掌握状态,输出层返回知识点下次答题正确概率,精准得到用户的学习掌握状态,动态更新学科知识图谱。
[0081] 在优选的实施例中,如图4所示,所述根据所述用户的学习掌握状态挖掘各知识点之间的联系,动态更新学科知识图谱,具体为:
[0082] 通过DKT模型获取当前所有学习者的每个知识点的答题正确概率;
[0083] 采用概率关联规则挖掘技术来识别关系获取知识点之间的隐含关系;
[0084] 根据所述知识点之间的隐含关系,判断用户对知识点的掌握状态,实时动态更新学科知识图谱。
[0085] 具体的,所述挖掘具体步骤如下:通过DKT获取当前所有学习者的所有知识点答对概率;通过概率关联规则挖掘技术来识别关系获取知识点间的隐含关系。从先决条件关系的度来看,如果概念Si是概念Sj的先决条件,那么不掌握Si的学习者很可能不掌握Sj,而掌握Sj的学习者很可能掌握Si,得出
[0086]
[0087] 计算支持度supp和置信度conf两个关键指标,定义两个关键参数minsupp 和minconf,代入上述公式中,可得:
[0088]
[0089] 同理可得,
[0090] 本实施例提供的一种知识图谱的构建方法,包括:采集初始学习数据并存储至学习资源数据库中,根据学科教学大纲及教材对初始学习数据进行本体术语提取和标注;录入每个元知识点之间的联系及顺序,通过本体编辑器构建有向的学科知识图谱,生成OWL文件并以三元组的形式存储至学习系统中;实时更新录入用户的学习过程状态数据,通过DKT算法对用户的学习过程状态数据进行多知识点建模,得到用户的学习掌握状态;根据所述用户的学习掌握状态挖掘各知识点之间的联系,动态更新学科知识图谱。本发明能够通过基于深度学习跟踪DKT,有效解决多知识点建模的场景,精准掌握学习者最新的知识状态,完成知识图谱的构建并获取知识点内在联系,对知识图谱进行知识推理,动态更新知识图谱。
[0091] 本发明第二实施例
[0092] 请参阅图2-5。
[0093] 如图5所示,本发明的一个实施例还提供了一种知识图谱的构建系统,包括:
[0094] 数据模块100,用于采集初始学习数据并存储至学习资源数据库中,根据学科教学大纲及教材对所述初始学习数据进行本体术语提取,并对提取得到的本体术语进行标注;
[0095] 具体的,对于数据模块100,采集初始学习数据,包括各领域的课程教育目标、学习资源、课程结构、教学策略和练习测试题库等,预先由学科专家对学科教学大纲及教材进行本体术语的提取,在对本体术语进行标注还分为系统自动标注和手动标注两种方式,可针对不同情景切换更有效率的标注方式,提高灵活性和工作效率。
[0096] 图谱构建模块200,用于录入每个元知识点之间的联系及顺序,通过本体编辑器构建有向的学科知识图谱,生成OWL文件并以三元组的形式存储至学习系统中;
[0097] 具体的,对于图谱构建模块200,根据数据模块100采集的初始学习数据,在录入每个元知识点之间的联系和顺序后,根据提取和标注后的本体术语以及元知识点之间的联系和顺序,使用本体编辑器Protégé构建有向的学科知识图谱,构建完成后生成OWL文件以三元组的形式存储至学习系统中。
[0098] DKT模块300,用于实时更新录入用户的学习过程状态数据,通过DKT算法对用户的学习过程状态数据进行多知识点建模,得到用户的学习掌握状态;
[0099] 具体的,对于DKT模块300,学习者登入学习系统进行学习和测试,在学习过程中,根据学习者的学习和测试数据,通过DKT算法实现对学习者的多知识点建模,得到学习者当前的学习掌握状态,例如对每个知识点的掌握状态、答题时间、答题正确率等数据。
[0100] 知识点挖掘模块400,用于根据所述用户的学习掌握状态挖掘各知识点之间的联系,动态更新学科知识图谱;
[0101] 具体的,对于知识点挖掘模块400,如图4所示,通过DKT模型获取当前所有学习者的每个知识点的答题正确概率;采用概率关联规则挖掘技术来识别关系获取知识点之间的隐含关系;根据所述知识点之间的隐含关系,判断用户对知识点的掌握状态,实时动态更新学科知识图谱。
[0102] 其中,所述挖掘具体步骤如下:通过DKT获取当前所有学习者的所有知识点答对概率;通过概率关联规则挖掘技术来识别关系获取知识点间的隐含关系。从先决条件关系的角度来看,如果概念Si是概念Sj的先决条件,那么不掌握 Si的学习者很可能不掌握Sj,而掌握Sj的学习者很可能掌握Si,得出
[0103]
[0104] 计算支持度supp和置信度conf两个关键指标,定义两个关键参数minsupp 和minconf,代入上述公式中,可得:
[0105]
[0106] 同理可得,
[0107] 知识推理模块500,用于采用TransE算法对所述学科知识图谱进行知识推理,增加新的元知识点及其层级关系,进一步完善所述学科知识图谱。
[0108] 具体的,对于知识推理模块500,通过将学习系统中存储的三元组形式的 OWL文件进行翻译,包括主体、关系和客体,而主体和客体统称为实体。在构建有向的知识图谱时,将三者链接起来为一个图,其中,每个节点是一个实体,每条边是一个关系,主体指向客体,TransE的直观含义,就是TransE基于实体和关系的分布式向量表示,将每个三元组进行中的关系看作从主体到客体的翻译,通过不断调整主体、关系和客体,使得主体的向量值加关系的向量值尽可能与客体的向量值,完成对主体和客体之间的关系推演,增减新的元知识点及其关系,进一步完善所述学科知识图谱,提高知识图谱的预测精准性和有效性。
[0109] 所述TransR算法训练过程步骤如下:首先,确定训练集,超参数γ,学习率λ;初始化关系向量与实体向量,对于每个向量的每个维度在预设值范围内随机取一个值,对所有的向量初始化之后要进行归一化;进入循环,采用minibatch,一批一批的训练会加快训练速度,对于每批数据进行负采样(将训练集中的三元组某一实体随机替换掉),T_batch初始为一个空列表,然后向其添加由元组对(原三元组,打碎的三元组)组成的列表:T_batch=[([h,r,t], [h',r,t']),([ ],[ ]),......];拿到T_batch后进行训练,采用梯度下降进行调整参数。
[0110] 在优选的实施例中,如图3所示,所述DKT模块300的构建步骤具体为:
[0111] 获取学习者在系统里所有时序的学习测试数据作为DKT模型的训练样本;
[0112] 采用tensorflow方法实现一个LSTM训练;
[0113] 将每个学习者的学习数据作为一个批次输入后进行模型训练处理;
[0114] 模型训练完成后导出DKT模型,部署至tensorflow serving中;
[0115] 通过tensorflow serving实时在线调用所述DKT模型,反馈学生知识点掌握状态以及知识点下次答题正确概率。
[0116] 具体的,如图2所示的DKT模型结构按照时间顺序展开,序列x1,x2,x3... 对应了t1,t2,t3...时刻学生答题信息的编码,x′1,x′2,x′3…对应输入序列x1,x2, x3的外部特征(答题次数、答题时间),隐层状态h0,h1,h2…对应了各个时刻学生的知识点掌握情况,模型的输出序列y1,y2,y3…对应了各时刻学生回答题库中的所有习题回答正确的概率,当学习者答题时,系统通过tensorflow serving 进行模型的实时在线调用,从隐层返回学生知识点掌握状态,输出层返回知识点下次答题正确概率,精准得到用户的学习掌握状态,动态更新学科知识图谱。
[0117] 在优选的实施例中,所述标注包括自动标注和手动标注,其中,[0118] 所述自动标注,具体为:在本体编辑器构建有向的学科知识图谱过程中,使用Jena框架实现本体术语的层级关系;
[0119] 所述手动标注,具体为:整理所述提取得到的本体术语的属性关系和相关关系,通过Jena框架导入本体编辑器中。
[0120] 具体的,在对本体术语进行标注还分为系统自动标注和手动标注两种方式,在使用Protégé对本体进行构建过程中,使用Jena框架实现本体的层级关系;属性关系和相关关系由学科专家整理后通过Jena框架导入Protégé,针对不同情景切换更有效率的标注方式,提高灵活性和工作效率。
[0121] 本实施例提供的一种知识图谱的构建系统,包括:数据模块,用于采集初始学习数据并存储至学习资源数据库中,根据学科教学大纲及教材对所述初始学习数据进行本体术语提取,并对提取得到的本体术语进行标注;图谱构建模块,用于录入每个元知识点之间的联系及顺序,通过本体编辑器构建有向的学科知识图谱,生成OWL文件并以三元组的形式存储至学习系统中;DKT模块,用于实时更新录入用户的学习过程状态数据,通过DKT算法对用户的学习过程状态数据进行多知识点建模,得到用户的学习掌握状态;知识点挖掘模块,用于根据所述用户的学习掌握状态挖掘各知识点之间的联系,动态更新学科知识图谱;知识推理模块,用于采用TransE算法对所述学科知识图谱进行知识推理,增加新的元知识点及其层级关系,进一步完善所述学科知识图谱。本发明能够通过基于深度学习跟踪DKT,有效解决多知识点建模的场景,精准掌握学习者最新的知识状态,完成知识图谱的构建并获取知识点内在联系,对知识图谱进行知识推理,动态更新知识图谱。
[0122] 本发明的另一个实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的知识图谱的构建方法。
[0123] 在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0124] 在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述模块的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0125] 所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0126] 另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0127] 以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变形,这些改进和变形也视为本发明的保护范围。
[0128] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈