首页 / 专利库 / 人工智能 / 词性标注 / 一种基于搜索引擎的在线课程概念知识图谱构建方法

一种基于搜索引擎的在线课程概念知识图谱构建方法

阅读:747发布:2020-05-14

专利汇可以提供一种基于搜索引擎的在线课程概念知识图谱构建方法专利检索,专利查询,专利分析的服务。并且本 发明 提出一种基于 搜索引擎 的在线课程概念知识图谱构建方法,属于信息技术领域。该方法使用外部 数据库 和 自然语言处理 的方法,获取了课程文本中的概念,由此得到课程领域分类的结果,同时利用搜索引擎获取概念的搜索结果,提取其中的课程扩展概念,完成概念知识图谱的构建。本发明无需 训练数据 ,可在课程文本这一特殊场景中获取准确且全面的概念,有效构建在线课程概念知识图谱。,下面是一种基于搜索引擎的在线课程概念知识图谱构建方法专利的具体信息内容。

1.一种基于搜索引擎的在线课程概念知识图谱构建方法,其特征在于,包括以下步骤:
1)构建候选课程领域,其中,每一个候选课程领域由<一级领域,二级领域>对构成;
对每个候选课程领域,构建对应的种子词集合;
2)选定在线课程,提取课程概念;
2-1)选定在线课程,对课程文本进行文本分词与词性标注
2-2)利用步骤2-1)的结果筛选候选概念词:
2-3)基于词向量的迭代相似度计算,从步骤2-2)的候选概念词中得到课程概念词,组成课程概念集合:
3)课程概念分类;
设步骤2)得到的课程概念集合为{c1,...,cn},一级领域有{l11,...,l1p},二级领域有{l21,...,l2q},p<<q;计算l1i与每个cj的word2vec词向量相似度的均值,相似度均值最大的l1i是该课程所属的一级领域;计算l2i与每个cj的word2vec词向量相似度的均值,相似度均值最大的l2i是该课程所属的二级领域;
4)获取课程概念搜索结果
获取课程概念在搜索引擎的搜索结果,整合每一条搜索结果中的文字片段获得搜索结果的文本;
5)提取扩展概念;
将步骤2)得到的课程概念作为种子词,步骤4)得到的文本作为概念抽取算法的输入,利用概念抽取算法得到与课程概念相关的扩展概念集合{ec1,...,ecm};其中,eci为与课程概念相关的第i个扩展概念,m为扩展概念总数;
6)整合所有课程概念及其扩展概念,得到在线课程的概念知识图谱;
对于每个课程概念ci利用word2vec词向量求余弦相似度得到扩展概念集合中与该课程概念相似度在A以上的扩展概念集合{eci,1,...,eci,k},每一概念对<ci,eci,j>都是相关的一对概念,对应概念知识图谱中的一条边;
将在线课程的课程概念和扩展概念作为知识图谱中的结点,课程概念与扩展概念相似度在A以上的概念对在知识图谱中建立对应边,得到该课程的概念知识图谱。

说明书全文

一种基于搜索引擎的在线课程概念知识图谱构建方法

技术领域

[0001] 本发明属于信息技术领域,特别提出一种基于搜索引擎的在线课程概念知识图谱构建方法。

背景技术

[0002] 大型开放式网络课程(MOOC)是近几年兴起的一种全新的教育模式,脱离了时间、地点的限制,让更多的人能够随时享受高质量的教学内容,减少教育资源不平等的现象。国内外著名的在线教育平台如edX、Coursera、学堂在线等,都有不同的高校资源支持,平台上包含许多大师的精品课程,经过几年的发展已经成为大众学习的重要方式之一。课程文本(字幕)是在线课程重要的组成部分,其中包含了这课程重要的教学内容,不同于一般的文本资料,课程文本具有更高的概念分布密度,在听讲/阅读的时候更难理解,由此构建的概念知识图谱有助于学习在线课程;另一方面,课程文本是对课程所属领域介绍的重要资料,利用构建的概念知识图谱也能反映领域的知识分布。然而课程文本来自于在线课程授课者的口头讲解,尽管比日常交流更加正式,其文本质量还是不如书面文字,同时高密度、多低频的概念分布密度也增加了构建概念知识图谱的难度。
[0003] 知识图谱主要包括实体、关系、属性三个组成部分,概念知识图谱的构建重点是如何获取概念实体以及概念间相关关系的确定,因此最大的难度在于概念抽取,而不必考虑实体所属类别、语义合并、属性抽取等问题。对于知识图谱的构建和应用目前已经有许多相关的研究,如吴越构建了微博社区的知识图谱,提取了人物、事物、地点、事件、话题5种实体和它们之间的关系,从语义上改进社交网络搜索,但许多重要概念在课程文本中出现频次极低,识别概念的方法不同于上述5种实体;刘凯使用了条件随机场方法来抽取中医临床病历中的实体,但基于统计的机器学习方法也无法识别出那些出现频次极低的概念词;神经网络也能解决实体抽取的问题,Lample G等人提出了不需要人工设计的特征和语言的先验知识,利用LSTM在人工标注的语料集上训练结果来做命名实体识别的方法,但本场景没有人工标注的数据可用。
[0004] 上述方法能有效解决知识图谱构建、实体抽取等问题,然而它们均无法应用在课程文本的概念提取这一特殊的场景中,课程文本因为其口语化的特征和高密度的概念分布,导致大量重要概念出现频次很低,且有字幕的在线课程数量较少。因此传统的基于规则、基于统计或者基于深度学习的三类方法均难以解决课程文本的概念知识图谱构建问题。其中,基于规则的方法会引入过多非概念词,基于统计的方法会漏掉低频次的概念,深度学习依赖大量人工标注的训练数据

发明内容

[0005] 本发明的目的是为克服已有技术的不足之处,提出一种基于搜索引擎的在线课程概念知识图谱构建方法。本发明无需训练数据,可在课程文本这一特殊场景中获取准确且全面的概念,有效构建在线课程概念知识图谱。
[0006] 本发明提出一种基于搜索引擎的在线课程概念知识图谱构建方法,其特征在于,包括以下步骤:
[0007] 1)构建候选课程领域,其中,每一个候选课程领域由<一级领域,二级领域>对构成;
[0008] 对每个候选课程领域,构建对应的种子词集合;
[0009] 2)选定在线课程,提取课程概念;
[0010] 2-1)选定在线课程,对课程文本进行文本分词与词性标注
[0011] 2-2)利用步骤2-1)的结果筛选候选概念词:
[0012] 2-3)基于词向量的迭代相似度计算,从步骤2-2)的候选概念词中得到课程概念词,组成课程概念集合:
[0013] 3)课程概念分类;
[0014] 设步骤2)得到的课程概念集合为{c1,…,cn},一级领域有{l11,…,l1p},二级领域有{l21,…,l2q},p<
[0015] 4)获取课程概念搜索结果
[0016] 获取课程概念在搜索引擎的搜索结果,整合每一条搜索结果中的文字片段获得搜索结果的文本;
[0017] 5)提取扩展概念;
[0018] 将步骤2)得到的课程概念作为种子词,步骤4)得到的文本作为概念抽取算法的输入,利用概念抽取算法得到与课程概念相关的扩展概念集合{ec1,…,ecm};其中,eci为与课程概念相关的第i个扩展概念,m为扩展概念总数;
[0019] 6)整合所有课程概念及其扩展概念,得到在线课程的概念知识图谱;
[0020] 对于每个课程概念ci利用word2vec词向量求余弦相似度得到扩展概念集合中与该课程概念相似度在A以上的扩展概念集合{eci,1,…,eci,k},每一概念对都是相关的一对概念,对应概念知识图谱中的一条边;
[0021] 将在线课程的课程概念和扩展概念作为知识图谱中的结点,课程概念与扩展概念相似度在A以上的概念对在知识图谱中建立对应边,得到该课程的概念知识图谱。
[0022] 本发明的特点及有益效果在于:
[0023] 本发明针对课程文本的概念知识图谱构建应用需求借助外部数据库(百科词条)、结合名词词性的规则过滤和类似PageRank的迭代方法,能有效完成课程概念提取的任务,在此基础上利用课程概念能自动完成课程的分类任务;另一方面仅依靠课程概念还不足以构建一个相对完备的概念知识图谱,本发明跳出了课程文本的范围限制,使用课程概念在搜索引擎的搜索结果,成功获取了课程概念的扩展概念,以此为基础完成在线课程的概念知识图谱的构建。附图说明
[0024] 图1是本发明方法的整体流程图
[0025] 图2是本发明中基于词向量的迭代相似度计算的流程图。
[0026] 图3是本发明实施例中百度和google搜索结果的文字片段示例图。

具体实施方式

[0027] 本发明提出一种基于搜索引擎的在线课程概念知识图谱构建方法,下面结合附图及实施例对本发明进一步详细说明如下。
[0028] 本发明方法可以应用于已给定分类领域的中文文本上:如学堂在线网站的课程字幕。学堂在线网站的课程分成计算机、经济管理等领域,每门课程由许多视频组成,这些视频大多提供了字幕信息,把这些字幕汇总起来构成的文本称为该课程的字幕文本。本实施例以学堂在线上的课程字幕文本为输入,来描述本发明如何使用自然语言处理的方法来抽取课程概念、如何通过课程概念进行课程分类以及怎么利用搜索引擎的搜索结果来获取每个课程概念的扩展概念,并最终构建概念的知识图谱。
[0029] 本发明提出的一种基于搜索引擎的在线课程概念知识图谱构建方法,整体流程如图1所示,包括以下步骤:
[0030] 1)构建候选课程领域及每个候选课程领域的种子词集合。
[0031] 候选课程领域设计时可以参考二级学科并进行一些补充,每一个候选课程领域由<一级领域,二级领域>对构成,先确定该课程的一级领域,需要包含可能的在线课程领域。例如学堂在线平台课程的一级领域主要有计算机、经管、社科、生物、物理等,然后分别设计每个一级领域包含的二级领域,也要尽量覆盖在线课程可能的领域,如计算机的二级领域有算法、操作系统人工智能、程序设计等;
[0032] 对每个候选课程领域,构建一个适用于在线课程的高质量种子词集合;种子词是指那些常用的重要概念词,实践中根据一级领域分别构建种子词集合,再合并到一起会比较省也能有不错的效果。选择的种子词都是每个课程领域的代表概念,在第二步提取课程概念中,出现在候选概念词中的种子词决定了那些语义相似的概念会是课程概念。
[0033] 以学堂在线平台上的“数据结构(自主模式)”课程为例,课程文本T由其所有课程视频的字幕构成,正确分类时数据结构将归类为<计算机,算法>,其中计算机为一级领域,算法为二级领域;本实施例中,对该候选课程领域建立种子词集合S={s1,…,sp};一般来说分类到计算机已经基本满足在线课程的自动分类需求,部分课程也可以属于多个领域;课程的种子词取自上述种子词集合S,对于该课程而言,种子词有数据结构、算法、二叉树、数组、递归等。本发明通过计算会得到课程概念集合C={c1,…,cn}、扩展概念集合EC={ec1,…,ecm},对于每个课程概念ci有集合RC={eci,1,…,eci,k},代表该课程概念为前k相关的扩展概念的集合。
[0034] 对于词/短语的word2vec词向量计算,实验中使用的是百度百科全词条文本的训练数据集(可以从网上获取得到),短语w1…wl的word2vec词向量由所有wi的词向量之和再单位化计算所得;设v1和v2是两个词向量,它们的相似度为0.5+0.5*cos(v1,v2),即余弦相似度映射到区间[0,1]的结果。
[0035] 为了获取一门在线课程的课程概念,本发明设计了一种借助外部数据库的规则过滤和迭代的课程概念抽取算法,然后使用基于课程概念的自动课程分类方法获取课程所属领域,另外本发明使用基于搜索引擎的概念扩展和概念知识图谱构建方法获取扩展概念并最终构建概念知识图谱。
[0036] 2)选定在线课程,提取课程概念;
[0037] 提取课程概念主要有文本分词与词性标注、筛选合适的候选概念词、基于词向量的迭代相似度计算三个部分。本发明对课程概念的定义为有相应百科词条的名词和名词短语,百科词条要求该词/短语有大众承认的独特意义(不同于一般知识图谱的实体),名词词性是概念的必要要求。以数据结构百科词条的一段话“数据结构是指相互之间存在着一种或多种关系的数据元素的集合和该集合中数据元素之间的关系组成。”为例:
[0038] 2-1)选定在线课程,对应课程文本进行文本分词与词性标注:
[0039] 对输入的文本需要进行分词和词性标注两步预处理,工程上可以对输入的课程文本使用python的jieba库做文本分词与词性标注操作,以句子为界,所有连续的1-3个词均是可能的概念词。对示例的分词和词性标注结果为:
[0040] 数据结构n/是v/指n/相互之间l/存在v/着uz/一种m/或c/多种m/关系n/的uj/数据n/元素n/的uj/集合v/和c/该r/集合v/中f/数据n/元素n/之间f/的uj/关系n/组成v/。x[0041] 2-2)筛选合适的候选概念词;
[0042] 本发明使用基于规则的方法筛选名词和名词短语,能保留文本中的低频次概念,然后借助外部数据库(百科词条)进一步过滤得到合适的候选概念词。对于名词和名词短语的筛选,可以使用正则表达式匹配来做,如果我们把一个短语的词性用@连接起来(如“数据n/元素n”的词性为@n@n),则一个可行的正则表达式如下:
[0043] ^(@(([av]?n[rstz]?)|l|a|v))*(@(([av]?n[rstz]?)|l))$
[0044] 当短语词性匹配成功时认为其是名词词性。再使用百度百科的词条做进一步过滤,保留有相应百科词条的那些,即得到候选概念词。
[0045] 经过筛选有“数据结构、数据、元素、数据元素、关系”5个候选概念词。
[0046] 2-3)基于词向量的迭代相似度计算;
[0047] 图2是该步骤的流程图,步骤2-2)得到了n个候选概念词{d1,…,dn},计算可得它们的word2vec词向量为{v1,…,vn},种子词集合为S,它们初始化权值为{f1,…,fn},当di在S中时,fi为1否则为0。每一步迭代相当于做一次概率转移,若di和dj没有共同的词,则权值从di转移到dj的系数为vi与vj的相似度,否则为0;每一步迭代后,需要将权值{f1,…,fn}同除以max(f1,…,fn)做归一化处理。
[0048] 实验结果表明一般需要3次迭代,且每个概念词di权值转移时只考虑前500个词向量最相似的dj来减少计算时间。迭代完成后,取f值大于θ的候选概念作为课程概念,对于课程文本来说θ=0.6比较合理,能囊括大部分与课程相关的概念。
[0049] 对于示例的5个候选概念词,种子词至少应包含“数据结构”,假设我们经过3次迭代后它们的f值为:数据结构(1.0)、数据(0.9)、数据元素(0.7)、元素(0.5)、关系(0.3),那么最终的课程概念词是数据结构、数据、数据元素。
[0050] 3)课程概念分类;
[0051] 设步骤2)得到的课程概念集合为{c1,…,cn},一级领域有{l11,…,l1p},二级领域有{l21,…,l2q},p<
[0052] 实验结果表明,约85%的课程自动选择了正确的课程领域,如果考虑自动选择的前3个领域,则接近100%正确。例如,对于前述数据结构(自主模式)课程,数学、计算机是自动选择的前2个一级领域,函数论、算法是自动选择的前2个二级领域。
[0053] 4)获取课程概念搜索结果
[0054] 使用简单的网络爬虫可以获取到课程概念在搜索引擎的搜索结果,整合每一条搜索结果中的文字片段即可获得搜索结果的文本T’,其中文字片段指下图中框出来的文字内容。在合理范围内获取越多的搜索结果,之后求得的扩展概念越全面,取前3页比较合适。本发明实施例中对于“数据结构”的百度和google搜索结果的文字片段如图3所示。
[0055] 5)提取扩展概念;
[0056] 将步骤2)得到的课程概念作为种子词,步骤4)获取的文本作为步骤2)中概念抽取算法的输入,重复一次概念抽取算法所得的结果即为与课程概念相关的扩展概念{ec1,…,ecm}。比如课程概念是“数据结构”,使用搜索引擎获取了上图的搜索结果,概念抽取算法会从中抽取出“数据结构、数据、元素、数据元素、关系、存储、集合”等概念词。
[0057] 6)整合所有课程概念及其扩展概念,得到在线课程的概念知识图谱;
[0058] 一门在线课程的课程文本在经过步骤2)至5)后能得到课程概念集合{c1,…,cn}和扩展概念集合{ec1,…,ecm},对于每个课程概念ci利用word2vec词向量求余弦相似度可以找出扩展概念集合中与其相似度在A(0≤A≤1)以上的扩展概念集合{eci,1,…,eci,k},每一概念对都是相关的一对概念,对应概念知识图谱中的一条“相关”边。C值越大得到的概念对相关度要求越严格,知识图谱的“相关”边数量越少,0.7是工程上比较合理的A值。
[0059] 我们把一门在线课程的课程概念和扩展概念作为知识图谱中的结点,课程概念与扩展概念相似度在A以上的概念对在知识图谱中建立“相关”边,这样得到的是该课程的概念知识图谱,有助于学生理解该课程;如果利用步骤2所得的课程分类情况,把特定一级领域/二级领域中的所有课程整合建立大的概念知识图谱,则可以帮助我们了解一个领域的发展情况。
[0060] 本发明的主要内容已通过上述实例作了详细介绍,应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈