首页 / 专利库 / 地基 / 基础 / 一种基于MOOC数据中辍学行为的因果关系挖掘方法

一种基于MOOC数据中辍学行为的因果关系挖掘方法

阅读:421发布:2021-09-19

专利汇可以提供一种基于MOOC数据中辍学行为的因果关系挖掘方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于MOOC数据中辍学行为的因果关系模型的建立方法,通过分析MOOC日志数据集和构建影响辍学行为的候选自变量,定性分析所述候选自变量与因变量之间的相关性;设计所述候选自变量与因变量之间依赖性的定量度量方法,来构建无向图,得到由自变量和因变量组成的 节点 集构成的无向图,使用基于互信息的局部因果网络结构发现 算法 ,通过无向图中基于回归分析方程剔除错误变量和基于条件独立性测试生成局部网络,构建面向辍学行为的带方向的局部因果网络结构,对于任何一种目标学习效果变量,都可以通过无向图生成、错误节点剔除和局部网络结构构建来进行关于该学习效果的局部因果网络结构的构建工作,进行学习效果的因果关系挖掘。,下面是一种基于MOOC数据中辍学行为的因果关系挖掘方法专利的具体信息内容。

1.一种基于MOOC数据中辍学行为的因果关系挖掘方法,其特征在于,包括以下步骤:
步骤100,MOOC日志数据集的获取与分析,得到MOOC日志数据集中关键数据之间的关联关系;
步骤200,在步骤100得到MOOC日志数据集中关键数据之间的关联关系的基础上构建影响辍学行为的候选自变量;
步骤300,基于步骤200构建的候选自变量,将辍学行为作为因变量,定性分析所述候选自变量与因变量之间的相关性;设计所述候选自变量与因变量之间依赖性的定量度量方法,来构建无向图,得到由自变量和因变量组成的节点集构成的无向图;
步骤400,基于步骤300所得到的自变量和因变量组成的节点集构成的无向图,将局部贝叶斯网络结构学习转化成目标变量T的尔可夫毯的学习,使用基于互信息的局部因果网络结构发现算法,通过无向图中基于回归分析方程剔除错误变量和基于条件独立性测试生成局部网络,构建面向辍学行为的带方向的局部因果网络结构,具体如下:
步骤401,采用基于回归分析的错误变量剔除的方法,剔除针对步骤300所得无向图带方向的局部因果网络结构中与辍学行为变量相关性不强的节点,得到剔除掉错误变量的辍学行为变量的父子节点集;
步骤402,基于步骤401生成剔除掉错误变量的辍学行为变量的父子节点集,进行带方向的局部因果关系网络的构建,采用条件独立性测试方法,进行配偶节点的加入和方向判别,并对无向图中剩余的父子节点进行方向判别;生成带方向的局部因果关系网络结构。
2.根据权利要求1所述的基于MOOC数据中辍学行为的因果关系挖掘方法,其特征在于,步骤100中,基于MOOC日志数据集中的表格,按照关键数据表中的关键字对数据进行整体分析,根据所述关键数据表中字段的含义,对所述数据集进行聚合分析,得到MOOC日志数据集中关键数据的E-R图,E-R图展示出所述MOOC日志数据集中关键数据之间的关联关系。
3.根据权利要求2所述的基于MOOC数据中辍学行为的因果关系挖掘方法,其特征在于,具体包括以下步骤:
步骤101,通过对MOOC日志数据集的操作种类和时序分类,形成关于对MOOC日志数据集种类和时序的特征;
步骤102,通过在MOOC日志数据集中匹配用户id和课程id,得到每个用户对课程的操作数及当前用户操作本课程数占所有用户操作本门课程总数的比例;
步骤103,对MOOC日志数据集中的离散分布的数据进行标准化处理及无关变量进行删除,得到最后的数据集并存储在本地数据库中。
4.根据权利要求1所述的基于MOOC数据中辍学行为的因果关系挖掘方法,其特征在于,步骤200中,在步骤100分析所述数据集的基础上,按照学习行为的分类,并根据先验知识,根据可能存在因果关系的变量,构建四类基于学习行为的候选自变量,即,学习者对学习资源的访问行为、学习者之间的交流行为、学习者与教育者的互动行为和学习者与MOOC系统交互行为。
5.根据权利要求1所述的基于MOOC数据中辍学行为的因果关系挖掘方法,其特征在于,步骤300中,首先,选择斯皮尔曼相关系数检测步骤200所构建的各个候选自变量与因变量之间的相关性,反映两个变量之间的线性相关程度;
然后,通过计算候选自变量点的标准分数均值估计得到自变量与因变量线性相关程度。
6.根据权利要求5所述的基于MOOC数据中辍学行为的因果关系挖掘方法,其特征在于,步骤302,设计变量间依赖性的定量度量方法,构建无向图,包括以下步骤:
步骤3021,通过在步骤200中得到的在自变量和因变量构成的变量集X中,将变量的相似度计算量化为概率计算模型;
步骤3022,计算候选自变量和因变量中不同取值对应的联合概率p(xij,xi'j'),其中,xi,xi'为候选自变量或因变量;j,j'两个变量分别的取值数;xij,xi'j'变量xi,xi'中的不同取值;
步骤3023,将步骤3022所得结果通过 公式,计
算候选自变量和因变量中不同取值对应的联合概率和对应取值构成的相对信息熵,经计算得到由自变量和因变量组成的节点集构成的拓扑结构中边与边之间的权重;
步骤3024,经过相关性分析和相似性计算而得出拓扑结构中每条边的权重,结合步骤
200得到的候选自变量,得到由自变量和因变量组成的节点集构成的无向图,进而得到无向图。
7.根据权利要求1所述的基于MOOC数据中辍学行为的因果关系挖掘方法,其特征在于,步骤400所述面向辍学行为的局部因果网络结构包含两部分:与辍学行为构成因果关系的局部贝叶斯网络的拓扑图和拓扑图中的方向。
8.根据权利要求1所述的基于MOOC数据中辍学行为的因果关系挖掘方法,其特征在于,步骤401中,采用回归分析算法剔除错误节点具体如下:
步骤4011,将数据中辍学行为变量中,各个元素取的0-1二分类型的取值,通过激活函数变换获得逻辑回归模型:
d*=θ0+θTB
其中B为各个候选自变量bi组成的矩阵,θ为系数向量,d*为辍学行为的效用函数,(·)T表示矩阵的转置;
步骤4012,检验步骤4011得到的回归模型统计量,使用 来计算网
络中第j个节点的显著性,i∈{0,1,2...n},j∈{0,1,2...n},n代表网络中的最大节点数;
步骤4013,利用基于辍学行为变量和基于学习行为的候选原因变量的回归模型,在辍学行为的回归分析过程中,将候选自变量中小于显著性平α的变量剔除掉,得到较为准确基于回归分析的错误变量剔除方法网络模型,此网络模型中已经剔除了那些错误变量,得到剔除掉错误变量的辍学行为变量的父子节点集。
9.根据权利要求1所述的基于MOOC数据中辍学行为的因果关系挖掘方法,其特征在于,步骤402中,生成基于条件独立性测试的局部因果关系网络具体如下:
利用基于条件互信息为条件独立性检验方法来生成辍学行为变量可能存在的配偶节点;
计算配偶节点与所有父子节点集中的节点的变量相似性,求出相似值取得最大值的子节点,在这两个节点中间增加一条有向边;
利用变量条件独立性方法来对父子节点集的方向进行判断,最后生成目标变量D的马尔可夫毯节点集MB(D)和辍学行为的局部因果网络结构G。

说明书全文

一种基于MOOC数据中辍学行为的因果关系挖掘方法

技术领域

[0001] 本发明属于人工智能技术领域,具体涉及一种基于MOOC数据中辍学行为的因果关系挖掘方法。

背景技术

[0002] MOOC(Massive Open Online Course,大规模开放式线上课程)通过在线学习平台为广大学习者提供了一种新型的教学模式,它提供给大量的所有需要在线学习的用户以一种完全免费的教学教育资源和便捷便利的学习体验,致于大规模课程与内容共享、零碎的课程形式、各个群体相互交流互动等特点,MOOC在社会上受到了越来越多的关注。MOOC平台的崛起,在学术界引起了很大的轰动,Coursera、edX、Udacity等国内外学者也将目光集中在MOOC平台的海量数据上。对数据进行了详细的分析和充分的挖掘。
[0003] 学习者在MOOC平台上的学习交互过程,可以发现学习者在MOOC学习过程中产生了大量行为数据(如鼠标点击次数等)、学习效果数据(是否获得证书等),同时MOOC平台也提供了大量学习资源数据(如学习资源标签等)以及学习者基本属性数据(如年龄、性别等),对这些海量MOOC数据进行统计分析,将有助于揭示人类更深层次的认知机理,挖掘有价值的学习规律与模式。
[0004] 目前,国内外学者重点研究了学习行为数据与学习效果之间的相关性(Correlation)。这一系列研究都得出同样的结论,学习行为和学习效果之间存在着很大的联系。但是,都只得到的两者存在着巨大的相关,却无法得出因果关系。然而,与因果关系相比,相关性分析得到的结论有时是不可靠,甚至是错误的。另一方面,相关性还很难在给定的情景下提供决策支持和干预手段,无法解决智能导学、个性化推荐、学习评价等智能教育应用中的关键问题。MOOC研究中因果关系的挖掘是十分重要的方向。然而,目前对MOOC数据中因果关系挖掘的研究还非常薄弱。因此,设计有效的基于MOOC数据的因果关系挖掘算法,成为了一个亟待解决的问题。
[0005] 现有技术缺陷和不足:
[0006] 1.面向辍学行为的无向图构建。为了研究MOOC数据中辍学行为的因果关系挖掘问题,主要目标是生成辍学行为的局部因果网络图,首先就是构建面向辍学行为的无向图,如何从MOOC数据中提取出影响辍学行为的候选自变量,并根据候选自变量,如何定性和定量地表达关联关系,构建面向辍学行为的无向图,成为了面临的第一个挑战。不仅如此,由于目标变量的因果变量只是众多语义变量中具有因果语义的一部分,如何在众多语义变量中,提取出具有因果语义的变量,还需要进行深入的研究。
[0007] 2.在生成的局部因果结构中,对于标准贝叶斯网络进行研究和学习的已经有很多研究,如何针对于未知的MOOC数据领域,在无向图的基础上,构建出带方向的局部因果网络结构,成为了面临的主要挑战。虽然根据基本假设,在MOOC平台上进行事件操作越少的学习者,辍学行为发生的可能性越大,但如何利用严格的因果推理,进行局部因果网络结构构建并在结构中进行方向的判别,还是一个有着相当难度的问题。
[0008] 3.表现为相关性的两个变量之间可能会表现出虚假的因果关系。例如,城市中的“医院数目”与“罪案数目”通常具有显著的正相关性,但两者不存在因果关系。这种虚假的因果关系容易让人在数据分析的过程中得到错误的推断和结果。

发明内容

[0009] 为了解决了现有技术中存在的问题,本发明公开了一种基于MOOC数据中辍学行为的因果关系挖掘方法,能快速清晰的得到其因果关系,为智能导学、个性化推荐以及学习评价智能教育应用中提供决策支持和干预手段。
[0010] 为了实现上述目的,本发明采用的技术方案是,一种基于MOOC数据中辍学行为的因果关系挖掘方法,包括以下步骤:
[0011] 步骤100,MOOC日志数据集的获取与分析,得到MOOC日志数据集中关键数据之间的关联关系;
[0012] 步骤200,在步骤100得到MOOC日志数据集中关键数据之间的关联关系的基础上构建影响辍学行为的候选自变量;
[0013] 步骤300,基于步骤200构建的候选自变量,将辍学行为作为因变量,定性分析所述候选自变量与因变量之间的相关性;设计所述候选自变量与因变量之间依赖性的定量度量方法,来构建无向图,得到由自变量和因变量组成的节点集构成的无向图;
[0014] 步骤400,基于步骤300所得到的自变量和因变量组成的节点集构成的无向图,将局部贝叶斯网络结构学习转化成目标变量T的尔可夫毯的学习,使用基于互信息的局部因果网络结构发现算法,通过无向图中基于回归分析方程剔除错误变量和基于条件独立性测试生成局部网络,构建面向辍学行为的带方向的局部因果网络结构,具体如下:
[0015] 步骤401,采用基于回归分析的错误变量剔除的方法,剔除针对步骤300所得无向图带方向的局部因果网络结构中与辍学行为变量相关性不强的节点,得到剔除掉错误变量的辍学行为变量的父子节点集;
[0016] 步骤402,基于步骤401生成剔除掉错误变量的辍学行为变量的父子节点集,进行带方向的局部因果关系网络的构建,采用条件独立性测试方法,进行配偶节点的加入和方向判别,并对无向图中剩余的父子节点进行方向判别;生成带方向的局部因果关系网络结构。
[0017] 步骤100中,基于MOOC日志数据集中的表格,按照关键数据表中的关键字对数据进行整体分析,根据所述关键数据表中字段的含义,对所述数据集进行聚合分析,得到MOOC日志数据集中关键数据的E-R图,E-R图展示出所述MOOC日志数据集中关键数据之间的关联关系。
[0018] 具体包括以下步骤:
[0019] 步骤101,通过对MOOC日志数据集的操作种类和时序分类,形成关于对MOOC日志数据集种类和时序的特征;
[0020] 步骤102,通过在MOOC日志数据集中匹配用户id和课程id,得到每个用户对课程的操作数及当前用户操作本课程数占所有用户操作本门课程总数的比例;
[0021] 步骤103,对MOOC日志数据集中的离散分布的数据进行标准化处理及无关变量进行删除,得到最后的数据集并存储在本地数据库中。
[0022] 步骤200中,在步骤100分析所述数据集的基础上,按照学习行为的分类,并根据先验知识,根据可能存在因果关系的变量,构建四类基于学习行为的候选自变量,即,学习者对学习资源的访问行为、学习者之间的交流行为、学习者与教育者的互动行为和学习者与MOOC系统交互行为。
[0023] 步骤300中,首先,选择斯皮尔曼相关系数检测步骤200所构建的各个候选自变量与因变量之间的相关性,反映两个变量之间的线性相关程度;
[0024] 然后,通过计算候选自变量点的标准分数均值估计得到自变量与因变量线性相关程度。
[0025] 步骤302,设计变量间依赖性的定量度量方法,构建无向图,包括以下步骤:
[0026] 步骤3021,通过在步骤200中得到的在自变量和因变量构成的变量集X中,将变量的相似度计算量化为概率计算模型;
[0027] 步骤3022,计算候选自变量和因变量中不同取值对应的联合概率p(xij,xi'j'),其中,xi,xi'为候选自变量或因变量;j,j'两个变量分别的取值数;xij,xi'j'变量xi,xi'中的不同取值;
[0028] 步骤3023,将步骤3022所得结果通过 公式,计算候选自变量和因变量中不同取值对应的联合概率和对应取值构成的相对信息熵,经计算得到由自变量和因变量组成的节点集构成的拓扑结构中边与边之间的权重;
[0029] 步骤3024,经过相关性分析和相似性计算而得出拓扑结构中每条边的权重,结合步骤200得到的候选自变量,得到由自变量和因变量组成的节点集构成的无向图,进而得到无向图。
[0030] 步骤400所述面向辍学行为的局部因果网络结构包含两部分:与辍学行为构成因果关系的局部贝叶斯网络的拓扑图和拓扑图中的方向。
[0031] 步骤401中,采用回归分析算法剔除错误节点具体如下:
[0032] 步骤4011,将数据中辍学行为变量中,各个元素取的0-1二分类型的取值,通过激活函数变换获得逻辑回归模型:
[0033]
[0034] d*=θ0+θTB
[0035] 其中B为各个候选自变量bi组成的矩阵,θ为系数向量,d*为辍学行为的效用函数,T(·) 表示矩阵的转置;
[0036] 步骤4012,检验步骤4011得到的回归模型统计量,使用 来计算网络中第j个节点的显著性,i∈{0,1,2...n},j∈{0,1,2...n},n代表网络中的最大节点数;
[0037] 步骤4013,利用基于辍学行为变量和基于学习行为的候选原因变量的回归模型,在辍学行为的回归分析过程中,将候选自变量中小于显著性平α的变量剔除掉,得到较为准确基于回归分析的错误变量剔除方法网络模型,此网络模型中已经剔除了那些错误变量,得到剔除掉错误变量的辍学行为变量的父子节点集。
[0038] 步骤402中,生成基于条件独立性测试的局部因果关系网络具体如下:
[0039] 利用基于条件互信息为条件独立性检验方法来生成辍学行为变量可能存在的配偶节点;
[0040] 计算配偶节点与所有父子节点集中的节点的变量相似性,求出相似值取得最大值的子节点,在这两个节点中间增加一条有向边;
[0041] 利用变量条件独立性方法来对父子节点集的方向进行判断,最后生成目标变量D的马尔可夫毯节点集MB(D)和辍学行为的局部因果网络结构G。
[0042] 与现有技术相比,本发明至少具有以下有益效果:
[0043] 本发明在分析MOOC日志数据集的基础上,较为全面地构建了四类影响辍学行为的候选自变量,包括学习者对学习资源的访问行为、学习者之间的交流行为、学习者与教育者的互动行为和学习者与MOOC系统交互行为;生成了基于学习行为的候选自变量;将辍学行为作为因变量,定性地分析各个自变量与因变量之间的相关性;设计变量间依赖性的定量度量方法构建无向图;
[0044] 本发明采用基于互信息的局部因果网络结构发现算法,在数据集对于局部贝叶斯网络可信的假设下,DMBMI算法通过无向图中基于回归分析的错误变量剔除、基于条件独立性测试的局部网络生成,构建了面向辍学行为的带方向的局部因果网络结构;针对无向图中的错误节点进行的精细化的剔除;
[0045] 在获取到辍学行为变量的无向图的基础上,利用构建基于辍学行为变量和基于学习行为的候选自变量的改进回归分析模型,在辍学行为的回归分析过程中,将基于学习行为的候选自变量中小于显著性水平的变量剔除掉,得到较为准确的无向图子集和候选自变量集;
[0046] 采用本发明构建的条件独立性测试方法和基于条件互信息的条件独立性测试方法,对配偶节点的加入和方向判别,并对剔除掉错误节点的无向图中剩余的父子节点进行方向判别;
[0047] 利用基于条件互信息为条件独立性检验方法来生成辍学行为变量可能存在的配偶节点,进一步,计算配偶节点与所有父子节点集中的节点的变量相似性,求出相似值取得最大值的子节点,在这两个节点中间增加一条有向边;最后,利用变量条件独立性方法来对父子节点集的方向进行判断,生成目标变量D的马尔可夫毯节点集和辍学行为的局部因果网络结构;经过改进的模型搜索辍学行为的因变量中局部因果网络结构,没有构建全局贝叶斯网络结构的必要,降低了全局搜索的时空复杂度,减少了搜索的空间,提高了学习的效率;
[0048] 本发明所述方法在不同的分类器上的均取得了最好的表现,在KNN分类模型中的表现略差,其他三个分类模型SVM、C4.5和RF上的F1指标均超过0.8,说明本研究挖掘出来的辍学行为原因的有效性;本研究的方法在SVM分类器上取得了最大的效果提升,比效果最好的Hiton-MB算法提升了14.6%。即使在Baseline实验效果最好的C4.5分类算法上,也取得了至少2.68%的性能提升;本发明所构建的方法,在最初的相似性计算后,更好地捕获了影响辍学行为的因果变量;
[0049] 通过本发明所述方法能够有效获知,因果关系严格区分了原因变量和结果变量,在揭示学习行为本质、指导干预行为等方面有相关性不能替代的作用;对于智能导学来说,设计更加符合学生学习习惯的课程,增加视频的可读性和用户粘性,对预防辍学问题具有一定的意义。附图说明
[0050] 图1是本发明实例中所述的MOOC数据中因果关系挖掘框架图。
[0051] 图2是本发明实例中所述的关键数据E-R图展示。
[0052] 图3是本发明实例中所述的变量相似度计算图形化示意图。
[0053] 图4是本发明实例中所述的面向辍学行为的无向图局部示例。
[0054] 图5是本发明实例中所述的局部网络结构示意图。
[0055] 图6是本发明实例中所述的课程学业成绩的局部因果结构示例。
[0056] 图7是本发明实例中所述的辍学行为的局部因果结构。
[0057] 图8是观看视频次数与学习时间的分布散点图。

具体实施方式

[0058] 本发明提供一种基于MOOC数据中辍学行为的因果关系挖掘方法,具体为一种从日志数据集中生成候选自变量进而生成局部因果关系网络的方法。
[0059] 本发明是通过以下技术方案来实现:
[0060] 一种基于MOOC数据中辍学行为的因果关系挖掘方法,通过数据分析及清洗找出因果网络中的自变量候选集,进而生成带方向的局部因果网络图对其中的因果关系有一个可视化的展示,使读者可以快速清晰的认知其因果关系;为智能导学、个性化推荐、学习评价等智能教育应用中提供决策支持和干预手段;
[0061] MOOC日志数据涉及用户隐私,同时MOOC平台的盈利性需求,导致了目前公开发布的,较为系统的MOOC日志公开数据集极为稀缺。KDD CUP 2015数据集是由KDD发布的,应用于2015年KDD CUP的公开MOOC日志数据集,具有较高的理论研究和实际应用价值。
[0062] 参考图1,本发明是通过一下技术方案实现的:一种基于MOOC数据中辍学行为的因果关系挖掘方法,包括如下步骤:
[0063] 步骤100,MOOC日志数据集的获取与分析,得到MOOC日志数据集中关键数据之间的关联关系;
[0064] 本发明在KDD CUP数据研究网站上获取MOOC日志数据集,主要对MOOC日志数据集进行基本情况的分析。
[0065] 基于所述MOOC日志数据集中的表格,按照所述表格中关键数据表的关键字对数据进行整体分析;在分析了所述MOOC日志数据集中的关键数据表中关键字的含义之后,将关键数据进行聚合分析,得到数据集中关键数据的实体关系图,即E-R图,如图2所示,E-R图详细展示该数据集中关键数据之间的关联关系。
[0066] 步骤101,分析数据集中的三个表,通过对MOOC日志数据集的操作种类和时序分类,形成关于对MOOC日志数据集种类和时序的特征;
[0067] 1)Object.csv表格中每一行描述了一个课程中的模,包括课程类别、课程子模块以及发布时间;这些模块被组织成树型结构,按照课程、章节、部分和对象来组织;
[0068] 2)Enrollment_train.csv表格中每一行表明某用户参加了某课程及对应的学生id和课程id;
[0069] 3)Log_train.csv表格中每一行都是一个“事件”的日志行为记录,包含了学生操作的行为和行为发生的时间。
[0070] 步骤102,通过在MOOC日志数据集中匹配用户id和课程id,得到每个用户对课程的操作数及当前用户操作本门课程数占所有用户操作本门课程总数的比例;
[0071] 以Log_train.csv文件中的时间最后日期,向前推10天为学生的label;之后依次以七天一周为一个时间段,根据Enrollment_id和Enrollment_name分别匹配Object.csv表、Enrollment_train.csv表和Log_train.csv表,统计不同用户在不同时间段的行为次数;
[0072] 步骤103,对MOOC日志数据集中的离散分布的数据进行标准化处理及无关变量进行删除,得到最后的数据集并存储在本地数据库中。
[0073] 步骤200:在步骤100得到MOOC日志数据集中关键数据之间的关联关系的基础上构建影响辍学行为的候选自变量;
[0074] 在步骤100中详细地分析了数据集之后,首先对影响辍学行为的候选自变量进行构建,候选自变量构建的好坏,直接影响无向图构建的结果,按照学习行为的分类,并根据先验知识,考虑到可能存在因果关系的变量,构建四类基于学习行为的候选自变量:学习者对学习资源的访问行为、学习者之间的交流行为、学习者与教育者的互动行为和学习者与MOOC系统交互行为;
[0075] 1)学习者对学习资源的访问行为
[0076] MOOC学习的在线学习资源包括视频课件、在线作业附件、课程其他对象、教学计划、课程的维基百科资料以及教学公告;学习者在MOOC学习过程中,最主要行为是为对学习资源的访问行为,这部分是所有学习行为中最重要的一部分,将学习者对学习资源的访问行为作为候选自变量,从而发现学习者的资源使用规律或者监控学习资源利用率的变化情况,为构建面向辍学行为的无向因果图做准备;
[0077] 2)学习者之间的交流行为
[0078] MOOC学习者在MOOC平台上进行资源学习过程中,可以参与互动,与其他学习者进行交流互动,包括论坛中提出问题、查看或者回复其他学习者在课程论坛中的帖子以及和其他学习者进行互动交流;将学习者之间的交流行为作为候选自变量,能够发现学习者在课程学习过程中遇到的困难,掌握学习者在当前学习状态下的学习情况,及时发现问题从而有针对性地给予其帮助与指导;
[0079] 3)分析学习者与教育者的互动行为
[0080] 在MOOC平台上,学习者更多的是在线与教育者交流,很少面对面进行交流,部分MOOC平台上有学习者和教育者交流的板块,方便学习者和教育者的交流,更加增加学习者的学习热情,主要行为包含学习者通过发送邮件、发送留言等方式与教育者进行交流,将学习者与教育者的互动行为作为候选自变量,有助于从教育者对学习者的学习反馈结果中,掌握学习者与教育者的沟通规律和不同沟通方式对辍学行为的不同影响;
[0081] 4)分析学习者与MOOC系统交互行为
[0082] MOOC平台上,学习者进行前三种学习行为中,伴随着与MOOC系统的交互行为,学习者与MOOC系统之间的交互主要指的是学习者的各类系统操作,包括登录系统、退出系统以及修改密码。
[0083] 步骤300,在步骤200得到候选自变量的基础上构建辍学行为的无向图,得到由自变量和因变量组成的节点集构成的无向图;
[0084] 将辍学行为作为因变量,定性地分析各个候选自变量与所述因变量之间的相关性;设计候选自变量与所述因变量之间依赖性的定量度量方法,并构建无向图;
[0085] 步骤301,将辍学行为作为因变量,定性地分析各个候选自变量与所述因变量之间的相关程度;
[0086] 采用斯皮尔曼相关系数检测各个候选自变量与辍学行为因变量)之间的相关性;
[0087] 通过在步骤200中得到的候选自变量对应的数据集数据,将所述数据集数据作为样本,计算样本的 为标准分数; 为样本均值;sX为样本标准差;n为样本数量;
[0088] 通过斯皮尔曼相关系数计算r,得到自变量与因变量之间的线性相关程度,对于样本数据,通过计算样本点(Xi,Yi)的标准分数均值估计得到r;
[0089]
[0090] 其中: 为样本的标准分数; 为样本均值;sX为样本标准差;n为样本数量,r体现了两个变量间线性相关强弱的程度,取值在-1和1之间,其绝对值越大表明两个变量间的线性相关性越强;其中,r>0表明两个变量是正相关的,r<0说明两个变量是负相关的,r=0表明两个变量不是线性相关。
[0091] 通过分析学习者的各个候选自变量与因变量的相关系数,得到结果均呈负相关且相关系数较低,相关系数结果表现为负相关,是因为在各个候选自变量中的学习行为记录越多,说明该学习者在MOOC系统中越活越,其辍学行为发生的可能性就越低,相关系数就表现为负值;与此同时,相关系数较低,说明影响辍学行为的自变量不止这一个,需要进一步建立模型来构建无向图;
[0092] 步骤302设计变量间依赖性的定量度量方法,构建无向图
[0093] 从相关性分析的结果中得知,影响辍学行为的自变量有多个,建立模型来进行无向图的构建,针对无向图中的依赖关系进行定量描述,变量之间的相似性指的是两个或者多个变量之间存在关联关系,使得这些变量在关联层面上有着一定的相关程度,进行变量相似度计算就是对这种关联程度进行一种度量;变量之间的相似度计算图形化表示如图3所示,描述了两个变量间相似度计算的示意图;
[0094] 步骤3021,通过在步骤200中得到的在自变量和因变量构成的变量集X中,将变量的相似度计算量化为概率计算模型;
[0095] 步骤3022,通过计算xi,xi'候选自变量或因变量;j,j'两个变量分别的取值数;xij,xi'j'变量xi,xi'中的不同取值;p(xij,xi'j')两个变量中不同取值对应的联合概率;p(xij)变量xi取值为xij的概率;
[0096] 步骤3023,将步骤302中各部分的结果通过用两个变量中不同取值对应的联合概率和
对应取值构成的相对信息熵,经过计算,得到了由自变量和因变量组成的节点集构成的拓扑结构中边与边之间的权重;
[0097] 步骤3024,经过相关性分析和相似性计算而得出的每条边的权重,结合步骤200得到的候选自变量,便可以得到由自变量和因变量组成的节点集构成的无向图,继而生成如图4所示的无向图。
[0098] 步骤400,将局部贝叶斯网络结构学习转化成目标变量T的马尔可夫毯的学习,在MOOC日志数据集对于局部贝叶斯网络可信的假设下,使用基于互信息的局部因果网络结构发现算法(Discovery of Markov Blanket Based on Mutual Information),采用DMBMI算法通过无向图中基于回归分析剔除错误变量和生成基于条件独立性测试的局部网络,构建面向辍学行为的带方向的局部因果网络结构;
[0099] 对于完整的因果贝叶斯网络中,目标变量T的原因变量与目标变量T的父子节点和配偶节点相对应,如图5所示中,即为对应的节点集{X1,X2,X7,X6,X8},根据马尔可夫毯的定义和定理,目标变量T的马尔可夫毯将其他变量与目标变量T分离开来,目标变量T与其他变量构成d-分离关系;因此,就能使用马尔可夫毯分析目标变量T的研究方法来解决局部贝叶斯网络结构的求解;
[0100] 在步骤300所得无向图的基础上分析定义局部因果网络结构生成模型各参数的含义;
[0101] 1)基于学习行为的候选自变量集B指的是本发明步骤三构建出无向图中所有自变量的全集,也称候选原因变量集,其中某一种自变量用bi表示,该自变量中的元素用bij来表示;
[0102] 2)辍学行为变量集D指的是辍学行为变量组成的集合,其中d表示辍学行为变量,辍学行为变量中的元素用dk表示;
[0103] 3)CPC(D)指的是辍学行为变量集D的候选父子节点集Candidate Parents And Children)中的全集,指的是本发明步骤300构建出的无向图中,所有与辍学行为变量d直接连接的自变量的集合;
[0104] 4)PC(D)指的是辍学行为变量集D的父子节点集(Parents And Children)中的全集,如图4-1所示,指的是与节点D的父子节点集{X1,X2,X7,X6};
[0105] 5)MB(D)指的是辍学行为变量集D的局部网络结构中的除了节点D以外的节点全也就是辍学行为变量集D的马尔可夫毯Markov Blanket),如图5所示,指的是与D的马尔可夫毯集{X1,X2,X7,X6,X8},经过对比可以发现,在PC(D)的基础上加入了节点D的配偶节点{X8}。
[0106] 基于局部因果网络结构生成模型的定义和性质,本发明提出:基于学习行为的自变量bi和辍学行为变量d存在的因果关系,对于构建局部网络结构可信,也就是说,基于学习行为的自变量bi和辍学行为变量d的因果关系和它们之间的局部网络结构等价;
[0107] 先根据可能与辍学行为构成因果关系的候选自变量,根据所述候选自变量与辍学行为变量的关系强度,将所述候选自变量进行分类;根据贝叶斯网络中的先验知识,将马尔可夫毯生成算法中原因的节点区分为四个基本类:
[0108] a)D的父亲节点与D的儿子节点:所述父亲节点和儿子节点与D的相关关联最强,如图5中的X1、X2、X7和X6;
[0109] b)D的配偶节点以及D的兄弟节点与D共同有一个父节点):所述配偶节点和兄弟节点与D有共同的根节点或者子节点,意味着它们同因同果,当存在D的父节点或D的子节点时,与D的相关性较强,如图4-1所示的X8和X4;
[0110] c)D中父亲节点与父亲节点和D中孩子节点的孩子节点:当存在D中父亲节点与D中孩子节点时,这中节点和D相关性不强;
[0111] d)除了所述a)、b)和c)三种情况以外的节点外,在父子节点集生成的过程中,会引入错误节点的父子节点,这类节点与D的相关性最弱;
[0112] 基于四类节点构建目标变量——辍学行为中变量之间关系的局部关系因果网络结构,本发明以独立性和条件独立性度量方法,去搜索辍学行为的因变量中局部因果网络结构,不需要构建全局贝叶斯网络结构,降低了全局搜索的时空复杂度,减少了搜索的空间,提高了学习的效率;
[0113] 步骤401,构建基于回归分析的错误变量剔除方法模型,采用回归分析算法进行错误节点剔除,得到剔除掉错误变量的辍学行为变量d的父子节点集PC(D)
[0114] 表1错误节点剔除算法
[0115]
[0116]
[0117] 表1所述过程是基于无向图之后的一个精细化的错误变量剔除方法,利用构建基于辍学行为变量和基于学习行为的候选原因变量的回归方程后,在辍学行为的回归分析过程中,将候选自变量中小于显著性水平α的变量剔除掉,为下一步的局部网络生成做准备,所述方法的时间复杂度为O(m*n),n为候选原因变量的个数,m为各个候选原因变量的维数;
[0118] 本方法基于多元回归分析的错误变量剔除的方法,在步骤300构建的无向图中,不可避免地会引入相关性不强的错误节点,基于步骤400所得局部因果网络生成模型构建回归模型来引入与因变量相关性强的变量,并去除和目标变量与次要变量弱相关的部分,采用构建的回归分析模型去预估新的数据中因变量的取值;本发明构建多元逻辑回归模型,具体的:
[0119] 第一步,MOOC日志数据的辍学行为变量中各个元素取的0-1二分类型的取值,通过激活函数变换获得逻辑回归模型:
[0120] d*=θ0+θTB
[0121]
[0122] 其中B为各个候选自变量bi组成的矩阵,θ为系数向量,d*为辍学行为的效用函数,(·)T表示矩阵的转置;
[0123] 第二步,检验第一步得到的回归模型统计量,使用 来计算网络中第j个节点的显著性,i∈{0,1,2...n},j∈{0,1,2...n},n代表网络中的最大节点数;
[0124] 第三步,构建基于辍学行为变量和基于学习行为的候选原因变量的回归方程后,在辍学行为的回归分析过程中,将候选自变量中小于显著性水平α的变量剔除掉,得到较为准确基于回归分析的错误变量剔除方法网络模型,此网络模型中已经剔除了那些错误变量,即与目标变量T因果性不强的变量,得到剔除掉错误变量的辍学行为变量d的父子节点集PC(D)。
[0125] 步骤402,经过步骤401生成剔除掉错误变量的辍学行为变量d的父子节点集PC(D)之后,进行带方向的局部因果关系网络的构建,采用本发明构建条件独立性测试方法,并基于条件互信息的条件独立性测试方法,进行配偶节点的加入和方向判别,并对无向图中剩余的父子节点进行方向判别,生成基于条件独立性测试的局部因果关系网络;
[0126] 步骤4021,利用基于条件互信息为条件独立性检验方法来检验条件独立性做度量和评测,本发明采用条件互信息作为条件独立性测试的基础公式,对变量之间的条件独立性进行度量,通过如下两个公式表示:
[0127]
[0128]
[0129] 通过条件互信息的计算来度量条件独立性,条件互信息量的计算是在互信息量计算的基础上进行的语义的扩展,即为在给定条件s或者给定条件集S下,计算节点变量xi和节点变量xj的信息量。变量条件互信息在本发明中度量的是d-分离条件;对于辍学行为来说,在给定原因变量bi或者给定原因变量集B的前提下,辍学行为变量d和另一个非原因变量bj保持条件独立,这也就意味着变量d和变量bj在给定原因变量bi或者给定原因变量集B下,构成了d-分离关系;也就是说,辍学行为变量集D中的辍学行为变量d和基于学习行为的候选原因变量集B中某种变量bi的条件互信息的计算值低于给定的阈值ε,表明在给定数据集上,辍学行为变量d和候选原因变量集B中某种变量bi相互独立,也就是定原因变量bi、,辍学行为变量d和候选原因变量集B中某种变量bi构成了d-分离结构。
[0130] 步骤4022,利用公式 计算配偶节点与所有父子节点集中的节点的变量相似性,求出相似值取得最大值的子节点,在这两个节点中间增加一条有向边;其中,xi,xi'是候选自变量和因变量;j,j'是两个变量各自的取值数;
xij,xi'j'是变量xi,xi'中的不同取值;p(xij,xi'j')是两个变量中不同取值对应的联合概率;p(xij)是变量xi取值为xij的概率;i∈{0,1,2...n},i∈{0,1,2...n},n代表网络中的最大节点数。
[0131] 步骤4023,在已知面向辍学行为的局部因果网络结构的拓扑图以后,对边的方向进行判定,本发明提出了如下公式来对边的方向进行判定,生成目标变量D的马尔可夫毯节点集MB(D)和辍学行为的局部因果网络结构G,至此,辍学行为变量的局部因果关系网络生成完毕,如图6所示;
[0132]
[0133] 式中,xi,xi'是局部因果网络结构拓扑图中的原因变量;j,j'是两个变量分别的取值数;xij,xi'j'是变量xi,xi'中的不同取值;p(xij,xi'j')是两个变量中不同取值对应的联合概率;p(xi'j')是变量xi取值为xi'j'的概率,该公式衡量的是变量xi在变量xi'发生的条件下的条件概率,这将作为方向判断的依据。
[0134] 通过以上步骤100到步骤400,可以得到面向辍学行为的局部因果关系网络结构,对于任何一种目标学习效果变量,都可以通过无向图生成、错误节点剔除和局部网络结构构建来进行关于该学习效果的局部因果网络结构的构建工作,进行学习效果的因果关系挖掘。
[0135] 本发明通过数据分析及清洗找出因果网络中的自变量候选集,进而生成带方向的局部因果网络结构对其中的因果关系有一个可视化的展示,使读者可以快速清晰的认知其因果关系;为智能导学、个性化推荐、学习评价等智能教育应用中提供决策支持和干预手段;通过本发明发现与辍学行为构成因果关系的变量:观看视频课件次数、提交作业次数、读取课程其他对象次数、论坛回帖次数和查看学习评价次数这五个学习行为变量。
[0136] 1)观看视频次数:从因果语义上来进行分析,观看视频次数在整个学习过程中,是一个高频次事件;本发明得出,观看视频次数越多的人,发生辍学的可能性就越小。因此,对于智能导学来说,设计更加符合学生学习习惯的课程,增加视频的可读性和用户粘性,对预防辍学问题非常有用。
[0137] 在MOOC课程学习过程中,根据本发明的成果表明视频观看次数对于降低辍学率的影响程度,因此在课程设计环节,详细地计划课程的视频展示流程和调整教学计划,有利于MOOC系统的良好运行,便于教育教学行为的顺利开展。为了更好地进行课程内容的设置和研究,可以根据预期的学生课件学习行为来合理地设置课程形式和参数,有助于学生在MOOC系统中获得更好地学习表现。
[0138] 图8是观看视频课件次数和学习时间的分布散点图,观看视频次数越多的人,发生辍学的可能性就越小;对于智能导学来说,设计更加符合学生学习习惯的课程,增加视频的可读性和用户粘性,有利于解决预防辍学问题。
[0139] 2)提交作业附件次数。提交作业附件次数与辍学行为构成因果关系,而且学习者认真参与课程了之后,就更有可能提交作业,这也就通过因果关系分析发现,设置合理的课程作业,为提高课程参与度,降低辍学率有着重要的作用。
[0140] 3)读取课程其他对象次数:认真参与课程的学习者,在学习完本课程的资源后,会继续读取课程其他对象,这个发现,就从因果发现的语义上,论证了学习者在课程学习过程中,举一反三,学习课程其他对象来拓展知识。设计一种合理的方法对该门课程的其他对象进行推荐,对提高学习者的学习效率,降低辍学率有着重要的作用。
[0141] 4)论坛回帖次数:该发现从一定程度上纠正了公众关于MOOC学习课程论坛的认知,并非所有的论坛操作行为都与辍学行为构成因果关系,例如:发帖次数;回帖次数多的用户,对于课程的参与度更高,从行为动机上分析,活跃的用户或者对于课程资源掌握得比较好的学习者,更愿意在平台上进行回帖,这对系统管理者在论坛中进行相关研究提供了一定的决策支持,需要更加把注意力集中在回帖次数多的用户上。
[0142] 5)查看学习评价次数:查看学习评价次数多的用户,辍学行为发生的可能性越低,能更多地指导教师对学习者的学习过程认真评价,同时重点关注对学习评价查看次数少的用户,虽然不是辍学行为变量的配偶节点,但是也是辍学行为发生的原因之一,需要教育者在智能导学的过程中,对这类学习者多加关注,同时也要巩固查看学习评价次数多的学习者。
[0143] 图7是本发明辍学行为的局部因果结构图,,辍学行为变量没有子节点和配偶节点,这也从一定层面上反映了本研究提出的四类与目标变量——辍学行为变量关联关系的节点划分的有效性,这个现象和数据集的分布有关系,数据集中的各种学习行为均为MOOC平台上的在线学习的行为,当发生了辍学行为以后,对剩余的学习行为变量可能影响比较弱,在基于互信息测试的独立性检测中被过滤掉了,因此,图7所示结果中不存在子节点和配偶节点。
[0144] 本发明在分析MOOC日志数据集的基础上,较为全面地构建了四类影响辍学行为的候选自变量,包括学习者对学习资源的访问行为、学习者之间的交流行为、学习者与教育者的互动行为和学习者与MOOC系统交互行为;生成了基于学习行为的候选自变量;将辍学行为作为因变量,定性地分析各个自变量与因变量之间的相关性;设计变量间依赖性的定量度量方法构建无向图;
[0145] 本发明采用基于互信息的局部因果网络结构发现算法,在数据集对于局部贝叶斯网络可信的假设下,DMBMI算法通过无向图中基于回归分析的错误变量剔除、基于条件独立性测试的局部网络生成,构建了面向辍学行为的带方向的局部因果网络结构;针对无向图中的错误节点进行的精细化的剔除;
[0146] 在获取到辍学行为变量的无向图的基础上,利用构建基于辍学行为变量和基于学习行为的候选自变量的改进回归分析模型,在辍学行为的回归分析过程中,将基于学习行为的候选自变量中小于显著性水平的变量剔除掉,得到较为准确的无向图子集和候选自变量集;
[0147] 采用本发明构建的条件独立性测试方法和基于条件互信息的条件独立性测试方法,对配偶节点的加入和方向判别,并对剔除掉错误节点的无向图中剩余的父子节点进行方向判别;
[0148] 利用基于条件互信息为条件独立性检验方法来生成辍学行为变量可能存在的配偶节点,进一步,计算配偶节点与所有父子节点集中的节点的变量相似性,求出相似值取得最大值的子节点,在这两个节点中间增加一条有向边;最后,利用变量条件独立性方法来对父子节点集的方向进行判断,生成目标变量D的马尔可夫毯节点集和辍学行为的局部因果网络结构;经过改进的模型搜索辍学行为的因变量中局部因果网络结构,没有构建全局贝叶斯网络结构的必要,降低了全局搜索的时空复杂度,减少了搜索的空间,提高了学习的效率。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈