一种基于校园大数据的学生行为与心理检测结果的精准分析
方法及系统
技术领域
背景技术
[0002] 近年来,大数据技术已经引起了各行各业的高度关注,大数据分析技术对未来的科技与经济的发展带来深远影响。许多高校利用校园行为大数据开展了许多面向管理和师生服务的应用,依赖大
数据挖掘方法以支持教育领域的校园管理与决策以及学生行为规律的分析受到广泛关注。
[0003] 目前许多高校已积累大量的教学资源和管理数据,从而形成了规模巨大、结构复杂的数据集,为高校的大数据分析提供了强有
力的支持,成了高校学生心理教育不可缺少的一部分。随着教学改革的不断推进,高校对数据的需求已经从原来的简单事务处理方式转向面向信息分析处理、数据挖掘及决策支持等。因此,针对现有的大数据集合建立学生行为与心理检测的关联系统,对高校学生心理教育具有重要的实际意义。
[0004] 虽然基于大数据技术的心理检测研究得到了一些关注,但是已有的努力和研究还没有建立起描述人类心理-行为的理论模型,存在数据来源单一、理论分析不到位、研究内容不全面、数据挖掘不彻底、评估只关注当前心理
健康状态不关注发展趋势、评估模型
精度重视不足等问题。如何充分利用校园学生产生的数据,从而为学校建立行为-心理模型提供依据是本领域技术人员亟需解决的问题。
发明内容
[0005] 本发明
实施例所要解决的技术问题在于,提供一种基于校园大数据的学生行为与心理检测结果的精准分析方法及系统,通过对学生心理健康问题进行聚类并筛选出具备同类特征的疑似心理健康异常群体后,建立心理行为模型来区分出疑似存在心理异常倾向的学生群体,从而解决
现有技术所存在的问题。
[0006] 为了解决上述技术问题,本发明实施例提供了一种基于校园大数据的学生行为与心理检测结果的精准分析方法,所述方法包括以下步骤:
[0007] 步骤S1、获取采用高维数据表征的多个学生行为数据及每一学生的心理状态,并将所获取的每一学生行为数据均转换成相应的矩阵表示,且待以各矩阵中每一条数据为模型特征,学生心理状态为模型标签,构建出一个训练筛选特征的
卷积神经网络模型后,进一步将每一矩阵中各数据均输入所述训练筛选特征的卷积神经网络模型中进行训练,得到每一学生各自对应的多个
降维数据;
[0008] 步骤S2、待以各降维数据为模型特征,学生心理状态为模型标签,构建出一个长短时记忆循环神经网络模型后,将所得到每一学生各自对应的多个降维数据均导入所述长短时记忆循环神经网络模型中按通道维度拼接起来,得到多源异构特征融合数据;
[0009] 步骤S3、采用预设的三阶段的特异群组挖掘
算法对所得到的多源异构特征融合数据进行处理,确定出疑似存在心理异常倾向的学生并输出。
[0010] 其中,在所述训练筛选特征的卷积神经网络模型中,学生心理状态为健康记为标签0,学生心理状态为异常记为标签1,且导入的矩阵中各数据若输出结果大于预设第一
阈值则输出为对应的降维数据。
[0011] 其中,所述步骤S3包括:
[0012] 首先,找到给定的多源异构特征融合数据集中最相似的数据对象对,并采用
剪枝策略将不可能包含特异对象的对象对删除,然后从候选对象对中计算得到特异对象;具体为Top k相似点对查询策略找到Top k个相似点对,且所找到的相似点对中的对象被认为是候选对象;
[0013] 其次,根据特异群组定义,采用最大团挖掘算法将候选对象中所有的特异对象划分到相应的特异群组中;其中,所述特异群组中的每对对象之间必须相似;特异群组的集合为有心理异常的学生有的行为共性集合;
[0014] 最后,通过计算独立个体行为特征与特异群组集合的距离,若小于设定的第二阈值,则可判断所计算的独立个体行为疑似存在心理异常倾向,将疑似存在心理异常倾向的独立个体行为输出。
[0015] 本发明实施例中还提供了一种基于校园大数据来分析学生心理行为的系统,包括:
[0016] 数据降维单元,用于获取采用高维数据表征的多个学生行为数据及每一学生的心理状态,并将所获取的每一学生行为数据均转换成相应的矩阵表示,且待以各矩阵中每一条数据为模型特征,学生心理状态为模型标签,构建出一个训练筛选特征的卷积神经网络模型后,进一步将每一矩阵中各数据均输入所述训练筛选特征的卷积神经网络模型中进行训练,得到每一学生各自对应的多个降维数据;
[0017] 数据融合单元,用于待以各降维数据为模型特征,学生心理状态为模型标签,构建出一个长短时记忆循环神经网络模型后,将所得到每一学生各自对应的多个降维数据均导入所述长短时记忆循环神经网络模型中按通道维度拼接起来,得到多源异构特征融合数据;
[0018] 特异群组挖掘单元,用于采用预设的三阶段的特异群组挖掘算法对所得到的多源异构特征融合数据进行处理,确定出疑似存在心理异常倾向的学生并输出。
[0019] 其中,在所述训练筛选特征的卷积神经网络模型中,学生心理状态为健康记为标签0,学生心理状态为异常记为标签1,且导入的矩阵中各数据若输出结果大于预设第一阈值则输出为对应的降维数据。
[0020] 其中,所述特异群组挖掘单元包括:
[0021] 第一挖掘模
块,用于找到给定的多源异构特征融合数据集中最相似的数据对象对,并采用剪枝策略将不可能包含特异对象的对象对删除,然后从候选对象对中计算得到特异对象;具体为Top k相似点对查询策略找到Top k个相似点对,且所找到的相似点对中的对象被认为是候选对象;
[0022] 第二挖掘模块,用于根据特异群组定义,采用最大团挖掘算法将候选对象中所有的特异对象划分到相应的特异群组中;其中,所述特异群组中的每对对象之间必须相似;特异群组的集合为有心理异常的学生有的行为共性集合;
[0023] 第三挖掘模块,用于通过计算独立个体行为特征与特异群组集合的距离,若小于设定的第二阈值,则可判断所计算的独立个体行为疑似存在心理异常倾向,将疑似存在心理异常倾向的独立个体行为输出。
[0024] 实施本发明实施例,具有如下有益效果:
[0025] 本发明通过对学生心理健康问题进行聚类并筛选出具备同类特征的疑似心理健康异常群体后,建立心理行为模型来区分出疑似存在心理异常倾向的学生群体,从而解决现有技术所存在的问题。
附图说明
[0026] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
[0027] 图1为本发明实施例提供的基于校园大数据的学生行为与心理检测结果的精准分析方法的
流程图;
[0028] 图2为本发明实施例提供的基于校园大数据的学生行为与心理检测结果的精准分析方法中三阶段的特异群组挖掘算法的应用场景图;
[0029] 图3为本发明实施例提供的基于校园大数据来分析学生心理行为的系统的结构示意图。
具体实施方式
[0030] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
[0031] 如图1所示,为本发明实施例中,提供的一种基于校园大数据的学生行为与心理检测结果的精准分析方法,所述方法包括以下步骤:
[0032] 步骤S1、获取采用高维数据表征的多个学生行为数据及每一学生的心理状态,并将所获取的每一学生行为数据均转换成相应的矩阵表示,且待以各矩阵中每一条数据为模型特征,学生心理状态为模型标签,构建出一个训练筛选特征的卷积神经网络模型后,进一步将每一矩阵中各数据均输入所述训练筛选特征的卷积神经网络模型中进行训练,得到每一学生各自对应的多个降维数据;
[0033] 具体过程为,基于教育主管部
门下发的心理健康问卷对校园数万名学生进行调查,并由心理专家根据心理健康问卷的调查结果协助筛选疑似存在心理异常群体样本标记出每一学生的心理状态;学生行为数据可以包括一卡通流
水记录、教务处考试成绩、上网时长和校园门禁记录等等,例如一卡通消费流水数据进行数据挖掘和关联分析,可以从学生消费频次、图书馆刷卡次数、学生教室刷卡打水时间、宿舍门禁刷卡数据等一卡通的海量数据中挖掘分析出一个学生的在校和外出习惯、图书借阅、晚自习时间等有价值的行为信息。
[0034] 由于心理健康问卷涉及到的数据特征数量远远大于样本数量,这样的数据被称为高维数据,因此学生行为数据转换为矩阵后,往往具有高维稀疏的特性,即反映学生行为的特征很多,而且很多特征值为零或者非常接近零。这样高维稀疏数据会使原来的数据挖掘方法效率降到“难以容忍”的程度甚至完全失效。因此本发明先通过矩阵变换进行特征提取,再通过全卷积网络自动学习到特征选择方法,大大降低了特征数量,达到双重降维的目的。
[0035] 其中,训练筛选特征的卷积神经网络(Select-CNN),网络的参数设置如表1所示:
[0036] 表1
[0037]第一层 (7×1)×8
第二层 (7×1)×32
第三层 (5×1)×32
第四层 (3×1)×1
第五层 全局平均
池化层
[0038] 表1中,参数代表的意义为(卷积核长×卷积核宽)×卷积核个数。
训练数据为转换为矩阵的100名学生行为数据,标签为学生的心理状态,健康设为0,异常设为1,损失函数选为二分类交叉熵。100个训练样本中包括50名心理健康样本和50名心理异常样本。
[0039] 由于网络为全卷积网络,所以输入特征的维度可变。对矩阵每条输入特征ai都经过上述Select-CNN,输出结果p(ai)大于设定的阈值δ,则保留当前特征。即在所述训练筛选特征的卷积神经网络模型中,学生心理状态为健康记为标签0,学生心理状态为异常记为标签1,且导入的矩阵中各数据若输出结果大于预设第一阈值则输出为对应的降维数据。
[0040] 将所有保存下来的特征放入集合A中,后续为传统PCA降维算法。步骤流程包括样本矩阵中心化、计算协方差矩阵、计算
特征向量eigenVector和特征值eigenValue、
选定变换基和计算降维结果。
[0041] 应当说明的是,降维方法可以包括:卷积神经网络的训练方法、卷积网络结构的设计、卷积神经网络和主成分分析方法结合等。
[0042] 步骤S2、待以各降维数据为模型特征,学生心理状态为模型标签,构建出一个长短时记忆循环神经网络模型后,将所得到每一学生各自对应的多个降维数据均导入所述长短时记忆循环神经网络模型中按通道维度拼接起来,得到多源异构特征融合数据;
[0043] 具体过程为,由于数据的来源不同,而且数据的表示方式不同,所以需要一种能融合这些数据的方法。不同来源的数据经过降维后,可以通过同一个
深度神经网络提取对应的特征,并按通道维度拼接起来,获得融合特征。本发明在现有基于深度神经网络的融合方法上,提出了深度神经网络为卷积循环神经网络(CNN+RNN)。
[0044] 其中,训练卷积循环神经网络CNN+RNN。网络结构如下表2所示:
[0045] 表2
[0046]
[0047]
[0048] 本发明使用的循环神经网络为长短时记忆网络LSTM。考虑到学生行为数据存在的时序性的特征,所以在提取空间特征的CNN后又加入了LSTM提取时间特征。表中三块卷积解释为,[(卷积核长×卷积核宽)×卷积核个数]×卷积重复次数,每两个卷积块之间都有2×2的最大池化层;第四、五块为单向LSTM,CNN和LSTM之间存在宽度特征和通道特征合并的过程,只保留了时间维度的特征;第六、七为全连接层,作为网络的简单分类器。
[0049] 训练过程为,收集400名学生的不同来源数据,经过上述高维数据降维算法后得到的多源数据混合后作为训练数据,其中标签为学生的心理健康状态。损失函数为二分类交叉熵,优化器为Adam。
[0050] 训练得到的CNN+RNN网络作为特征提取网络,降维后的低维数据经过网络后可以获得包括空间和时间的特征表示。所有来源的低维数据提取到的特征在通道维度上直接拼接,为后续特异性群组挖掘算法提供输入数据。
[0051] 应当说明的是,
深度学习多源异构数据融合可以包括,卷积循环神经网络的训练方法卷积循环网络结构的设计、多源数据特征的融合方法。
[0052] 步骤S3、采用预设的三阶段的特异群组挖掘算法对所得到的多源异构特征融合数据进行处理,确定出疑似存在心理异常倾向的学生并输出。
[0053] 具体过程为,由于上述CNN-RNN的分类器,即全连接网络并不能得到可靠的分类结果,因为本发明的应用场景为少量特异性群体的挖掘,和分类、聚类等方法在问题定义、算法设计和应用效果上存在差异,因此提出三阶段的特异群组挖掘算法替代全连接的分类器。
[0054] 其中,三阶段的特异群组挖掘算法的流程图,如图2所示:
[0055] 首先,找到给定的多源异构特征融合数据集中最相似的数据对象对,并采用剪枝策略将不可能包含特异对象的对象对删除,然后从候选对象对中计算得到特异对象;具体为Top k相似点对查询策略:首先在一堆数据里面找到前k大,然后找到Top k个相似点对,且所找到的相似点对中的对象被认为是候选对象;
[0056] 其次,根据特异群组定义,采用最大团挖掘算法将候选对象中所有的特异对象划分到相应的特异群组中;其中,所述特异群组中的每对对象之间必须相似;特异群组的集合为有心理异常的学生有的行为共性集合;
[0057] 最后,通过计算独立个体行为特征与特异群组集合的距离,若小于设定的第二阈值,则可判断所计算的独立个体行为疑似存在心理异常倾向,将疑似存在心理异常倾向的独立个体行为输出。
[0058] 如图3所示,为本发明实施例中,提供的一种基于校园大数据来分析学生心理行为的系统,包括:
[0059] 数据降维单元10,用于获取采用高维数据表征的多个学生行为数据及每一学生的心理状态,并将所获取的每一学生行为数据均转换成相应的矩阵表示,且待以各矩阵中每一条数据为模型特征,学生心理状态为模型标签,构建出一个训练筛选特征的卷积神经网络模型后,进一步将每一矩阵中各数据均输入所述训练筛选特征的卷积神经网络模型中进行训练,得到每一学生各自对应的多个降维数据;
[0060] 数据融合单元20,用于待以各降维数据为模型特征,学生心理状态为模型标签,构建出一个长短时记忆循环神经网络模型后,将所得到每一学生各自对应的多个降维数据均导入所述长短时记忆循环神经网络模型中按通道维度拼接起来,得到多源异构特征融合数据;
[0061] 特异群组挖掘单元30,用于采用预设的三阶段的特异群组挖掘算法对所得到的多源异构特征融合数据进行处理,确定出疑似存在心理异常倾向的学生并输出。
[0062] 其中,在所述训练筛选特征的卷积神经网络模型中,学生心理状态为健康记为标签0,学生心理状态为异常记为标签1,且导入的矩阵中各数据若输出结果大于预设第一阈值则输出为对应的降维数据。
[0063] 其中,所述特异群组挖掘单元30包括:
[0064] 第一挖掘模块301,用于找到给定的多源异构特征融合数据集中最相似的数据对象对,并采用剪枝策略将不可能包含特异对象的对象对删除,然后从候选对象对中计算得到特异对象;具体为Top k相似点对查询策略找到Top k个相似点对,且所找到的相似点对中的对象被认为是候选对象;
[0065] 第二挖掘模块302,用于根据特异群组定义,采用最大团挖掘算法将候选对象中所有的特异对象划分到相应的特异群组中;其中,所述特异群组中的每对对象之间必须相似;特异群组的集合为有心理异常的学生有的行为共性集合;
[0066] 第三挖掘模块303,用于通过计算独立个体行为特征与特异群组集合的距离,若小于设定的第二阈值,则可判断所计算的独立个体行为疑似存在心理异常倾向,将疑似存在心理异常倾向的独立个体行为输出。
[0067] 实施本发明实施例,具有如下有益效果:
[0068] 本发明通过对学生心理健康问题进行聚类并筛选出具备同类特征的疑似心理健康异常群体后,建立心理行为模型来区分出疑似存在心理异常倾向的学生群体,从而解决现有技术所存在的问题。
[0069] 值得注意的是,上述装置实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
[0070] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的
硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
[0071] 以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明
权利要求所作的等同变化,仍属本发明所涵盖的范围。