一种数据分析方法及装置专利检索-森林健康林业机械与工程专利检索查询-专利查询网

一种数据分析方法及装置

阅读：88发布：2020-05-19

专利汇可以提供一种数据分析方法及装置专利检索，专利查询，专利分析的服务。并且本发明实施例提供了一种数据分析方法及装置，本发明涉及人工智能技术领域，方法包括：获取待评价学生在校期间的多维度数据，多维度数据包括数值类数据和文本类数据；利用不同的数据分析工具量化多维度数据，得到多个影响因子的分值；构建分析模型，并利用预存的优秀学生的影响因子对分析模型进行训练；将待评价学生的影响因子输入训练后的分析模型中，获取分析模型输出的待评价学生的薄弱因子，薄弱因子为多个影响因子中的至少一个；根据薄弱因子调用预存的与薄弱因子相对应的针对性强化建议；基于多个影响因子、薄弱因子及针对性强化建议生成可视化评价信息。本发明实施例能够解决现有技术中学生数据通过人工分析方式准确性低的问题。，下面是一种数据分析方法及装置专利的具体信息内容。

权利要求

1.一种数据分析方法，其特征在于，所述方法包括：
获取待评价学生在校期间的多维度数据，所述多维度数据包括数值类数据和文本类数据；
利用不同的数据分析工具量化所述多维度数据，得到多个影响因子的分值；
构建分析模型，并利用预存的优秀学生的影响因子对所述分析模型进行训练；
将所述待评价学生的影响因子输入训练后的所述分析模型中，获取所述分析模型输出的所述待评价学生的薄弱因子，所述薄弱因子为多个所述影响因子中的至少一个；
根据所述薄弱因子调用预存的与所述薄弱因子相对应的针对性强化建议；
基于多个所述影响因子、所述薄弱因子及所述针对性强化建议生成所述待评价学生的可视化评价信息。
2.根据权利要求1所述的方法，其特征在于，所述利用不同的分析模型量化分析所述多维度数据，得到多个影响因子的分值，包括：
分别提取所述多维度数据中的所述数值类数据的数值，所述数值类数据的影响因子包括与生理特征、成绩、排名、竞赛得分、考勤、运动成绩、人际、家庭关心度及社会活动相关的影响因子；
将提取的数值作为所述影响因子的分值。
3.根据权利要求1所述的方法，其特征在于，所述利用不同的分析模型量化分析所述多维度数据，得到多个影响因子的分值，包括：
将所述文本类数据进行分词处理，其中，所述文本类数据的影响因子包括与户籍、民族、出生地、家庭情况、人生观、价值观、学习能力、思维能力、身体健康、体育特长相关的影响因子；
基于关键词权重计算算法对所述分词处理得到的每个所述影响因子的词汇依次进行权重评价并根据所述词汇的权重值进行排序；
选取权重值从大到小排名靠前的设定数量的词汇作为特征词；
将所述特征词与预设的特征词-分值表进行匹配，得到所述特征词的分值；
将多个所述特征词的分值加总作为所述影响因子的分值。
4.根据权利要求1所述的方法，其特征在于，所述获取待评价学生在校期间的多维度数据，包括：
通过预设的接口获取学校里各个系统的学生数据；所述系统包括考勤系统、图书馆门禁系统、考务系统、校园医院系统、学校食堂系统、学校超市系统、学生活动管理系统；
根据所述待评价学生的身份信息从每个所述学生数据中筛选出所述待评价学生的目标数据；
将每个所述目标数据进行清洗，过滤不符合预设规则的数据；
将清洗处理后的多个所述目标数据进行规范化处理，去除偏离预设的区间范围的离群数据；
将规范化处理后的多个目标数据作为所述待评价学生的多维度数据。
5.根据权利要求1所述的方法，其特征在于，构建分析模型，并利用预存的优秀学生的影响因子对所述分析模型进行训练，包括：
获取预存的优秀学生的影响因子，并将所述优秀学生的影响因子的分值作为训练数据；
将所述训练数据输入所述分析模型，其中，所述分析模型中的卷积神经网络提取各个所述影响因子的分值；
将来自多个优秀学生的同一影响因子的分值进行聚类，得到一个数据簇；
识别所述数据簇的中心分值，将所述中心分值作为优秀学生的所述同一影响因子的理想分值。
6.根据权利要求5所述的方法，其特征在于，将所述待评价学生的影响因子输入训练后的所述分析模型中，获取所述分析模型输出的所述待评价学生的薄弱因子，包括：
将所述待评价学生的待评价影响因子输入训练后的所述分析模型，其中，所述分析模型的所述卷积神经网络提取所述待评价影响因子的分值；
将提取所述待评价影响因子的分值与所述优秀学生的所述影响因子的数据簇的中心分值进行比较；
当所述待评价影响因子的分值偏离所述中心分值预设范围时，确认所述待评价学生的待评价影响因子为薄弱因子。
7.根据权利要求1所述的方法，其特征在于，所述利用不同的分析模型量化分析所述多维度数据，得到多个影响因子的分值之后，所述方法还包括：
向毕业去向预测模型中输入所述提取到的多个影响因子，以使得所述毕业去向预测模型根据逻辑回归、决策树、随机森林中的任意一种方法得到所述待评价学生的毕业去向类别。
8.一种数据分析装置，其特征在于，所述装置包括：
获取单元，用于获取待评价学生在校期间的多维度数据，所述多维度数据包括数值类数据和文本类数据；
分析单元，用于利用不同的分析模型量化分析所述多维度数据，得到多个影响因子的分值；
构建单元，用于构建分析模型，并利用预存的优秀学生的影响因子对所述分析模型进行训练；
输入单元，用于将所述待评价学生的影响因子输入训练后的所述分析模型中，获取所述分析模型输出的所述待评价学生的薄弱因子，所述薄弱因子为多个所述影响因子中的至少一个；
调用单元，用于根据所述薄弱因子调用预存的与所述薄弱因子相对应的针对性强化建议；
生成单元，用于基于多个所述影响因子、所述薄弱因子及所述针对性强化建议生成所述待评价学生的可视化评价信息。
9.一种计算机非易失性存储介质，所述存储介质包括存储的程序，其特征在于，在所述程序运行时控制所述存储介质所在设备执行权利要求1至7任意一项所述的数据分析方法。
10.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述的数据分析方法的步骤。

说明书全文

一种数据分析方法及装置

【技术领域】

[0001] 本发明涉及人工智能技术领域，尤其涉及一种数据分析方法及装置。【背景技术】

[0002] 目前，学校在教育管理上，对学生缺乏全面刻画评估，多只关注学习能力，关注面单一，片面地评价学生的学习能力，容易使得学生失去信心，学生也难以自我认识到薄弱项，针对性地强化自己的薄弱项。因此，需要全面地收集学生的数据，通过数据来分析学生的各方面学习能力，帮助学生。一般现在通过老师根据学生表现主观分析学生的学习能力，这种人工分析方式准确性低。【发明内容】

[0003] 有鉴于此，本发明实施例提供了一种数据分析方法及装置，用以解决现有技术中学生数据通过人工分析方式准确性低的问题。

[0004] 为了实现上述目的，根据本发明的一个方面，提供了一种数据分析方法，所述方法包括：

[0005] 获取待评价学生在校期间的多维度数据，所述多维度数据包括数值类数据和文本类数据；利用不同的分析模型量化分析所述多维度数据，得到多个影响因子的分值；构建分析模型，并利用预存的优秀学生的影响因子对所述分析模型进行训练；将所述待评价学生的影响因子输入训练后的所述分析模型中，获取所述分析模型输出的所述待评价学生的薄弱因子，所述薄弱因子为多个所述影响因子中的至少一个；根据所述薄弱因子调用预存的与所述薄弱因子相对应的针对性强化建议；基于多个所述影响因子、所述薄弱因子及所述针对性强化建议生成所述待评价学生的可视化评价信息。

[0006] 进一步地，所述利用不同的分析模型量化分析所述多维度数据，得到多个影响因子的分值，包括：分别提取所述多维度数据中的所述数值类数据的数值，所述数值类数据的影响因子包括与生理特征、成绩、排名、竞赛得分、考勤、运动成绩、人际、家庭关心度及社会活动相关的影响因子；将提取的数值作为所述影响因子的分值。

[0007] 进一步地，所述利用不同的分析模型量化分析所述多维度数据，得到多个影响因子的分值，包括：将所述文本类数据进行分词处理，其中，所述文本类数据的影响因子包括与户籍、民族、出生地、家庭情况、人生观、价值观、学习能力、思维能力、身体健康、体育特长相关的影响因子；基于关键词权重计算算法对所述分词处理得到的每个所述影响因子的词汇依次进行权重评价并根据所述词汇的权重值进行排序；选取权重值从大到小排名靠前的设定数量的词汇作为特征词；将所述特征词与预设的特征词-分值表进行匹配，得到所述特征词的分值；将多个所述特征词的分值加总作为所述影响因子的分值。

[0008] 进一步地，所述获取待评价学生在校期间的多维度数据，包括：通过预设的接口获取学校里各个系统的学生数据；所述系统包括考勤系统、图书馆门禁系统、考务系统、校园医院系统、学校食堂系统、学校超市系统、学生活动管理系统；根据所述待评价学生的身份信息从每个所述学生数据中筛选出所述待评价学生的目标数据；将每个所述目标数据进行清洗，过滤不符合预设规则的数据；将清洗处理后的多个所述目标数据进行规范化处理，去除偏离预设的区间范围的离群数据；将规范化处理后的多个目标数据作为所述待评价学生的多维度数据。

[0009] 进一步地，构建分析模型，并利用预存的优秀学生的影响因子对所述分析模型进行训练，包括：获取预存的优秀学生的影响因子，并将所述优秀学生的影响因子的分值作为训练数据；将所述训练数据输入所述分析模型，其中，所述分析模型中的卷积神经网络提取各个所述影响因子的分值；将来自多个优秀学生的同一影响因子的分值进行聚类，得到一个数据簇；识别所述数据簇的中心分值，将所述中心分值作为优秀学生的所述同一影响因子的理想分值。

[0010] 进一步地，将所述待评价学生的影响因子输入训练后的所述分析模型中，获取所述分析模型输出的所述待评价学生的薄弱因子，包括：将所述待评价学生的待评价影响因子输入训练后的所述分析模型，其中，所述分析模型的所述卷积神经网络提取所述待评价影响因子的分值；将提取所述待评价影响因子的分值与所述优秀学生的所述影响因子的数据簇的中心分值进行比较；当所述待评价影响因子的分值偏离所述中心分值预设范围时，确认所述待评价学生的待评价影响因子为薄弱因子。

[0011] 进一步地，所述利用不同的分析模型量化分析所述多维度数据，得到多个影响因子的分值之后，所述方法还包括：向毕业去向预测模型中输入所述提取到的多个影响因子，以使得所述毕业去向预测模型根据逻辑回归、决策树、随机森林中的任意一种方法得到所述待评价学生的毕业去向类别。

[0012] 为了实现上述目的，根据本发明的一个方面，提供了一种数据分析装置，所述装置包括：获取单元，用于获取待评价学生在校期间的多维度数据，所述多维度数据包括数值类数据和文本类数据；分析单元，用于利用不同的分析模型量化分析所述多维度数据，得到多个影响因子的分值；构建单元，用于构建分析模型，并利用预存的优秀学生的影响因子对所述分析模型进行训练；输入单元，用于将所述待评价学生的影响因子输入训练后的所述分析模型中，获取所述分析模型输出的所述待评价学生的薄弱因子，所述薄弱因子为多个所述影响因子中的至少一个；调用单元，用于根据所述薄弱因子调用预存的与所述薄弱因子相对应的针对性强化建议；生成单元，用于基于多个所述影响因子、所述薄弱因子及所述针对性强化建议生成所述待评价学生的可视化评价信息。

[0013] 为了实现上述目的，根据本发明的一个方面，提供了一种计算机非易失性存储介质，所述存储介质包括存储的程序，在所述程序运行时控制所述存储介质所在设备执行上述的数据分析方法。

[0014] 为了实现上述目的，根据本发明的一个方面，提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的数据分析方法的步骤。

[0015] 在本方案中，通过大数据分析学生的多维度数据，更加快速全方面地评估学生的表现；并分析提取学生的薄弱因子，针对薄弱因子给予针对性强化建议，方便学生认识到自己的不足之处，减少老师主观臆测，公平公正地评价学生，发现学生的薄弱点，从而给出更好的强化性建议，进而提高学生数据的分析准确性，减少主观片面化。【附图说明】

[0016] 为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

[0017] 图1是本发明实施例提供的一种可选的数据分析方法的流程图；

[0018] 图2是本发明实施例提供的一种可选的数据分析装置的示意图；

[0019] 图3是本发明实施例提供的一种可选的计算机设备的示意图。【具体实施方式】

[0020] 为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

[0021] 应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

[0022] 在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

[0023] 应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

[0024] 应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述终端，但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一终端也可以被称为第二终端，类似地，第二终端也可以被称为第一终端。

[0025] 取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

[0026] 图1是根据本发明实施例的一种数据分析方法的流程图，如图1所示，该方法包括：

[0027] 步骤S101，获取待评价学生在校期间的多维度数据，多维度数据包括数值类数据和文本类数据；

[0028] 步骤S102，利用不同的数据分析工具量化多维度数据，得到多个影响因子的分值；

[0029] 步骤S103，构建分析模型，并利用预存的优秀学生的影响因子对分析模型进行训练；

[0030] 步骤S104，将待评价学生的影响因子输入训练后的分析模型中，获取分析模型输出的待评价学生的薄弱因子，薄弱因子为多个影响因子中的至少一个；

[0031] 步骤S105，根据薄弱因子调用预存的与薄弱因子相对应的针对性强化建议；

[0032] 步骤S106，基于多个影响因子、薄弱因子及针对性强化建议生成待评价学生的可视化评价信息。

[0033] 在本方案中，通过大数据分析学生的多维度数据，更加快速全方面地评估学生的表现；并分析提取学生的薄弱因子，针对薄弱因子给予针对性强化建议，方便学生认识到自己的不足之处，减少老师主观臆测，公平公正地评价学生，发现学生的薄弱点，从而给出更好的强化性建议，进而提高学生数据的分析准确性，减少主观片面化。

[0034] 其中，多维度数据从内容上大致分为学生的基础数据、德智体数据、表现力数据这三类。

[0035] 可选地，利用不同的数据分析工具量化多维度数据，得到多个影响因子的分值，包括：

[0036] 分别提取多维度数据中的数值类数据的数值，数值类数据的影响因子包括与生理特征、成绩、排名、竞赛得分、考勤、运动成绩、人际、家庭关心度及社会活动相关的影响因子；

[0037] 将提取的数值作为影响因子的分值。

[0038] 例如：生理特征包括身高、体重、心率、血压等；成绩包括学生所有类型课程的成绩；竞赛得分可以是参加奥林匹克数学赛成绩、全市化学竞赛成绩等；考勤可以为迟到、请假、早退的次数；运动成绩可以是400米跑步的时长、仰卧起坐的个数、跳高的高度、进入运动场所的频次等；人际可以是同学的好评率；家庭关心度可以是其家人的探望次数；社会活动可以是参加社会活动的次数。可以理解地，数值类数据为可以直接用数值来体现的一个影响因子的数据。

[0039] 在一种实施方式中，提取出来的各个影响因子及其分值以键值对的形式存储在预设的数据表中，从而方便进行统计、挖掘、预测等的数据处理。

[0040] 可选地，利用不同的数据分析工具量化多维度数据，得到多个影响因子的分值，包括：

[0041] 将文本类数据进行分词处理，其中，文本类数据的影响因子包括户籍、民族、出生地、家庭情况、人生观、价值观、学习能力、思维能力、身体健康、体育特长；基于关键词权重计算算法对分词处理得到的每个影响因子的词汇依次进行权重评价并根据词汇的权重值进行排序；选取权重值从大到小排名靠前的设定数量的词汇作为特征词；将特征词与预设的特征词-分值表进行匹配，得到特征词的分值；将多个特征词的分值加总作为影响因子的分值。

[0042] 其中，关键词权重计算算法采用tf-idf(Term Frequency–Inverse Document Frequency，词频-逆文本频率)算法。

[0043] 可以理解地，文本类数据是指纯文本的影响因子，例如价值观，老师会对学生的价值观进行文字描述，学生也可以自我总结自己的价值观。例如：价值观为谦逊、有爱、努力、创新。那么分词得到的“谦逊”、“有爱”“努力”“创新”作为特征词直接与特征词-分值表进行匹配，得到价值观这一影响因子的分值为8分。例如学习能力这一影响因子，老师的评语是“能够快速吸收老师的解题思路，善于总结，并举一反三，有较强的学历能力”，那么根据权重值进行排序后得到“较强”、“快速”、“吸收”“总结”这几个特征词，将特征词语特征词-分值表进行匹配后，得到学习能力这一影响因子的分值为8分。当民族这种的文本类的影响因子时，直接将民族(如：汉族)作为特征词来进行特征词-分值匹配即可。

[0044] 可选地，利用不同的数据分析工具量化多维度数据，得到多个影响因子的分值，包括：

[0045] 将文本类数据输入至预设的数据分析工具；获取数据分析工具输出的数值化标签。例如，将教务系统中的关于学生的心理健康的待评价描述文本输入心理健康分析模型中，心理健康分析模型通过大量心理健康的描述样本训练得到，能够分析待评价描述文本，得到待评价描述文本的数值化标签。分析量化模型可以采用训练逻辑回归、支持向量机、决策树、随机森林等分析方法。

[0046] 同样地，分析量化工具还包括人生观分析模型、价值观分析模型、学习能力分析模型、思维能力分析模型、身体健康分析模型、体育特长分析模型、人际分析模型。通过对应的分析量化模型将文本类数据转为数值化标签。

[0047] 在一种实施方式中，提取出来的各个影响因子及其分值同样以键值对的形式存储在预设的数据表中，从而方便进行统计、挖掘、预测等的数据处理。

[0048] 可选地，获取待评价学生在校期间的多维度数据，包括：通过预设的接口获取学校里各个系统的学生数据；系统包括考勤系统、图书馆门禁系统、考务系统、校园医院系统、学校食堂系统、学校超市系统、学生活动管理系统；根据待评价学生的身份信息从每个学生数据中筛选出待评价学生的目标数据；将每个目标数据进行清洗，过滤不符合预设规则的数据；将清洗处理后的多个目标数据进行规范化处理，去除偏离预设的区间范围的离群数据；将规范化处理后的多个目标数据作为待评价学生的多维度数据。

[0049] 例如：该学生的生理特征数据为：身高175cm，体重65kg，心率75次/分钟，而5次测试结果中，4次为身高175cm，1次为身高170cm，其中的身高数据(170cm)偏离预设的区间范围，例如身高的预设区间为175±1cm，已经偏离预设的区间范围，则应该将此次的身高数据去除。

[0050] 在一种实施方式中，待评价学生的身份信息包括学生姓名、学生证号、身份证号等。

[0051] 可选地，构建分析模型，并利用预存的优秀学生的影响因子对分析模型进行训练，包括：获取预存的优秀学生的影响因子，并将优秀学生的影响因子的分值作为训练数据；将训练数据输入分析模型，其中，分析模型中的卷积神经网络提取各个影响因子的分值；将来自多个优秀学生的同一影响因子的分值进行聚类，得到一个数据簇；识别数据簇的中心分值，将中心分值作为优秀学生的同一影响因子的理想分值。

[0052] 可以理解地，将一些优秀学生的影响因子的数据作为训练基础，使得分析模型可以通过多次学习，学习优秀学生的影响因子的特征，并作为理想分值存储在分析模型中，其中，理想分值是一个预设的分值范围，例如各科目成绩85～90分之间。这里的优秀学生可以是学校中真实的一些优秀学生代表，也可以是一个虚拟的对象，如老师认可的优秀学生的各影响因子的特征数据。

[0053] 可选地，将待评价学生的影响因子输入训练后的分析模型中，获取分析模型输出的待评价学生的薄弱因子，包括：将待评价学生的待评价影响因子输入训练后的分析模型，其中，分析模型的卷积神经网络提取待评价影响因子的分值；将提取待评价影响因子的分值与优秀学生的影响因子的数据簇的中心分值进行比较；当待评价影响因子的分值偏离中心分值预设范围时，确认待评价学生的待评价影响因子为薄弱因子。

[0054] 通过将待评价学生的影响因子都输入至分析模型，分析模型就能通过数据分析和比对得到这个学生的薄弱因子。

[0055] 可选地，利用不同的分析模型量化分析多维度数据，得到多个影响因子的分值之后，方法还包括：向毕业去向预测模型中输入提取到的多个影响因子，以使得毕业去向预测模型根据逻辑回归、决策树、随机森林中的任意一种方法得到待评价学生的毕业去向类别。

[0056] 在一种实施方式中，去向预测模型采用逻辑回归模型，去向预测模型的学习步骤包括：获取多个学生的多维度数据样本，并提取每个样本中的影响因子的分值；比对多维度数据样本之间的多个影响因子的分值差异；将多维度数据样本分为训练集和验证集，将训练集的多维度数据样本的多个影响因子的分值差异作为预测变量，毕业去向作为响应变量建立去向预测模型。

[0057] 在一种实施方式中，利用验证集中的多维度数据样本来验证去向预测模型的预测准确度，评估去向预测模型的拟合度。

[0058] 本发明实施例提供了一种数据分析装置，该装置用于执行上述数据分析方法，如图2所示，该装置包括：获取单元10、分析单元20、构建单元30、输入单元40、调用单元50、生成单元60。

[0059] 获取单元10，用于获取待评价学生在校期间的多维度数据，多维度数据包括数值类数据和文本类数据；

[0060] 分析单元20，用于利用不同的数据分析工具量化多维度数据，得到多个影响因子的分值；

[0061] 构建单元30，用于构建分析模型，并利用预存的优秀学生的影响因子对分析模型进行训练；

[0062] 输入单元40，用于将待评价学生的影响因子输入训练后的分析模型中，获取分析模型输出的待评价学生的薄弱因子，薄弱因子为多个影响因子中的至少一个；

[0063] 调用单元50，用于根据薄弱因子调用预存的与薄弱因子相对应的针对性强化建议；

[0064] 生成单元60，用于基于多个影响因子、薄弱因子及针对性强化建议生成待评价学生的可视化评价信息。

[0065] 在本方案中，通过大数据分析学生的多维度数据，更加快速全方面地评估学生的表现；并分析提取学生的薄弱因子，针对薄弱因子给予针对性强化建议，方便学生认识到自己的不足之处，减少老师主观臆测，公平公正地评价学生，发现学生的薄弱点，从而给出更好的强化性建议，进而提高学生数据的分析准确性，减少主观片面化。

[0066] 其中，多维度数据从内容上大致分为学生的基础数据、德智体数据、表现力数据这三类。

[0067] 可选地，分析单元20包括第一提取子单元、第一确认子单元。

[0068] 第一提取子单元，用于分别提取多维度数据中的数值类数据的数值，数值类数据的影响因子包括与生理特征、成绩、排名、竞赛得分、考勤、运动成绩、人际、家庭关心度及社会活动相关的影响因子；

[0069] 第一确认子单元，用于将提取的数值作为影响因子的分值。

[0070] 例如：生理特征包括身高、体重、心率、血压等；成绩包括学生所有类型课程的成绩；竞赛得分可以是参加奥林匹克数学赛成绩、全市化学竞赛成绩等；考勤可以为迟到、请假、早退的次数；运动成绩可以是400米跑步的时长、仰卧起坐的个数、跳高的高度、进入运动场所的频次等；人际可以是同学的好评率；家庭关心度可以是其家人的探望次数；社会活动可以是参加社会活动的次数。可以理解地，数值类数据为可以直接用数值来体现的一个影响因子的数据。

[0071] 在一种实施方式中，提取出来的各个影响因子及其分值以键值对的形式存储在预设的数据表中，从而方便进行统计、挖掘、预测等的数据处理。

[0072] 可选地，分析单元20包括处理子单元、评价子单元、第二确认子单元、匹配子单元、汇总子单元。

[0073] 处理子单元，用于将文本类数据进行分词处理，其中，文本类数据的影响因子包括户籍、民族、出生地、家庭情况、人生观、价值观、学习能力、思维能力、身体健康、体育特长；评价子单元，用于基于关键词权重计算算法对分词处理得到的每个影响因子的词汇依次进行权重评价并根据词汇的权重值进行排序；第二确认子单元，用于选取权重值从大到小排名靠前的设定数量的词汇作为特征词；匹配子单元，用于将特征词与预设的特征词-分值表进行匹配，得到特征词的分值；汇总子单元，用于将多个特征词的分值加总作为影响因子的分值。

[0074] 其中，关键词权重计算算法采用tf-idf(Term Frequency–Inverse Document Frequency，词频-逆文本频率)算法。

[0075] 可以理解地，文本类数据是指纯文本的影响因子，例如价值观，老师会对学生的价值观进行文字描述，学生也可以自我总结自己的价值观。例如：价值观为谦逊、有爱、努力、创新。那么分词得到的“谦逊”、“有爱”“努力”“创新”作为特征词直接与特征词-分值表进行匹配，得到价值观这一影响因子的分值为8分。例如学习能力这一影响因子，老师的评语是“能够快速吸收老师的解题思路，善于总结，并举一反三，有较强的学历能力”，那么根据权重值进行排序后得到“较强”、“快速”、“吸收”“总结”这几个特征词，将特征词语特征词-分值表进行匹配后，得到学习能力这一影响因子的分值为8分。当民族这种的文本类的影响因子时，直接将民族(如：汉族)作为特征词来进行特征词-分值匹配即可。

[0076] 可选地，分析单元20还包括输入子单元及获取子单元。

[0077] 输入子单元，用于将文本类数据输入至预设的数据分析工具；获取子单元，用于获取数据分析工具输出的数值化标签。例如，将教务系统中的关于学生的心理健康的待评价描述文本输入心理健康分析模型中，心理健康分析模型通过大量心理健康的描述样本训练得到，能够分析待评价描述文本，得到待评价描述文本的数值化标签。分析量化模型可以采用训练逻辑回归、支持向量机、决策树、随机森林等分析方法。

[0078] 同样地，分析量化工具还包括人生观分析模型、价值观分析模型、学习能力分析模型、思维能力分析模型、身体健康分析模型、体育特长分析模型、人际分析模型。通过对应的分析量化模型将文本类数据转为数值化标签。

[0079] 在一种实施方式中，提取出来的各个影响因子及其分值同样以键值对的形式存储在预设的数据表中，从而方便进行统计、挖掘、预测等的数据处理。

[0080] 可选地，获取单元10包括第二获取子单元、筛选子单元、过滤子单元、处理子单元、数据确认子单元。

[0081] 第二获取子单元，用于通过预设的接口获取学校里各个系统的学生数据，系统包括考勤系统、图书馆门禁系统、考务系统、校园医院系统、学校食堂系统、学校超市系统、学生活动管理系统；筛选子单元，用于根据待评价学生的身份信息从每个学生数据中筛选出待评价学生的目标数据；过滤子单元，用于将每个目标数据进行清洗，过滤不符合预设规则的数据；处理子单元，用于将清洗处理后的多个目标数据进行规范化处理，去除偏离预设的区间范围的离群数据；数据确认子单元，用于将规范化处理后的多个目标数据作为待评价学生的多维度数据。

[0082] 例如：该学生的生理特征数据为：身高175cm，体重65kg，心率75次/分钟，而5次测试结果中，4次为身高175cm，1次为身高170cm，其中的身高数据(170cm)偏离预设的区间范围，例如身高的预设区间为175±1cm，已经偏离预设的区间范围，则应该将此次的身高数据去除。

[0083] 在一种实施方式中，待评价学生的身份信息包括学生姓名、学生证号、身份证号等。

[0084] 可选地，构建单元30包括第三获取子单元、第二输入子单元、聚类子单元、识别子单元。

[0085] 第三获取子单元，用于获取预存的优秀学生的影响因子，并将优秀学生的影响因子的分值作为训练数据；第二输入子单元，用于将训练数据输入分析模型，其中，分析模型中的卷积神经网络提取各个影响因子的分值；聚类子单元，用于将来自多个优秀学生的同一影响因子的分值进行聚类，得到一个数据簇；识别子单元，用于识别数据簇的中心分值，将中心分值作为优秀学生的同一影响因子的理想分值。

[0086] 可以理解地，将一些优秀学生的影响因子的数据作为训练基础，使得分析模型可以通过多次学习，学习优秀学生的影响因子的特征，并作为理想分值存储在分析模型中，其中，理想分值是一个预设的分值范围，例如各科目成绩85～90分之间。这里的优秀学生可以是学校中真实的一些优秀学生代表，也可以是一个虚拟的对象，如老师认可的优秀学生的各影响因子的特征数据。

[0087] 可选地，输入单元40包括第三输入子单元、比较子单元、第三确认子单元。

[0088] 第三输入子单元，用于将待评价学生的待评价影响因子输入训练后的分析模型，其中，分析模型的卷积神经网络提取待评价影响因子的分值；比较子单元，用于将提取待评价影响因子的分值与优秀学生的影响因子的数据簇的中心分值进行比较；第三确认子单元，用于当待评价影响因子的分值偏离中心分值预设范围时，确认待评价学生的待评价影响因子为薄弱因子。

[0089] 通过将待评价学生的影响因子都输入至分析模型，分析模型就能通过数据分析和比对得到这个学生的薄弱因子。

[0090] 可选地，利用不同的分析模型量化分析多维度数据，得到多个影响因子的分值之后，方法还包括：向去向预测模型中输入提取到的多个影响因子，以使得毕业去向预测模型根据逻辑回归、决策树、随机森林中的任意一种方法得到待评价学生的毕业去向类别。

[0091] 本发明实施例提供了一种计算机非易失性存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以下步骤：获取待评价学生在校期间的多维度数据，多维度数据包括数值类数据和文本类数据；利用不同的数据分析工具量化多维度数据，得到多个影响因子的分值；构建分析模型，并利用预存的优秀学生的影响因子对分析模型进行训练；将待评价学生的影响因子输入训练后的分析模型中，获取分析模型输出的待评价学生的薄弱因子，薄弱因子为多个影响因子中的至少一个；根据薄弱因子调用预存的与薄弱因子相对应的针对性强化建议；基于多个影响因子、薄弱因子及针对性强化建议生成待评价学生的可视化评价信息。

[0092] 可选地，在程序运行时控制存储介质所在设备执行以下步骤：分别提取多维度数据中的数值类数据的数值，数值类数据的影响因子包括与生理特征、成绩、排名、竞赛得分、考勤、运动成绩、人际、家庭关心度及社会活动相关的影响因子；将提取的数值作为影响因子的分值。

[0093] 可选地，在程序运行时控制存储介质所在设备执行以下步骤：将文本类数据进行分词处理，其中，文本类数据的影响因子包括与户籍、民族、出生地、家庭情况、人生观、价值观、学习能力、思维能力、身体健康、体育特长相关的影响因子；基于关键词权重计算算法对分词处理得到的每个影响因子的词汇依次进行权重评价并根据词汇的权重值进行排序；选取权重值从大到小排名靠前的设定数量的词汇作为特征词；将特征词与预设的特征词-分值表进行匹配，得到特征词的分值；将多个特征词的分值加总作为影响因子的分值。

[0094] 可选地，在程序运行时控制存储介质所在设备执行以下步骤：通过预设的接口获取学校里各个系统的学生数据；系统包括考勤系统、图书馆门禁系统、考务系统、校园医院系统、学校食堂系统、学校超市系统、学生活动管理系统；根据待评价学生的身份信息从每个学生数据中筛选出待评价学生的目标数据；将每个目标数据进行清洗，过滤不符合预设规则的数据；将清洗处理后的多个目标数据进行规范化处理，去除偏离预设的区间范围的离群数据；将规范化处理后的多个目标数据作为待评价学生的多维度数据。

[0095] 可选地，在程序运行时控制存储介质所在设备执行以下步骤：获取预存的优秀学生的影响因子，并将优秀学生的影响因子的分值作为训练数据；将训练数据输入分析模型，其中，分析模型中的卷积神经网络提取各个影响因子的分值；将来自多个优秀学生的同一影响因子的分值进行聚类，得到一个数据簇；识别数据簇的中心分值，将中心分值作为优秀学生的同一影响因子的理想分值。

[0096] 可选地，在程序运行时控制存储介质所在设备执行以下步骤：将待评价学生的待评价影响因子输入训练后的分析模型，其中，分析模型的卷积神经网络提取待评价影响因子的分值；将提取待评价影响因子的分值与优秀学生的影响因子的数据簇的中心分值进行比较；当待评价影响因子的分值偏离中心分值预设范围时，确认待评价学生的待评价影响因子为薄弱因子。

[0097] 图3是本发明实施例提供的一种计算机设备的示意图。如图3所示，该实施例的计算机设备100包括：处理器101、存储器102以及存储在存储器102中并可在处理器101上运行的计算机程序103，处理器101执行计算机程序103时实现实施例中的数据分析方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器101执行时实现实施例中数据分析装置中各模型/单元的功能，为避免重复，此处不一一赘述。

[0098] 计算机设备100可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器101、存储器102。本领域技术人员可以理解，图3仅仅是计算机设备100的示例，并不构成对计算机设备100的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

[0099] 所称处理器101可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

[0100] 存储器102可以是计算机设备100的内部存储单元，例如计算机设备100的硬盘或内存。存储器102也可以是计算机设备100的外部存储设备，例如计算机设备100上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器102还可以既包括计算机设备100的内部存储单元也包括外部存储设备。存储器102用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器102还可以用于暂时地存储已经输出或者将要输出的数据。

[0101] 所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

[0102] 在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

[0103] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0104] 另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

[0105] 上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

[0106] 以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

标题	发布/更新时间	阅读量
一种释放负离子且具有夜光功能的仿生植物及其制备方法	2020-05-19	449
一种大数据和BMS结合的电动汽车优化充电方法	2020-05-08	808
基于深度随机森林算法的大型飞机航空大数据故障检测与因果推理系统及方法	2020-05-16	221
一种基于肠道菌群的溃疡性结肠炎生物标志物及其应用	2020-05-11	468
一种基于航空遥感的林业健康评价系统	2020-05-18	963
用于监测胎儿健康的系统和方法	2020-05-14	204
哮喘生物标志物及其用途	2020-05-17	964
疲劳裂纹增长预测	2020-05-16	148
一种冰箱健康生态化智能管理系统	2020-05-12	670
大気汚染の悪影響に対する水溶性トマト抽出物の保護	2020-05-16	849

一种数据分析方法及装置

一种数据分析方法及装置

该功能需要专业版企业版VIP权限，您可以：