一种人工智能实验平台的自动评测方法及系统

申请号 CN202111105124.2 申请日 2021-09-22 公开(公告)号 CN113778454B 公开(公告)日 2024-02-20
申请人 重庆海云捷迅科技有限公司; 发明人 杨振宇;
摘要 本 发明 提供一种 人工智能 实验平台的自动评测方法及系统,其中,人工智能实验平台的自动评测方法包括:步骤1:根据实验任务选择评测规则,根据所选择的所述评测规则定义不同的评测时间和不同的评测结果;步骤2:若所选择的所述评测规则是自定义评测规则,则创建评测规则、创建评测环境,然后执行步骤3;若所选择的所述评测规则是程序结果比对的评测规则、基于 深度学习 语义分析的实验报告评测规则、面向人工智能开发流程的模型 质量 评测规则中的任意一种,则执行步骤3;步骤3:提交待评测实验任务,根据所选择的所述评测规则进行自动评测;步骤4:统计自动评测结果。本发明能够满足人工智能实验教学方面不同种类的实验作业的自动批改。
权利要求

1.一种人工智能实验平台的自动评测方法,其特征在于,包括以下步骤:
步骤1:根据实验任务选择评测规则,根据所选择的所述评测规则定义不同的评测时间和不同的评测结果;
步骤2:若所选择的所述评测规则是自定义评测规则,则创建评测规则、创建评测环境,然后执行步骤3;若所选择的所述评测规则是程序结果比对的评测规则、基于深度学习语义分析的实验报告评测规则、面向人工智能开发流程的模型质量评测规则中的任意一种,则执行步骤3;
步骤3:提交待评测实验任务,根据所选择的所述评测规则进行自动评测;
步骤4:统计自动评测结果;
步骤1中的所述评测规则包括自定义评测规则、程序结果比对的评测规则、基于深度学习语义分析的实验报告评测规则、面向人工智能开发流程的模型质量评测规则;
步骤1中的所述基于深度学习语义分析的实验报告评测规则是根据RNN算法,提取实验报告中的文本内容并分析,然后将所述实验报告的分析结果与预设的实验报告内容进行比对,以确定评测结果;
步骤1中的所述面向人工智能开发流程的模型质量评测规则中的人工智能开发流程包括数据集处理、算法开发、模型训练、模型推理;
所述面向人工智能开发流程的模型质量评测规则内置模型推理接口,使用待评测的模型和已内置的测试数据集,自动调用所述模型推理接口,从而实现模型质量的自动评测。
2.根据权利要求1所述的方法,其特征在于,步骤3中的根据所选择的所述评测规则进行自动评测包括:
步骤3.1:判断所选择的所述评测规则的脚本语言;
步骤3.2:将所选择的所述评测规则传输至实验环境中,并通过所述脚本语言执行所选择的所述评测规则对应的脚本;
步骤3.3:获取所选择的所述评测规则对应的脚本的输出JSON字符串,将所述JSON字符串返回至人工智能实验平台;
步骤3.4:所述人工智能实验平台解析所述JSON字符串,并将解析后的所述JSON字符串返回至用户界面
3.根据权利要求2所述的方法,其特征在于,步骤3.4中的解析后的所述JSON字符串是已成功解析的所述JSON字符串和未成功解析的所述JSON字符串的任意一种。
4.根据权利要求3所述的方法,其特征在于,步骤3.4中若未成功解析所述JSON字符串,则重复执行N次,N为奇数;
若重复执行N次后,仍然执行失败,则将所述未成功解析的所述JSON字符串返回至所述用户界面;
通过所述用户界面查看所选择的所述评测规则自动评测的失败原因。
5.根据权利要求1所述的方法,其特征在于,所述程序结果比对的评测规则是自动查找用户需要执行的程序目录,根据程序的后缀名解析程序的语言,执行所述程序获取输出结果,将获取的所述输出结果与预设结果进行比对,以确定评测结果。
6.一种人工智能实验平台的自动评测系统,用于实现权利要求1‑5任一项所述的方法,其特征在于,包括:
选择模,根据实验任务选择评测规则,根据所选择的所述评测规则定义不同的评测时间和不同的评测结果;
判断模块,若所选择的所述评测规则是自定义评测规则,则创建评测规则、创建评测环境,然后执行评测模块;若所选择的所述评测规则是程序结果比对的评测规则、基于深度学习语义分析的实验报告评测规则、面向人工智能开发流程的模型质量评测规则中的任意一种,则执行评测模块;
评测模块,提交待评测实验任务,根据所选择的所述评测规则进行自动评测;以及统计模块,用于统计自动评测结果。

说明书全文

一种人工智能实验平台的自动评测方法及系统

技术领域

[0001] 本申请涉及自动评测技术领域,特别是一种人工智能实验平台的自动评测方法及系统。

背景技术

[0002] 在计算机或人工智能实验教学过程中,教师需要对学生的实验作业进行批改,大部分都是通过手工批改的方式完成,教师需要阅读学生的实验报告、运行实验代码之后给出最终评分,这种方式比较费时费,效率低下。还有一种方式是通过计算机软件系统自动对学生的作业进行批改,这种方式较为先进,可称为自动化评测,通常做法是通过自动编译程序,自动执行程序获得结果,然后判断实际结果与预期结果是否匹配,然后进行评分。然而,这种方式比较局限,一般比较适合程序设计方面的作业,不太适合面向人工智能实验教学方面的作业批改。
[0003] 人工智能实验通常不止需要判断程序的可执行性、结果的正确性,还需要根据人工智能算法模型的准确度来判断作业的质量,而且一般在教学过程中,教师还需要对实验报告进行打分,判断实验报告的内容是否正确。由此可见,目前急需一种可以满足上述应用场景的自动评测方法。发明内容
[0004] 有鉴于此,本申请所解决的技术问题在于提供一种人工智能实验平台的自动评测方法及系统,解决目前的自动评测方法及系统不能同时满足人工智能实验教学方面的不同种类的实验作业的自动化批改问题。
[0005] 本发明实施例提供一种人工智能实验平台的自动评测方法,其包括:
[0006] 步骤1:根据实验任务选择评测规则,根据所选择的所述评测规则定义不同的评测时间和不同的评测结果;
[0007] 步骤2:若所选择的所述评测规则是自定义评测规则,则创建评测规则、创建评测环境,然后执行步骤3;若所选择的所述评测规则是程序结果比对的评测规则、基于深度学习语义分析的实验报告评测规则、面向人工智能开发流程的模型质量评测规则中的任意一种,则执行步骤3;
[0008] 步骤3:提交待评测实验任务,根据所选择的所述评测规则进行自动评测;
[0009] 步骤4:统计自动评测结果。
[0010] 可选的,步骤1中的所述评测规则包括自定义评测规则、程序结果比对的评测规则、基于深度学习语义分析的实验报告评测规则、面向人工智能开发流程的模型质量评测规则。
[0011] 可选的,步骤3中的根据所选择的所述评测规则进行自动评测包括:
[0012] 步骤3.1:判断所选择的所述评测规则的脚本语言;
[0013] 步骤3.2:将所选择的所述评测规则传输至实验环境中,并通过所述脚本语言执行所选择的所述评测规则对应的脚本;
[0014] 步骤3.3:获取所选择的所述评测规则对应的脚本的输出JSON字符串,将所述JSON字符串返回至人工智能实验平台;
[0015] 步骤3.4:所述人工智能实验平台解析所述JSON字符串,并将解析后的所述JSON字符串返回至用户界面
[0016] 可选的,步骤3.4中的解析后的所述JSON字符串是已成功解析的所述JSON字符串和未成功解析的所述JSON字符串的任意一种。
[0017] 可选的,步骤3.4中若未成功解析所述JSON字符串,则重复执行N次,N为奇数;
[0018] 若重复执行N次后,仍然执行失败,则将所述未成功解析的所述JSON字符串返回至所述用户界面;
[0019] 通过所述用户界面查看所选择的所述评测规则自动评测的失败原因。
[0020] 可选的,步骤1中的所述基于深度学习语义分析的实验报告评测规则是根据RNN算法,提取实验报告中的文本内容并分析,然后将所述实验报告的分析结果与预设的实验报告内容进行比对,以确定评测结果。
[0021] 可选的,步骤1中的所述面向人工智能开发流程的模型质量评测规则中的人工智能开发流程包括数据集处理、算法开发、模型训练、模型推理。
[0022] 可选的,所述面向人工智能开发流程的模型质量评测规则内置模型推理接口,使用待评测的模型和已内置的测试数据集,自动调用所述模型推理接口,从而实现模型质量的自动评测。
[0023] 可选的,所述程序结果比对的评测规则是自动查找用户需要执行的程序目录,根据程序的后缀名解析程序的语言,执行所述程序获取输出结果,将获取的所述输出结果与预设结果进行比对,以确定评测结果。
[0024] 本申请实施例还提供一种人工智能实验平台的自动评测系统,其包括:
[0025] 选择模,根据实验任务选择评测规则,根据所选择的所述评测规则定义不同的评测时间和不同的评测结果;
[0026] 判断模块,若所选择的所述评测规则是自定义评测规则,则创建评测规则、创建评测环境,然后执行评测模块;若所选择的所述评测规则是程序结果比对的评测规则、基于深度学习语义分析的实验报告评测规则、面向人工智能开发流程的模型质量评测规则中的任意一种,则执行评测模块;
[0027] 评测模块,提交待评测实验任务,根据所选择的所述评测规则进行自动评测;以及[0028] 统计模块,用于统计自动评测结果。
[0029] 另外,本发明提出的方法和系统也适用其他计算机教学实验作业的自动评测场景。
[0030] 由于采用了上述实施例的技术方案,本申请具有如下的优点:
[0031] (1)实用性强,帮助老师对人工智能实验作业进行自动批改,减轻了老师的负担,提高了工作效率。
[0032] (2)通用性强,不仅可以对人工智能实验进行自动评测,对一般的通用程序开发实验作业也可评测。
[0033] (3)更加智能化,采用深度学习算法,对实验作业报告文档进行智能化分析,得到较准确的评测结果。
[0034] (4)更加专业化,支持人工智能开发方面实验作业评测,尤其对人工智能模型的质量评测可靠性非常高。
[0035] (5)安全性高,所有评测规则都是在学生各自的实验环境中执行,它是基于docker容器的隔离环境,不会影响系统的正常运行,安全性很高。
[0036] (6)具有技术优越性,支持自定义评测规则的建立,内置基于人工智能深度学习算法的评测规则,具有很强的技术优越性。附图说明
[0037] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0038] 图1为本申请实施例一的人工智能实验平台的自动评测方法的流程示意图;
[0039] 图2为本申请实施例二的实现用户获取评测结果的方法示意图;
[0040] 图3为本申请实施例三的人工智能实验平台的自动评测系统结构示意图。

具体实施方式

[0041] 结合附图和实施例对本申请作进一步说明,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0042] 图1为本申请实施例一的一种人工智能实验平台的自动评测方法的流程示意图,如图1所示,具体地,该方法包含如下步骤:
[0043] 步骤1:根据实验任务选择评测规则,根据所选择的所述评测规则定义不同的评测时间和不同的评测结果;
[0044] 本实施例中,在确定了实验任务的类型后,用户可以选择对应的评测规则,然后根据对应的评测规则设置评测时间和评测结果。
[0045] 可选的,评测规则分为自定义规则和内置规则,自定义规则允许用户根据规范自己开发评测规则。内置规则包括程序结果比对的评测规则、基于深度学习语义分析的实验报告评测规则、面向人工智能开发流程的模型质量评测规则。
[0046] 可选的,上述程序结果比对的评测规则:系统会自动查找用户需要执行的程序目录,根据程序的后缀名解析程序的语言,对于需要编译的程序如JAVA,C系列程序,系统会自动进行编译,编译之后执行程序获取输出结果。对于不需要编译的程序如python、shell等语言,系统直接执行该程序并获取输出结果,系统会把获取的结果与预期结果进行比对,按规则要求返回评测结果和分数。
[0047] 可选的,上述基于深度学习语义分析的实验报告评测规则:采用RNN算法进行改进优化,将实验报告中的文本内容提取后,利用算法模型对文本内容进行分析,并且和预期报告内容进行比对,文本语义相近则认为报告内容正确,评测通过,最终按系统要求返回评测结果和分数。
[0048] 可选的,上述面向人工智能开发流程的模型质量评测规则:一般人工智能开发分为数据集处理、算法开发、模型训练、模型推理等步骤,模型的质量通过验证测试数据集的推理准确度来评判,该评测规则内置实现了模型推理接口,使用学生完成的模型和内置好的测试数据集,自动调用推理接口实现模型质量的自动评测。
[0049] 步骤2:若所选择的所述评测规则是自定义评测规则,则创建评测规则、创建评测环境,然后执行步骤3;若所选择的所述评测规则是程序结果比对的评测规则、基于深度学习语义分析的实验报告评测规则、面向人工智能开发流程的模型质量评测规则中的任意一种,则执行步骤3;
[0050] 本实施例中,用户可以通过自定义评测规则来满足其具体的实际特定需求,设计所需的评测规则。
[0051] 可选的,创建自定义评测规则包括如下步骤:
[0052] 创建评测规则,评测规则是与具体实验任务的要求、标准相关的,系统根据不同实验任务的要求内置了评测规则,并且对外提供了开发接口,可供用户自定义评测规则。
[0053] 创建评测环境,在开发评测规则时,启动与实验任务相关的环境,用户可在该环境中自定义开发评测规则。
[0054] 步骤3:提交待评测实验任务,根据所选择的所述评测规则进行自动评测;
[0055] 在本实施例中,提交待评测的实验任务后,系统开始根据评测规则进行自动评测,步骤如下:
[0056] 判断评测规则脚本语言,支持python和shell两种执行语言。
[0057] 将所选择的所述评测规则传输至实验环境中,并通过所述脚本语言执行所选择的所述评测规则对应的脚本;
[0058] 获取所选择的所述评测规则对应的脚本的输出JSON字符串,将所述JSON字符串返回至人工智能实验平台;
[0059] 所述人工智能实验平台解析获取的所述JSON字符串,并将解析后的所述JSON字符串返回至用户界面。解析后的所述JSON字符串是已成功解析的所述JSON字符串和未成功解析的所述JSON字符串的任意一种。
[0060] 如果规则执行失败,则会重试3次,如果都失败则返回失败的JSON字符串,解析后返回到用户界面。用户可以在自动评测的详情界面看到失败原因。
[0061] 步骤4:获取自动评测统计结果。
[0062] 本实施例中,所有的实验任务自动评测数据最终以报表的形式展示给用户,可根据不同的实验任务、不同的课程、不同的教师等维度进行统计。主要统计自动评测的最终得分,方便学校及教师判断课程的教学质量及实验作业的完成质量情况。
[0063] 图2为本申请实施例二的实现用户获取评测结果的方法示意图,如图2所示。
[0064] 教师为学生布置实验作业时选择了对应的评测规则,当学生完成实验作业并提交之后,自动评测执行模块开始工作,首先会将评测规则脚本传输到学生的实验环境中(学生的实验环境都是基于docker容器的隔离环境),之后会根据评测规则的类型及属性判断评测对象是否是程序、是否需要编译,并做相应的执行动作。如果评测对象是实验报告,则会调用内置的基于RNN算法的文本智能分析服务接口进行评测。如果评测对象是人工智能模型文件,则会使用实验内置的测试数据集和学生生成的模型文件以及内置的模型服务接口进行评测。最终将评测的结果以JSON形式返回给系统服务并保存到数据库中。返回的JSON包括评测结果、评测分数、是否执行成功等信息。
[0065] 图3为本申请实施例三的一种人工智能实验平台的自动评测系统的结构示意图,如图3所示,本实施例中的人工智能实验平台的自动评测系统包括:选择模块、判断模块、评测模块以及统计模块,其中:
[0066] 选择模块,根据实验任务选择评测规则,根据所选择的所述评测规则定义不同的评测时间和不同的评测结果;
[0067] 本实施例中,用户可从自定义评测规则、程序结果比对的评测规则、基于深度学习语义分析的实验报告评测规则、面向人工智能开发流程的模型质量评测规则中,选择满足自身需求的评测规则。
[0068] 判断模块,用于在所选择的所述评测规则是自定义评测规则,则创建评测规则、创建评测环境,然后执行评测模块;用于在所选择的所述评测规则是程序结果比对的评测规则、基于深度学习语义分析的实验报告评测规则、面向人工智能开发流程的模型质量评测规则中的任意一种,则执行评测模块。
[0069] 本实施例中,用户可以通过提供的开发环境、在线编码和在线调试,开发自定义评测规则。开发环境支持python和shell两种编程语言,可选择规则执行所需要依赖的实验环境,并且支持规则脚本代码在线编码,在线调试等功能。
[0070] 评测模块,用于提交待评测实验任务,根据所述评测规则进行自动评测。
[0071] 本实施例中,在用户提交待评测的实验任务后,依次执行判断评测规则脚本语言;将所选择的所述评测规则传输至实验环境中,并通过所述脚本语言执行所选择的所述评测规则对应的脚本;获取所选择的所述评测规则对应的脚本的输出JSON字符串,将所述JSON字符串返回至人工智能实验平台。
[0072] 统计模块,用于获取自动评测统计结果。
[0073] 本实施例中,统计模块负责将所有的实验作业自动评测数据以报表的形式展示给用户,可根据不同的实验作业、不同的课程、不同的教师等维度进行统计。主要统计自动评测的最终得分,方便学校及教师判断课程的教学质量及实验作业的完成质量情况。
[0074] 以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0075] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,所述计算机可读记录介质包括用于以计算机(例如计算机)可读的形式存储或传送信息的任何机制。
[0076] 最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
QQ群二维码
意见反馈