专利汇可以提供一种教学场景说话人转换检测系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种教学场景说话人转换检测系统,包括语音录入模 块 ,VAD模块,声音特征提取模块,说话人识别模块,输出模块组成。本发明运用语音 信号 处理及 深度学习 的方法对课堂上的语音音频数据进行处理,划分成不同说话人的音频区间,从而节约教学评价和课后复习的人 力 物力财力和时间;方便优化教育方法,提供更合理的学习资料。,下面是一种教学场景说话人转换检测系统专利的具体信息内容。
1.一种教学场景说话人转换检测系统,其特征在于,包括如下步骤:
S1:通过录音设备得到课堂上的语音信息,并转化成音频信号送入到服务器的数据库中;
S2:人工智能VAD模块根据所述音频信号将课堂音频按照有人说话和无人说话两个类别来进行分类;
S3:声音特征提取模块将步骤S2中所得到的有人说话部分的音频按照声音特征来计算出声音特征向量,进一步得到整段音频的声音特征矩阵;
S4:说话人识别模块根据步骤S3所得到的声音特征矩阵对音频按照说话人进行分类,得到老师说话区间及不同学生说话区间的类别;
S5:输出模块根据步骤S4所得到的分类类别获得老师讲话音频及学生讲话音频。
2.根据权利要求1所述的教学场景说话人转换检测系统,其特征在于:所述人工智能VAD模块包括第一深度学习算法。
3.根据权利要求1所述的教学场景说话人转换检测系统,其特征在于:所述声音特征提取模块包括小波变换算法、梅尔频率倒谱算法和第二深度学习算法,所述声音特征提取模具体是对音频按照固定长度及固定步长对音频进行裁剪,制作出每段的声音频谱矩阵,通过人工智能算法来得到每段音频的声音特征。
4.根据权利要求3所述的教学场景说话人转换检测系统,其特征在于:所述第二深度学习算法包括LSTM算法、RNN算法和End-to-End损失函数算法。
5.根据权利要求1所述的教学场景说话人转换检测系统,其特征在于:所述说话人识别模块包括第三深度学习算法。
6.根据权利要求5所述的教学场景说话人转换检测系统,其特征在于:所述第三深度学习算法包括GRU算法、RNN算法和极大似然估计算法。
7.根据权利要求1所述的教学场景说话人转换检测系统,其特征在于:所述录音设备为麦克风。
8.根据权利要求1所述的教学场景说话人转换检测系统,其特征在于:所述步骤S4的分类方法为:首先,将当前帧的特征矩阵与上一帧特征矩阵做相似度计算,当相似度大于阈值时即判断当前帧说话人与上一帧说话人为同一说话人;若相似度小于阈值时,则计算当前帧之前出现过的说话人做相似度计算继续做阈值判断,阈值由当前帧与说话人上次说话相差帧数以及说话人说话段数决定;若相似度均不满足条件则判断当前帧数说话人为新一说话人。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
图像处理方法、装置、存储介质以及终端 | 2020-05-08 | 610 |
一种根据失信信息限制失信人出行的安检装置 | 2020-05-08 | 581 |
通信数据同步及处理方法和系统 | 2020-05-08 | 21 |
用于立体车库的车辆数据处理方法、系统和存储介质 | 2020-05-08 | 442 |
一种广告投放方法及系统 | 2020-05-11 | 683 |
一种公共卫生医疗信息区域平台新型架构和实现方法 | 2020-05-08 | 32 |
一种构建信息通信智能调度指挥沙盘的方法 | 2020-05-08 | 92 |
一种HLA I型分子与多肽的亲和力预测方法 | 2020-05-08 | 618 |
一种基于互联网的铁建设备智能管理云平台 | 2020-05-08 | 830 |
信息处理方法、终端、服务器及存储介质 | 2020-05-11 | 626 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。