首页 / 专利库 / 计算机网络 / 服务器 / 音视频文件的获取方法、装置、服务器及存储介质

音视频文件的获取方法、装置、服务器及存储介质

阅读:453发布:2020-05-08

专利汇可以提供音视频文件的获取方法、装置、服务器及存储介质专利检索,专利查询,专利分析的服务。并且本 申请 涉及互联网技术领域,具体涉及一种音视频文件的获取方法、装置、 服务器 及存储介质。其中,一种音视频文件的获取方法,包括:获取在线课堂的教学视频;其中,所述教学视频包括教学音频数据和教学视频数据;基于所述教学音频数据的音量,提取至少一个目标音频 片段 ;根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段;将所述至少一个目标音频片段和所述至少一个目标视频片段进行合成,得到所述在线课堂的精彩音视频文件。本申请 实施例 的技术方案可以提高音视频文件获取的准确性,可以得到在线课堂的精彩音视频文件。,下面是音视频文件的获取方法、装置、服务器及存储介质专利的具体信息内容。

1.一种音视频文件的获取方法,其特征在于,包括:
获取在线课堂的教学视频;其中,所述教学视频包括教学音频数据和教学视频数据;
基于所述教学音频数据的音量,提取至少一个目标音频片段
根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段;
将所述至少一个目标音频片段和所述至少一个目标视频片段进行合成,得到所述在线课堂的精彩音视频文件。
2.如权利要求1所述的方法,其特征在于,所述根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段对应,包括:
识别所述至少一个目标音频片段中的学生音频数据和教师音频数据;
识别所述学生音频数据的至少一个第一关键词和所述教师音频数据的至少一个第二关键词;
在所述至少一个第一关键词和所述至少一个第二关键词匹配时,根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段。
3.如权利要求1所述的方法,其特征在于,所述根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段,包括:
获取所述在线课堂的课件数据;
识别所述至少一个目标音频片段中的学生音频数据;
识别所述学生音频数据的至少一个第一关键词;
在所述至少一个第一关键词和所述课件数据中的至少一个第三关键词匹配时,根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段。
4.如权利要求1所述的方法,其特征在于,所述根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段对应,包括:
获取所述至少一个目标音频片段中的至少一个学生语句和至少一个教师语句;
在所述至少一个学生语句的语义和所述至少一个教师语句的语义匹配时,根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段。
5.如权利要求1所述的方法,其特征在于,所述基于所述教学音频数据的音量,提取至少一个目标音频片段,包括:
在所述教学音频数据中,截取多个待识别音频片段;
在所述多个待识别音频片段的音量大于预设音量时,提取所述至少一个目标音频片段。
6.如权利要求5所述的方法,其特征在于,所述在所述教学音频数据中,截取多个待识别音频片段,包括:
基于所述教学音频数据的时长,周期性地截取所述多个待识别片段;
或者基于所述教学音频数据的时长,随机截取所述多个待识别片段。
7.如权利要求1所述的方法,其特征在于,所述基于所述教学音频数据的音频音量,提取至少一个目标音频片段之前,还包括:
获取所述教学视频的格式;
在所述教学视频的格式不是预设格式时,将所述教学视频的格式转换成所述预设格式。
8.一种音视频文件的获取装置,其特征在于,包括:
视频获取单元,用于获取在线课堂的教学视频;其中,所述教学视频包括教学音频数据和教学视频数据;
片段提取单元,用于基于所述教学音频数据的音量,提取至少一个目标音频片段;
片段确定单元,用于根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段;
片段合成单元,用于将所述至少一个目标音频片段和所述至少一个目标视频片段进行合成,得到所述在线课堂的精彩音视频文件。
9.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述权利要求1-7中任一项所述的方法。

说明书全文

音视频文件的获取方法、装置、服务器及存储介质

技术领域

[0001] 本申请涉及互联网技术领域,具体涉及一种音视频文件的获取方法、装置、服务器及存储介质。

背景技术

[0002] 随着信息社会的不断发展,越来越多的人选择学习各种各样的知识来不断扩充自己,网络在线教育已被广大的用户所接受。在网络在线教育过程中,用户可以对学生和老师的课程进行录制和识别,获取到老师或者学生的精彩视频。精彩视频的获取便于用户可以对在线课程进行及时监控和分析。例如用户可以观看录制的完整在线课程视频,获取到老师或者学生的精彩视频。
[0003] 本申请对于背景技术的描述属于与本申请相关的相关技术,仅仅是用于说明和便于理解本申请的内容,不应理解为申请人明确认为或推定申请人认为是本申请在首次提出申请的申请日的现有技术发明内容
[0004] 本申请实施例提供一种音视频文件的获取方法、装置、服务器及存储介质,能够提高音视频文件获取的准确性。
[0005] 第一方面,本申请实施例提供一种音视频文件的获取方法,包括:
[0006] 获取在线课堂的教学视频;其中,所述教学视频包括教学音频数据和教学视频数据;
[0007] 基于所述教学音频数据的音量,提取至少一个目标音频片段
[0008] 根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段;
[0009] 将所述至少一个目标音频片段和所述至少一个目标视频片段进行合成,得到所述在线课堂的精彩音视频文件。
[0010] 根据一些实施例,所述根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段,包括:
[0011] 识别所述至少一个目标音频片段中的学生音频数据和教师音频数据;
[0012] 识别所述学生音频数据的至少一个第一关键词和所述教师音频数据的至少一个第二关键词;
[0013] 在所述至少一个第一关键词和所述至少一个第二关键词匹配时,根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段。
[0014] 根据一些实施例,所述根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段,包括:
[0015] 获取所述在线课堂的课件数据;
[0016] 识别所述至少一个目标音频片段中的学生音频数据;
[0017] 识别所述学生音频数据的至少一个第一关键词;
[0018] 在所述至少一个第一关键词和所述课件数据中的至少一个第三关键词匹配时,根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段。
[0019] 根据一些实施例,所述根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段,包括:
[0020] 获取所述至少一个目标音频片段中的至少一个学生语句和至少一个教师语句;
[0021] 在所述至少一个学生语句的语义和所述至少一个教师语句的语义匹配时,根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段。
[0022] 根据一些实施例,所述基于所述教学音频数据的音量,提取至少一个目标音频片段,包括:
[0023] 在所述教学音频数据中,截取多个待识别音频片段;
[0024] 在所述多个待识别音频片段的音量大于预设音量时,提取所述至少一个目标音频片段。
[0025] 根据一些实施例,所述在所述教学音频数据中,截取多个待识别音频片段,包括:
[0026] 基于所述教学音频数据的时长,周期性地截取所述多个待识别片段;
[0027] 或者基于所述教学音频数据的时长,随机截取所述多个待识别片段。
[0028] 根据一些实施例,所述基于所述教学音频数据的音频音量,提取至少一个目标音频片段之前,还包括:
[0029] 获取所述教学视频的格式;
[0030] 在所述教学视频的格式不是预设格式时,将所述教学视频的格式转换成所述预设格式。
[0031] 第二方面,本申请实施例提供一种音视频文件的获取装置,包括:
[0032] 视频获取单元,用于获取在线课堂的教学视频;其中,所述教学视频包括教学音频数据和教学视频数据;
[0033] 片段提取单元,用于基于所述教学音频数据的音量,提取至少一个目标音频片段;
[0034] 片段确定单元,用于根据时间点确定与所述至少一个目标音频片段对应的至少一个目标视频片段;
[0035] 片段合成单元,用于将所述至少一个目标音频片段和所述至少一个目标视频片段进行合成,得到所述在线课堂的精彩音视频文件。
[0036] 第三方面,本申请实施例提供一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
[0037] 第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述中任一项所述的方法。
[0038] 第五方面,本申请实施例提供一种计算机程序产品,其中,上述计算机程序产品包括存储计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
[0039] 本申请实施例提供一种音视频文件的获取方法,包括:获取在线课堂的教学视频;其中,教学视频包括教学音频数据和教学视频数据,基于教学音频数据的音量,提取至少一个目标音频片段,根据时间点确定与至少一个目标音频片段对应的一个目标视频片段,将至少一个目标音频片段和至少一个目标视频片段进行合成,得到在线课堂的精彩音视频文件。本申请实施例的技术方案基于教学音频数据的音量,将提取到的至少一个目标音频片段和至少一个目标视频片段进行合成,可以得到在线课堂的精彩音视频文件,可以提高音视频文件获取的准确性。
附图说明
[0040] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041] 图1示出可以应用根据本申请实施例的音视频文件的获取装置的示例性系统架构的示意图;
[0042] 图2示出本申请实施例的音视频文件的获取方法的流程示意图;
[0043] 图3示出本申请另一实施例的音视频文件的获取方法的流程示意图;
[0044] 图4示出本申请另一实施例的音视频文件的获取方法的流程示意图;
[0045] 图5示出本申请实施例的音视频文件的获取装置的结构示意图;
[0046] 图6示出本申请实施例提供的一种服务器的结构示意图。

具体实施方式

[0047] 为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0048] 本申请的说明书权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
[0049] 在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0050] 随着互联网的发展,在线教育也受到越来越多人的欢迎。在线教育中,很多家长会给自己的孩子选择不同的在线课堂,可以让孩子自主在线学习,充分提升自身的技能。在线教育的音视频化,较于传统固定教室的形式更移动便捷化,在画面、音频更具视觉化,更具吸引。在线教育也能够弥补传统教育地点局限性的问题,无论你在哪,都可以享受同样的线上教育,因此在线教育使得教育更公平、应用的范围更广。
[0051] 具体的,网络在线教育是教师所在教师端通过网络与学生所在的学生端进行通信,从而实现教师与学生的远程授课。
[0052] 根据一些实施例,无论是1对1模式还是1对多模式的在线教学中,服务器可以对在线课堂中老师和学生的上课视频进行录制,获取到教学视频。服务器通过对录制的教学视频进行回放,可以截取到老师或者学生的精彩音视频文件。用户可以根据服务器获取到的精彩音视频文件掌握学生的上课状态。
[0053] 易于理解的是,服务器可以通过回放整节在线课堂的教学视频获取到老师或者学生的精彩音视频文件。服务器还可以在固定时长的在线课堂的教学视频中随机截取老师或者学生的精彩音视频文件。而服务器随机截取老师或者学生精彩音视频文件的方式都是不准确的。例如服务器可以在教学视频的第十分钟到第二十分钟之间随机截取第十六分钟和第十九分钟的教学视频,并将该教学视频作为本堂课的精彩音视频文件。但是服务器获取的第十六分钟和第十九分钟的教学视频可能只是老师在测试学生的单词掌握能力。因此现有的服务器获取音视频文件的方法不准确,用户的体验效果不佳。本申请实施例提供一种音视频文件的获取方法,基于教学音频数据的音量,提取到至少一个目标音频片段时,将至少一个目标音频片段和至少一个目标视频片段进行合成,得到在线课堂的精彩音视频文件,可以提高音视频文件获取的准确性。
[0054] 可选的,本申请实施例的技术方案可以用于一对多课堂的音视频文件的获取方法,还可以用于一对一课堂的音视频文件的获取方法。
[0055] 图1示出可以应用根据本申请实施例的音视频文件的获取装置的示例性系统架构的示意图。
[0056] 如图1所示,系统架构100可以包括终端101、102、103中的一种或多种,网络104和多个服务器105。网络104用以在终端101、102、103和服务器105之间提供通信链路。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0057] 应该理解,图1中的终端101、网络104和服务器105的数目仅仅是示意性的。根据现实需要,可以具有任意数目的终端101、网络104和服务器105。比如服务器105可以是多个服务器组成的服务器集群等。终端101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端101、102、103可以是具有显示屏的各种电子设备,包括但不限于个人电脑、平板电脑手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,PDA)、5G网络或未来演进网络中的终端设备等。
[0058] 本申请实施例所提供的音视频文件的获取方法一般由服务器105执行,相应地,音视频文件的获取装置一般设置于服务器105中,但本申请不限于此。
[0059] 图2示出本申请实施例的音视频文件的获取方法的流程示意图。
[0060] 如图2所示,该音视频文件的获取方法包括:
[0061] S201,获取在线课堂的教学视频。
[0062] 根据一些实施例,英语是当今世界上主要的国际通用语言这一,也是世界上最广泛使用的语言。因此在网络在线教育中,英语教育占有越来越重要的地位。很多人都会选择英语在线课堂,以便可以随时方便地学习英语课程。在在线课程中,老师会根据课堂内容与学生互动,学生会通过音频或者视频表达自己的想法。
[0063] 易于理解的是,服务器可以在在线课堂进行过程中获取该课堂的教学视频,其中该教学视频可以包括教学音频数据和教学视频数据。例如在使用英语教授数学的课堂中,教师会使用英语向学生提问“My favorite fruit is pineapple.How about you?”。服务器检测到教师的发出该音频数据时,存储该音频数据以及教师提问时的视频数据。学生听到教师提问后的回答“Strawberry”。服务器检测到学生的发出该音频数据时,存储该音频数据以及学生回答问题时的视频数据。
[0064] 可选的,服务器还可以从教师所在终端和/或学生所在终端的存储器中获取课堂的教学视频。在在线教育课堂中,教师或者学生端可以选择存储该课堂的教学视频,以便教师可以重复观看以便发现该课堂中的不足供日后改正和学生可以重复观看巩固该课堂的内容。当服务器接收到音视频文件的获取指令时,服务器可以从教师所在终端和/或学生所在终端的存储器中获取到对应的教学视频。
[0065] 易于理解的是,在线教育的课堂教学完成后,服务器可以存储该在线教育课堂中产生的教学视频至服务器的存储器。当服务器接收到音视频文件的获取指令时,服务器可以从存储器中获取到对应的教学视频。
[0066] S202,基于教学音频数据的音量,提取至少一个目标音频片段。
[0067] 根据一些实施例,当服务器获取到在线课堂的教学音频数据时,可以检测教学音频数据的音量是否大于预设音量。当服务器检测到教学音频数据的音量大于预设音量时,可以提取目标音频片段。其中,该目标音频片段的数量至少为一个。例如,服务器设置的预设音量可以是45分贝。服务器可以获取A教师和A学生的教学音频数据,当服务器获取A教师的教师音视频文件时,服务器检测到A教师的教学音频数据的音量大于45分贝时,可以在A教师的教学音频数据中提取三个目标音频片段。当服务器检测到A教师的教学音频数据的音量小于45分贝时,可以对A教师的教学音频数据进行标记,以便用户可以直接看到A教师的教学音频数据的音量。
[0068] 易于理解的是,服务器检测教学音频数据的音量是否大于预设音量之前,服务器可以在教学音频数据中截取多个待识别音频片段。例如服务器可以基于教学音频数据的时长,周期性的截取多个待识别音频片段。当服务器获取的教学音频数据的时长为40分钟时,可以每隔5分钟截取一个时长为1分钟的待识别音频片段。
[0069] 可选的,当服务器获取的教学音频数据的时长为40分钟时,服务器还可以每隔5分钟截取一个待识别片段,此时服务器获取到的多个待识别音频片段的时长不同。例如服务器可以截取到8个待识别音频片段,8个待识别音频片段的时长分别为1分钟、20秒、25秒、36秒、15秒、24秒、45秒和56秒。
[0070] S203,根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段。
[0071] 根据一些实施例,服务器获取在线课堂的教学视频时,可以记录教学视频的时间点。当服务器提取到至少一个目标音频片段时,可以根据目标音频片段的时间点,确定与至少一个目标音频片段对应的至少一个目标视频片段。例如服务器可以提取到4个目标音频片段,4个目标音频片段可以是Q目标音频片段、W目标音频片段、E目标音频片段和R目标音频片段。服务器可以获取Q目标音频片段的起始时间点和音频时长,根据Q目标音频片段的起始时间点和音频时长确定与Q目标音频片段对应的q目标视频片段。例如服务器获取带Q目标音频片段的起始时间点和音频时长分别为21:00和15秒。服务器根据Q目标音频片段的起始时间点和音频时长可以确定在教学视频数据中与Q目标音频片段对应的目标视频片段。服务器可以提取起始时间点为21:00和视频时长为15秒的Q目标视频片段。根据目标音频片段的起始时间点和音频时长,服务器可以确定与W目标音频片段对应的w目标视频片段、与E目标音频片段对应的e目标视频片段和与R目标音频片段对应的r目标视频片段。
[0072] 易于理解的是,例如服务器可以提取到4个目标音频片段,4个目标音频片段可以是Q目标音频片段、W目标音频片段、E目标音频片段和R目标音频片段。服务器可以获取Q目标音频片段的终止时间点和音频时长,根据Q目标音频片段的终止时间点和音频时长确定与Q目标音频片段对应的q目标视频片段。例如服务器获取带Q目标音频片段的终止时间点和音频时长分别为21:25和15秒。服务器根据Q目标音频片段的终止时间点和音频时长可以确定在教学视频数据中与Q目标音频片段对应的目标视频片段。服务器可以提取终止时间点为21:25和视频时长为15秒的q目标视频片段。
[0073] S204,将至少一个目标音频片段和至少一个目标视频片段进行合成,得到在线课堂的精彩音视频文件。
[0074] 根据一些实施例,服务器在提取到一个目标音频片段和与该目标音频片段对应的目标视频片段时,可以将至少一个目标音频片段和至少一个目标视频片段进行合成,得到一个音视频片段。服务器可以将多个音视频片段进行合成,得到在线课堂的精彩音视频文件。
[0075] 易于理解的是,服务器例如可以提取到4个目标音频片段和4个目标视频片段,4个目标音频片段可以是Q目标音频片段、W目标音频片段、E目标音频片段和R目标音频片段,4个目标视频片段可以是q目标音频片段、w目标音频片段、e目标音频片段和r目标音频片段。服务器可以将Q目标音频片段和q目标音频片段进行合成,得到Q1音视频文件。服务器可以将W目标音频片段和w目标音频片段进行合成,得到W1音视频文件。服务器可以将E目标音频片段和e目标音频片段进行合成,得到E1音视频文件。服务器可以将R目标音频片段和r目标音频片段进行合成,得到R1音视频文件。服务器可以将Q1音视频文件、W1音视频文件、E1音视频文件和R1音视频文件进行合成,得到在线课堂的精彩音视频文件。
[0076] 可选的,服务器得到精彩音视频文件后,可以将该精彩音视频文件发送至教师所在的终端或者学生所在的终端。学生所在终端的学生接收到该精彩音视频文件时,可以回顾自己上课时的状态,还可以鼓励学生的学习积极性。教师所在终端的教师接收到该精彩音视频文件时,教师可以观看该音视频文件,鼓励教师好好教学的同时,还可以发现教师教学中的不足之处,以便在以后的在线课堂中可以改正。
[0077] 本申请实施例提供一种音视频文件的获取方法,包括:获取在线课堂的教学视频;其中,教学视频包括教学音频数据和教学视频数,基于教学音频数据的音量,提取至少一个目标音频片段,根据时间点确定与至少一个目标音频片段对应的一个目标视频片段,将至少一个目标音频片段和至少一个目标视频片段进行合成,得到在线课堂的精彩音视频文件。本申请实施例的技术方案基于教学音频数据的音量,可以将提取到的至少一个目标音频片段和至少一个目标视频片段进行合成,可以得到在线课堂的精彩音视频文件,可以提高音视频文件获取的准确性。
[0078] 图3示出本申请另一实施例的音视频文件的获取方法的流程示意图。
[0079] 如图3所示,该音视频文件的获取方法包括:
[0080] S301,获取在线课堂的教学视频。
[0081] 具体过程如上所述,此处不再赘述。
[0082] S302,基于教学音频数据的音量,提取至少一个目标音频片段。
[0083] 具体过程如上所述,此处不再赘述。
[0084] 根据一些实施例,服务器检测教学音频数据的音量是否大于预设音量之前,服务器可以在教学音频数据中截取多个待识别音频片段。例如服务器可以基于教学音频数据的时长,随机截取多个待识别音频片段。其中服务器可以截取相同时长的多个待识别音频片段,还可以截取不同时长的多个待识别音频片段。当服务器获取的教学音频数据的时长例如可以为40分钟时,服务器可以随机截取到8个待识别音频片段,8个待识别音频片段的时长分别为1分钟、20秒、25秒、36秒、15秒、24秒、45秒和56秒。
[0085] S303,获取在线课堂的课件数据。
[0086] 根据一些实施例,在在线课堂之前,教师会针对本节在线课堂的课堂知识点设置相应的课件。教师可以选择将存储在教师所在终端的存储器中。教师还可以通过教师所在终端将该课件发送至服务器,服务器接收到该课件时,将该课件存储在服务器中。
[0087] 易于理解的是,当服务器检测到教学音频数据的音量大于预设音量时,服务器例如可以从教师所在的终端中获取在线课堂的课件数据。
[0088] S304,识别至少一个目标音频片段中的学生音频数据。
[0089] 根据一些实施例,当服务器提取到至少一个目标音频片段时,可以采用识别算法识别目标音频片段中学生音频数据。例如,服务器提取到T目标音频片段时,可以采用声纹识别算法识别到T目标音频片段中的学生音频数据。
[0090] S305,识别学生音频数据的至少一个第一关键词。
[0091] 根据一些实施例,服务器在识别到至少一个目标音频片段中的学生音频数据时,可以采用关键词识别算法识别学生音频数据的至少一个第一关键词。例如服务器可以采用声纹识别算法识别到T目标音频片段中的学生音频数据。服务器采用关键词识别算法识别到学生音频数据的第一关键词例如可以为“like、apple”。
[0092] S306,在至少一个第一关键词和课件数据中的至少一个第三关键词匹配时,根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段。
[0093] 根据一些实施例,服务器在获取到在线课堂的课件数据时,可以获取课件数据的词频数据,提取预设数量的至少一个第三关键词。服务器在获取到在线课堂的课件数据时,还可以获取在线课堂的课堂标题,提取该课堂标题的关键词作为第三关键词。在服务器检测到至少一个第一关键词和至少一个第三关键词匹配时,可以获取目标音频片段的时间点。例如服务器获取到5个第三关键词可以为“like、fruit、apple和orange”,服务器获取到的第一关键词为“apple和like”。当服务器检测到第一关键词和第三关键词匹配时,可以获取T目标音频片段的时间点,根据该时间点服务器可以确定与至少一个目标音频片段对应的至少一个目标视频片段。
[0094] 具体过程如上所述,此处不再赘述。
[0095] S307,将至少一个目标音频片段和至少一个目标视频片段进行合成,得到在线课堂的精彩音视频文件。
[0096] 根据一些实施例,服务器在提取到至少一个目标音频片段和至少一个目标视频片段时,可以将至少一个目标音频片段进行合成,得到一个音频文件。服务器可以将至少一个目标视频片段进行合成,得到一个视频文件。服务器可以将音频文件和视频文件进行合成,得到在线课堂的精彩音视频文件。
[0097] 易于理解的是,服务器例如可以提取到4个目标音频片段和4个目标视频片段,4个目标音频片段可以是Q目标音频片段、W目标音频片段、E目标音频片段和R目标音频片段。4个目标视频片段可以是q目标音频片段、w目标音频片段、e目标音频片段和r目标音频片段。服务器可以将Q目标音频片段、W目标音频片段、E目标音频片段和R目标音频片段进行合成,得到QWER音频文件。服务器可以将q目标音频片段、w目标音频片段、e目标音频片段和r目标音频片段进行合成,得到qwer视频文件。服务器可以将QWER音频文件和qwer视频文件进行合成,得到在线课堂的精彩音视频文件。
[0098] 本申请实施例的技术方案通过检测到学生音频数据的至少一个第一关键词和在线课堂的课件数据的至少一个第三关键词匹配时,可以根据时间点确定与至少一个目标音频片段对应的一个目标视频片段,将至少一个目标音频片段和至少一个目标视频片段进行合成,可以得到在线课堂的精彩音视频文件,可以提高音视频文件获取的准确性。
[0099] 图4示出本申请另一实施例的音视频文件的获取方法的流程示意图。
[0100] 如图4所示,该音视频文件的获取方法包括:
[0101] S401,获取在线课堂的教学视频。
[0102] 具体过程如上所述,此处不再赘述。
[0103] S402,获取教学视频的格式。
[0104] 根据一些实施例,服务器在获取到在线课堂的教学视频时,可以获取该教学视频的格式。该教学视频的格式包括但不限于音频视频交错(Audio Video Interleaved,AVI)、FLV、MP4、F4V、ASF。服务器获取到教学视频的格式例如可以是MP4。
[0105] S403,在教学视频的格式不是预设格式时,将教学视频的格式转换成预设格式。
[0106] 根据一些实施例,在服务器获取到教学视频的格式时,可以检测教学视频的格式是否为预设格式。例如服务器获取到教学视频的格式为MP4时,由于MP4格式的教学视频存在长尾效应,会影响服务器截取视频的时间。因此服务器检测教学视频的格式可以减少视频截取的时间。服务器设置的预设格式可以是FLV格式,当服务器检测到教学视频的格式为MP4格式时,可以将教学视频的MP4格式转换成FLV格式。
[0107] S404,基于教学音频数据的音量,提取至少一个目标音频片段。
[0108] 具体过程如上所述,此处不再赘述。
[0109] S405,识别至少一个目标音频片段中的学生音频数据和教师音频数据。
[0110] 根据一些实施例,当服务器提取到至少一个目标音频片段时,可以采用识别算法识别目标音频片段中学生音频数据。例如,服务器提取到T目标音频片段时,可以采用声纹识别算法识别到T目标音频片段中的学生音频数据和教师音频数据。
[0111] S406,识别学生音频数据的至少一个第一关键词和教师音频数据的至少一个第二关键词。
[0112] 根据一些实施例,服务器在识别到至少一个目标音频片段中的学生音频数据时,可以采用关键词识别算法识别学生音频数据的至少一个第一关键词。例如服务器采用声纹识别算法识别到T目标音频片段中的学生音频数据时,可以采用关键词识别算法识别到学生音频数据的第一关键词为“like、apple”。
[0113] 易于理解的是,服务器在识别到至少一个目标音频片段中的教师音频数据时,可以采用关键词识别算法识别教师音频数据的至少一个第二关键词。例如服务器采用声纹识别算法识别到T目标音频片段中的教师音频数据时,可以采用关键词识别算法识别到学生音频数据的第二关键词为“like、fruit、apple和banana”。
[0114] S407,在至少一个第一关键词和至少一个第二关键词匹配时,根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段。
[0115] 根据一些实施例,服务器获取到至少一个第一关键词和至少一个第二关键词时,可以检测到至少一个第一关键词和至少一个第二关键词的关键词匹配度超过预设匹配度时,可以根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段。服务器获取到T目标音频片段中的第一关键词例如可以为“like、apple”和第二关键词例如可以为“like、fruit、apple和banana”。服务器预设的关键词匹配度可以为90%,当服务器检测到第一关键词和第二关键词的关键词匹配度为95%时,可以获取T目标音频片段的时间点,根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段。
[0116] 易于理解的是,服务器获取到至少一个目标音频片段中的至少一个学生语句和至少一个教师语句时,可以检测至少一个学生语句的语义和至少一个教师语句的语义的匹配度。在服务器检测到至少一个学生语句的语义和至少一个教师语句的语义的匹配度超过预设语义匹配度时,可以根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段。服务器通过检测至少一个学生语句的语义和至少一个教师语句的语义匹配度可以提高音视频文件获取的准确性。
[0117] 可选的,服务器获取到Y目标音频片段中学生语句的语义为“我最喜欢的果是橘子”。服务器获取到Y目标音频片段中教师语句的语义为“你最喜欢的水果是什么?”。服务器预设的语义匹配度为85%。当服务器检测到Y目标音频片段中学生语句的语义和教师语句的语义的匹配度为90%时,可以根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段。
[0118] S408,将至少一个目标音频片段和至少一个目标视频片段进行合成,得到在线课堂的精彩音视频文件。
[0119] 具体过程如上所述,此处不再赘述。
[0120] 本申请实施例的技术方案通过识别学生音频数据的第一关键词和教师音频数据的第二关键词,在第一关键词和第二关键词匹配时,可以根据时间点确定与至少一个目标音频片段对应的一个目标视频片段,将至少一个目标音频片段和至少一个目标视频片段进行合成,可以得到在线课堂的精彩音视频文件,可以提高音视频文件获取的准确性。
[0121] 图5示出本申请实施例的音视频文件的获取装置的结构示意图。
[0122] 如图5所示,该音视频文件的获取装置500包括:视频获取单元501、片段提取单元502、片段确定单元503和片段合成单元504。其中:
[0123] 视频获取单元501,用于获取在线课堂的教学视频;其中,教学视频包括教学音频数据和教学视频数据;
[0124] 片段提取单元502,用于基于教学音频数据的音频音量,提取至少一个目标音频片段;
[0125] 片段确定单元503,用于根据时间点确定与至少一个目标音频片段对应的一个目标视频片段;
[0126] 片段合成单元504,将至少一个目标音频片段和至少一个目标视频片段进行合成,得到在线课堂的精彩音视频文件。
[0127] 根据一些实施例,片段确定单元503,还用于识别至少一个目标音频片段中的学生音频数据和教师音频数据;
[0128] 识别学生音频数据的至少一个第一关键词和教师音频数据的至少一个第二关键词;
[0129] 在至少一个第一关键词和至少一个第二关键词匹配时,根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段。
[0130] 根据一些实施例,片段确定单元503,还用于获取在线课堂的课件数据;
[0131] 识别至少一个目标音频片段中的学生音频数据;
[0132] 识别学生音频数据的至少一个第一关键词;
[0133] 在至少一个第一关键词和课件数据中的至少一个第三关键词匹配时,根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段。
[0134] 根据一些实施例,片段确定单元503,还用于获取至少一个目标音频片段中的至少一个学生语句和至少一个教师语句;
[0135] 在至少一个学生语句的语义和至少一个教师语句的语义匹配时,根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段。
[0136] 根据一些实施例,该音视频文件的获取装置500还包括片段截取单元504,用于在教学音频数据中,截取多个待识别音频片段;
[0137] 在多个待识别音频片段的音量大于预设音量时,提取至少一个目标音频片段。
[0138] 根据一些实施例,片段截取单元504,还用于基于教学音频数据的时长,周期性地截取多个待识别片段;
[0139] 或者基于教学音频数据的时长,随机截取多个待识别片段。
[0140] 根据一些实施例,该音视频文件的获取装置500还包括格式转换单元505,用于获取教学视频的格式;
[0141] 在教学视频的格式不是预设格式时,将教学视频的格式转换成预设格式。
[0142] 本申请实施例提供一种音视频文件的获取装置,通过视频获取单元获取在线课堂的教学视频;其中,教学视频包括教学音频数据和教学视频数据,片段提取单元基于教学音频数据的音频音量,提取至少一个目标音频片段,片段确定单元根据时间点确定与至少一个目标音频片段对应的一个目标视频片段,片段合成单元将至少一个目标音频片段和至少一个目标视频片段进行合成,可以得到在线课堂的精彩音视频文件。本申请实施例的音视频文件的获取装置通过将至少一个目标音频片段和至少一个目标视频片段进行合成,可以得到在线课堂的精彩音视频文件,可以提高音视频文件获取的准确性。
[0143] 请参见图6,为本申请实施例提供的一种服务器的结构示意图。
[0144] 如图6所示,所述服务器600可以包括:至少一个处理器601,至少一个网络接口604,用户接口603,存储器605,至少一个通信总线602。
[0145] 其中,通信总线602用于实现这些组件之间的连接通信。
[0146] 其中,用户接口603可以包括显示屏(Display)和天线,可选用户接口603还可以包括标准的有线接口、无线接口。
[0147] 其中,网络接口604可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
[0148] 其中,处理器601可以包括一个或者多个处理核心。处理器601利用各种借口和线路连接整个服务器群600内的各个部分,通过运行或执行存储在存储器605内的指令、程序、代码集或指令集,以及调用存储在存储器605内的数据,执行服务器600的各种功能和处理数据。可选的,处理器601可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器601可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器601中,单独通过一芯片进行实现。
[0149] 其中,存储器605可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器605包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器605可用于存储指令、程序、代码、代码集或指令集。存储器605可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器605可选的还可以是至少一个位于远离前述处理器601的存储装置。如图6所示,作为一种计算机存储介质的存储器605中可以包括操作系统、网络通信模块、用户接口模块以及用于音视频文件的获取的应用程序。
[0150] 在图6所示的服务器600中,处理器601可以用于调用存储器605中存储的应用程序,并具体执行以下操作:
[0151] 获取在线课堂的教学视频;其中,教学视频包括教学音频数据和教学视频数据;
[0152] 基于教学音频数据的音量,提取至少一个目标音频片段;
[0153] 根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段;
[0154] 将至少一个目标音频片段和至少一个目标视频片段进行合成,得到在线课堂的精彩音视频文件。
[0155] 根据一些实施例,处理器601在执行根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段时,具体执行以下操作:
[0156] 识别至少一个目标音频片段中的学生音频数据和教师音频数据;
[0157] 识别学生音频数据的至少一个第一关键词和教师音频数据的至少一个第二关键词;
[0158] 在至少一个第一关键词和至少一个第二关键词匹配时,根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段。
[0159] 根据一些实施例,处理器601在执行根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段时,具体执行以下操作:
[0160] 获取在线课堂的课件数据;
[0161] 识别至少一个目标音频片段中的学生音频数据;
[0162] 识别学生音频数据的至少一个第一关键词;
[0163] 在至少一个第一关键词和课件数据中的至少一个第三关键词匹配时,根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段。
[0164] 根据一些实施例,处理器601在执行根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段时,具体执行以下操作:
[0165] 获取至少一个目标音频片段中的至少一个学生语句和至少一个教师语句;
[0166] 在至少一个学生语句的语义和至少一个教师语句的语义匹配时,根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段。
[0167] 根据一些实施例,处理器601在执行基于教学音频数据的音量,提取至少一个目标音频片段时,具体执行以下操作:
[0168] 在教学音频数据中,截取多个待识别音频片段;
[0169] 在多个待识别音频片段的音量大于预设音量时,提取至少一个目标音频片段。
[0170] 根据一些实施例,处理器601在执行在教学音频数据中,截取多个待识别音频片段时,具体执行以下操作:
[0171] 基于教学音频数据的时长,周期性地截取多个待识别片段;
[0172] 或者基于教学音频数据的时长,随机截取多个待识别片段。
[0173] 根据一些实施例,处理器601在执行基于教学音频数据的音频音量,提取至少一个目标音频片段之前,具体执行以下操作:
[0174] 获取教学视频的格式;
[0175] 在教学视频的格式不是预设格式时,将教学视频的格式转换成预设格式。
[0176] 本申请实施例提供一种服务器,通过获取在线课堂的教学视频;其中,教学视频包括教学音频数据和教学视频数据;基于教学音频数据的音量,提取至少一个目标音频片段;根据时间点确定与至少一个目标音频片段对应的至少一个目标视频片段;将至少一个目标音频片段和至少一个目标视频片段进行合成,得到在线课堂的精彩音视频文件。本申请实施例的服务器通过将至少一个目标音频片段和至少一个目标视频片段进行合成,可以得到在线课堂的精彩音视频文件,可以提高音视频文件获取的准确性。
[0177] 本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
[0178] 本申请实施例还提供一种计算机程序产品,该计算机程序产品包括存储计算机程序的非瞬时性计算机可读存储介质,该计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种音视频文件的获取方法的部分或全部步骤。
[0179] 本领域的技术人员可以清楚地了解到本申请的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是现场可编程门阵列(Field-ProgrammaBLE Gate Array,FPGA)、集成电路(Integrated Circuit,IC)等。
[0180] 需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
[0181] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0182] 在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些微服务接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
[0183] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0184] 另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0185] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0186] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
[0187] 以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈