音视频加密传输方法、装置、电子设备及存储介质专利检索-特征脸特征向量数学与统计专利检索查询-专利查询网

音视频加密传输方法、装置、电子设备及存储介质

阅读：895发布：2020-05-08

专利汇可以提供音视频加密传输方法、装置、电子设备及存储介质专利检索，专利查询，专利分析的服务。并且本发明提供了一种音视频加密传输方法、装置、电子设备及存储介质。其中方法包括：采集视频会议中待传输的音视频数据流，将所述音视频数据流分离为音频数据和视频数据；从所述视频数据中提取关键视频数据，并获取提取关键视频数据后剩余的非关键视频数据；对所述音频数据和所述关键视频数据进行加密；将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据传输至接收端。本发明降低了加密的数据量，提高了加密效率，进而提高了音视频数据流的传输效率，提升用户体验。，下面是音视频加密传输方法、装置、电子设备及存储介质专利的具体信息内容。

权利要求

1.一种音视频加密传输方法，其特征在于，所述方法包括：
采集视频会议中待传输的音视频数据流，将所述音视频数据流分离为音频数据和视频数据；
从所述视频数据中提取关键视频数据，并获取提取关键视频数据后剩余的非关键视频数据；
对所述音频数据和所述关键视频数据进行加密；
将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据传输至接收端。
2.根据权利要求1所述的方法，其特征在于，所述从所述视频数据中提取关键视频数据，包括：
识别所述视频数据中的关键区域，所述关键区域包括人脸区域和/或文字区域；
提取所述关键区域内的视频数据，作为所述关键视频数据。
3.根据权利要求2所述的方法，其特征在于，所述识别所述视频数据中的关键区域，包括：
将所述视频数据中的每帧图像分别划分成多个子图像；
对第一帧图像中的每个子图像分别进行识别，得到每个子图像的识别结果，根据所述每个子图像的识别结果确定所述第一帧图像中的关键区域；
从第二帧图像开始，针对当前一帧图像中的每个子图像，获取上一帧图像中与当前子图像位置相同的子图像，将所述当前子图像与获取的子图像进行比较；
如果比较结果为不同，则对所述当前子图像进行识别，得到所述当前子图像的识别结果；
如果比较结果为相同，则将所述获取的子图像的识别结果作为所述当前子图像的识别结果；
根据各当前子图像的识别结果确定所述当前一帧图像中的关键区域。
4.根据权利要求1所述的方法，其特征在于，在所述从所述视频数据中提取关键视频数据，并获取提取关键视频数据后剩余的非关键视频数据之后，所述方法还包括：
将所述非关键视频数据发送给后台；
如果接收到所述后台返回的，用户在所述非关键视频数据中选择的目标区域，则提取所述目标区域内的非关键视频数据，将提取的非关键视频数据确定为关键视频数据。
5.根据权利要求1所述的方法，其特征在于，
在所述从所述视频数据中提取关键视频数据，并获取提取关键视频数据后剩余的非关键视频数据之后，所述方法还包括：
分别记录所述音频数据的时间戳、所述关键视频数据的时间戳和所述非关键视频数据的时间戳；
所述将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据传输至接收端，包括：
将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据，以及所述音频数据的时间戳、所述关键视频数据的时间戳和所述非关键视频数据的时间戳传输至接收端。
6.一种音视频加密传输装置，其特征在于，所述装置包括：
分离模块，用于采集视频会议中待传输的音视频数据流，将所述音视频数据流分离为音频数据和视频数据；
提取模块，用于从所述视频数据中提取关键视频数据，并获取提取关键视频数据后剩余的非关键视频数据；
加密模块，用于对所述音频数据和所述关键视频数据进行加密；
传输模块，用于将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据传输至接收端。
7.根据权利要求6所述的装置，其特征在于，所述提取模块包括：
区域识别单元，用于识别所述视频数据中的关键区域，所述关键区域包括人脸区域和/或文字区域；
数据提取单元，用于提取所述关键区域内的视频数据，作为所述关键视频数据。
8.根据权利要求7所述的装置，其特征在于，所述区域识别单元包括：
划分子单元，用于将所述视频数据中的每帧图像分别划分成多个子图像；
第一识别子单元，用于对第一帧图像中的每个子图像分别进行识别，得到每个子图像的识别结果，根据所述每个子图像的识别结果确定所述第一帧图像中的关键区域；
比较子单元，用于从第二帧图像开始，针对当前一帧图像中的每个子图像，获取上一帧图像中与当前子图像位置相同的子图像，将所述当前子图像与获取的子图像进行比较；
第二识别子单元，用于在所述比较子单元的比较结果为不同时，对所述当前子图像进行识别，得到所述当前子图像的识别结果；
第一确定子单元，用于在所述比较子单元的比较结果为相同时，将所述获取的子图像的识别结果作为所述当前子图像的识别结果；
第二确定子单元，用于根据各当前子图像的识别结果确定所述当前一帧图像中的关键区域。
9.根据权利要求6所述的装置，其特征在于，所述装置还包括：
发送模块，用于将所述非关键视频数据发送给后台；
确定模块，用于在接收到所述后台返回的，用户在所述非关键视频数据中选择的目标区域时，提取所述目标区域内的非关键视频数据，将提取的非关键视频数据确定为关键视频数据。
10.根据权利要求6所述的装置，其特征在于，
所述装置还包括：记录模块，用于分别记录所述音频数据的时间戳、所述关键视频数据的时间戳和所述非关键视频数据的时间戳；
所述传输模块，具体用于将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据，以及所述音频数据的时间戳、所述关键视频数据的时间戳和所述非关键视频数据的时间戳传输至接收端。
11.一种电子设备，其特征在于，包括：
一个或多个处理器；和
其上存储有指令的一个或多个机器可读介质；
当所述指令由所述一个或多个处理器执行时，使得所述处理器执行如权利要求1至5任一项所述的音视频加密传输方法。
12.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1至5任一项所述的音视频加密传输方法。

说明书全文

音视频加密传输方法、装置、电子设备及存储介质

技术领域

[0001] 本发明涉及数据处理技术领域，特别是涉及一种音视频加密传输方法、装置、电子设备及存储介质。

背景技术

[0002] 随着网络科技的快速发展，视频会议、视频教学等双向通信在用户的生活、工作、学习等方面广泛普及。视频会议，是指位于两个或多个地点的人们，通过通信设备和网络，进行面对面交谈的会议。根据参会地点数目不同，视频会议可分为点对点会议和多点会议。

[0003] 在视频会议过程中，会议发言人的终端为发送端，其他参会方的终端为接收端。发送端采集发言人的音视频数据流，将音视频数据流传输至接收端。由于视频会议中通常涉及到需要保密的内容，因此需要对音视频数据流进行加密传输，以保证在通信环节上不出现信息泄露。

[0004] 但是，由于视频会议中传输的音视频数据流的数据量极大，在进行加密的过程中，庞大的数据量会导致出现较长的时延，导致加密效率较低，进而导致传输效率较低，降低用户体验。

发明内容

[0005] 鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种音视频加密传输方法、装置、电子设备及存储介质。

[0006] 第一方面，本发明实施例公开了一种音视频加密传输方法，所述方法包括：

[0007] 采集视频会议中待传输的音视频数据流，将所述音视频数据流分离为音频数据和视频数据；

[0008] 从所述视频数据中提取关键视频数据，并获取提取关键视频数据后剩余的非关键视频数据；

[0009] 对所述音频数据和所述关键视频数据进行加密；

[0010] 将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据传输至接收端。

[0011] 可选地，所述从所述视频数据中提取关键视频数据，包括：识别所述视频数据中的关键区域，所述关键区域包括人脸区域和/或文字区域；提取所述关键区域内的视频数据，作为所述关键视频数据。

[0012] 可选地，所述识别所述视频数据中的关键区域，包括：将所述视频数据中的每帧图像分别划分成多个子图像；对第一帧图像中的每个子图像分别进行识别，得到每个子图像的识别结果，根据所述每个子图像的识别结果确定所述第一帧图像中的关键区域；从第二帧图像开始，针对当前一帧图像中的每个子图像，获取上一帧图像中与当前子图像位置相同的子图像，将所述当前子图像与获取的子图像进行比较；如果比较结果为不同，则对所述当前子图像进行识别，得到所述当前子图像的识别结果；如果比较结果为相同，则将所述获取的子图像的识别结果作为所述当前子图像的识别结果；根据各当前子图像的识别结果确定所述当前一帧图像中的关键区域。

[0013] 可选地，在所述从所述视频数据中提取关键视频数据，并获取提取关键视频数据后剩余的非关键视频数据之后，所述方法还包括：将所述非关键视频数据发送给后台；如果接收到所述后台返回的，用户在所述非关键视频数据中选择的目标区域，则提取所述目标区域内的非关键视频数据，将提取的非关键视频数据确定为关键视频数据。

[0014] 可选地，在所述从所述视频数据中提取关键视频数据，并获取提取关键视频数据后剩余的非关键视频数据之后，所述方法还包括：分别记录所述音频数据的时间戳、所述关键视频数据的时间戳和所述非关键视频数据的时间戳；所述将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据传输至接收端，包括：将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据，以及所述音频数据的时间戳、所述关键视频数据的时间戳和所述非关键视频数据的时间戳传输至接收端。

[0015] 第二方面，本发明实施例公开了一种音视频加密传输装置，所述装置包括：

[0016] 分离模块，用于采集视频会议中待传输的音视频数据流，将所述音视频数据流分离为音频数据和视频数据；

[0017] 提取模块，用于从所述视频数据中提取关键视频数据，并获取提取关键视频数据后剩余的非关键视频数据；

[0018] 加密模块，用于对所述音频数据和所述关键视频数据进行加密；

[0019] 传输模块，用于将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据传输至接收端。

[0020] 可选地，所述提取模块包括：区域识别单元，用于识别所述视频数据中的关键区域，所述关键区域包括人脸区域和/或文字区域；数据提取单元，用于提取所述关键区域内的视频数据，作为所述关键视频数据。

[0021] 可选地，所述区域识别单元包括：划分子单元，用于将所述视频数据中的每帧图像分别划分成多个子图像；第一识别子单元，用于对第一帧图像中的每个子图像分别进行识别，得到每个子图像的识别结果，根据所述每个子图像的识别结果确定所述第一帧图像中的关键区域；比较子单元，用于从第二帧图像开始，针对当前一帧图像中的每个子图像，获取上一帧图像中与当前子图像位置相同的子图像，将所述当前子图像与获取的子图像进行比较；第二识别子单元，用于在所述比较子单元的比较结果为不同时，对所述当前子图像进行识别，得到所述当前子图像的识别结果；第一确定子单元，用于在所述比较子单元的比较结果为相同时，将所述获取的子图像的识别结果作为所述当前子图像的识别结果；第二确定子单元，用于根据各当前子图像的识别结果确定所述当前一帧图像中的关键区域。

[0022] 可选地，所述装置还包括：发送模块，用于将所述非关键视频数据发送给后台；确定模块，用于在接收到所述后台返回的，用户在所述非关键视频数据中选择的目标区域时，提取所述目标区域内的非关键视频数据，将提取的非关键视频数据确定为关键视频数据。

[0023] 可选地，所述装置还包括：记录模块，用于分别记录所述音频数据的时间戳、所述关键视频数据的时间戳和所述非关键视频数据的时间戳；所述传输模块，具体用于将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据，以及所述音频数据的时间戳、所述关键视频数据的时间戳和所述非关键视频数据的时间戳传输至接收端。

[0024] 第三方面，本发明实施例公开了一种电子设备，其特征在于，包括：

[0025] 一个或多个处理器；和

[0026] 其上存储有指令的一个或多个机器可读介质；

[0027] 当所述指令由所述一个或多个处理器执行时，使得所述处理器执行如上任一项所述的音视频加密传输方法。

[0028] 第四方面，本发明实施例公开了一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如上任一项所述的音视频加密传输方法。

[0029] 本发明实施例中，发送端采集视频会议中待传输的音视频数据流，将所述音视频数据流分离为音频数据和视频数据；从所述视频数据中提取关键视频数据，并获取提取关键视频数据后剩余的非关键视频数据；对所述音频数据和所述关键视频数据进行加密；将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据传输至接收端。由此可知，本发明实施例中发送端对待传输的音视频数据流进行智能筛选，筛选出其中的需要保密的音频数据和关键视频数据进行加密，对于非关键视频数据无需加密，因此降低了加密的数据量，提高了加密效率，进而提高了音视频数据流的传输效率，提升用户体验。附图说明

[0030] 图1是本发明实施例一的一种音视频加密传输方法的步骤流程图。

[0031] 图2是本发明实施例二的一种音视频加密传输方法的步骤流程图。

[0032] 图3是本发明实施例三的一种音视频加解密过程的示意图。

[0033] 图4是本发明实施例三的一种音视频加解密的数据包处理过程示意图。

[0034] 图5是本发明实施例四的一种音视频加密传输装置的结构框图。

具体实施方式

[0035] 为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

[0036] 本发明实施例中主要涉及到在视频会议中，对传输的音视频数据流进行加密的过程。如果采用全加密的方式，安全性较高，但是对于音视频数据流大数据量的场景，会出现较大的时延。由于在加密过程中，需要加密的数据流会先存入一个缓冲区里，缓冲区的大小与加解密效率呈正相关。举例说明，当缓冲区分别为256KB和1MB时，同样传输1MB的数据，256KB的缓冲区需要进行4次加密才能传输完成1MB的数据，而1MB缓冲区则只需要1次加密即可完成1MB数据的传输，两者之间的时间相差4倍。但是由于实时通信的要求，缓冲区不可以设置得非常大，否则会出现较大的延时，故在缓冲区的大小与加解密效率之间需要取一个合适的值，才能保证加解密的效率。并且由于每路音视频数据流的数据量很大，因此对于多路的处理需要多个加解密芯片支持，间接地也提高了产品的成本。如果采用只加密协议的方式，虽然能够降低加密的数据量，但是此种方式安全性较差，由于对于音视频数据流未进行加密，在传输的各个节点，仍有可能导致音视频数据流的泄露。

[0037] 本发明实施例中针对上述情况，考虑到视频会议大多是单一场景，一般是在会议室或者大会场，在此类的场景下，传输的音视频数据流中有部分数据是重要的需要保密的，比如发言人的人脸、发言的文字、发言的音频等，而其他的数据不太重要可以不保密，比如背景图像等。因此提出对传输的音视频数据流中需要保密的部分数据进行加密，从而降低加密的数据量，提高加密效率。

[0038] 参加视频会议的终端为会议终端。其中，发送音视频数据流的会议终端为发送端，接收音视频数据流的会议终端为接收端。本发明实施例的音视频加密传输方法可以应用于发送端中。会议终端可以为基于互联网协议通信的互联网终端，也可以为基于视联网协议通信的视联网终端。会议终端可以为机顶盒、笔记本电脑、手机、平板电脑，等等。

[0039] 下面，对本发明实施例中的音视频加密传输方法进行详细说明。

[0040] 实施例一

[0041] 参照图1，示出了本发明实施例一的一种音视频加密传输方法的步骤流程图。

[0042] 本发明实施例的音视频加密传输方法可以包括以下步骤：

[0043] 步骤101，采集视频会议中待传输的音视频数据流，将所述音视频数据流分离为音频数据和视频数据。

[0044] 发送端可以通过摄像头采集待传输的音视频数据流。其中，摄像头可以为发送端自身的摄像头，也可以为发送端外接的摄像头。

[0045] 发送端采集到待传输的音视频数据流后，对所述音视频数据流进行分离，得到其中的音频数据和视频数据。

[0046] 步骤102，从所述视频数据中提取关键视频数据，并获取提取关键视频数据后剩余的非关键视频数据。

[0047] 对于视频数据来说，其中的部分视频数据可能是重要的需要保密的，比如视频数据中发言人的人脸、发言的文字等，而其他的视频数据可能不太重要可以不保密，比如背景图像等。因此，发送端可以从视频数据中提取其中需要保密的视频数据，作为关键视频数据，提取关键视频数据后剩余的视频数据即为非关键视频数据。

[0048] 步骤103，对所述音频数据和所述关键视频数据进行加密。

[0049] 由于在视频会议中，音频数据也是重要的需要保密的，并且音频数据的数据量较小，因此发送端对音频数据采用全加密的方式。

[0050] 本发明实施例中，发送端可以分别对音频数据和关键视频数据单独进行加密，也可以对音频数据和关键视频数据一同进行加密，对此不作限制。

[0051] 步骤104，将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据传输至接收端。

[0052] 经过上述处理，待传输的音视频数据流被分为了三部分，即加密后的音频数据、加密后的关键视频数据和非关键视频数据，发送端将这三部分数据传输至接收端。

[0053] 接收端在通过通信链路接收到这三部分数据后，可以对其中加密后的音频数据和加密后的关键视频数据进行解密，并对这三部分数据进行组合，从而完成音视频数据流的加密传输。

[0054] 本发明实施例中发送端对待传输的音视频数据流进行智能筛选，筛选出其中的需要保密的音频数据和关键视频数据进行加密，对于非关键视频数据无需加密，因此降低了加密的数据量，提高了加密效率，进而提高了音视频数据流的传输效率，提升用户体验。

[0055] 实施例二

[0056] 参照图2，示出了本发明实施例二的一种音视频加密传输方法的步骤流程图。

[0057] 本发明实施例的音视频加密传输方法可以包括以下步骤：

[0058] 步骤201，采集视频会议中待传输的音视频数据流，将所述音视频数据流分离为音频数据和视频数据。

[0059] 发送端通过摄像头采集视频会议中待传输的音视频数据流，该音视频数据流中既包括音频数据也包括视频数据。由于本发明实施例中对音频数据和视频数据分别进行处理，因此可以对音视频数据流进行分离，将音视频数据流分离为音频数据和视频数据。其中，视频数据包括多帧图像，音频数据包括多帧音频。

[0060] 对于对音视频数据流进行分离的具体过程，本领域技术人员根据实际经验采用任意一种适用的分离方法即可，本发明实施例对此不作限制。比如，可以利用音频检测方法检测音视频数据流中的音频数据，并抽取出音频数据，剩余的数据即为视频数据。或者可以采用音视频分离软件，如AE(After Effects)、PR(Premiere)等进行音视频分离。

[0061] 步骤202，从所述视频数据中提取关键视频数据，并获取提取关键视频数据后剩余的非关键视频数据。

[0062] 本发明实施例中，从所述视频数据中提取关键视频数据的过程可以包括步骤A1～A2：

[0063] 步骤A1，识别所述视频数据中的关键区域。

[0064] 考虑到在视频会议传输的音视频数据流中，视频数据中的发言人的人脸、发言的文字较为重要需要保密，因此可以识别视频数据中的人脸区域和/或文字区域，作为关键区域。其中，“和/或”是指两者中的至少一个，也即可以仅将视频数据中的人脸区域作为关键区域，也可以仅将视频数据中的文字区域作为关键区域，还可将视频数据中的人脸区域和文字区域均作为关键区域。

[0065] 由于一帧图像的数据量较高，因此对一帧完整的图像的识别所需的时间也较长。考虑到视频会议中传输的视频数据的场景较为单一，相邻两帧图像之间的差别较小，因此可以对相邻两帧图像进行比较，对于相同的部分不再重复识别，从而提高识别效率。

[0066] 因此，在一种可选实施方式中，识别所述视频数据中的关键区域的过程可以包括步骤A11～A16：

[0067] 步骤A11，将所述视频数据中的每帧图像分别划分成多个子图像。

[0068] 由于一帧图像的数据量较高，因此本发明实施例中可以按照相同的划分方式，将每帧图像分别划分成多个子图像进行处理。

[0069] 本发明实施例中对于子图像的数量不作限制。比如，可以将每帧图像划分为M行N列的子图像，M和N均为大于1的整数，M和N可以相同，也可以不同。比如，M和N均为10时，则是将每帧图像划分为10行10列共100个子图像。

[0070] 步骤A12，对第一帧图像中的每个子图像分别进行识别，得到每个子图像的识别结果，根据所述每个子图像的识别结果确定所述第一帧图像中的关键区域。

[0071] 子图像的识别结果指示了该子图像中的关键区域，根据每个子图像的识别结果，可以将各子图像中的关键区域进行组合，得到第一帧图像中的关键区域。

[0072] 本发明实施例中，可以采用任意一种适用的方法进行人脸识别和文字识别。比如，可以预先训练人脸识别模型和文字识别模型。对于具体的训练过程本发明实施例不再详细论述。

[0073] 如果要识别人脸区域，则将第一帧图像中的每个子图像分别输入人脸识别模型中，通过人脸识别模型对输入的子图像提取图像特征，并对提取的图像特征进行识别，得到人脸识别结果，人脸识别结果指示了该子图像中的人脸区域。根据各子图像的人脸识别结果，将各子图像中的人脸区域进行组合，得到第一帧图像中的人脸区域。

[0074] 如果要识别文字区域，则将第一帧图像中的每个子图像分别输入文字识别模型中，通过文字识别模型对输入的子图像提取图像特征，并对提取的图像特征进行识别，得到文字识别结果，文字识别结果指示了该子图像中的文字区域。根据各子图像的文字识别结果，将各子图像中的文字区域进行组合，得到第一帧图像中的文字区域。

[0075] 步骤A13，从第二帧图像开始，针对当前一帧图像中的每个子图像，获取上一帧图像中与当前子图像位置相同的子图像，将所述当前子图像与获取的子图像进行比较。如果比较结果为相同，则执行步骤A14；如果比较结果为不同，则执行步骤A15。

[0076] 从第二帧图像开始，先将当前一帧图像与上一帧图像进行比较，对于与上一帧图像中相同的部分无需再重复进行识别。

[0077] 针对当前一帧图像中的每个子图像分别进行处理。针对当前子图像，获取上一帧图像中与当前子图像位置相同的子图像，将当前子图像与获取的子图像进行比较。比如，针对当前一帧图像中的第1行第1列的子图像，获取上一帧图像中第1行第1列的子图像，将两个子图像进行比较。

[0078] 步骤A14，如果比较结果为不同，则对所述当前子图像进行识别，得到所述当前子图像的识别结果。

[0079] 如果当前子图像与获取的子图像不同，则再对当前子图像进行识别，得到当前子图像的识别结果。识别过程参照上述步骤A12中的相关描述即可，本发明实施例在此不再详细论述。

[0080] 步骤A15，如果比较结果为相同，则将所述获取的子图像的识别结果作为所述当前子图像的识别结果。

[0081] 如果当前子图像与获取的子图像相同，则无需再对当前子图像进行识别，将获取的子图像的识别结果作为当前子图像的识别结果即可。

[0082] 步骤A16，根据各当前子图像的识别结果确定所述当前一帧图像中的关键区域。

[0083] 当前子图像的识别结果指示了当前子图像中的关键区域，根据各当前子图像的识别结果，可以将各当前子图像中的关键区域进行组合，得到当前一帧图像中的关键区域。

[0084] 步骤A2，提取所述关键区域内的视频数据，作为所述关键视频数据。

[0085] 针对视频数据中的每帧图像，识别出该帧图像的关键区域后，提取该帧图像中关键区域内的视频数据，提取的视频数据即为关键视频数据，提取后该帧图像中剩余的视频数据即为非关键视频数据。

[0086] 步骤203，将所述非关键视频数据发送给后台。

[0087] 对于非关键视频数据来说，本发明实施例中还可以根据用户需求，如果要对非关键视频数据中的部分视频数据也进行加密，则可以将非关键视频数据中的部分视频数据也作为关键视频数据，从而进一步满足用户需求。

[0088] 因此，发送端在获取到非关键视频数据之后，还可以将非关键视频数据发送给后台。后台可以提供用户界面，将非关键视频数据显示在用户界面中。用户如果想要对非关键视频数据中的部分视频数据进行加密，则可以在非关键视频数据中选择需要加密的目标区域，后台会将用户在所述非关键视频数据中选择的目标区域返回给发送端。如果用户不对非关键视频数据中的部分视频数据进行加密，则可以不进行操作，后台不向发送端返回信息。

[0089] 步骤204，判断是否接收到后台返回的，用户在所述非关键视频数据中选择的目标区域。若是，则执行步骤205；若否，则执行步骤206。

[0090] 步骤205，如果接收到所述后台返回的，用户在所述非关键视频数据中选择的目标区域，则提取所述目标区域内的非关键视频数据，将提取的非关键视频数据确定为关键视频数据。

[0091] 发送端如果接收到后台返回的目标区域，则可以提取目标区域内的非关键视频数据，将提取的非关键视频数据也确定为关键视频数据。

[0092] 步骤206，分别记录所述音频数据的时间戳、所述关键视频数据的时间戳和所述非关键视频数据的时间戳。

[0093] 经过上述过程，将音视频数据流分为了音频数据、关键视频数据和非关键视频数据三部分，发送端分别记录所述音频数据的时间戳、所述关键视频数据的时间戳和所述非关键视频数据的时间戳。其中，时间戳可以在采集音视频数据流的时候生成。

[0094] 步骤207，对所述音频数据和所述关键视频数据进行加密。

[0095] 发送端对音频数据、关键视频数据和非关键视频数据分别进行编码，在编码后，对音频数据和关键视频数据进行加密，对于非关键视频数据无需进行加密。

[0096] 本发明实施例中，可以采用任意适用的加密方法对音频数据和关键视频数据进行加密。比如，可以采用SM4加密算法(SM4是一个分组密码算法)、AES(Advanced Encryption Standard，高级加密标准)加密算法、DES(Data Encryption Standard，数据加密标准)加密算法等对音频数据和关键视频数据进行加密。

[0097] 步骤208，将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据，以及所述音频数据的时间戳、所述关键视频数据的时间戳和所述非关键视频数据的时间戳传输至接收端。

[0098] 发送端通过网络，将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据，以及所述音频数据的时间戳、所述关键视频数据的时间戳和所述非关键视频数据的时间戳传输至接收端。

[0099] 需要说明的是，如果发送端和接收端为视联网终端，则发送端将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据，以及所述音频数据的时间戳、所述关键视频数据的时间戳和所述非关键视频数据的时间戳传输至视联网服务器，再由视联网服务器将其传输至接收端。

[0100] 接收端在接收到加密后的音频数据、加密后的关键视频数据和所述非关键视频数据，以及所述音频数据的时间戳、所述关键视频数据的时间戳和所述非关键视频数据的时间戳后，对加密后的音频数据和加密后的关键视频数据进行解密，然后根据音频数据的时间戳、关键视频数据的时间戳和非关键视频数据的时间戳，将音频数据、关键视频数据和非关键视频数据进行时间戳同步，按照时间的先后顺序进行数据组合，得到发送端采集的音视频数据流，之后接收端播放该音视频数据流。

[0101] 本发明实施例降低了加密的数据量，提高了加密效率，并且允许根据用户需求对非关键视频数据进行调整，进一步满足用户需求。

[0102] 实施例三

[0103] 参照图3，示出了本发明实施例三的一种音视频加解密过程的示意图。如图3所示，音视频加解密过程可以包括：

[0104] 1、当发送端采集到音视频数据流后，由图示①位置开始，发送端的处理器进行数据流分离，得到音频流数据和视频流数据，分离过程中，采用时间戳对两部分数据进行同步，音频流数据由于数据量小，且基本为需要加密的数据，故对音频数据进行全部加密，进入加密芯片图示②位置。

[0105] 2、图示③视频流数据，发送端的处理器将图示③视频流数据进行人脸/文字识别算法处理，判断是否为关键视频数据。此处关键视频数据指的是，人脸区域/文字区域。对于图示④关键视频数据，同步时间戳。对于非关键视频数据，后台管理软件可以选择是否进行后台调整，调整方式为框选目标区域。如果不进行后台调整，则识别为非关键视频数据，并同步时间戳。如果进行后台调整，则图示⑤将目标区域的非关键视频数据加入关键视频数据中。图示④和图示⑤两部分的关键视频数据进入同一缓冲队列图示⑥中，进入加密芯片图示②位置。

[0106] 3、发送端的处理器将加密芯片图示②加密后的数据与非关键视频数据组包之后，通过网络流发送至接收端，即网络流接收端图示⑦。

[0107] 4、网络流接收端图示⑦在收到数据包之后，接收端的处理器会进行数据包解析，判断是否为加密数据。如果是加密数据则将数据发送至解密模块，解密完成后，将解密数据和未加密数据进行时间戳同步，同步完成后进行音视频流播放。

[0108] 参照图4，示出了本发明实施例三的一种音视频加解密的数据包处理过程示意图。如图4所示，数据包处理过程可以包括：

[0109] 1、终端通过前端采集，获得需要加密的数据包A。数据包A通过人脸识别、文字识别以及后台管理软件的调整，确定非加密(即非关键)视频包A1、需加密(即关键)视频包A2、以及音频包B。

[0110] 2、视频包A2、以及音频包B经过加密模块后得到加密数据包C2，与视频包A1打包后形成最终需要传输的数据包D。

[0111] 3、数据包D经过链路传输后，对端设备得到数据包D，对端处理器获取到数据包D之后，进行数据包D解析，得到非加密数据包A1(也即视频包A1)，并对其中的加密数据包进行解密后得到解密包E1，之后将E1和A1进行时间戳同步，同步完成后可以实现音视频数据的播放。

[0112] 考虑到视频会议的场景，加密的数据占整个数据包的25％左右，即加解密两个过程可以节省75％的加解密时间，而人脸识别以及文字识别的算法，识别速度大致在0.1S左右，在整个传输过程中占比较小，故在整体上可以降低延时，提升用户体验。同时，对于多路音视频数据流加解密的场景，只对部分数据进行加解密可以降低加解密的数据量，实现一个加解密芯片进行多路的音视频数据流的加解密，降低加解密的成本。

[0113] 实施例四

[0114] 参照图5，示出了本发明实施例四的一种音视频加密传输装置的结构框图。

[0115] 本发明实施例的音视频加密传输装置可以包括以下模块：

[0116] 分离模块501，用于采集视频会议中待传输的音视频数据流，将所述音视频数据流分离为音频数据和视频数据。

[0117] 提取模块502，用于从所述视频数据中提取关键视频数据，并获取提取关键视频数据后剩余的非关键视频数据。

[0118] 加密模块503，用于对所述音频数据和所述关键视频数据进行加密。

[0119] 传输模块504，用于将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据传输至接收端。

[0120] 可选地，所述提取模块502包括：区域识别单元，用于识别所述视频数据中的关键区域，所述关键区域包括人脸区域和/或文字区域；数据提取单元，用于提取所述关键区域内的视频数据，作为所述关键视频数据。

[0121] 可选地，所述区域识别单元包括：划分子单元，用于将所述视频数据中的每帧图像分别划分成多个子图像；第一识别子单元，用于对第一帧图像中的每个子图像分别进行识别，得到每个子图像的识别结果，根据所述每个子图像的识别结果确定所述第一帧图像中的关键区域；比较子单元，用于从第二帧图像开始，针对当前一帧图像中的每个子图像，获取上一帧图像中与当前子图像位置相同的子图像，将所述当前子图像与获取的子图像进行比较；第二识别子单元，用于在所述比较子单元的比较结果为不同时，对所述当前子图像进行识别，得到所述当前子图像的识别结果；第一确定子单元，用于在所述比较子单元的比较结果为相同时，将所述获取的子图像的识别结果作为所述当前子图像的识别结果；第二确定子单元，用于根据各当前子图像的识别结果确定所述当前一帧图像中的关键区域。

[0122] 可选地，所述装置还包括：发送模块，用于将所述非关键视频数据发送给后台；确定模块，用于在接收到所述后台返回的，用户在所述非关键视频数据中选择的目标区域时，提取所述目标区域内的非关键视频数据，将提取的非关键视频数据确定为关键视频数据。

[0123] 可选地，所述装置还包括：记录模块，用于分别记录所述音频数据的时间戳、所述关键视频数据的时间戳和所述非关键视频数据的时间戳。所述传输模块，具体用于将加密后的音频数据、加密后的关键视频数据和所述非关键视频数据，以及所述音频数据的时间戳、所述关键视频数据的时间戳和所述非关键视频数据的时间戳传输至接收端。

[0124] 本发明实施例中发送端对待传输的音视频数据流进行智能筛选，筛选出其中的需要保密的音频数据和关键视频数据进行加密，对于非关键视频数据无需加密，因此降低了加密的数据量，提高了加密效率，进而提高了音视频数据流的传输效率，提升用户体验。

[0125] 对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

[0126] 在本发明的实施例中，还提供了一种电子设备。该电子设备可以包括一个或多个处理器，以及其上存储有指令的一个或多个机器可读介质，指令例如应用程序。当所述指令由所述一个或多个处理器执行时，使得所述处理器执行上述的音视频加密传输方法。

[0127] 在本发明的实施例中，还提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序可由电子设备的处理器执行，以完成上述的音视频加密传输方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

[0128] 本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

[0129] 本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

[0130] 本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0131] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0132] 这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0133] 尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

[0134] 最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

[0135] 以上对本发明所提供的一种音视频加密传输方法、装置、电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

标题	发布/更新时间	阅读量
一种客车油箱防盗方法及系统	2020-05-08	752
配电网自动化故障快速定位模拟系统	2020-05-11	16
一种服务厅一体化综合应用监控管理系统	2020-05-08	642
一种基于云计算的流行病监控系统	2020-05-11	564
一种基于大数据的医护人员资源匹配分析系统	2020-05-11	497
一种基于视频AI技术的人脸抓拍高清摄像机	2020-05-08	547
一种基于卷积神经网络特征的跨质量人脸识别方法	2020-05-08	559
人脸识别方法、装置及存储介质、终端设备	2020-05-08	749
一种基于生物特征识别的OTP多重认证的智能门锁	2020-05-08	3
一种信息采集系统	2020-05-08	658

音视频加密传输方法、装置、电子设备及存储介质

音视频加密传输方法、装置、电子设备及存储介质

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：