音频与视频的合并方法及装置专利检索-马动物学专利检索查询-专利查询网

音频与视频的合并方法及装置

阅读：720发布：2023-03-26

专利汇可以提供音频与视频的合并方法及装置专利检索，专利查询，专利分析的服务。并且本发明实施例提出一种音频与视频的合并方法及装置，涉及视频传输应用技术领域。该方法及装置通过将视频文件转换为预设定格式的图像数据，以及依据音频文件生成音频变化函数后，将音频变化曲线叠加于预设定格式的图像数据从而获得合并数据，最终实现音频文件与视频文件的合并，从而使得存储音频文件与视频文件时，不在需要额外的空间分别单独存放音频文件与视频文件，从而占用的磁盘空间较小；同时在网络传输过程中，通过将音频文件与视频文件的合并成为一个流媒体，因而仅需一个传输通道便能完成两种文件的传输，释放了网络资源。，下面是音频与视频的合并方法及装置专利的具体信息内容。

权利要求

1.一种音频与视频的合并方法，其特征在于，所述音频与视频的合并方法包括：
获得输入的音频文件和视频文件；
将所述视频文件转换为预设定格式的图像数据；
依据所述音频文件生成音频变化函数；
基于所述音频变化函数获取所述音频文件包含的每帧音频数据对应的音频变化曲线；
获取每帧所述预设定格式的图像数据对应的分辨率；其中，所述分辨率由第一分量×第二分量表示；
将每个所述音频变化曲线的x轴与每帧所述分辨率的第一分量对应，将每个所述音频变化曲线的y轴与每帧所述分辨率的第二分量对应，将每帧所述分辨率的第一分量和第二分量分别充当每个所述音频变化曲线的x轴和y轴，进而实现逐个将每个所述音频变化曲线叠加于一帧所述预设定格式的图像数据。
2.如权利要求1所述的音频与视频的合并方法，其特征在于，所述预设定格式的图像数据为YUV图像数据，所述实现逐个将每个所述音频变化曲线叠加于一帧所述预设定格式的图像数据的步骤包括：
基于所述分辨率逐个将每个所述音频变化曲线叠加于一帧所述YUV图像数据的Y分量。
3.如权利要求1所述的音频与视频的合并方法，其特征在于，所述依据所述音频文件生成音频变化函数的步骤包括：
对所述音频文件进行解码操作而生成音频流，所述音频流包含时间参数及与每个所述时间参数对应的音频值；
基于所述音频流生成音频变化函数，所述音频变化函数用于表示所述音频值随所述时间参数而变换的关系。
4.如权利要求1所述的音频与视频的合并方法，其特征在于，所述将所述视频文件转换为预设定格式的图像数据的步骤包括：
对所述视频文件进行解封装操作而生成视频码流数据包；
对所述视频码流数据包进行解码操作而生成所述预设定格式的图像数据。
5.一种音频与视频的合并装置，其特征在于，所述音频与视频的合并装置包括：
数据获取单元，用于获得输入的音频文件和视频文件；
视频格式转换单元，用于将所述视频文件转换为预设定格式的图像数据；
音频变化函数生成单元，用于依据所述音频文件生成音频变化函数；
音频变化曲线获取子单元，用于基于所述音频变化函数获取所述音频文件包含的每帧音频数据对应的音频变化曲线；
分辨率获取子单元，用于获取每帧所述预设定格式的图像数据对应的分辨率；其中，所述分辨率由第一分量×第二分量表示；
叠加子单元，用于将每个所述音频变化曲线的x轴与每帧所述分辨率的第一分量对应，将每个所述音频变化曲线的y轴与每帧所述分辨率的第二分量对应，将每帧所述分辨率的第一分量和第二分量分别充当每个所述音频变化曲线的x轴和y轴，进而实现逐个将每个所述音频变化曲线叠加于一帧所述预设定格式的图像数据。
6.如权利要求5所述的音频与视频的合并装置，其特征在于，所述预设定格式的图像数据为YUV图像数据，所述叠加子单元用于基于所述分辨率逐个将每个所述音频变化曲线叠加于一帧所述YUV图像数据的Y分量。
7.如权利要求5所述的音频与视频的合并装置，其特征在于，所述音频变化函数生成单元包括：
第一解码子单元，用于对所述音频文件进行解码操作而生成音频流，所述音频流包含时间参数及与每个所述时间参数对应的音频值；
音频变化函数生成子单元，用于基于所述音频流生成音频变化函数，所述音频变化函数用于表示所述音频值随所述时间参数而变换的关系。
8.如权利要求5所述的音频与视频的合并装置，其特征在于，所述视频格式转换单元包括：
解封装子单元，用于对所述视频文件进行解封装操作而生成视频码流数据包；
第二解码子单元，用于对所述视频码流数据包进行解码操作而生成所述预设定格式的图像数据。

说明书全文

音频与视频的合并方法及装置

技术领域

[0001] 本发明涉及视频传输应用技术领域，具体而言，涉及一种音频与视频的合并方法及装置。

背景技术

[0002] 现有音频文件及视频文件的封装和压缩都是通过一定的关联性把音频和视频或者字幕相应地存储到相对应的地方。采用这种方式需要占用额外的头资源，使封装文件比单独存储的两个对立的文件占用的磁盘空间更大更多；同时在网络传输过程中，还要把音视频文件解开，分成两个不同的流媒体，通过不同的通道传输到媒体接收端，占用网络资源比较多。

发明内容

[0003] 有鉴于此，本发明的目的在于提供一种音频与视频的合并方法及装置，以解决上述问题。

[0004] 为了实现上述目的，本发明实施例采用的技术方案如下：

[0005] 第一方面，本发明实施例提供了一种音频与视频的合并方法，所述音频与视频的合并方法包括：

[0006] 获得输入的音频文件和视频文件；

[0007] 将视频文件转换为预设定格式的图像数据；

[0008] 依据音频文件生成音频变化函数；

[0009] 将所述音频变化曲线叠加于所述预设定格式的图像数据从而获得合并数据。

[0010] 第二方面，本发明实施例还提供了一种音频与视频的合并装置，所述音频与视频的合并装置包括：

[0011] 视频格式转换单元，用于将视频文件转换为预设定格式的图像数据；

[0012] 音频变化函数生成单元，用于依据音频文件生成音频变化函数；

[0013] 合并数据生成单元，用于将所述音频变化曲线叠加于所述预设定格式的图像数据从而获得合并数据。

[0014] 本发明实施例提供的音频与视频的合并方法及装置，通过将视频文件转换为预设定格式的图像数据，以及依据音频文件生成音频变化函数后，将音频变化曲线叠加于预设定格式的图像数据从而获得合并数据，最终实现音频文件与视频文件的合并，从而使得存储音频文件与视频文件时，不在需要额外的空间分别单独存放音频文件与视频文件，从而占用的磁盘空间较小；同时在网络传输过程中，通过将音频文件与视频文件的合并成为一个流媒体，因而仅需一个传输通道便能完成两种文件的传输，释放了网络资源。

[0015] 为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

[0016] 为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

[0017] 图1示出了本发明实施例提供的用户终端的功能框图。

[0018] 图2示出了本发明实施例提供的音频与视频的合并方法的流程图。

[0019] 图3示出了图2中步骤S201的具体流程图。

[0020] 图4示出了图2中步骤S202的具体流程图。

[0021] 图5示出了图2中步骤S203的具体流程图。

[0022] 图6示出了本发明实施例提供的音频与视频的合并装置的功能模块图。

[0023] 图7示出了图6中视频格式转换单元的具体模块图。

[0024] 图8示出了图6中音频变化函数生成单元的具体模块图。

[0025] 图9示出了图6中合并数据生成单元的具体模块图。

[0026] 图标：100-用户终端；101-存储器；102-存储控制器；103-处理器；104-外设接口；105-射频单元；200-音频与视频的合并装置；210-视频格式转换单元；212-解封装子单元；
214-第二解码子单元；220-音频变化函数生成单元；222-第一解码子单元；224-音频变化函数生成子单元；230-合并数据生成单元；232-音频变化曲线获取子单元；234-分辨率获取子单元；236-叠加子单元；240-数据获取单元。

具体实施方式

[0027] 下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0028] 应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

[0029] 请参阅图1，图1示出了一种可应用于本发明实施例中的用户终端100的功能框图。如图1所示，用户终端100包括音频与视频的合并装置200、存储器101、存储控制器102，一个或多个(图中仅示出一个)处理器103、外设接口104、射频单元105、触控屏幕等。这些组件通过一条或多条通讯总线/信号线相互通讯。所述音频与视频的合并装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述用户终端100的操作系统(operating system，OS)中的软件功能单元。

[0030] 存储器101可用于存储软件程序以及单元，如本发明实施例中的音频与视频的合并装置200及方法所对应的程序指令/单元，处理器103通过运行存储在存储器101内的软件程序以及单元，从而执行各种功能应用以及数据处理，如本发明实施例提供的音频与视频的合并方法。

[0031] 存储器101可包括高速随机存储器101，还可包括非易失性存储器101，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器101。处理器103以及其他可能的组件对存储器101的访问可在存储控制器102的控制下进行。

[0032] 外设接口104将各种输入/输出装置耦合至处理器103以及存储器101。在一些实施例中，外设接口104、处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

[0033] 射频单元105用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。

[0034] 可以理解，图1所示的结构仅为示意，用户终端100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

[0035] 第一实施例

[0036] 本发明实施例提供了一种音频与视频的合并方法，用于将音频文件与视频文件合并在一起，以便于对音频文件和视频文件同时进行传输。请参阅图2，为本发明实施例提供的音频与视频的合并方法的流程图。该音频与视频的合并方法包括：

[0037] 步骤S201：获得输入的音频文件和视频文件。

[0038] 步骤S202：将视频文件转换为预设定格式的图像数据。

[0039] 在一种优选的实施例中，预设定格式的图像数据为YUV图像数据。YUV与常见的RGB类似，也是一种颜色编码方法。YUV主要用于电视系统以及模拟视频领域，它将亮度信息(Y)与色彩信息(UV)分离，没有UV信息一样可以显示完整的图像，只不过是黑白的。

[0040] 可以理解地，YUV图像数据则是依据YUV这种颜色编码方法获得的图像数据。通过将视频文件转换为YUV图像数据，便于处理器103对YUV图像数据的Y分量，即视频文件的亮度信息进行单独操作，而不影响UV分量，即视频文件的色彩信息。

[0041] 请参阅图3，为在一种优选的实施例中，步骤S202的具体流程图。该步骤S202包括：

[0042] 子步骤S2021：对视频文件进行解封装操作而生成视频码流数据包。

[0043] 可以理解地，视频文件通常具有一定封装格式，可直接由相关视频播放软件播放；该封装格式可以是但不仅限于AVI、MP4或是MKV等。

[0044] 由于不能直接处理封装的视频文件，因而需要先对视频文件进行解封装操作，从而先获得视频码流数据包，便于处理器103进行下一步处理。

[0045] 子步骤S2022：对视频码流数据包进行解码操作而生成预设定格式的图像数据。

[0046] 可以理解地，对视频码流数据包进行解码操作的过程即为对预设定格式的图像数据进行编码获得视频码流数据包的逆过程，因而对视频码流数据包进行解码操作即可获得预设定格式的图像数据。

[0047] 步骤S203：依据音频文件生成音频变化函数。

[0048] 一般地，音频文件通常包含时间参数以及音频值两种参数，且每个时间参数具有与之对应的音频值。

[0049] 因而可以理解地，音频变化函数可用于表示音频值随时间参数而变换的关系。

[0050] 请参阅图4，为在一种优选的实施例中，步骤S203的具体流程图。该步骤S203包括：

[0051] 子步骤S2031：对音频文件进行解码操作而生成音频流。

[0052] 可以理解地，对音频文件进行解码操作的过程即为对音频流进行编码获得音频文件的逆过程，因而对音频文件进行解码操作即可获得音频流。

[0053] 通过获取音频流，处理器103可以较为方便地从音频流中提取多组参数，且每组参数均包括时间参数以及与之对应的音频值。

[0054] 子步骤S2032：基于音频流生成音频变化函数。

[0055] 可以理解地，基于音频流生成音频变化函数过程，即为依据从音频流中提取多组参数获得音频变化函数的过程。

[0056] 此外，音频变化函数并不是单纯地以多组参数为已知条件求得函数关系式的过程，而是在生成音频变化函数前，需要先按照预设定的公式对时间参数以及音频值进行坐标变换后，再依据变换后的坐标生成该音频变化函数。

[0057] 由于每帧图像的数据总是大于每帧音频的数据，因而需要先对时间参数以及音频值进行坐标变换以适应图像数据，便于将音频文件叠加于视频文件。

[0058] 步骤S204：将音频变化曲线叠加于预设定格式的图像数据从而获得合并数据。

[0059] 由于通过坐标变换的处理，音频文件与视频文件已经匹配，因而音频文件便可以叠加于视频文件，从而获得合并数据了。

[0060] 请参阅图5，为在一种优选的实施例中，步骤S204的具体流程图。该步骤S204包括：

[0061] 子步骤S2041：基于音频变化函数获取每帧音频文件对应的音频变化曲线。

[0062] 基于音频变化函数获取每帧音频文件对应的音频变化曲线的过程，可以是先将音频变化函数以帧为单位划分为多个自变量区间不同的音频变化函数后，再将每个音频变化函数依照其自变量区间获得该区间内的音频变化曲线；也可以是先依据音频变化函数绘制整个音频文件的音频变化曲线，再以帧为单位将音频变化函数划分为多个自变量区间不同的音频变化函数。

[0063] 子步骤S2042：获取每帧预设定格式的图像数据对应的分辨率。

[0064] 通过获取每帧预设定格式的图像数据对应的分辨率，便于将每帧的音频变化曲线与每帧预设定格式的图像数据对应，从而能够更加方便地进行将音频变化曲线叠加于预设定格式的图像数据的操作。

[0065] 子步骤S2043：基于分辨率逐个将每个音频变化曲线叠加于一帧预设定格式的图像数据。

[0066] 设预设定格式的图像数据每帧的分辨率为w×h，因此，将每个音频变化曲线叠加于一帧预设定格式的图像数据的过程即为：将音频变化函数的x变量与分辨率的w对应，将音频变化函数的y变量与分辨率的h对应，最终以分辨率的w、h分别充当x轴、y轴，从而将音频变化函数叠加至以w、h为坐标轴的预设定格式的图像数据上。

[0067] 需要说明的是，由于YUV图像数据的Y分量为亮度分量，与UV分量独立，因而在一种优选的实施例中，在将音频变化曲线叠加至以w、h为坐标轴的YUV图像数据上的过程中，可以仅仅将音频变化曲线叠加于YUV图像数据的Y分量上，依据(x,y)与(w,h)的变化，增加或减少相应Y分量的值。

[0068] 通过对每帧音频变化曲线与每帧预设定格式的图像数据进行叠加操作后，便能将实现音频文件与视频文件的叠加。

[0069] 第二实施例

[0070] 请参阅图6，为本发明较佳实施例提供的一种音频与视频的合并装置200。需要说明的是，本实施例所提供的音频与视频的合并装置200，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该音频与视频的合并装置200包括数据获取单元240、视频格式转换单元210、音频变化函数生成单元220以及合并数据生成单元230。

[0071] 数据获取单元240用于获得输入的音频文件和视频文件。

[0072] 可以理解地，数据获取单元可用于执行步骤S201。

[0073] 视频格式转换单元210用于将视频文件转换为预设定格式的图像数据。

[0074] 可以理解地，视频格式转换单元210可用于执行步骤S202。

[0075] 请参阅图7，视频格式转换单元210包括解封装子单元212及第二解码子单元214。

[0076] 解封装子单元212用于对视频文件进行解封装操作而生成视频码流数据包。

[0077] 可以理解地，解封装子单元212可用于执行子步骤S2021。

[0078] 第二解码子单元214用于对视频码流数据包进行解码操作而生成预设定格式的图像数据。

[0079] 可以理解地，第二解码子单元214可用于执行子步骤S2022。

[0080] 音频变化函数生成单元220用于依据音频文件生成音频变化函数。

[0081] 可以理解地，音频变化函数生成单元220可用于执行步骤S203。

[0082] 请参阅图8，音频变化函数生成单元220包括第一解码子单元222以及音频变化函数生成子单元224。

[0083] 第一解码子单元222用于对音频文件进行解码操作而生成音频流。

[0084] 可以理解地，第一解码子单元222可用于执行子步骤S2031。

[0085] 音频变化函数生成子单元224用于基于音频流生成音频变化函数。

[0086] 可以理解地，音频变化函数生成子单元224可用于执行子步骤S2032。

[0087] 合并数据生成单元230用于将音频变化曲线叠加于预设定格式的图像数据从而获得合并数据。

[0088] 可以理解地，合并数据生成单元230可用于执行步骤S203。

[0089] 请参阅图9，合并数据生成单元230包括音频变化曲线获取子单元232、分辨率获取子单元234以及叠加子单元236。

[0090] 音频变化曲线获取子单元232用于基于音频变化函数获取每帧音频文件对应的音频变化曲线。

[0091] 可以理解地，音频变化曲线获取子单元232可用于执行子步骤S2041。

[0092] 分辨率获取子单元234用于获取每帧预设定格式的图像数据对应的分辨率。

[0093] 可以理解地，分辨率获取子单元234可用于执行子步骤S2042。

[0094] 叠加子单元236用于基于分辨率逐个将每个音频变化曲线叠加于一帧预设定格式的图像数据。

[0095] 可以理解地，叠加子单元236可用于执行子步骤S2043。

[0096] 综上所述，本发明实施例提供的音频与视频的合并方法及装置，通过将视频文件转换为预设定格式的图像数据，以及依据音频文件生成音频变化函数后，将音频变化曲线叠加于预设定格式的图像数据从而获得合并数据，最终实现音频文件与视频文件的合并，从而使得存储音频文件与视频文件时，不在需要额外的空间分别单独存放音频文件与视频文件，从而占用的磁盘空间较小；同时在网络传输过程中，通过将音频文件与视频文件的合并成为一个流媒体，因而仅需一个传输通道便能完成两种文件的传输，释放了网络资源。

[0097] 在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个单元、程序段或代码的一部分，所述单元、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

[0098] 另外，在本发明各个实施例中的各功能单元可以集成在一起形成一个独立的部分，也可以是各个单元单独存在，也可以两个或两个以上单元集成形成一个独立的部分。

[0099] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

[0100] 需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

[0101] 以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

标题	发布/更新时间	阅读量
在基于网络功能虚拟化(NFV)的通信网络和软件定义的网络(SDNS)中提供安全性的系统、方法和计算机程序	2020-05-08	854
用于生产1,1-二取代烯烃的催化循环	2020-05-08	763
具有高颜料含量的分散脂肪相的分散体	2020-05-11	471
低极化锂氧气电池组	2020-05-08	856
动力转向装置	2020-05-08	827
用于陶瓷产品的水凝胶注模成型方法	2020-05-08	912
电子乐器	2020-05-08	686
用于陶瓷产品的水凝胶注模成型制剂	2020-05-08	816
用于机动车的高压插接连接器的高压插接连接部件、高压车载电网以及机动车	2020-05-08	270
癌症相关的免疫抑制抑制剂	2020-05-08	1061

音频与视频的合并方法及装置

音频与视频的合并方法及装置

技术领域

背景技术

发明内容

附图说明

具体实施方式

该功能需要专业版企业版VIP权限，您可以：