专利汇可以提供一种基于机器学习的内容自适应视频编码方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 机器学习 的内容自适应 视频编码 方法。它具体包括如下步骤:(1)构建数据集:选取不同素材的高 质量 视频,并以场景为单位,提取有效信息;(2)训练模型:使用机器学习方法训练 预测模型 ,采用多层全连接神经网络,根据用户设定参数生成网络模型;(3)实际分析预测:先将 视频流 缓冲一定 帧 数,并对缓冲 视频帧 提取复杂度信息,结合用户设定参数使用训练的网络模型,预测输出编码设定参数。本发明的有益效果是:可自适应决定编码参数,输出图像质量比较一致的视频流,具有较低计算复杂度,并能够方便地应用于现有的视频编码 框架 中。,下面是一种基于机器学习的内容自适应视频编码方法专利的具体信息内容。
1.一种基于机器学习的内容自适应视频编码方法,其特征是,具体包括如下步骤:
(1)构建数据集:选取不同素材的高质量视频,并以场景为单位,提取有效信息;
(2)训练模型:使用机器学习方法训练预测模型,采用多层全连接神经网络,根据用户设定参数生成网络模型;
(3)实际分析预测:先将视频流缓冲一定帧数,并对缓冲视频帧提取复杂度信息,结合用户设定参数使用训练的网络模型,预测输出编码设定参数。
2.根据权利要求1所述的一种基于机器学习的内容自适应视频编码方法,其特征是,在步骤(1)中,构建数据集的具体操作方法如下:
(11)根据实际应用场景,筛选高质量的素材,并将素材按场景划分为编码单元;
(12)按照固定编码参数模板,对每个场景按照三种分辨率,每种分辨率按照CRF值从12到40,步长为1的设定进行编码,统计得到每种情况下的复杂度信息、质量分数、码率,并记录相应编码参数为分辨率、帧率、CRF值,其中:质量分数采用VMAF,复杂度信息是指I/P/B帧对应的SATD平均值;
(13)由于VMAF计算质量分数时对分辨率不敏感,需要对其进行修正。
3.根据权利要求2所述的一种基于机器学习的内容自适应视频编码方法,其特征是,在步骤(13)中,修正方法如下:对CRF值小于29的样点,计算质量分数时在CRF=29时的质量分数基础时进行缩小,即乘以一个0到1的系数α,VMAF质量分数为Score,修正后为Score’,修正公式为:
Score'=Score[CRF=29]+(Score-Scare[CRF=29])*α。
4.根据权利要求2所述的一种基于机器学习的内容自适应视频编码方法,其特征是,在步骤(2)中,训练模型的具体操作方法如下:
(21)由构建数据集的信息可知,将特征分量分别标记为satd_I、satd_P、satd_B、size、fps、score,即分别表示为I帧SATD平均、P帧SATD平均值、B帧SATD平均值、分辨率、帧率、质量分数值;
(22)如果某些场景中,随着CRF设定参数的不同,质量分数score变化很小,那么剔除掉这部分数据;
(23)输出变量为CRF,选择网络模型,选择合适的迭代步长和次数,并根据迭代训练结果做适当调整,最终保存这个网络模型参数。
5.根据权利要求4所述的一种基于机器学习的内容自适应视频编码方法,其特征是,在步骤(21)中,由于同一个片段具有相同的分辨率和帧率,考虑到将输入变量归一化,并简化计算量,将特征分量改为input_I、input_P、input_B、score_N,size=width*height,其中:
6.根据权利要求4所述的一种基于机器学习的内容自适应视频编码方法,其特征是,在步骤(23)中,假设迭代次数上限为CntMax,迭代步长为Step,步长下限为StepMin,误差下限值为ErrMin,迭代训练方法如下:
(231)初始化迭代次数和迭代步长;
(232)进行迭代训练,迭代次数加1,与迭代次数上限进行比较,如果大于迭代次数上限则结束迭代训练;否则进入到下一步;
(233)每100次迭代训练记录误差Err,与误差下限值进行比较,如果小于误差下限值则结束迭代训练;否则进入到下一步;
(234)计算前一次误差ErrPre与当前误差ErrCur的差值Res=ErrPre-ErrCur,与误差下限值进行比较,如果大于误差下限值则返回到步骤(232);否则进入到下一步;
(235)缩小迭代步长Step=0.8*Step,与步长下限进行比较,如果大于步长下限则返回到步骤(232);否则结束迭代训练。
7.根据权利要求5所述的一种基于机器学习的内容自适应视频编码方法,其特征是,在步骤(3)中,实际分析预测的具体操作方法如下:
(31)根据用户设定的分辨率和帧率输入图像序列;
(32)将待编码图像序列在缓冲队列中填满NUM帧;
(33)检查上一次缓冲队列中是否发生场景切换,即noChange是否为1,如果noChange=
0,表示上一次缓冲队列中已经发生场景切换,则执行步骤(36);如果noChange=1,表示上一次缓冲队列中没有发生场景切换;
(34)检测本次缓冲队列中是否发生场景切换,如果未发生,则UseId=NUM-1,noChange=1;如果发生场景切换,则记录场景切换点SceneId,UseId=SceneId-1,noChange=0;
(35)处理单元[0,UseId]使用上一次的编码参数,并执行步骤(38);
(36)noChange=0表明本次缓冲队列与上次没有联系,检测本次缓冲队列中是否发生场景切换;如果未发生场景切换,则UseId=NUM-1,noChange=1;如果发生场景切换,则记录场景切换点SceneId,UseId=SceneId-1,noChange=0;
(37)对处理单元[0,UseId]进行预测编码参数;
(38)对处理单元[0,UseId]进行实际编码,并保存此次的编码参数;
(39)由于已经编码了UseId帧,需要在缓冲队列中填满NUM帧。
8.根据权利要求7所述的一种基于机器学习的内容自适应视频编码方法,其特征是,在步骤(37)中,预测编码参数的具体操作方法如下:
(371)对处理单元[0,UseId]内的图像序列,按帧计算SATD值,并根据帧型I/P/B分别统计其平均值为satd_I、satd_P、satd_B;
(372)根据用户设定的分辨率、帧率、质量分数,计算得到input_I、input_P、input_B、score_N;
(373)将以上四个特征值作为输入,使用事先训练好的网络模型,预测得到CRF_predict;
(374)如果预测值CRF_predict不在预设范围[CRF_min,CRF_max]中;那么,如果CRF_predict>CRF_max,那么CRF_predict=CRF_max;如果CRF_predict
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种信息中心网络多层次视频媒体系统及其使用方法 | 2020-05-08 | 529 |
压缩/解压缩的装置和系统、芯片、电子装置、方法 | 2020-05-08 | 169 |
广播级内模块式超高清摄像机 | 2020-05-11 | 695 |
处理和传输媒体数据的方法和装置 | 2020-05-11 | 992 |
一种基于SVC数据特性的P2P流媒体分片及调度方法 | 2020-05-08 | 255 |
将子块细分的推导用于来自基础层的预测的可伸缩视频编码 | 2020-05-12 | 834 |
用于混合的交错和递进内容的可伸缩视频编码的方法 | 2020-05-11 | 643 |
一种基于动态注意力机制的多事件视频描述方法 | 2020-05-08 | 733 |
不同视频块尺寸的仿射模式计算 | 2020-05-11 | 965 |
在应用层实现无缝录像的方法、装置及终端设备 | 2020-05-12 | 765 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。