技术领域
[0001] 本
发明涉及一种包含手语的新闻类视频描述数据集构建方法,属于
深度学习、数字
图像处理技术领域。
背景技术
[0002] 视频描述,即将视频内容自动地翻译成完整自然的句子,在检索视频信息,
人机交互,辅助视觉障碍人士等方面有着重要的作用。各大社交平台,媒体
网站中充斥着大量的视频信息,科研工作者可组织利用现有的视频信息提出更加健壮的模型和
算法,实现视频描述功能。目前用于视频描述的数据集大多来源于国外社交网站,语言种类为英语,例如MSR-VTT数据集以及YouTube2Text数据集等。现有的中文版本视频描述数据集极少,且暂无手语新闻类视频数据集。手语在聋哑人正常生活的信息交互中起着至关重要的作用,包含着巨大的信息;同时,新闻播报是人们获取信息的重要来源,包含手语信息的新闻视频数据集可用于新闻分类,事件检索,残障人士服务等众多领域。
[0003] 另外,视频描述需要大量人工标注的视频信息与视频描述文件,这些文件要经视频描述网络提取信息,因此具有高度标准格式的要求。人工撰写描述文件面临巨大的格式错误
风险。一旦发生信息格式错误,后期的信息
整理将会是极为复杂的工作。为了使数据集的json文件信息规范有序,并且使描述人员能够更加方便准确的进行描述,图形
用户界面的设计是十分必要的。
发明内容
[0004] 本发明正是针对
现有技术中存在的问题,提供一种包含手语的新闻类视频描述数据集构建方法,以解决背景技术中所介绍的现有视频描述数据集种类较少,包含手语的新闻类视频描述数据集稀缺问题,同时提高构建数据集的效率,提出利用
图形用户界面获取信息自动生成描述文件的系统。
[0005] 为了实现上述目的,本发明的技术方案如下,一种包含手语的新闻类视频描述数据集构建方法,其特征在于:所述方法包括以下步骤:
[0007] 1.1)下载互联网公开的包含手语信息的新闻视频,自动裁剪为视频片段;
[0008] 1.2)筛选适合描述的视频片段并保存,筛选后的片段称为clips;
[0009] 该方案可以利用《共同关注》节目公开视频进行处理,《共同关注》为中国中央电视台新闻频道的一档手语式新闻资讯类日播节目。每期时长约为一个小时,2011年10月22日起增设手语主播,手语主播同步用手语将节目内容翻译给聋哑残障人士。央视网中每期节目不仅有完整的视频,还有约25个精彩片段。整期视频有大量重复的镜头,如片头片尾等,为了数据集的内容丰富性,选择精彩片段进行处理。
[0010] 步骤2)利用ffmpeg与Opencv提取视频手语信息以及音频;
[0011] 步骤3)构建图形用户界面;
[0012] 步骤4)利用用户输入的描述信息与视频信息,自动生成json文件;
[0013] 步骤5)整合所有信息,构造视频描述数据集。
[0014] 作为本发明的一种改进,所述步骤1.1中所选择的视频均为已公布的包含手语画面信息的新闻播报节目。
[0015] 作为本发明的一种改进,所述步骤1.2中采用色差直方图方法,得到裁剪视频。
[0016] 作为本发明的一种改进,所述步骤3中使用PyQt来创建GUI,GUI中包含视频导入、视频选择、视频类别选择、视频描述语句输入等模
块。该方案中,根据实际需求,首先有一个视频播放窗口,描述者可以导入视频并桉顺序进行播放,可选择上一个或者下一个标号临近视频进行播放。观看视频后针对视频内容对其进行一句话的描述。同时描述者需对视频的类别进行判断并标注,每个类型都有其对应的数字编码。此外,因为每段视频需要不同的人工描述语句,描述者还需输入自己的代号,最终生成CSV文件。
[0017] 作为本发明的一种改进,所述步骤4中利用用户输入信息的CSV文件,自动生成包含视频信息、中文版本与英文版本视频描述语句的json文件,生成描述信息;利用步骤4中获取的CSV文件,构造键值对自动生成视频信息、中文描述、以及英文描述json文件。其中视频信息文件包含视频网址、视频起止时间、视频类别、视频编号;描述文件包含视频编号、中英文描述、描述语句编号等信息。
[0018] 作为本发明的一种改进,所述色差直方图的视频自动分割算法,具体如下:从红色(R),绿色(G)和蓝色(B)值中去除
亮度信息,利用两个色差(即RG和GB)来为每个未压缩
视频帧产生二维色差直方图(CDH),通过以下公式评估色差:
[0019]
[0020]
[0021] 其中,RI(x,y),GI(x,y),BI(x,y)分别表示
像素点(x,y)的红色、绿色、蓝色强度值;rgI(x,y)表示图像I中像素点(x,y)的红绿色差,gbI(x,y)表示图像I中像素点(x,y)的绿蓝色差;Q为常数量化因子;利用CDH,可将获取的视频分割成较短的视频段,为数据集后期的处理提供了便捷。筛选视频时所有选择的帧都包含手语表达图像,去除主持人讲话视频,去除大部分开会以及发布会的视频,主要关注有事件内容的画面(比如洪灾,军演,熊猫等)。
以此来保证视频内容的多样性。
[0022] 相对于现有技术,本发明具有如下优点:首先,本发明创新性地利用手语信息构建新闻类视频描述数据集,目前现有公开可用的大规模数据集中文版本较少,稀缺手语新闻类视频数据集。手语在聋哑人正常生活的信息交互中起着至关重要的作用,利用手语信息构建数据集,为视频描述数据集增加了一个全新的模态,提供了更加丰富的信息;另外,该方案利用自制的图形用户界面收集信息自动生成描述文件,能够通过规范描述人员的行为来提高数据集中视频描述信息的
质量,同时促进数据集构建工作的高效性;最后,所构建的包含手语的新闻类视频描述数据集可以帮助科研工作者提出更加健壮的模型和算法,进一步推动视频描述网络的研究,实现残疾人士信息交互的功能。特别是对于视觉障碍人士与聋哑人士,可以使其方便快捷自主地掌握新闻及其他视频信息的主要内容,为其生活中的信息交互提供便利。
附图说明
[0023] 图1为一种包含手语的新闻类视频描述数据集的构建系统结构图;
[0024] 图2为json信息文件格式。具体实施方式:
[0025] 为了加深对本发明的理解,下面结合附图对本
实施例做详细的说明。
[0026] 实施例1:参见图1、图2,一种包含手语的新闻类视频描述数据集构建方法,所述方法包括以下步骤:
[0027] 步骤1)收集视频片段;
[0028] 1.1)下载互联网公开的包含手语信息的新闻视频,自动裁剪为视频片段;
[0029] 1.2)筛选适合描述的视频片段并保存,筛选后的片段称为clips;
[0030] 该方案可以利用《共同关注》节目公开视频进行处理,《共同关注》为中国中央电视台新闻频道的一档手语式新闻资讯类日播节目。每期时长约为一个小时,2011年10月22日起增设手语主播,手语主播同步用手语将节目内容翻译给聋哑残障人士。央视网中每期节目不仅有完整的视频,还有约25个精彩片段。整期视频有大量重复的镜头,如片头片尾等,为了数据集的内容丰富性,选择精彩片段进行处理。
[0031] 步骤2)利用ffmpeg与Opencv提取视频手语信息以及音频;
[0032] 步骤3)构建图形用户界面;
[0033] 步骤4)利用用户输入的描述信息与视频信息,自动生成json文件;
[0034] 步骤5)整合所有信息,构造视频描述数据集。
[0035] 其中,所述步骤1.1中所选择的视频均为已公布的包含手语画面信息的新闻播报节目。
[0036] 所述步骤1.2中采用色差直方图方法,得到裁剪视频。
[0037] 所述步骤3中使用PyQt来创建GUI,GUI中包含视频导入、视频选择、视频类别选择、视频描述语句输入等模块。该方案中,根据实际需求,首先有一个视频播放窗口,描述者可以导入视频并桉顺序进行播放,可选择上一个或者下一个标号临近视频进行播放。观看视频后针对视频内容对其进行一句话的描述。同时描述者需对视频的类别进行判断并标注,每个类型都有其对应的数字编码。此外,因为每段视频需要不同的人工描述语句,描述者还需输入自己的代号,最终生成CSV文件。
[0038] 所述步骤4中利用用户输入信息的CSV文件,自动生成包含视频信息、中文版本与英文版本视频描述语句的json文件,生成描述信息。利用步骤4中获取的CSV文件,构造键值对自动生成视频信息、中文描述、以及英文描述json文件。其中视频信息文件包含视频网址、视频起止时间、视频类别、视频编号;描述文件包含视频编号、中英文描述、描述语句编号等信息。
[0039] 所述色差直方图的视频自动分割算法,具体如下:从红色(R),绿色(G)和蓝色(B)值中去除亮度信息,利用两个色差(即RG和GB)来为每个未压缩视频帧产生二维色差直方图(CDH),通过以下公式评估色差:
[0040]
[0041]
[0042] 其中,RI(x,y),GI(x,y),BI(x,y)分别表示像素点(x,y)的红色、绿色、蓝色强度值;rgI(x,y)表示图像I中像素点(x,y)的红绿色差,gbI(x,y)表示图像I中像素点(x,y)的绿蓝色差;Q为常数量化因子;利用CDH,可将获取的视频分割成较短的视频段,为数据集后期的处理提供了便捷。筛选视频时所有选择的帧都包含手语表达图像,去除主持人讲话视频,去除大部分开会以及发布会的视频,主要关注有事件内容的画面(比如洪灾,军演,熊猫等)。
以此来保证视频内容的多样性。
[0043] 应用实施例:本发明所提出的一种包含手语的新闻类视频描述数据集的系统构建结构如图1所示。从图1中可以看到该方法的关键步骤有三个,分别是将原始视频切割为视频片段、从视频片段中提取音频及手语信息、生成json信息文件。整个过程中的关键步骤均由该系统自动完成,不需要任何人工干预。
[0044] 技术方案1中搜集的手语视频中,在主持人播报新闻时左下
角会有一位手语主持人的半身画面,实时将新闻内容翻译为手语进行播报。下面以2018年12月《共同关注》视频为实施例,详细说明本发明的步骤。
[0045] 实验环境:电脑配置为Intel(R)处理器(3.2GHz)和8GB随机存取
存储器(RAM),Windows10 64位
操作系统。
软件环境为FFmpeg和安装Opencv开发包的Python3.6以及PyQt5 5.10版本。
[0046] 实验步骤:
[0047] 步骤1)从央视网下载视频2018年12月《共同关注》节目每期精彩片段约800个;
[0048] 1)利用色差直方图方法自动分割精彩片段,分割时自动保存视频地址以及起止时间信息。分割后的视频片段约为4000个,人工筛选适合描述的片段最后得到500条左右clips;
[0049] 步骤2)利用ffmpeg与Opencv提取视频手语信息以及音频;;
[0050] 步骤3)构建图形用户界面,本发明制作的图形用户界面由PyQt进行创建。界面的布局功能如下所述:正中间为视频播放窗口,描述者首先点击ID按钮输入标号,接下来选择文件夹导入视频,前一个后一个按钮可供用户选择相应的视频进行播放;在观看视频后点击描述视频,针对视频内容对其进行一句话的描述;下一步根据视频内容对视频类别进行判定并标注。右上角为描述者已经填入的信息,描述者可根据实际情况进行
修改。用户完成信息填写后点击保存按钮,生成CSV信息文件。每个视频由10个不同的描述者进行标注,获得约5000条CSV信息,包括视频编号、视频描述、视频类别、描述语句编号。
[0051] 步骤4)根据步骤4获得的CSV信息,结合步骤2中视频地址。通过构造键值对自动生成数据集中的json文件,并调用有道词典将中文描述翻译为英文描述生成两个版本的json描述文件。Json文件格式如图2所示,信息文件中包含:“category”:类别;“url”:视频网址;“video_id”:视频编号;“start_time”:在原视频中的开始时间;“end_time”:在原视频中的结束时间;“split”:所属集合(训练集、验证集、测试集);“id”:编号。描述文件中包含:
“caption”:描述语句,包括中英文两个版本;“video_id”:视频编号;“sen_id”:句子编号。
[0052] 步骤5)整合所有信息,获得了一个小批量的包含手语的视频描述数据集。该数据集由新闻视频片段、对应的音频、新闻视频相应的手语信息以及json信息文件四部分组成。
[0053] 需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的
基础上所作出的等同变换或替代均落入本发明
权利要求所保护的范围。