一种视频内容展现方法及装置专利检索-语音语料库人工智能专利检索查询-专利查询网

一种视频内容展现方法及装置

阅读：669发布：2020-05-11

专利汇可以提供一种视频内容展现方法及装置专利检索，专利查询，专利分析的服务。并且本公开是关于一种视频内容展现方法及装置。一种播放视频内容的方法，获取视频中满足预置条件的视频片段；将所述视频片段数据格式转换为图像互换格式 GIF；将转换为图像互换格式GIF的视频内容发送到移动终端。本发明实施例能够帮助移动终端用户可以在更复杂的环境或场景下，及时观看到比赛的精彩瞬间或重要事件，不必担心错过直播的画面或者因网络环境不佳无法观看视频转播的不便。，下面是一种视频内容展现方法及装置专利的具体信息内容。

权利要求

1.一种播放视频内容的方法，其特征在于：
获取视频中满足预置条件的视频片段；
将所述视频片段数据格式转换为图像互换格式GIF；
将转换为图像互换格式GIF的视频内容发送到移动终端。
2.根据权利要求1所述的方法，其特征在于，所述获取满足预置条件的视频片段具体为：
对视频图像中的字幕进行识别；
若字幕内容的变化符合预置的规则，则获取该字幕变化前第一时长和字幕变化后第二时长之间的视频片段。
3.根据权利要求1或2所述的方法，其特征在于，所述获取满足预置条件的视频片段具体为：
对与视频信号相应的音频信号进行语音识别；
将语音识别结果与预置的语料库进行匹配；
获取与语料库相匹配的语音识别结果所对应的音频信号的时间点信息；
获取该时间点前第三时长和该时间后第四时长之间的视频片段。
4.根据权利要求3所述的方法，其特征在于，所述将转换为图像互换格式GIF的视频内容发送到移动终端前还包括，将来自于同一视频的图像互换格式GIF的视频内容文件建立关联。
5.根据权利要求4所述的方法，其特征在于，根据移动终端的请求将所述转换为图像互换格式GIF的视频内容发送到移动终端；或者以主动推送的方式，将所述转换为图像互换格式GIF的视频内容发送到移动终端。
6.根据权利要求5所述的方法，其特征在于，所述视频片段为动态图像专家组4MPEG4格式。
7.一种多媒体内容处理设备，其特征在于，包括：
视频片段获取模块，用于获取视频中满足预置条件的视频片段；
格式转换模块，用于将所述视频片段数据格式转换为图像互换格式GIF；
通讯模块，用于将转换为图像互换格式GIF的视频内容发送到移动终端。
8.根据权利要求7所述的装置，其特征在于，还包括：
处理模块，用于将来自于同一视频的图像互换格式GIF的视频内容文件建立关联。
9.根据权利要求8所述的装置，其特征在于，所述通讯模块通过无线网络或移动通信网络将所述视频内容发送到移动终端。
10.根据权利要求9所述的装置，其特征在于：
所述视频片段为动态图像专家组4MPEG4格式。

说明书全文

一种视频内容展现方法及装置

技术领域

[0001] 本公开涉及视频技术领域，尤其涉及视频内容展现的方法和系统。

背景技术

[0002] 目前，随着移动网络的普及和发展，利用手机等移动终端观看视频越来越普遍，其中也包括观看比赛等。然而，利用移动网络观看赛事直播，非常耗费用户的网络流量；并且，无论利用移动网络还是wifi网络，由于视频数据所需的带宽较大，因而在例如人流量较多的公众场合，播放赛事的流畅度受到影响。另一方面，体育赛事，例如足球赛大概100多分钟，对于移动终端的用户而言，与坐在电视机前始终关注电视画面不同，由于移动终端用户观看视频直播的环境通常经常变化，例如在地铁、公交车等，或者一边观看手机一边进行其他事情，因而用户很难持续的关注整个赛事的直播状况，有可能错过比赛中的精彩瞬间。发明内容

[0003] 本公开提供一种播放视频内容的方法，弥补上述现有技术中的不足。

[0004] 一种播放视频内容的方法，获取视频中满足预置条件的视频片段；将所述视频片段数据格式转换为图像互换格式GIF；将转换为图像互换格式GIF的视频内容发送到移动终端。

[0005] 上述方法中，所述获取满足预置条件的视频片段具体为：对视频图像中的字幕进行识别；若字幕内容的变化符合预置的规则，则获取该字幕变化前第一时长和字幕变化后第二时长之间的视频片段。

[0006] 上述方法中，所述获取满足预置条件的视频片段具体为：对与视频信号相应的音频信号进行语音识别；将语音识别结果与预置的语料库进行匹配；获取与语料库相匹配的语音识别结果所对应的音频信号的时间点信息；获取该时间点前第三时长和该时间后第四时长之间的视频片段。

[0007] 上述方法中，所述将转换为图像互换格式GIF的视频内容发送到移动终端前还包括，将来自于同一视频的图像互换格式GIF的视频内容文件建立关联。

[0008] 上述方法中，根据移动终端的请求将所述转换为图像互换格式GIF的视频内容发送到移动终端；或者以主动推送的方式，将所述转换为图像互换格式GIF的视频内容发送到移动终端。所述视频片段为动态图像专家组4MPEG4格式。

[0009] 本发明实施例还提供一种多媒体内容处理设备，包括：视频片段获取模块，用于获取视频中满足预置条件的视频片段；格式转换模块，用于将所述视频片段数据格式转换为图像互换格式GIF；通讯模块，用于将转换为图像互换格式GIF的视频内容发送到移动终端。

[0010] 上述装置还包括：处理模块，用于将来自于同一视频的图像互换格式GIF的视频内容文件建立关联。

[0011] 上述装置中，所述通讯模块是通过无线网络或移动通信网络将所述视频内容发送到移动终端。

[0012] 上述装置中，视频片段获取模块获取的所述视频片段为动态图像专家组4MPEG4格式。

[0013] 利用以上技术方案，移动终端用户可以在更复杂的环境或场景下，例如即使在地铁、公交等，也可以及时观看到比赛的精彩瞬间或重要事件，不必担心错过直播的画面或者因网络环境不佳无法观看视频转播的不便。另一方面，用户想要观看其他比赛的精彩瞬间也不需要必须观看完正常比赛，并且由于本发明方案的播放方式对网络环境要求很低，因而用户可以灵活的在任何场景下，挑选观看感兴趣的比赛精彩瞬间。

[0014] 应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。附图说明

[0015] 通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

[0016] 图1是根据本公开一示例性实施例示出的方法流程示意图；

[0017] 图2是根据本公开一示例性实施例示出的装置结构示意图；

[0018] 图3是根据本公开一示例性实施例示出的装置结构示意图。

具体实施方式

[0019] 下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

[0020] 在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

[0021] 应当理解，尽管在本公开可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

[0022] 本发明实施例提供一种播放视频内容的方法，包含以下三个步骤：

[0023] 步骤11，获取视频中满足预置条件的视频片段，目的是将例如比赛视频中的精彩瞬间或者重要事件等截取出来，例如足球比赛中的进球、被红黄牌处罚、换人、精彩过人等瞬间和事件。

[0024] 获得视频片段所采用的视频理解技术基于图像识别的原理更多适用于对特定物品的识别及相应视频的截取，较难适用于识别特定动作，例如在画面比较复杂的体育领域。例如一场足球比赛，目前的视频理解技术较难识别出一次进攻的启动和结束时间，参与进攻的主力，哪位队员进球等内容。

[0025] 本发明实施例中，获取视频片段的方法之一是对视频图像实施抽帧，并对帧图像进行光学字符识别(OCR,Optical Character Recognition)，进而发现是否发生了满足预置条件的事件。例如，对于比赛而言，一般常规比赛视频流上都会有计分板，通过实时抽帧并OCR识别计分板的数字，通过对比可以发现计分板上比分是否发生变化，进而识别出进球事件的发生。因而，将计分板上数字的变化作为预置的条件，当利用抽帧并OCR的手段发现比分板比分发生变化时，则达到了该预置条件，在满足这一条件时则进行视频片段截取的处理。

[0026] 视频片段的截取可以采用以下方法，预置第一时长和第二时长，当OCR结果满足预置条件时，则从达到预置条件的视频帧后退第一时长所得到的帧作为截取视频片段的起点，从达到预置条件的视频帧向前第二时长得到的视频帧作为要截取视频片段的终点。

[0027] 第一时长值和第二时长值可以按照经验设置，例如可以是0，或者1秒，或者5秒等。

[0028] 对于一种比赛，例如足球比赛而言，会有多种重要事件，例如进球，例如红黄牌处罚，例如换人等。针对每一类重要事件，可以设置不同的第一时长值和第二时长值。

[0029] 举例来说，对于进球这一类事件，可以设置第一时长值为10秒，第二时长值为0秒；对于红黄牌处罚这一类事件，可以设置第一时长值为5秒，第二时长值为1秒。此处仅说明对于每一类重要事件可以设置不同的时长值，并非对时长值的取值范围进行限定。

[0030] 视频片段的截取还可以采用另一种方法。该方法利用语音识别的结果实现对比赛中重要事件发生时间的定位，进而视频片段的截取。具体过程为：

[0031] 对于一类比赛定义多种重要事件，对于每种重要事件定义一个或多个关键词、关键字或短语，并保存在语料库中，例如在语料库中保存关键词“过人”代表足球比赛中发生了一次精彩的过人。

[0032] 将关键词、关键字、短语等预置在语料库中，通过语音识别分析视频流里的语音部分，并将语音识别的结果实时的与语料库中的关键词、关键字或短语等进行匹配，当获得匹配的结果时则说明比赛中出现了这些关键词对应的重要事件。

[0033] 例如在比赛中出现了“漂亮，球被断了，开始反击”这一解说，其中包含已经存储在语料库中的“断”字，则表明比赛中出现了一次断球。进而，按照预置的不同事件所对应的第三时长值和第四时长值，以该比赛解说中该“断”字出现的时间，获取该时间点后退第三时长值获得的帧和该时间点前进第四时长值获得的帧得到该重要事件的视频片段。

[0034] 虽然在比赛中，当语音和视频同步延迟比较大的时候这一方法效果会略差。但相比字幕而言，比赛中语音的内容更加丰富，因而本方法弥补了上述图像OCR识别对精彩的过人、抢断等镜头捕捉率低的不足，因为通常这些关键事件较少出现视频字幕。

[0035] 以上以举例的方式提供了两种视频片段截取的方法，除此之外本发明并不排除还有其他方法可以实现相同的目的。并且，可以将以上两种视频片段截取方法共同使用，或结合使用，或者将以上两种方法与其他方法结合使用。

[0036] 例如，同时运行上述两种方法，任何一种方法识别出满足预置的条件时均可实施视频片段截取的动作；如果两种方法各自识别出达到了各自预置的条件，可以根据预存的数据查找所述各自预置的条件是否指向相同种类的重要事件。例如，以上第一种方法通过对计分板的识别发现比分变化，第二种方法通过对语音的识别出“进球”，并且该“进球”是语料库中预置的关键词。进而，根据预先建立的不同方法中预置条件之间的关联关系，查找到比分出现变化和语料库中的“进球”具有关联关系，即代表相同的重要事件。进而，可以基于任何一种方法中达到预置条件的帧的时间执行视频片段截取的步骤。

[0037] 本发明实施例中，所述视频片段更加推荐以MP4格式保存，但其他视频格式依然也可以实现本发明目的。MP4(Moving Picture Experts Group 4)是一套用于音频、视频信息的压缩编码标准，由国际标准化组织(ISO)和国际电工委员会(IEC)下属的“动态图像专家组”(Moving Picture Experts Group，即MPEG)制定。

[0038] 步骤12，将所述视频片段数据格式转换为图像互换格式GIF。

[0039] 图像互换格式GIF(Graphics Interchange Format)是一种比较常用的动态图像格式，多数是由多帧图像合并在一起组成的gif动画，当然也有单帧的。GIF文件几乎可以使用任何格式的GIF播放器打开，比如常用的flash、看图软件、GIF动画制作软件等等。

[0040] 将视频文件例如MP4格式转换为GIF格式文件的转换方法属于本领域常规的技术手段。

[0041] 3)将转换为图像互换格式GIF的视频内容发送到移动终端。可以根据移动终端的请求将所述转换为图像互换格式GIF的视频内容发送到移动终端；或者以主动推送的方式，将所述转换为图像互换格式GIF的视频内容发送到移动终端。

[0042] 例如，在一个比赛的聊天室中，可以将所述转换为GIF格式的视频内容直接发送到聊天室中，聊天室中的用户可以直接看到该GIF图片中的比赛瞬间；或者在赛事报道的新闻主页中加载GIF图片；或者通过给用户发送图片链接、新闻链接的方式，在用户点击链接请求链接相关内容的情况下，将GIF图片发送给用户进行展示。

[0043] 作为更优的实施例，在将视频内容发送到移动终端之前，还可以将来自于同一视频的图像互换格式GIF的视频内容文件建立关联。例如，聚合文章，其是一个单场比赛所有gif的容器，每场比赛会有个比赛id，聚合文章有文章id，每个单独的GIF图片也有自己的文章id；将比赛id、聚合文章id、GIF图片id建立关联关系，从而达到通过一场比赛可以看到该场比赛所有gif的目的。然后利用基于设备的推送技术使用用户能够更快更省流量和更直观的第一时间获取赛事重要事件。例如，在一场足球比赛中，获取到10个比赛精彩瞬间，经过视频片段的截取和格式转换得到10个GIF格式的图片，利用上述的聚合文章，用户可以通过一个连接加载所有10个图片，欣赏到10个精彩瞬间。

[0044] 本发明实施例还提供了一种多媒体内容处理设备，包括：视频片段获取模块21，用于获取视频中满足预置条件的视频片段；格式转换模块22，用于将所述视频片段数据格式转换为图像互换格式GIF；通讯模块23，用于将转换为图像互换格式GIF的视频内容发送到移动终端。

[0045] 其中，所述装置中还可以包括处理模块24，用于将来自于同一视频的图像互换格式GIF的视频内容文件建立关联。

[0046] 上述装置中，所述通讯模块通过无线网络或移动通信网络将所述视频内容发送到移动终端。所述视频片段为动态图像专家组4MPEG4格式

[0047] 关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

[0048] 上文中已经参考附图详细描述了本公开的方案。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。本领域技术人员也应该知悉，说明书中所涉及的动作和模块并不一定是本发明所必须的。
另外，可以理解，本公开实施例装置中的模块可以根据实际需要进行合并、划分和删减。

[0049] 此外，根据本公开的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本公开的上述方法中部分或全部步骤的计算机程序代码指令。

[0050] 或者，本公开还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本公开的上述方法的各个步骤的部分或全部。

[0051] 本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

[0052] 以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

标题	发布/更新时间	阅读量
一种跨语言情感语音合成方法及系统	2020-05-12	114
一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构	2020-05-14	967
基于谱特征和ELM的语音情感识别方法	2020-05-15	285
一种视频内容展现方法及装置	2020-05-11	669
一种基于轻量级循环单元LRU的文本预测方法	2020-05-13	494
一种语料收集方法、装置及系统	2020-05-16	723
一种服务质量评价方法、装置、电子设备及存储介质	2020-05-12	88
语音识别文本的纠错方法、装置、计算机设备和存储介质	2020-05-18	63
基于循环神经网络语音识别中语音数据增强方法及装置	2020-05-17	908
语音合成方法、装置、系统和存储介质	2020-05-18	366

一种视频内容展现方法及装置

一种视频内容展现方法及装置

技术领域

背景技术

具体实施方式

该功能需要专业版企业版VIP权限，您可以：