首页 / 专利库 / 人工智能 / 人工智能 / 自然语言处理 / 共指消解 / 一种基于无监督方式对教学视频进行指代消解的方法

一种基于无监督方式对教学视频进行指代消解的方法

阅读:83发布:2020-06-13

专利汇可以提供一种基于无监督方式对教学视频进行指代消解的方法专利检索,专利查询,专利分析的服务。并且本 发明 提出了一种基于无监督方式对教学视频进行指代消解的方法,其主要内容包括:视觉‑语言模型、联合模型的学习和推理,其过程为,利用视觉模型处理视频,语言模型处理转录和动作图表示编码所有指代相关的信息,并将指代消解的目标制定为图形优化任务,使用动作图作为潜在表示,将实体连接到动作输出,利用动作的所有历史信息实现无监督地指代消解。本发明突破了现有方法必需在训练时间内有足够的监督的局限,在教学视频中引入了无监督的指代消解方法,联合学习视觉和语言模型进行指代消解,从而更加鲁棒可以解决不同类型的歧义,推动 自然语言处理 在 人工智能 领域的进一步发展。,下面是一种基于无监督方式对教学视频进行指代消解的方法专利的具体信息内容。

1.一种基于无监督方式对教学视频进行指代消解的方法,其特征在于,主要包括视觉-语言模型(一);联合模型的学习和推理(二)。
2.基于权利要求书1所述的视觉-语言模型(一),其特征在于,视觉-语言模型是一个无监督的指代消解模型,由一个处理视频的视觉模型,处理转录的语言模型,以及编码所有指代相关信息的动作图表示三个部分组成,利用动作图作为潜在表示,将实体链接到动作输出,联合学习教学视频中的视觉和语言线索进行图形优化,即找到节点(即动作和实体)之间一组最佳边缘(即指代),本质上,动作图是每个视频中的动作及其指代的潜在表示,并且通过具有其视觉(即)和语言(即指令)提示的视频进行观察,动作图包含所有历史信息(即随时间变化的指代)有助于解决复杂的歧义,用于学习给定两个观察值的动作图的似然函数,正式地,优化下面的似然函数:
其中G,V和L分别是以时间为准线的动作图,视频和相应的语音转录集,θV和θL是视觉和语言模型的参数,假设观察在给定动作图的情况下是条件独立的,则可以进一步细分为:
因此分别制定视觉和语言模型,同时二者仍然通过动作图连接。
3.基于权利要求书2所述的动作图,其特征在于,动作图是包含所有与动作,实体及其指代相关的信息内部表示:动作描述(例如,添加,修饰,顶部)、动作时间戳和实体的指代,定义动作图G=(E,A,R)具有E={eij},一组实体节点eij,A={ai}一组动作节点ai,包括并将实体节点分组为动作,并且R={rij},一组对应于每个实体eij的标记rij的边缘,具体细节定义如下:ai=(predi,[eij],zi),其中predi表示谓词或动词,
eij是ai的实体节点,其中 表示其句法类型、 表示其语义类型、Sij表示其字符串表示;另外,zi=(fs,fe)是ai的开始和结束时间,rij=o表示从实体eij到其起始动作节点ao的方向边缘或指代;
为实体节点引入辅助动作节点a0而不是指向另一个动作的结果,另外,模型允许实体节点具有空字符串表示Sij=[φ],当实体隐含在转录中时,可能会发生这种情况,总之,动作图是一个潜在结构,通过P(L|G;θL)和视频P(V|G;θV)约束视觉和语言输出,并且还包含所有指代信息以消解歧义,重新定义指代消解的目标为优化等式(2)给出的具有最高似然性的动作图。
4.基于权利要求书2所述的视觉模型,其特征在于,视觉模型P(V|G;θV)是将动作图连接到视觉线索(即视频帧)的模,视觉模型是用来帮助解决语言学的歧义的,动作图则是用来约束视觉输出,换句话说,视觉模型计算给定一组视频帧的动作图的似然性,其中θV是模型的参数,对于视频V=[x1,…,xT],其中xt是时间t的图像帧,其对应动作图G,将P(V|G;θV)逐帧分解为:
其中Hi=(a1:i,r1:i)是动作i之前的子图,是帧t的动作标签,这意味 如果帧t是动作i, 表示此帧是背景,视觉模型的关键创新是框架xt和相应的子图 的联合定义,在视觉模型中使用 而不是一个 有助于指代消解,为了计算 采用类似
的方法到视觉语义嵌入中,学习视频帧和动作(子)图的联合嵌入空间,换句话说,我们学习θV可以最小化动作图特征与视觉帧特征之间的余弦距离。
5.基于权利要求书4所述的联合嵌入,其特征在于,包括动作图嵌入和帧嵌入,其中动作图嵌入是为了捕捉基于指代的动作的不同含义,提出了基于RNN句子嵌入的动作图嵌入的递归定义,令g(·)表示RNN嵌入的函数,应用于一个向量列表并输出最终隐藏状态h,嵌入f(·)的动作图被递归地定义为:
其中W是标准字嵌入函数,rij表示eij的起源,与标准语句嵌入相比,eij的嵌入通常仅用W(eij)表示,通过与 结合,使用其动作的嵌入来增强它,使得动作图嵌入可用于捕获图形的结构,并根据它的指代表示实体的不同含义;另外,帧嵌入是使用图像字幕模型中的帧嵌入功能,通过将卷积层的响应转换成一个矢量,显示出捕获图像的细粒度细节。
6.基于权利要求书2所述的语言模型,其特征在于,语言模型P(L|G;θL)将动作图链接到语言观察,本质上,语言模型计算给出教学视频转录的动作图的似然性,分解语言模型如下:
P(L|G;θL)=P(L,ZL|A,R,Z;θL)∝P(L|A;θL)P(A|R;θL)P(ZL|Z;θL)  (5)其中ZL是L的时间戳,A,R,Z分别是动作图G的动作,指代和时间戳,假设时间戳是条件独立的,且R独立于给定A的L,P(L|A)从转录中解析动作节点,P(A|R)衡量给定动作的指代的似然性,使用的关键模型是:
-动词签名模型用于捕获动词的属性;
-部分-复合模型用于表示实体的可能成分;
-食材模型用于确定一个实体是否是一个动作的结果;
为每个动作i独立地测量P(Z_L|Z),其中P(zLi|zi)被定义如上。
7.基于权利要求书1所述的联合模型的学习和推理(二),其特征在于,模型用于指代消解的目标是优化基于等式(2)的给定视频和转录的具有最大似然性的动作图,而动作图G和模型参数θL,θV都是未知的,则给定当前的模型参数θL和θV,估计以时间为准线的图G,固定当前图G,更新视觉和语言模型,优化包括初始化,推理和学习过程。
8.基于权利要求书7所述的图形初始化,其特征在于,最初动作图G和模型参数θL,θV都是未知的,故基于文本转录初始化动作图G,提取一系列动作A,为简化任务将所有行动都考虑为是基于转录的,每个动作的指代r在其下一个动作中被初始化为其中一个实体,由于教学视频的是顺序的,故连续地进行初始化,简单地将每个动作的时间位置z初始化为转录中动作的时间戳。
9.基于权利要求书7所述的动作图优化,其特征在于,目的是找到给定的模型参数θL和θV的最佳动作图G集合,相当于为每个G中的动作找到最佳指代集合R和时间基础Z,因为集合的动作A从初始化中固定,难以共同优化这些变量,因此二选一,找到最好的R或者Z其中之一即可,指代优化是基于局部搜索策略,在当前动作图中用两个指代所有可能的交换图全面更新图,并且在基于等式(2)的指代交换图具有更高的概率时更新图,这个过程会重复进行直到没有可能的更新,为了优化时间准线Z,基于语言模型等式(6)和视觉模型等式(3)计算每次的动作概率,然后使用动态规划,根据等式(2)找到每次Z的最优分配。
10.基于权利要求书7所述的模型更新,其特征在于,给定动作图,即可更新提出的视觉-语言模型:
语言模型更新使用语义统计和实体的句法类型用于动词签名模型,对于部分-复合模型,我们使用稀疏决定性度量学习来学习一个度量空间,其中对原食材的每个词嵌入进行平均,得到的结果接近于当前实体eij,若是食材,则使用逻辑回归来分类;
视觉模型更新,给定以时间为准线的动作图,对于每帧xt,可以得到相应的子图 以此为例,收集以下三元损失的负样例:(1) 这是 的扰动版本,随机交换 中的连接生成 (2)Hi,其中 对应于其他帧的子图也是负样例,使用正、负样例则可以利用三元损失的反向传播更新所有嵌入。

说明书全文

一种基于无监督方式对教学视频进行指代消解的方法

技术领域

[0001] 本发明涉及指代消解领域,尤其是涉及了一种基于无监督方式对教学视频进行指代消解的方法。

背景技术

[0002] 指代消解是常用于自然语言接口机器翻译、文本摘要和产品设计等领域,在信息抽取中起着重要作用。具体地,产品设计的过程中,用户的需求都是用自然语言形式来描绘,指代消解可以自然语言形式的信息即用户的需求转变为计算机所能理解的信息,从而实现智能化的产品设计过程,除此之外,在机器翻译领域,指代消解可以帮助分析句子的句法、语义代词含义等信息从而提高机器翻译的准确性。虽然指代消解在计算语言学领域日益重要,并成为自然语言处理上热的研究问题,但是现有研究尚且仅针对纯语言,要解决视频中同时存在的视觉和语言歧义仍然是一个严峻的挑战。
[0003] 本发明提出了一种基于无监督方式对教学视频进行指代消解的方法,引入一个同时使用视觉和语言提示的无监督图形优化模型,解决视觉和语言的指代歧义。利用视觉模型处理视频,语言模型处理转录和动作图表示编码所有指代相关的信息,并将指代消解的目标制定为图形优化任务,使用动作图作为潜在表示,将实体连接到动作输出,利用动作的所有历史信息实现无监督地指代消解。本发明突破了现有方法必需在训练时间内有足够的监督的局限,在教学视频中引入了无监督的指代消解方法,联合学习视觉和语言模型进行指代消解,从而更加鲁棒可以解决不同类型的歧义,推动自然语言处理在在人工智能领域的进一步发展。

发明内容

[0004] 针对现有方法均是在有足够监督下才可消解指代的局限,引入一个同时使用视觉和语言提示的无监督图形优化模型,在教学视频中引入了无监督的指代消解方法,联合学习视觉和语言模型进行指代消解,从而更加鲁棒可以解决不同类型的歧义。
[0005] 为解决上述问题,本发明提供一种基于无监督方式对教学视频进行指代消解的方法,其主要内容包括:
[0006] (一)视觉-语言模型;
[0007] (二)联合模型的学习和推理。
[0008] 其中,所述的视觉-语言模型,视觉-语言模型是一个无监督的指代消解模型,由一个处理视频的视觉模型,处理转录的语言模型,以及编码所有指代相关信息的动作图表示三个部分组成,利用动作图作为潜在表示,将实体链接到动作输出,联合学习教学视频中的视觉和语言线索进行图形优化,即找到节点(即动作和实体)之间一组最佳边缘(即指代),本质上,动作图是每个视频中的动作及其指代的潜在表示,并且通过具有其视觉(即)和语言(即指令)提示的视频进行观察,动作图包含所有历史信息(即随时间变化的指代)有助于解决复杂的歧义,用于学习给定两个观察值的动作图的似然函数,正式地,优化下面的似然函数:
[0009]
[0010] 其中G,V和L分别是以时间为准线的动作图,视频和相应的语音转录集,θV和θL是视觉和语言模型的参数,假设观察在给定动作图的情况下是条件独立的,则可以进一步细分为:
[0011]
[0012] 因此分别制定视觉和语言模型,同时二者仍然通过动作图连接。
[0013] 进一步地,所述的动作图,是包含所有与动作,实体及其指代相关的信息内部表示:动作描述(例如,添加,修饰,顶部)、动作时间戳和实体的指代,定义动作图G=(E,A,R)具有E={eij},一组实体节点eij,A={ai}一组动作节点ai,包括并将实体节点分组为动作,并且R={rij},一组对应于每个实体eij的标记rij的边缘,具体细节定义如下:ai= (predi,[eij],zi),其中predi表示谓词或动词, eij是ai的实体节点,其中 表示其句法类型、 表示其语义类型、Sij表示其字符串表示;另外,zi=(fs,fe) 是ai的开始和结束时间,rij=o表示从实体eij到其起始动作节点ao的方向边缘或指代;
[0014] 为实体节点引入辅助动作节点a0而不是指向另一个动作的结果,另外,模型允许实体节点具有空字符串表示Sij=[φ],当实体隐含在转录中时,可能会发生这种情况,总之,动作图是一个潜在结构,通过P(L|G;θL)和视频P(V|G;θV)约束视觉和语言输出,并且还包含所有指代信息以消解歧义,重新定义指代消解的目标为优化等式(2)给出的具有最高似然性的动作图。
[0015] 进一步地,所述的视觉模型,视觉模型P(V|G;θV)是将动作图连接到视觉线索(即视频帧) 的模,视觉模型是用来帮助解决语言学的歧义的,动作图则是用来约束视觉输出,换句话说,视觉模型计算给定一组视频帧的动作图的似然性,其中θV是模型的参数,对于视频V= [x1,…,xT],其中xt是时间t的图像帧,其对应动作图G,将P(V|G;θV)逐帧分解为:
[0016]
[0017] 其中Hi=(a1:i,r1:i)是动作i之前的子图, 是帧t的动作标签,这意味 如果帧t是动作i, 表示此帧是背景,视觉模型的关键创新是框架xt和相应的子图 的联合定义,在视觉模型中使用 而不是一个 有助于指代消解,为了计算 采用类似的方法到视觉语义嵌入中,学习视频帧和动作(子)图的联合嵌入空间,换句话说,我们学习θV可以最小化动作图特征与视觉帧特征之间的余弦距离。
[0018] 进一步地,所述的联合嵌入,包括动作图嵌入和帧嵌入,其中动作图嵌入是为了捕捉基于指代的动作的不同含义,提出了基于RNN句子嵌入的动作图嵌入的递归定义,令g(·)表示 RNN嵌入的函数,应用于一个向量列表并输出最终隐藏状态h,嵌入f(·)的动作图被递归地定义为:
[0019]
[0020] 其中W是标准字嵌入函数,rij表示eij的起源,与标准语句嵌入相比,eij的嵌入通常仅用 W(eij)表示,通过与 结合,使用其动作的嵌入来增强它,使得动作图嵌入可用于捕获图形的结构,并根据它的指代表示实体的不同含义;另外,帧嵌入是使用图像字幕模型中的帧嵌入功能,通过将卷积层的响应转换成一个矢量,显示出捕获图像的细粒度细节。
[0021] 进一步地,所述的语言模型,语言模型P(L|G;θL)将动作图链接到语言观察,本质上,语言模型计算给出教学视频转录的动作图的似然性,分解语言模型如下:
[0022] P(L|G;θL)=P(L,ZL|A,R,Z;θL)∝P(L|A;θL)P(A|R;θL)P(ZL|Z;θL)   (5)[0023] 其中ZL是L的时间戳,A,R,Z分别是动作图G的动作,指代和时间戳,假设时间戳是条件独立的,且R独立于给定A的L,P(L|A)从转录中解析动作节点,P(A|R)衡量给定动作的指代的似然性,使用的关键模型是:
[0024] -动词签名模型用于捕获动词的属性;
[0025] -部分-复合模型用于表示实体的可能成分;
[0026] -食材模型用于确定一个实体是否是一个动作的结果;
[0027]
[0028] 为每个动作i独立地测量P(Z_L|Z),其中P(zLi|zi)被定义如上。
[0029] 其中,所述的联合模型的学习和推理,模型用于指代消解的目标是优化基于等式(2)的给定视频和转录的具有最大似然性的动作图,而动作图G和模型参数θL,θV都是未知的,则给定当前的模型参数θL和θV,估计以时间为准线的图G,固定当前图G,更新视觉和语言模型,优化包括初始化,推理和学习过程。
[0030] 进一步地,所述的图形初始化,最初动作图G和模型参数θL,θV都是未知的,故基于文本转录初始化动作图G,提取一系列动作A,为简化任务将所有行动都考虑为是基于转录的,每个动作的指代r在其下一个动作中被初始化为其中一个实体,由于教学视频的是顺序的,故连续地进行初始化,简单地将每个动作的时间位置z初始化为转录中动作的时间戳。
[0031] 进一步地,所述的动作图优化,目的是找到给定的模型参数θL和θV的最佳动作图G集合,相当于为每个G中的动作找到最佳指代集合R和时间基础Z,因为集合的动作A从初始化中固定,难以共同优化这些变量,因此二选一,找到最好的R或者Z其中之一即可,指代优化是基于局部搜索策略,在当前动作图中用两个指代所有可能的交换图全面更新图,并且在基于等式(2)的指代交换图具有更高的概率时更新图,这个过程会重复进行直到没有可能的更新,为了优化时间准线Z,基于语言模型等式(6)和视觉模型等式(3)计算每次的动作概率,然后使用动态规划,根据等式(2)找到每次Z的最优分配。
[0032] 进一步地,所述的模型更新,给定动作图,即可更新提出的视觉-语言模型:
[0033] 语言模型更新使用语义统计和实体的句法类型用于动词签名模型,对于部分-复合模型,我们使用稀疏决定性度量学习来学习一个度量空间,其中对原食材的每个词嵌入进行平均,得到的结果接近于当前实体eij,若是食材,则使用逻辑回归来分类;
[0034] 视觉模型更新,给定以时间为准线的动作图,对于每帧xt,可以得到相应的子图以此为例,收集以下三元损失的负样例:(1) 这是 的扰动版本,随机交换 中的连接生成 (2)Hi,其中 对应于其他帧的子图也是负样例,使用正、负样例则可以利用三元损失的反向传播更新所有嵌入。
附图说明
[0035] 图1是本发明一种基于无监督方式对教学视频进行指代消解的方法的系统框架图。
[0036] 图2是本发明一种基于无监督方式对教学视频进行指代消解的方法的状态转换关系图。
[0037] 图3是本发明一种基于无监督方式对教学视频进行指代消解的方法的状态图。
[0038] 图4是本发明一种基于无监督方式对教学视频进行指代消解的方法的保留区域的几何图示。图5是本发明一种基于无监督方式对教学视频进行指代消解的方法的图形优化概述图。

具体实施方式

[0039] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
[0040] 图1是本发明一种基于无监督方式对教学视频进行指代消解的方法的系统框架图。主要包括视觉模型和语言模型。
[0041] 其中,所述的视觉模型,视觉模型P(V|G;θV)是将动作图连接到视觉线索(即视频帧)的模,视觉模型是用来帮助解决语言学的歧义的,动作图则是用来约束视觉输出,换句话说,视觉模型计算给定一组视频帧的动作图的似然性,其中θV是模型的参数,对于视频V= [x1,…,xT],其中xt是时间t的图像帧,其对应动作图G,将P(V|G;θV)逐帧分解为:其中Hi=(a1:i,r1:i)是动作i之前的子图, 是帧t的动作标
签,这意味 如果帧t是动作i, 表示此帧是背景,视觉模型的关键创新是框架xt和相应的子图 的联合定义,在视觉模型中使用 而不是一个 有助于指代消解,为了计算 采用类似的方法到视觉语义嵌入中,学习视频帧和动作(子)图的联合嵌入
空间,换句话说,我们学习θV可以最小化动作图特征与视觉帧特征之间的余弦距离。
[0042] 其中,所述的语言模型,语言模型P(L|G;θL)将动作图链接到语言观察,本质上,语言模型计算给出教学视频转录的动作图的似然性,分解语言模型如下:P(L|G;θL)= P(L,ZL|A,R,Z;θL)∝P(L|A;θL)P(A|R;θL)P(ZL|Z;θL),其中ZL是L的时间戳,A,R,Z分别是动作图G的动作,指代和时间戳,假设时间戳是条件独立的,且R独立于给定A的L,P(L|A)从转录中解析动作节点,P(A|R)衡量给定动作的指代的似然性,使用的关键模型是:
[0043] -动词签名模型用于捕获动词的属性;
[0044] -部分-复合模型用于表示实体的可能成分;
[0045] -食材模型用于确定一个实体是否是一个动作的结果;
[0046] 为每个动作i独立地测量P(ZL|Z),其中P(zLi|zi)被定义为:
[0047] 图2是本发明一种基于无监督方式对教学视频进行指代消解的方法的指代消解过程图。 (a)、(b)和(c)说明了教学视频中不同类型的歧义所造成的挑战以及这些挑战是如何被解决的,(c)表示所提出视觉-语言模型同时利用语言和视觉线索来消解指代的方法。指向动作结果的箭头表示实体的起源。将表达式链接到上下文给定的实体,即从给定的视频以及它们之间的消解指代中提取所有的动作和实体,这相当于将每个实体(例如“”)暂时地链接到产生它的动作(例如“冻结”)。例如(a)中的“混合物”是指动作“搅拌油和盐”的结果,(c)中的“调味品”是动作“混合酸奶与黑胡椒”的结果。
[0048] 图3是本发明一种基于无监督方式对教学视频进行指代消解的方法的动作图示例。动作图 (G)是每个教学视频的指代的潜在表示,并且通过具有其视觉(即帧)和语言(即指令)提示的视频进行观察,动作图包含所有历史信息(即随时间变化的指代)有助于解决复杂的歧义,用于学习给定两个观察值的动作图的似然函数,其中G,V和L分别是以时间为准线的动作图,视频和相应的语音转录集,θV和θL是视觉和语言模型的参数,假设观察在给定动作图的情况下是条件独立的,因此分别制定视觉和语言模型,同时二者仍然通过动作图连接。
[0049] 图4是本发明一种基于无监督方式对教学视频进行指代消解的方法的动作图嵌入图示。(a) 使用RNN作为动作图嵌入的构建,f(a)是动作a的嵌入,(c)显示了(b)的动作图嵌入,在(c)中,将“调味品”这个词的嵌入与其起源的嵌入f(a1)求平均,以表示基于其指代r31的意义,然后用递归计算f(a3),最后一步的嵌入。
[0050] 图5是本发明一种基于无监督方式对教学视频进行指代消解的方法的图形优化概述图。(a) 首先通过转录来初始化图形,(b)利用视觉语言指代消解更新图形,(c)使用当前图形中的视觉提示和语言统计更新模型。
[0051] 对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈