专利汇可以提供一种基于无监督方式对教学视频进行指代消解的方法专利检索,专利查询,专利分析的服务。并且本 发明 提出了一种基于无监督方式对教学视频进行指代消解的方法,其主要内容包括:视觉‑语言模型、联合模型的学习和推理,其过程为,利用视觉模型处理视频,语言模型处理转录和动作图表示编码所有指代相关的信息,并将指代消解的目标制定为图形优化任务,使用动作图作为潜在表示,将实体连接到动作输出,利用动作的所有历史信息实现无监督地指代消解。本发明突破了现有方法必需在训练时间内有足够的监督的局限,在教学视频中引入了无监督的指代消解方法,联合学习视觉和语言模型进行指代消解,从而更加鲁棒可以解决不同类型的歧义,推动 自然语言处理 在 人工智能 领域的进一步发展。,下面是一种基于无监督方式对教学视频进行指代消解的方法专利的具体信息内容。
1.一种基于无监督方式对教学视频进行指代消解的方法,其特征在于,主要包括视觉-语言模型(一);联合模型的学习和推理(二)。
2.基于权利要求书1所述的视觉-语言模型(一),其特征在于,视觉-语言模型是一个无监督的指代消解模型,由一个处理视频的视觉模型,处理转录的语言模型,以及编码所有指代相关信息的动作图表示三个部分组成,利用动作图作为潜在表示,将实体链接到动作输出,联合学习教学视频中的视觉和语言线索进行图形优化,即找到节点(即动作和实体)之间一组最佳边缘(即指代),本质上,动作图是每个视频中的动作及其指代的潜在表示,并且通过具有其视觉(即帧)和语言(即指令)提示的视频进行观察,动作图包含所有历史信息(即随时间变化的指代)有助于解决复杂的歧义,用于学习给定两个观察值的动作图的似然函数,正式地,优化下面的似然函数:
其中G,V和L分别是以时间为准线的动作图,视频和相应的语音转录集,θV和θL是视觉和语言模型的参数,假设观察在给定动作图的情况下是条件独立的,则可以进一步细分为:
因此分别制定视觉和语言模型,同时二者仍然通过动作图连接。
3.基于权利要求书2所述的动作图,其特征在于,动作图是包含所有与动作,实体及其指代相关的信息内部表示:动作描述(例如,添加,修饰,顶部)、动作时间戳和实体的指代,定义动作图G=(E,A,R)具有E={eij},一组实体节点eij,A={ai}一组动作节点ai,包括并将实体节点分组为动作,并且R={rij},一组对应于每个实体eij的标记rij的边缘,具体细节定义如下:ai=(predi,[eij],zi),其中predi表示谓词或动词,
eij是ai的实体节点,其中 表示其句法类型、 表示其语义类型、Sij表示其字符串表示;另外,zi=(fs,fe)是ai的开始和结束时间,rij=o表示从实体eij到其起始动作节点ao的方向边缘或指代;
为实体节点引入辅助动作节点a0而不是指向另一个动作的结果,另外,模型允许实体节点具有空字符串表示Sij=[φ],当实体隐含在转录中时,可能会发生这种情况,总之,动作图是一个潜在结构,通过P(L|G;θL)和视频P(V|G;θV)约束视觉和语言输出,并且还包含所有指代信息以消解歧义,重新定义指代消解的目标为优化等式(2)给出的具有最高似然性的动作图。
4.基于权利要求书2所述的视觉模型,其特征在于,视觉模型P(V|G;θV)是将动作图连接到视觉线索(即视频帧)的模,视觉模型是用来帮助解决语言学的歧义的,动作图则是用来约束视觉输出,换句话说,视觉模型计算给定一组视频帧的动作图的似然性,其中θV是模型的参数,对于视频V=[x1,…,xT],其中xt是时间t的图像帧,其对应动作图G,将P(V|G;θV)逐帧分解为:
其中Hi=(a1:i,r1:i)是动作i之前的子图,是帧t的动作标签,这意味 如果帧t是动作i, 表示此帧是背景,视觉模型的关键创新是框架xt和相应的子图 的联合定义,在视觉模型中使用 而不是一个 有助于指代消解,为了计算 采用类似
的方法到视觉语义嵌入中,学习视频帧和动作(子)图的联合嵌入空间,换句话说,我们学习θV可以最小化动作图特征与视觉帧特征之间的余弦距离。
5.基于权利要求书4所述的联合嵌入,其特征在于,包括动作图嵌入和帧嵌入,其中动作图嵌入是为了捕捉基于指代的动作的不同含义,提出了基于RNN句子嵌入的动作图嵌入的递归定义,令g(·)表示RNN嵌入的函数,应用于一个向量列表并输出最终隐藏状态h,嵌入f(·)的动作图被递归地定义为:
其中W是标准字嵌入函数,rij表示eij的起源,与标准语句嵌入相比,eij的嵌入通常仅用W(eij)表示,通过与 结合,使用其动作的嵌入来增强它,使得动作图嵌入可用于捕获图形的结构,并根据它的指代表示实体的不同含义;另外,帧嵌入是使用图像字幕模型中的帧嵌入功能,通过将卷积层的响应转换成一个矢量,显示出捕获图像的细粒度细节。
6.基于权利要求书2所述的语言模型,其特征在于,语言模型P(L|G;θL)将动作图链接到语言观察,本质上,语言模型计算给出教学视频转录的动作图的似然性,分解语言模型如下:
P(L|G;θL)=P(L,ZL|A,R,Z;θL)∝P(L|A;θL)P(A|R;θL)P(ZL|Z;θL) (5)其中ZL是L的时间戳,A,R,Z分别是动作图G的动作,指代和时间戳,假设时间戳是条件独立的,且R独立于给定A的L,P(L|A)从转录中解析动作节点,P(A|R)衡量给定动作的指代的似然性,使用的关键模型是:
-动词签名模型用于捕获动词的属性;
-部分-复合模型用于表示实体的可能成分;
-食材模型用于确定一个实体是否是一个动作的结果;
为每个动作i独立地测量P(Z_L|Z),其中P(zLi|zi)被定义如上。
7.基于权利要求书1所述的联合模型的学习和推理(二),其特征在于,模型用于指代消解的目标是优化基于等式(2)的给定视频和转录的具有最大似然性的动作图,而动作图G和模型参数θL,θV都是未知的,则给定当前的模型参数θL和θV,估计以时间为准线的图G,固定当前图G,更新视觉和语言模型,优化包括初始化,推理和学习过程。
8.基于权利要求书7所述的图形初始化,其特征在于,最初动作图G和模型参数θL,θV都是未知的,故基于文本转录初始化动作图G,提取一系列动作A,为简化任务将所有行动都考虑为是基于转录的,每个动作的指代r在其下一个动作中被初始化为其中一个实体,由于教学视频的是顺序的,故连续地进行初始化,简单地将每个动作的时间位置z初始化为转录中动作的时间戳。
9.基于权利要求书7所述的动作图优化,其特征在于,目的是找到给定的模型参数θL和θV的最佳动作图G集合,相当于为每个G中的动作找到最佳指代集合R和时间基础Z,因为集合的动作A从初始化中固定,难以共同优化这些变量,因此二选一,找到最好的R或者Z其中之一即可,指代优化是基于局部搜索策略,在当前动作图中用两个指代所有可能的交换图全面更新图,并且在基于等式(2)的指代交换图具有更高的概率时更新图,这个过程会重复进行直到没有可能的更新,为了优化时间准线Z,基于语言模型等式(6)和视觉模型等式(3)计算每次的动作概率,然后使用动态规划,根据等式(2)找到每次Z的最优分配。
10.基于权利要求书7所述的模型更新,其特征在于,给定动作图,即可更新提出的视觉-语言模型:
语言模型更新使用语义统计和实体的句法类型用于动词签名模型,对于部分-复合模型,我们使用稀疏决定性度量学习来学习一个度量空间,其中对原食材的每个词嵌入进行平均,得到的结果接近于当前实体eij,若是食材,则使用逻辑回归来分类;
视觉模型更新,给定以时间为准线的动作图,对于每帧xt,可以得到相应的子图 以此为例,收集以下三元损失的负样例:(1) 这是 的扰动版本,随机交换 中的连接生成 (2)Hi,其中 对应于其他帧的子图也是负样例,使用正、负样例则可以利用三元损失的反向传播更新所有嵌入。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种聚碳酸酯组合物及其制备方法 | 2020-05-11 | 1024 |
使电子消息的分段与一个或多个分段收信人相关联 | 2020-05-16 | 526 |
西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 | 2020-05-26 | 1009 |
一种吐鲁番葡萄干原产地溯源体系 | 2020-05-15 | 340 |
一种异构无人机群分布式任务规划方法 | 2020-05-11 | 107 |
沼液理化指标近红外光谱同步快速检测方法 | 2020-05-15 | 37 |
一种支付系统交易数据处理方法及系统 | 2020-05-21 | 655 |
文本指代消解的方法、设备及介质 | 2020-05-11 | 816 |
一种区域农田表层土壤重金属潜在生态风险评价方法 | 2020-05-14 | 233 |
一种基于知识图谱的网络安全态势预测方法及装置 | 2020-05-17 | 306 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。