首页 / 技术领域 / 动作捕捉 / 大模型驱动的时空特征与文本增强少样本动作捕捉方法

大模型驱动的时空特征与文本增强少样本动作捕捉方法

热词 融合 视频数据 次特征 adapter 视频 原型 视觉 捕捉 时空 数据
专利类型 发明公开 法律事件 公开; 实质审查; 授权;
专利有效性 有效专利 当前状态 授权
申请号 CN202510388665.2 申请日 2025-03-31
公开(公告)号 CN119903479A 公开(公告)日 2025-04-29
申请人 中国石油大学(华东); 申请人类型 学校
发明人 张千; 闫硕; 邵明文; 梁鸿; 钟敏; 王凤华; 第一发明人 张千
权利人 中国石油大学(华东) 权利人类型 学校
当前权利人 中国石油大学(华东) 当前权利人类型 学校
省份 当前专利权人所在省份:山东省 城市 当前专利权人所在城市:山东省青岛市
具体地址 当前专利权人所在详细地址:山东省青岛市黄岛区长江西路66号 邮编 当前专利权人邮编:266590
主IPC国际分类 G06F18/25 所有IPC国际分类 G06F18/25G06F18/22G06F18/2415G06V20/40G06V10/62G06V10/82G06N3/0464G06N3/045G06F16/73G06F16/783G06F123/02G06N3/048
专利引用数量 0 专利被引用数量 0
专利权利要求数量 8 专利文献类型 A
专利代理机构 青岛智地领创专利代理有限公司 专利代理人 王鸣鹤;
摘要 本 发明 公开大模型驱动的 时空 特征与文本增强少样本 动作捕捉 方法,属于动作捕捉技术领域,用于视频动作捕捉,包括获取视频数据并进行预处理,所述视频数据包括待进行动作捕捉的查询视频数据和带有动作标签的支持集视频数据,将预处理后的视频数据输入视觉 编码器 中,得到视频数据的视觉特征;综合两次类别概率分布,得出查询视频数据的动作捕捉结果。本发明通过时序增强适配器和时空融合适配器实现高效时空特征提取,增强了视频特征的时空建模能 力 ;利用多层次注意力机制,提升了文本与视频特征的融合能力,构建了具有强泛化能力的类 原型 ;在少样本学习任务中显著提升了模型的捕捉准确率,可训练参数量少,降低了计算成本。
权利要求

1.大模型驱动的时空特征与文本增强少样本动作捕捉方法,其特征在于,包括获取视频数据并进行预处理,所述视频数据包括待进行动作捕捉的查询视频数据和带有动作标签的支持集视频数据,将预处理后的视频数据输入视觉编码器中,得到视频数据的视觉特征;
将支持集的动作标签输入CLIP文本编码器中,得到支持集的动作标签的文本特征,将文本特征与查询视频数据的视觉特征进行相似度计算,得到第一类别概率分布;将支持集视频数据的视觉特征与文本特征输入原型构建模,得到支持集视频数据的原型特征,将查询视频数据的视觉特征输入原型构建模块,得到查询视频数据的原型特征,将支持集视频数据的原型特征与查询视频数据的原型特征进行时间序列相似度计算,得到第二类别概率分布;
综合两次类别概率分布,得出查询视频数据的动作捕捉结果。
2.根据权利要求1所述的大模型驱动的时空特征与文本增强少样本动作捕捉方法,其特征在于,得到视频数据的视觉特征包括设计时序增强适配器和时空融合适配器,将两种适配器交替嵌入到CLIP‑ViT视觉编码器中。
3.根据权利要求2所述的大模型驱动的时空特征与文本增强少样本动作捕捉方法,其特征在于,CLIP‑ViT视觉编码器包括N个VIT Block层,在偶数层中,分别在多头注意层前后嵌入时序增强适配器,在奇数层中,仅在多头注意力层后嵌入时空融合适配器,VIT Block是视觉块。
4.根据权利要求3所述的大模型驱动的时空特征与文本增强少样本动作捕捉方法,其特征在于,所述偶数层将输入信息依次送至TE Adapter层、Layer Norm层、Multi‑Head Attention层、特征融合层、TE Adapter层、Layer Norm层、MLP层、特征融合层,然后输出;第一个TE Adapter层的输出设有连接第一个特征融合层的快捷连接,第二个TE Adapter层的输出设有连接第二个特征融合层的快捷连接;
所述TE Adapter层依次包括FC Down层、Gelu层、FC Up层和特征融合层,TE Adapter层的输入设有连接特征融合层的快捷连接;
所述TE Adapter是时序增强适配器,Layer Norm是层归一化,Multi‑Head Attention是多头注意力,MLP是多层感知器,FC Down是全连接下采样,FC Up是全连接上采样,Gelu是激活函数。
5.根据权利要求4所述的大模型驱动的时空特征与文本增强少样本动作捕捉方法,其特征在于,所述奇数层将输入信息依次送至Layer Norm层、Multi‑Head Attention层、特征融合层、STF Adapter层、Layer Norm层、MLP层、特征融合层,然后输出;时空融合适配器的输入设有连接第一个特征融合层的快捷连接,STF Adapter层的输出设有连接第二个特征融合层的快捷连接;
所述STF Adapter层依次包括FC Down层、Max‑Pool层、3D‑Conv层、Sigmiod层、神经元层、FC Up层和特征融合层,STF Adapter层的输入设有连接特征融合层的快捷连接,FC Down层的输出设有连接神经元层的快捷连接;
所述STF Adapter是时空融合适配器,Max‑Pool是最大池化,3D‑Conv是三维卷积,Sigmiod是激活函数。
6.根据权利要求5所述的大模型驱动的时空特征与文本增强少样本动作捕捉方法,其特征在于,所述相似度计算包括将查询视频数据的视觉特征进行最大池化操作,然后将查询视频数据的视觉特征和文本特征进行余弦相似度计算,得到第一类别概率分布。
7.根据权利要求6所述的大模型驱动的时空特征与文本增强少样本动作捕捉方法,其特征在于,原型构建模块包括将视觉特征Video Features和文本特征Txext Features进行Concat操作后作为查询q,所述Concat为融合,将文本特征输入重复层Repeat,然后与视觉特征进行第一次特征融合作为键k和值v,将q、k、v输入Multi‑Head Attention层,然后与Concat操作的结果进行第二次特征融合,然后输入前馈神经网络FFN,再和第二次特征融合的输出进行第三次特征融合,得到的结果作为第二个查询q,将第一次特征融合的结果作为第二个键k和第二个值v,将第二个查询q、第二个键k、第二个值v输入第二个Multi‑Head Attention层,然后与第三次特征融合的结果进行第四次特征融合,然后输入前馈神经网络FFN,再和第四次特征融合的输出进行第五次特征融合,然后输入MLP层,再和第五次特征融合的输出进行第六次特征融合,然后输出。
8.根据权利要求7所述的大模型驱动的时空特征与文本增强少样本动作捕捉方法,其特征在于,得出查询视频数据的动作捕捉结果包括:


式中,是查询视频数据的动作捕捉结果, 是第一类别概率分布, 是第二类别概率分布, 是可调超参数。

说明书全文

大模型驱动的时空特征与文本增强少样本动作捕捉方法

技术领域

[0001] 本发明公开大模型驱动的时空特征与文本增强少样本动作捕捉方法,属于动作捕捉技术领域。

背景技术

[0002] 在动作捕捉领域,少样本学习在处理新类别的有限标注数据时具有重要意义。传统方法通常依赖大规模数据进行训练,导致计算成本高且泛化能有限,现有技术在高效提取视频时空特征和构建具有强泛化能力的类原型方面仍存在挑战。现有的视频动作捕捉方法通常采用两阶段的策略,首先是特征提取阶段,使用预训练的卷积神经网络提取视频的空间特征;其次是时序建模阶段,通过循环神经网络或长短时记忆网络对序列信息进行建模。这些方法虽然在标准数据集上取得了良好的效果,但在少样本情境下,由于数据量的限制,它们往往表现不佳。此外,这些方法的训练通常需要大量的计算资源,并且在处理长视频时存在显著的时间复杂度问题。一些方法尝试将元学习和原型学习相结合,通过构建类原型来增强模型的泛化能力,这些方法利用少量样本来学习到能够代表整个类别的特征原型,从而提高在新类别上的动作捕捉能力,然而现有方法在构建类原型时,通常忽略了多模态信息的融合,特别是文本信息的潜在价值,文本信息作为一种丰富的语义线索,可以为视频动作捕捉提供有力的辅助。

发明内容

[0003] 本发明的目的在于提供大模型驱动的时空特征与文本增强少样本动作捕捉方法,以解决现有技术中,动作捕捉方法未融合文本信息导致捕获精度不足的问题。
[0004] 大模型驱动的时空特征与文本增强少样本动作捕捉方法,包括获取视频数据并进行预处理,所述视频数据包括待进行动作捕捉的查询视频数据和带有动作标签的支持集视频数据,将预处理后的视频数据输入视觉编码器中,得到视频数据的视觉特征;
[0005] 将支持集的动作标签输入CLIP文本编码器中,得到支持集的动作标签的文本特征,将文本特征与查询视频数据的视觉特征进行相似度计算,得到第一类别概率分布;将支持集视频数据的视觉特征与文本特征输入原型构建模,得到支持集视频数据的原型特征,将查询视频数据的视觉特征输入原型构建模块,得到查询视频数据的原型特征,将支持集视频数据的原型特征与查询视频数据的原型特征进行时间序列相似度计算,得到第二类别概率分布;
[0006] 综合两次类别概率分布,得出查询视频数据的动作捕捉结果。
[0007] 得到视频数据的视觉特征包括设计时序增强适配器和时空融合适配器,将两种适配器交替嵌入到CLIP‑ViT视觉编码器中。
[0008] CLIP‑ViT视觉编码器包括N个VIT Block层,在偶数层中,分别在多头注意力层前后嵌入时序增强适配器,在奇数层中,仅在多头注意力层后嵌入时空融合适配器,VIT Block是视觉块。
[0009] 所述偶数层将输入信息依次送至TE Adapter层、Layer Norm层、Multi‑Head Attention层、特征融合层、TE Adapter层、Layer Norm层、MLP层、特征融合层,然后输出;第一个TE Adapter层的输出设有连接第一个特征融合层的快捷连接,第二个TE Adapter层的输出设有连接第二个特征融合层的快捷连接;
[0010] 所述TE Adapter层依次包括FC Down层、Gelu层、FC Up层和特征融合层,TE Adapter层的输入设有连接特征融合层的快捷连接;
[0011] 所述TE Adapter是时序增强适配器,Layer Norm是层归一化,Multi‑Head Attention是多头注意力,MLP是多层感知器,FC Down是全连接下采样,FC Up是全连接上采样,Gelu是激活函数。
[0012] 所述奇数层将输入信息依次送至Layer Norm层、Multi‑Head Attention层、特征融合层、STF Adapter层、Layer Norm层、MLP层、特征融合层,然后输出;时空融合适配器的输入设有连接第一个特征融合层的快捷连接,STF Adapter层的输出设有连接第二个特征融合层的快捷连接;
[0013] 所述STF Adapter层依次包括FC Down层、Max‑Pool层、3D‑Conv层、Sigmiod层、神经元层、FC Up层和特征融合层,STF Adapter层的输入设有连接特征融合层的快捷连接,FC Down层的输出设有连接神经元层的快捷连接;
[0014] 所述STF Adapter是时空融合适配器,Max‑Pool是最大池化,3D‑Conv是三维卷积,Sigmiod是激活函数。
[0015] 所述相似度计算包括将查询视频数据的视觉特征进行最大池化操作,然后将查询视频数据的视觉特征和文本特征进行余弦相似度计算,得到第一类别概率分布。
[0016] 原型构建模块包括将视觉特征Video Features和文本特征Txext Features进行Concat操作后作为查询q,所述Concat为融合,将文本特征输入重复层Repeat,然后与视觉特征进行第一次特征融合作为键k和值v,将q、k、v输入Multi‑Head Attention层,然后与Concat操作的结果进行第二次特征融合,然后输入前馈神经网络FFN,再和第二次特征融合的输出进行第三次特征融合,得到的结果作为第二个查询q,将第一次特征融合的结果作为第二个键k和第二个值v,将第二个查询q、第二个键k、第二个值v输入第二个Multi‑Head Attention层,然后与第三次特征融合的结果进行第四次特征融合,然后输入前馈神经网络FFN,再和第四次特征融合的输出进行第五次特征融合,然后输入MLP层,再和第五次特征融合的输出进行第六次特征融合,然后输出。
[0017] 得出查询视频数据的动作捕捉结果包括:
[0018] ;
[0019] ;
[0020] 式中,是查询视频数据的动作捕捉结果, 是第一类别概率分布, 是第二类别概率分布, 是可调超参数。
[0021] 相对比现有技术,本发明具有以下有益效果:本发明通过时序增强适配器和时空融合适配器实现高效时空特征提取,增强了视频特征的时空建模能力;利用多层次注意力机制,提升了文本与视频特征的融合能力,构建了具有强泛化能力的类原型;在少样本学习任务中显著提升了模型的捕捉准确率,可训练参数量少,降低了计算成本。附图说明
[0022] 图1为CLIP‑ViT视觉编码器结构示意图;
[0023] 图2为偶数层结构示意图;
[0024] 图3为奇数层结构示意图;
[0025] 图4为原型构建模块结构示意图;
[0026] 图5为超参数对Kinetics‑400(K400)数据集上5‑way 1‑shot任务准确率的影响;
[0027] 图6为超参数对SSv2‑Small数据集上5‑way 1‑shot任务准确率的影响。

具体实施方式

[0028] 为使本发明的目的、技术方案和优点更加清楚,下面对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0029] 大模型驱动的时空特征与文本增强少样本动作捕捉方法,包括获取视频数据并进行预处理,所述视频数据包括待进行动作捕捉的查询视频数据和带有动作标签的支持集视频数据,将预处理后的视频数据输入视觉编码器中,得到视频数据的视觉特征;
[0030] 将支持集的动作标签输入CLIP文本编码器中,得到支持集的动作标签的文本特征,将文本特征与查询视频数据的视觉特征进行相似度计算,得到第一类别概率分布;将支持集视频数据的视觉特征与文本特征输入原型构建模块,得到支持集视频数据的原型特征,将查询视频数据的视觉特征输入原型构建模块,得到查询视频数据的原型特征,将支持集视频数据的原型特征与查询视频数据的原型特征进行时间序列相似度计算,得到第二类别概率分布;
[0031] 综合两次类别概率分布,得出查询视频数据的动作捕捉结果。
[0032] 得到视频数据的视觉特征包括设计时序增强适配器和时空融合适配器,将两种适配器交替嵌入到CLIP‑ViT视觉编码器中。
[0033] CLIP‑ViT视觉编码器如图1,包括N个VIT Block层,在偶数层中,分别在多头注意力层前后嵌入时序增强适配器,在奇数层中,仅在多头注意力层后嵌入时空融合适配器,VIT Block是视觉块。
[0034] 所述偶数层如图2,将输入信息依次送至TE Adapter层、Layer Norm层、Multi‑Head Attention层、特征融合层、TE Adapter层、Layer Norm层、MLP层、特征融合层,然后输出;第一个TE  Adapter层的输出设有连接第一个特征融合层的快捷连接,第二个TE Adapter层的输出设有连接第二个特征融合层的快捷连接;
[0035] 所述TE Adapter层依次包括FC Down层、Gelu层、FC Up层和特征融合层,TE Adapter层的输入设有连接特征融合层的快捷连接;
[0036] 所述TE Adapter是时序增强适配器,Layer Norm是层归一化,Multi‑Head Attention是多头注意力,MLP是多层感知器,FC Down是全连接下采样,FC Up是全连接上采样,Gelu是激活函数。
[0037] 所述奇数层如图3,将输入信息依次送至Layer Norm层、Multi‑Head Attention层、特征融合层、STF Adapter层、Layer Norm层、MLP层、特征融合层,然后输出;时空融合适配器的输入设有连接第一个特征融合层的快捷连接,STF Adapter层的输出设有连接第二个特征融合层的快捷连接;
[0038] 所述STF Adapter层依次包括FC Down层、Max‑Pool层、3D‑Conv层、Sigmiod层、神经元层、FC Up层和特征融合层,STF Adapter层的输入设有连接特征融合层的快捷连接,FC Down层的输出设有连接神经元层的快捷连接;
[0039] 所述STF Adapter是时空融合适配器,Max‑Pool是最大池化,3D‑Conv是三维卷积,Sigmiod是激活函数。
[0040] 所述相似度计算包括将查询视频数据的视觉特征进行最大池化操作,然后将查询视频数据的视觉特征和文本特征进行余弦相似度计算,得到第一类别概率分布。
[0041] 原型构建模块如图4,包括将视觉特征Video  Features和文本特征Txext Features进行Concat操作后作为查询q,所述Concat为融合,将文本特征输入重复层Repeat,然后与视觉特征进行第一次特征融合作为键k和值v,将q、k、v输入Multi‑Head Attention层,然后与Concat操作的结果进行第二次特征融合,然后输入前馈神经网络FFN,再和第二次特征融合的输出进行第三次特征融合,得到的结果作为第二个查询q,将第一次特征融合的结果作为第二个键k和第二个值v,将第二个查询q、第二个键k、第二个值v输入第二个Multi‑Head Attention层,然后与第三次特征融合的结果进行第四次特征融合,然后输入前馈神经网络FFN,再和第四次特征融合的输出进行第五次特征融合,然后输入MLP层,再和第五次特征融合的输出进行第六次特征融合,然后输出。
[0042] 得出查询视频数据的动作捕捉结果包括:
[0043] ;
[0044] ;
[0045] 式中,是查询视频数据的动作捕捉结果, 是第一类别概率分布, 是第二类别概率分布, 是可调超参数。
[0046] 表1和表2提供了本发明与少样本动作捕捉方法FSAR的详细对比实验主要使用了预训练的ViT‑B/16模型,并与其他利用大规模预训练模型的方法进行了公平对比,以全面评估本发明的性能与优势。表1中对训练完整的视觉主干网络进行整体微调,对视觉主干网络进行参数高效微调。表2中对对训练完整的视觉主干网络进行整体微调,对视觉主干网络进行参数高效微调。
[0047] 表1、各方法在时序相关数据集上的效果(单位:%)
[0048] ;
[0049] 表1中,方法一栏列举了多种现有技术的动作捕捉方法,预训练模型采用了现有的INet‑RN50和本发明的CLIP ViT‑B/16,SSv2‑Small和SSv2‑Full是两个数据集,1‑shot和5‑shot是两种训练任务。
[0050] 表2 、各方法在空间相关数据集上的效果(单位:%)
[0051] ;
[0052] 表2中,方法一栏列举了多种现有技术的动作捕捉方法,预训练模型采用了现有的INet‑RN50和本发明的CLIPViT‑B/16,HMDB51、UCF101和Kinetics是三个数据集,1‑shot和5‑shot是两种训练任务。
[0053] 从表1所示的时间建模相关数据集的结果来看,本发明在SSv2‑Small数据集上远超其他方法。具体而言,在1‑shot任务中,本发明比MA‑CLIP高出1.3%,在5‑shot任务中高出2.2%。这表明,本发明不仅保证了参数的高效性,同时在性能上也超越了其他基于参数高效微调(PEFT)的方法。对于SSv2‑Full数据集,本发明在1‑shot任务中的性能与全量微调的CLIP‑FSAR方法相当。此外,在5‑shot任务中,本发明也展现了竞争力。对于空间信息占主导的数据集,如HMDB51、UCF101和Kinetics,表2展示的结果表明,本发明能够达到与全量微调方法相当的性能。虽然在某些任务上,本发明相比全量微调方法略有劣势,但其优势在于参数效率。与需要优化整个模型的全量微调方法不同,本发明仅对少量参数进行微调,从而有效减少计算资源消耗,同时保持与全量微调模型相当的性能。
[0054] 为了评估框架中各个模块的影响,在SSv2‑Small数据集的5‑way1‑shot任务下进行了消融实验。实验结果汇总在表3中。以冻结的主干网络且无可学习模块的基线模型为起点,其准确率为38.0%。当分别引入三个模块——时间增强适配模块(TEA)、时空融合适配模块(STFA)和文本增强原型模块(TEPM)后,性能分别提升了15.4%、14.2%和14.1%。结合任意两个模块后,性能进一步提升,其中TEA与TEPM组合的准确率达到了59.2%,这表明时间建模和原型构建在捕捉任务中具有互补优势。最终,当三个模块全部引入后,模型达到了最佳性能61.4%,相比基线提升了23.4%。这些结果验证了每个模块的有效性,并表明它们的协同作用对整体性能提升起到了关键作用。
[0055] 表3、在SSv2‑Small数据集上5‑way1‑shot任务的不同设置下的性能比较[0056] ;
[0057] 调整超参数以控制 和 之间的相对贡献,并分析其对最终分类准确率的影响。如图5所示,在以时间信息为主的SSv2‑Small数据集中,随着超参数从0增加,准确率迅速上升,并在超参数为0.5和超参数为0.6时达到峰值61.5%。当进一步将超参数增加到1时,准确率急剧下降。这表明,在以时间特征为主的任务中,两个概率的平衡贡献是最优的,而过度强调某一组件会导致性能下降。相比之下,在图6所示的空间信息占主导的K400数据集中,准确率随着超参数的增加逐步提升,在超参数为0.7时达到最高值93.8%,随后出现轻微下降。这说明,在以空间信息为主要特征的任务中,提高视频‑文本匹配概率的权重显著有助于性能提升,但过度关注某一概率可能会导致轻微的性能下降。为了保持一致性,本发明所有实验均使用超参数为0.6。
[0058] 以上实施例仅用于说明本发明的技术方案,而非对其限制,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
QQ群二维码
意见反馈