专利汇 - 一种基于动作捕捉技术的数字人形象驱动方法及系统 - PatentHub专利检索|专利汇|专利查询网|发明专利查询分析

一种基于 动作捕捉技术的数字人形象驱动方法及系统

热词	数字数据包形象数据脸部渲染角色动作捕捉终端
专利类型	发明公开	法律事件	公开; 实质审查;
专利有效性	实质审查	当前状态	实质审查
申请号	CN202310443779.3	申请日	2023-04-23
公开(公告)号	CN116452712A	公开(公告)日	2023-07-18
申请人	重庆长安汽车股份有限公司;	申请人类型	企业
发明人	廖一鸣;	第一发明人	廖一鸣
权利人	重庆长安汽车股份有限公司	权利人类型	企业
当前权利人	重庆长安汽车股份有限公司	当前权利人类型	企业
省份	当前专利权人所在省份：重庆市	城市	当前专利权人所在城市：重庆市江北区
具体地址	当前专利权人所在详细地址：重庆市江北区建新东路260号	邮编	当前专利权人邮编：400023
主IPC国际分类	G06T13/40	所有IPC国际分类	G06T13/40 ; G06T15/00 ; G06T5/00 ; G06V40/16
专利引用数量	0	专利被引用数量	0
专利权利要求数量	10	专利文献类型	A
专利代理机构	广州粤高专利商标代理有限公司	专利代理人	高棋;
摘要	本发明公开了一种基于动作捕捉技术的数字人形象驱动方法，包括：获取数字人数据包和驱动数据包并解析，得到数字人形象信息；构建3D 角色预处理模型，将预处理模型与数字人数据包融合得到处理后的角色形象信息，接收动作捕捉的数据并处理；对数字人形象的脸部进行归位去皮校准，获得校准后的脸部特征数据，为每个脸部特征数据添加表情特征系数，调节数字人每个表情的动作幅度；调用渲染引擎并在所调用的渲染引擎中根据所述驱动数据包驱动预先渲染的数字人；获取用户的语音数据并语音处理及分析，得到分析结果并根据所述分析结果进行响应，同时将所述分析结果发送至服务器。本发明提高了数字人形象的驱动智能化程度，提升了驱动效率和效果。
权利要求	1.一种基于动作捕捉技术的数字人形象驱动方法，其特征在于，包括以下步骤：获取数字人数据包和驱动数据包，解析所述数字人数据包和驱动数据包，得到数字人形象信息；构建3D角色预处理模型，将所述预处理模型与所述数字人数据包融合得到处理后的角色形象信息，接收动作捕捉的数据并处理；对数字人形象的脸部进行归位去皮校准，获得校准后的脸部特征数据，为每个脸部特征数据添加表情特征系数，调节数字人每个表情的动作幅度；调用渲染引擎并在所调用的渲染引擎中根据所述驱动数据包驱动预先渲染的数字人；获取用户的语音数据并进行语音处理及分析，得到分析结果并根据所述分析结果进行响应，同时将所述分析结果发送至服务器。 2.根据权利要求1所述的一种基于动作捕捉技术的数字人形象驱动方法，其特征在于，所述数字人数据包为含有数字人角色形象信息的数据包，所述数字人角色形象信息包括：数字人的模型、资产、动作；所述驱动数据包为将数字人需要展示的内容信息转换为数字人标准标记协议的数据包，用于控制数字人在预设时刻执行预设事件，所述数字人为用户系统根据构建信息确定的数字人，所述构建信息包括：数字人的基本信息、属性和特征。 3.根据权利要求2所述的一种基于动作捕捉技术的数字人形象驱动方法，其特征在于，所述驱动数据包中采用用于表示预设事件的元素，所述预设事件的元素具有用于表示预设时刻的起始位置属性配置数字人需要展示的内容信息，所述数字人需要展示的内容信息包括在预设时刻的数字人需要执行的说话事件、动作事件与表情事件，以及在预设场景中在预设时刻的卡片插入事件。 4.根据权利要求1所述的一种基于动作捕捉技术的数字人形象驱动方法，其特征在于，收动作捕捉的数据进行处理包括：采用多帧分析的方法，利用丢失数据帧的前后帧的所采集到的光标点的位置，计算丢失光标点的位置，填充所遗漏的数据；对于光标点的跳动，采用信号平滑算法自动对数据进行平滑处理，消除抖动。 5.根据权利要求1所述的一种基于动作捕捉技术的数字人形象驱动方法，其特征在于，脸部特征数据包括眉毛特征值、眼睛特征值、脸颊特征值、鼻子特征值、下巴特征值和嘴巴特征值。 6.根据权利要求1所述的一种基于动作捕捉技术的数字人形象驱动方法，其特征在于，对数字人的脸部特征数据进行归位去皮校准，获得校准后的脸部特征数据的方法包括：预先采集中之人面部放松状态下的基础脸部特征数据，将当前采集到的中之人的脸部特征数据减去基础脸部特征数据，作为校准后的脸部特征数据。 7.根据权利要求1所述的一种基于动作捕捉技术的数字人形象驱动方法，其特征在于，还包括动作校正，预设的匹配和驱动系统根据预先保留的表演者每根骨骼的几何特征信息、动画角色每根骨骼的几何特征信息、表演者的关节动作的三维几何位置，计算3D角色终关节点的运动位置，再通过计算，得出每个关节点的位置。 8.一种基于动作捕捉技术的数字人形象驱动系统，其特征在于，包括有：数字人终端和服务器，所述数字人终端和服务器通信连接，所述服务器获取数字人数据包和驱动数据包，解析所述数字人数据包和驱动数据包，得到数字人形象信息；所述数字人终端构建3D角色预处理模型，将所述预处理模型与所述数字人数据包融合得到处理后的角色形象信息，接收动作捕捉的数据并处理；所述数字人终端对数字人形象的脸部进行归位去皮校准，获得校准后的脸部特征数据，为每个脸部特征数据添加表情特征系数，调节数字人每个表情的动作幅度；服务器调用渲染引擎并在所调用的渲染引擎中根据所述驱动数据包驱动预先渲染的数字人；数字人终端获取用户的语音数据并进行语音处理及分析，得到分析结果并根据所述分析结果进行响应，同时将所述分析结果发送至服务器。 9.根据权利要求8所述的一种基于动作捕捉技术的数字人形象驱动系统，其特征在于，所述数字人终端包括有处理模块，所述处理模块接收到的动作捕捉数据，对角色形象信息进行处理，根据处理后的角色形象信息生成驱动数据包，发送给服务器；服务器接收到驱动数据包后，进行智能计算并返回已经渲染好的数字人视频，数字人终端播放数字人视频播放；处理模块根据服务器返回的结果，对数字人终端进行相应的反馈。 10.根据权利要求9所述的一种基于动作捕捉技术的数字人形象驱动系统，其特征在于，数字人终端接收到用户语音数据后，将语音数据发送处理模块处理，获得更新后的说话事件，再将更新后的说话事件打包成驱动数据包发送给服务器进行智能计算和渲染。
说明书全文	一种基于动作捕捉技术的数字人形象驱动方法及系统技术领域 [0001] 本发明涉及数字人技术领域，更具体地，涉及一种基于动作捕捉技术的数字人形象驱动方法及系统。背景技术 [0002] 在娱乐产业，高科技的动画影视及电影特技制作越来越得到人们的喜爱和市场的追捧，每年全球在三维动画产业的投入达到数百亿美元。在影视拍摄制作中，三维数字内容计算机制作所占的比例越来越大，虚拟数字人的发展进入到快速成长阶段，其可以应用到具有数字人需求的多种不同场景，例如游戏行业、直播场景等。 [0003] 现有技术中，申请号为CN202210811002.3的中国发明专利《一种基于数字人的处理系统》公开了一种数字人的处理系统，其中通过红外探测器、图像识别单元、交互单元对对人体进行感应，同时形成数字人，然后再对数字人进行相关处理，进而获取相关数字人形象的信息，其整套流程非常繁琐，不利于操作，另外，目前通常是一个项目制作与其对应的一套渲染驱动，实现对数字人的渲染和驱动，该方案对于数字人形象的驱动智能化程度较低，驱动效果以及效率非常不理想，不能满足企业和生产服务的需求。发明内容 [0004] 本发明为解决现有技术存在的问题，提供一种基于动作捕捉技术的数字人形象驱动方法及系统，提高了数字人形象的驱动智能化程度，同时提升了驱动的效率和效果。 [0005] 本发明的首要目的是为解决上述技术问题，本发明的技术方案如下： [0006] 本发明第一方面提供了一种基于动作捕捉技术的数字人形象驱动方法，包括以下步骤： [0007] 获取数字人数据包和驱动数据包，解析所述数字人数据包和驱动数据包，得到数字人形象信息； [0008] 构建3D角色预处理模型，将所述预处理模型与所述数字人数据包融合得到处理后的角色形象信息，接收动作捕捉的数据并处理； [0009] 对数字人形象的脸部进行归位去皮校准，获得校准后的脸部特征数据，为每个脸部特征数据添加表情特征系数，调节数字人每个表情的动作幅度； [0010] 调用渲染引擎并在所调用的渲染引擎中根据所述驱动数据包驱动预先渲染的数字人； [0011] 获取用户的语音数据并进行语音处理及分析，得到分析结果并根据所述分析结果进行响应，同时将所述分析结果发送至服务器。 [0012] 进一步的，所述数字人数据包为为包括有数字人角色形象信息的数据包，所述数字人角色形象信息包括：数字人的模型、资产、动作； [0013] 所述驱动数据包为将数字人需要展示的内容信息转换为数字人标准标记协议的数据包，用于控制数字人在预设时刻执行预设事件，所述数字人为用户系统根据构建信息确定的数字人，所述构建信息包括：数字人的基本信息、属性和特征。 [0014] 进一步的，所述驱动数据包中采用用于表示预设事件的元素，所述预设事件的元素具有用于表示预设时刻的起始位置属性配置数字人需要展示的内容信息，所述数字人需要展示的内容信息包括在预设时刻的数字人需要执行的说话事件、动作事件与表情事件，以及在预设场景中在预设时刻的卡片插入事件。 [0015] 进一步的，收动作捕捉的数据进行处理包括： [0016] 采用多帧分析的方法，利用丢失数据帧的前后帧的所采集到的光标点的位置，计算丢失光标点的位置，填充所遗漏的数据； [0017] 对于光标点的跳动，采用信号平滑算法自动对数据进行平滑处理，消除抖动。 [0018] 进一步的，脸部特征数据包括眉毛特征值、眼睛特征值、脸颊特征值、鼻子特征值、下巴特征值和嘴巴特征值。 [0019] 进一步的，对数字人的脸部特征数据进行归位去皮校准，获得校准后的脸部特征数据的方法包括：预先采集中之人面部放松状态下的基础脸部特征数据，将当前采集到的中之人的脸部特征数据减去基础脸部特征数据，作为校准后的脸部特征数据。 [0020] 进一步的，还包括动作校正，预设的匹配和驱动系统根据预先保留的表演者每根骨骼的几何特征信息、动画角色每根骨骼的几何特征信息、表演者的关节动作的三维几何位置，计算3D角色终关节点的运动位置，再通过计算，得出每个关节点的位置。 [0021] 本发明第二方面提供了一种基于动作捕捉技术的数字人形象驱动系统，包括有：数字人终端和服务器，所述数字人终端和服务器通信连接，所述服务器获取数字人数据包和驱动数据包，解析所述数字人数据包和驱动数据包，得到数字人形象信息； [0022] 所述数字人终端构建3D角色预处理模型，将所述预处理模型与所述数字人数据包融合得到处理后的角色形象信息，接收动作捕捉的数据并处理； [0023] 所述数字人终端对数字人形象的脸部进行归位去皮校准，获得校准后的脸部特征数据，为每个脸部特征数据添加表情特征系数，调节数字人每个表情的动作幅度； [0024] 服务器调用渲染引擎并在所调用的渲染引擎中根据所述驱动数据包驱动预先渲染的数字人； [0025] 数字人终端获取用户的语音数据并进行语音处理及分析，得到分析结果并根据所述分析结果进行响应，同时将所述分析结果发送至服务器。 [0026] 进一步的，所述数字人终端包括有处理模块，所述处理模块接收到的动作捕捉数据，对角色形象信息进行处理，根据处理后的角色形象信息生成驱动数据包，发送给服务器； [0027] 服务器接收到驱动数据包后，进行智能计算并返回已经渲染好的数字人视频，数字人终端播放数字人视频播放；处理模块根据服务器返回的结果，对数字人终端进行相应的反馈。 [0028] 进一步的，数字人终端接收到用户语音数据后，将语音数据发送处理模块处理，获得更新后的说话事件，再将更新后的说话事件打包成驱动数据包发送给服务器进行智能计算和渲染。 [0029] 与现有技术相比，本发明技术方案的有益效果是： [0030] 本发明基于动作捕捉技术构建和驱动数字人，提高了构建效率的同时提升了数字人形象的驱动智能化程度，此外通过预设的数字人标准标记协议，可不局限于任意数据解析方案，以及任意渲染驱动系统，实现了数字人的渲染驱动方面进行复用，不仅对上游服务场景的对接进行统一，且不受下游渲染驱动引擎的升级或者变更的影响。附图说明 [0031] 图1为本发明实施例提供一种基于动作捕捉技术的数字人形象驱动方法流程图。 [0032] 图2为本发明实施例提供的驱动数据包的驱动流程图。 [0033] 图3为本发明实施例提供的基于动作捕捉技术的数字人形象驱动系统框图。具体实施方式 [0034] 为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。 [0035] 在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。 [0036] 实施例1 [0037] 如图1所示，本发明第一方面提供了一种基于动作捕捉技术的数字人形象驱动方法，包括以下步骤： [0038] S101获取数字人数据包和驱动数据包，解析所述数字人数据包和驱动数据包，得到数字人形象信息； [0039] 需要说明的是，在一个具体的实施例中，可分别设置数字人终端和服务器来实现数字人形象驱动方法，其中通过服务器获取数字人数据包和驱动数据包，其中服务器可为数字人终端提供智能计算服务，数字人终端用于收集数据信息，例如数字人数据包和驱动数据包，以及动作捕捉数据、语音数据等。通过服务器的解析引擎解析数字人的数据包以及驱动数据包，得到数字人形象信息。 [0040] 其中，数字人数据包为含数字人角色形象信息的数据包，具体的，数字人角色形象信息包括数字人的模型、资产、动作等相关信息，用于在各个终端上展示数字人形象。数字人数据包经过角色预处理模型处理后，可以被渲染引擎渲染出数字人形象，展示给用户，数字人数据包是构建数字人的核心数据之一，用于实现数字人的展示和交互； [0041] 驱动数据包为将数字人需要展示的内容信息转换为数字人标准标记协议的数据包，用于控制数字人在预设时刻执行预设事件，数字人为用户系统根据构建信息确定的数字人，构建信息包括：数字人的基本信息、属性和特征，更具体的，可以包括：数字人的面部特征、声音、语言、表情等方面的信息，上述信息将被用来确定数字人需要展示的内容信息，从而被转换为数字人标准标记协议的驱动数据包。其中，用户系统可以是使用数字人客户端的用户所使用的计算机系统或移动设备等。 [0042] 如图2所示，在一个具体的实施例中，驱动数据包的驱动流程为： [0043] S201将数字人需要展示的内容信息转换为数字人标准标记协议的数据包； [0044] S202在驱动数据包中采用用于表示预设事件的元素，所述预设事件的元素具有用于表示预设时刻的起始位置属性配置数字人需要展示的内容信息； [0045] S203数字人需要展示的内容信息包括在预设时刻的数字人需要执行的说话事件、动作事件与表情事件，以及在预设场景中在预设时刻的卡片插入事件。 [0046] S102构建3D角色预处理模型，将预处理模型与所述数字人数据包融合得到处理后的角色形象信息，接收动作捕捉的数据并处理； [0047] 需要说明的是，将预处理模型与数字人数据包融合形成新的数字人形象，同时得到预处理后的角色形象信息，然后可通过数字人终端获取动作捕捉的数据，需要说明的是，动作捕捉的数据还可以通过其他装置获取，例如传感器装置、摄像头等，对于动作捕捉的数据，需要进行处理，具体包括：对由于光标点遮挡或其他原因而出现数据丢失的部分，采用多帧分析的方法，利用丢失数据帧的前后帧的所采集到的光标点的位置，计算丢失光标点的位置，填充所遗漏的数据；对于光标点的跳动，采用信号平滑算法自动对数据进行平滑处理，消除抖动。 [0048] S103对数字人形象的脸部进行归位去皮校准，获得校准后的脸部特征数据，为每个脸部特征数据添加表情特征系数，调节数字人每个表情的动作幅度； [0049] 需要说明的是，脸部特征数据包括眉毛特征值、眼睛特征值、脸颊特征值、鼻子特征值、下巴特征值和嘴巴特征值。 [0050] 更具体的，包括：预先采集中之人面部放松状态下的基础脸部特征数据，将当前采集到的中之人的脸部特征数据减去基础脸部特征数据，作为校准后的脸部特征数据。 [0051] S104调用渲染引擎并在所调用的渲染引擎中根据所述驱动数据包驱动预先渲染的数字人； [0052] S105获取用户的语音数据并进行语音处理及分析，得到分析结果并根据所述分析结果进行响应，同时将所述分析结果发送至服务器。 [0053] 需要说明的是，在本实施例步骤S105中，可根据用户语音数据，更新数字人的说话事件。数字人终端渲染数字人后将播放预设的说话事件，若用户发出语音，则需要根据语音内容更新数字人的说话事件，从而让数字人的表现更加符合用户的需求。因此，在数字人终端接收或获取到用户语音数据后，会将语音数据发送给处理模块进行处理，获得更新后的说话事件，再将更新后的说话事件打包成驱动数据包发送给服务器进行智能计算和渲染。 [0054] 需要说明的是，在本实施例步骤S105中还包括动作校正，即预设的服务器的匹配和驱动系统根据预先保留的表演者每根骨骼的几何特征信息、动画角色每根骨骼的几何特征信息、表演者的关节动作的三维几何位置，计算3D角色终关节点的运动位置，再通过计算，得出每个关节点的位置。 [0055] 本发明第二方面提供了一种基于动作捕捉技术的数字人形象驱动系统，包括有：数字人终端301和服务器302，所述数字人终端301和服务器302通信连接，所述服务器302获取数字人数据包和驱动数据包，解析所述数字人数据包和驱动数据包，得到数字人形象信息； [0056] 所述数字人终端301构建3D角色预处理模型，将所述预处理模型与所述数字人数据包融合得到处理后的角色形象信息，接收动作捕捉的数据并处理； [0057] 所述数字人终端301对数字人形象的脸部进行归位去皮校准，获得校准后的脸部特征数据，为每个脸部特征数据添加表情特征系数，调节数字人每个表情的动作幅度； [0058] 服务器302调用渲染引擎并在所调用的渲染引擎中根据所述驱动数据包驱动预先渲染的数字人； [0059] 数字人终端301获取用户的语音数据并进行语音处理及分析，得到分析结果并根据所述分析结果进行响应，同时将所述分析结果发送至服务器302。 [0060] 在一个具体的实施例中，所述数字人终端301包括有处理模块，所述处理模块接收到的动作捕捉数据，对角色形象信息进行处理，例如填充丢失的数据和平滑数据，根据处理后的角色形象信息生成驱动数据包，发送给服务器302； [0061] 服务器302接收到驱动数据包后，进行智能计算并返回已经渲染好的数字人视频，数字人终端301播放数字人视频播放；处理模块根据服务器返回的结果，对数字人终端301进行相应的反馈。 [0062] 在一个具体的实施例中，数字人终端301接收到用户语音数据后，将语音数据发送给处理模块进行处理，获得更新后的说话事件，再将更新后的说话事件打包成驱动数据包发送给服务器进行智能计算和渲染。 [0063] 需要说明的是，数字人终端301中的处理模块用于处理用户输入的语音数据外，还可以进行数字人渲染等操作，根据处理结果，数字人终端301可以做出相应的反馈，如展示数字人的动作、表情等。数字人终端会将用户输入的语音数据发送至服务器302，以便服务器302进行语音识别和自然语言处理等高级计算，并将处理后的结果返回给数字人终端301，以实现更为复杂的对话交互。此外，数字人终端301也会将用户与数字人的交互行为等数据发送至服务器302进行分析和统计，以便对用户的行为和偏好进行分析和改进数字人的表现。 [0064] 显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

意见反馈