基于虚拟数字人的导览方法、装置、电子设备及存储介质专利检索-组合视听的广告或显示例如用扩音系统专利检索查询-专利查询网

基于虚拟数字人的导览方法、装置、电子设备及存储介质
申请号	CN202410151899.0	申请日	2024-02-02	公开(公告)号	CN118014781A	公开(公告)日	2024-05-10
申请人	超脑智能科技(上海)有限公司;			发明人	程家国;
摘要	本发明涉及一种基于虚拟数字人的导览方法、装置、电子设备及存储介质，该方法包括：根据参观者的肢体动作和/或语言判断是否具有导览需求；响应于参观者具有导览需求，控制交互设备移动至参观者所在位置并根据参观者的语音和/或形象调取相匹配的虚拟人形象和声音并推荐导览内容；根据语音和/或形象追踪当前参观者，导览现场场景并在交互设备上显示现场场景中的导览对象。本发明通过在参观者具有导览需求时，控制交互设备移动至参观者所在位置并根据参观者的语音和/或形象调取相匹配的虚拟人形象和声音并推荐导览内容，可以及时的为参观者提供导览服务，且选取的虚拟人角色和推荐的导览内容，具有较好的针对性，有利于提高参观者的导览体验。
权利要求	1.一种基于虚拟数字人的导览方法，其特征在于，展厅内设置虚拟数字人的交互设备、多台视频采集设备与语音识别设备，所述方法包括：根据参观者的肢体动作和/或语言判断是否具有导览需求；响应于参观者具有导览需求，控制交互设备移动至参观者所在位置并根据参观者的语音和/或形象调取相匹配的虚拟人形象和声音并推荐导览内容；根据语音和/或形象追踪当前参观者，导览现场场景并在交互设备上显示现场场景中的导览对象。 2.根据权利要求1所述的基于虚拟数字人的导览方法，其特征在于，所述根据参观者的语音和/或形象调取相匹配的虚拟人形象和声音并推荐导览内容，包括：根据语音和/或形象判断当前参观者信息，所述参观者信息包括性别与年龄；根据当前参观者信息选取虚拟人形象和声音，并推荐导览场景与导览对象。 3.根据权利要求1所述的基于虚拟数字人的导览方法，其特征在于，所述根据语音和/或形象追踪当前参观者，还包括：根据参观者形象追踪当前参观者的位置。 4.根据权利要求3所述的基于虚拟数字人的导览方法，其特征在于，所述根据语音和/或形象追踪当前参观者，包括：根据语音音色追踪当前参观者的位置与语音，并基于大语言模型与当前参观者进行交互且更新当前参观者信息与需求；根据更新后的当前参观者信息与需求更换虚拟人形象与声音并更新推荐导览场景与导览对象。 5.根据权利要求1所述的基于虚拟数字人的导览方法，其特征在于，所述导览现场场景并在交互设备上显示现场场景中的导览对象，包括：导览现场场景中的导览对象时，在交互设备上放大导览对象并显示导览对象的关键细节。 6.根据权利要求1所述的基于虚拟数字人的导览方法，其特征在于，所述方法还包括：获取当前参观者进入展厅后的参观路径与在各个现场场景的停留时长；根据参观路径与停留是时长推荐导览场景与导览对象。 7.根据权利要求1至6中任意一项所述的基于虚拟数字人的导览方法，其特征在于，所述方法还包括：获取当前参观者的面部表情、肢体动作、语音音量与语言用词；基于满意度评估模型评估当前参观者的参观满意度，所述满意度评估模型是基于数学模型，以人体的面部表情、肢体动作、语音音量与语言用词为训练数据训练得到的。 8.一种基于虚拟数字人的导览装置，其特征在于，所述装置包括：判断模块，用于根据参观者的肢体动作和/或语言判断是否具有导览需求；响应模块，用于响应于参观者具有导览需求，控制交互设备移动至参观者所在位置并根据参观者的语音和/或形象调取相匹配的虚拟人形象和声音并推荐导览内容；导览模块，用于根据语音和/或形象追踪当前参观者，导览现场场景并在交互设备上显示现场场景中的导览对象。 9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。 10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
说明书全文	基于虚拟数字人的导览方法、装置、电子设备及存储介质技术领域 [0001] 本发明涉及虚拟数字人技术领域，特别是涉及一种基于虚拟数字人的导览方法、装置、电子设备及存储介质。背景技术 [0002] 虚拟数字人是一种依赖于计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等多种技术手段创造出来的，具有数字化外形的虚拟人物，不仅在外貌上类似于人，而且在行为上也能够模仿人类的语言、面部表情和肢体动作，甚至在思想上能够识别外界环境和与人交流互动。随着科技的发展，虚拟数字人逐渐被应用于各个领域，比如展厅中使用虚拟数字人进行为参观者导览，节约了用人成本，提高了导览效率。但是，目前的数字人导览采用的是固定化导览的方式，不能够根据参观者的需求调整导览内容，难以提供针对性的导览服务，容易给参观者带来较差的导览体验。发明内容 [0003] 基于此，有必要针对上述技术问题，提供一种能够根据参观者的需求调整导览内容，提供针对性的导览服务，给参观者带来较好的导览体验的基于虚拟数字人的导览方法、装置、电子设备及存储介质。 [0004] 本发明提供的一种基于虚拟数字人的导览方法，展厅内设置虚拟数字人的交互设备、多台视频采集设备与语音识别设备，所述方法包括： [0005] 根据参观者的肢体动作和/或语言判断是否具有导览需求； [0006] 响应于参观者具有导览需求，控制交互设备移动至参观者所在位置并根据参观者的语音和/或形象调取相匹配的虚拟人形象和声音并推荐导览内容； [0007] 根据语音和/或形象追踪当前参观者，导览现场场景并在交互设备上显示现场场景中的导览对象。 [0008] 在其中一个实施例中，所述根据参观者的语音和/或形象调取相匹配的虚拟人形象和声音并推荐导览内容，包括： [0009] 根据语音和/或形象判断当前参观者信息，所述参观者信息包括性别与年龄； [0010] 根据当前参观者信息选取虚拟人形象和声音，并推荐导览场景与导览对象。 [0011] 在其中一个实施例中，所述根据语音和/或形象追踪当前参观者，还包括： [0012] 根据参观者形象追踪当前参观者的位置。 [0013] 在其中一个实施例中，所述根据语音和/或形象追踪当前参观者，包括： [0014] 根据语音音色追踪当前参观者的位置与语音，并基于大语言模型与当前参观者进行交互且更新当前参观者信息与需求； [0015] 根据更新后的当前参观者信息与需求更换虚拟人形象与声音并更新推荐导览场景与导览对象。 [0016] 在其中一个实施例中，所述导览现场场景并在交互设备上显示现场场景中的导览对象，包括： [0017] 导览现场场景中的导览对象时，在交互设备上放大导览对象并显示导览对象的关键细节。 [0018] 在其中一个实施例中，所述方法还包括： [0019] 获取当前参观者进入展厅后的参观路径与在各个现场场景的停留时长； [0020] 根据参观路径与停留是时长推荐导览场景与导览对象。 [0021] 在其中一个实施例中，所述方法还包括： [0022] 获取当前参观者的面部表情、肢体动作、语音音量与语言用词； [0023] 基于满意度评估模型评估当前参观者的参观满意度，所述满意度评估模型是基于数学模型，以人体的面部表情、肢体动作、语音音量与语言用词为训练数据训练得到的。 [0024] 本发明还提供了一种基于虚拟数字人的导览装置，所述装置包括： [0025] 判断模块，用于根据参观者的肢体动作和/或语言判断是否具有导览需求； [0026] 响应模块，用于响应于参观者具有导览需求，控制交互设备移动至参观者所在位置并根据参观者的语音和/或形象调取相匹配的虚拟人形象和声音并推荐导览内容； [0027] 导览模块，用于根据语音和/或形象追踪当前参观者，导览现场场景并在交互设备上显示现场场景中的导览对象。 [0028] 本发明还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述的基于虚拟数字人的导览方法。 [0029] 本发明还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的基于虚拟数字人的导览方法。 [0030] 上述基于虚拟数字人的导览方法、装置、电子设备及存储介质，通过参观者的肢体动作和/或语言判断是否具有导览需求，并参观者具有导览需求时，控制交互设备移动至参观者所在位置并根据参观者的语音和/或形象调取相匹配的虚拟人形象和声音并推荐导览内容，可以及时的为参观者提供导览服务，且根据参观者的语音和/或形象选取的虚拟人角色和推荐的导览内容，具有较好的针对性，有利于提高参观者的导览体验。通过语音和/或形象追踪当前参观者，导览现场场景并在交互设备上显示现场场景中的导览对象，可以实时跟随当前参观者并为参观者提供现场场景导览和展现局部导览对象的更好的导览体验。附图说明 [0031] 为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单的介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。 [0032] 图1为本发明一个实施例的基于虚拟数字人的导览方法流程图； [0033] 图2为本发明另一个实施例的基于虚拟数字人的导览方法流程图； [0034] 图3为本发明再一个实施例的基于虚拟数字人的导览方法流程图； [0035] 图4为本发明又一个实施例的基于虚拟数字人的导览方法流程图； [0036] 图5为本发明一个实施例的基于虚拟数字人的导览装置示意图； [0037] 图6为一个实施例的计算机设备的内部结构图。具体实施方式 [0038] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。 [0039] 下面结合图1‑图6描述本发明的基于虚拟数字人的导览方法、装置、电子设备及存储介质。 [0040] 如图1所示，在一个实施例中，一种基于虚拟数字人的导览方法，展厅内设置虚拟数字人的交互设备、多台视频采集设备与语音识别设备，该方法包括以下步骤： [0041] 步骤S110，根据参观者的肢体动作和/或语言判断是否具有导览需求。 [0042] 在参观者进入展厅后，展厅内的视频采集设备与语音识别设备实时采集参观者视频与识别参观者语音。当参观者通过肢体动作和/或语言示意需要导览服务时，虚拟数字人能够通过参观者的肢体动作和/或语言，及时判断出参观者的导览需求。 [0043] 步骤S120，响应于参观者具有导览需求，控制交互设备移动至参观者所在位置并根据参观者的语音和/或形象调取相匹配的虚拟人形象和声音并推荐导览内容。 [0044] 作为可选的，根据语音和/或形象判断当前参观者信息，参观者信息包括性别与年龄；根据语音和/或形象追踪当前参观者，导览现场场景并在交互设备上显示现场场景中的导览对象。语音识别设备在识别参观者语音后，对参观者语音进行分析，初步判断参观者的性别和年龄等参观者信息，并结合参观者形象进一步确定参观者的性别和年龄。在语音识别设备未获取到参观者语音时，根据参观者形象确定性别和年龄。在确认参观者信息后，根据参观者性别和年龄选取相匹配的虚拟人形象和声音，并判断参观者兴趣趋向，并根据该兴趣趋向推荐导览内容。比如，识别出访客为30‑40岁的女性，选用年轻的男性虚拟人形象与声音。 [0045] 步骤S130，根据语音和/或形象追踪当前参观者，导览现场场景并在交互设备上显示现场场景中的导览对象。 [0046] 作为可选的，根据参观者形象追踪当前参观者的位置，以使交互设备跟随参观者移动。导览现场场景中的导览对象时，在交互设备上可放大导览对象并显示导览对象的关键细节。 [0047] 本实施例的基于虚拟数字人的导览方法，通过参观者的肢体动作和/或语言判断是否具有导览需求，并参观者具有导览需求时，控制交互设备移动至参观者所在位置并根据参观者的语音和/或形象调取相匹配的虚拟人形象和声音并推荐导览内容，可以及时的为参观者提供导览服务，且根据参观者的语音和/或形象选取的虚拟人角色和推荐的导览内容，具有较好的针对性，有利于提高参观者的导览体验。通过语音和/或形象追踪当前参观者，导览现场场景并在交互设备上显示现场场景中的导览对象，可以实时跟随当前参观者并为参观者提供现场场景导览和展现局部导览对象的更好的导览体验。 [0048] 如图2所示，在一个实施例中，根据语音和/或形象追踪当前参观者，包括以下步骤： [0049] 步骤S210，根据语音音色追踪当前参观者的位置与语音，并基于大语言模型与当前参观者进行交互且更新当前参观者信息与需求。 [0050] 因每个个体的语音音色不同，采用语音音色追踪的方式可以避免其他参观者语音与当前参观者的语音混淆，改善当前参观者的导览体验。大语言模型(LLM)是基于海量文本数据训练的深度学习模型，不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译等。 [0051] 步骤S220，根据更新后的当前参观者信息与需求更换虚拟人形象与声音并更新推荐导览场景与导览对象。 [0052] 具体的，通过实时更新参观者信息，可提供更具有针对性的导览服务。 [0053] 如图3所示，在一个实施例中，基于虚拟数字人的导览方法，还包括以下步骤： [0054] 步骤S310，获取当前参观者进入展厅后的参观路径与在各个现场场景的停留时长。参观者的参观路径与停留时长，可更加准确的判断出参观者的兴趣趋向。 [0055] 步骤S320，根据参观路径与停留是时长推荐导览场景与导览对象。 [0056] 如图4所示，在一个实施例中，基于虚拟数字人的导览方法，还包括以下步骤： [0057] 步骤S410，获取当前参观者的面部表情、肢体动作、语音音量与语言用词。 [0058] 步骤S420，基于满意度评估模型评估当前参观者的参观满意度，满意度评估模型是基于数学模型，以人体的面部表情、肢体动作、语音音量与语言用词为训练数据训练得到的。 [0059] 下面对本发明提供的基于虚拟数字人的导览装置进行描述，下文描述的基于虚拟数字人的导览装置与上文描述的基于虚拟数字人的导览方法可相互对应参照。 [0060] 如图5所示，在一个实施例中，一种基于虚拟数字人的导览装置，包括判断模块510、响应模块模块520与导览模块530。 [0061] 判断模块510用于根据参观者的肢体动作和/或语言判断是否具有导览需求。 [0062] 响应模块520用于响应于参观者具有导览需求，控制交互设备移动至参观者所在位置并根据参观者的语音和/或形象调取相匹配的虚拟人形象和声音并推荐导览内容。 [0063] 导览模块530用于根据语音和/或形象追踪当前参观者，导览现场场景并在交互设备上显示现场场景中的导览对象。 [0064] 在本实施例中，响应模块520具体用于： [0065] 根据语音和/或形象判断当前参观者信息，所述参观者信息包括性别与年龄； [0066] 根据当前参观者信息选取虚拟人形象和声音，并推荐导览场景与导览对象。 [0067] 在本实施例中，导览模块530具体还用于： [0068] 根据参观者形象追踪当前参观者的位置。 [0069] 在本实施例中，导览模块530具体还用于： [0070] 根据语音音色追踪当前参观者的位置与语音，并基于大语言模型与当前参观者进行交互且更新当前参观者信息与需求； [0071] 根据更新后的当前参观者信息与需求更换虚拟人形象与声音并更新推荐导览场景与导览对象。 [0072] 在本实施例中，导览模块530具体还用于： [0073] 导览现场场景中的导览对象时，在交互设备上放大导览对象并显示导览对象的关键细节。 [0074] 在本实施例中，基于虚拟数字人的导览装置具体还用于： [0075] 获取当前参观者进入展厅后的参观路径与在各个现场场景的停留时长； [0076] 根据参观路径与停留是时长推荐导览场景与导览对象。 [0077] 在本实施例中，基于虚拟数字人的导览装置具体还用于： [0078] 获取当前参观者的面部表情、肢体动作、语音音量与语言用词； [0079] 基于满意度评估模型评估当前参观者的参观满意度，所述满意度评估模型是基于数学模型，以人体的面部表情、肢体动作、语音音量与语言用词为训练数据训练得到的。 [0080] 图6示例了一种电子设备的实体结构示意图，该电子设备可以是智能终端，其内部结构图可以如图6所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于虚拟数字人的导览方法，该方法包括： [0081] 根据参观者的肢体动作和/或语言判断是否具有导览需求； [0082] 响应于参观者具有导览需求，控制交互设备移动至参观者所在位置并根据参观者的语音和/或形象调取相匹配的虚拟人形象和声音并推荐导览内容； [0083] 根据语音和/或形象追踪当前参观者，导览现场场景并在交互设备上显示现场场景中的导览对象。 [0084] 本领域技术人员可以理解，图6中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。 [0085] 另一方面，本发明还提供了一种计算机存储介质，存储有计算机程序，计算机程序被处理器执行时实现基于虚拟数字人的导览方法，该方法包括： [0086] 根据参观者的肢体动作和/或语言判断是否具有导览需求； [0087] 响应于参观者具有导览需求，控制交互设备移动至参观者所在位置并根据参观者的语音和/或形象调取相匹配的虚拟人形象和声音并推荐导览内容； [0088] 根据语音和/或形象追踪当前参观者，导览现场场景并在交互设备上显示现场场景中的导览对象。 [0089] 又一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令时实现基于虚拟数字人的导览方法，该方法包括： [0090] 根据参观者的肢体动作和/或语言判断是否具有导览需求； [0091] 响应于参观者具有导览需求，控制交互设备移动至参观者所在位置并根据参观者的语音和/或形象调取相匹配的虚拟人形象和声音并推荐导览内容； [0092] 根据语音和/或形象追踪当前参观者，导览现场场景并在交互设备上显示现场场景中的导览对象。 [0093] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任·何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。 [0094] 作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。 [0095] 以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。 [0096] 以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以作出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

意见反馈