视频通话方法、装置、电子设备及系统专利检索-乐器声学专利检索查询-专利查询网

视频通话方法、装置、电子设备及系统
申请号	CN202311687152.9	申请日	2023-12-08	公开(公告)号	CN117896483A	公开(公告)日	2024-04-16
申请人	北京声智科技有限公司;			发明人	高顺; 于鑫;
摘要	本发明提供一种视频通话方法、装置、电子设备及系统，涉及通信技术领域，其中方法包括：接收第一终端发送的第一语义信息；所述第一语义信息为所述第一终端对应的第一用户和第二终端对应的第二用户在进行视频通话过程中，所述第一终端确定网速小于预设值的情况下，对采集的第一视频流进行语义理解得到的；基于所述第一语义信息和所述第一用户的人脸模型，生成第二视频流；将所述第二视频流发送至第二终端。本发明在第一终端的网速较差的情况下，视频服务器基于第一用户的人脸模型和接收到的第一语义信息重新生成第二视频发送至第二终端，这样能够确保第二终端能够及时显示第一终端对应的视频，从而提高了视频通话质量。
权利要求	1.一种视频通话方法，其特征在于，包括：接收第一终端发送的第一语义信息；所述第一语义信息为所述第一终端对应的第一用户和第二终端对应的第二用户在进行视频通话过程中，所述第一终端确定网速小于预设值的情况下，对采集的第一视频流进行语义理解得到的；基于所述第一语义信息和所述第一用户的人脸模型，生成第二视频流；将所述第二视频流发送至第二终端。 2.根据权利要求1所述的视频通话方法，其特征在于，所述方法还包括：接收所述第一终端发送的至少一张目标图像；所述目标图像为所述第一用户和所述第二用户在视频通话过程中，所述第一终端设备在网速大于或等于所述预设值的情况下采集的图像，所述目标图像中包括所述第一用户；将各所述目标图像输入三维人脸重建模型中，得到所述三维人脸重建模型输出的第一用户的人脸模型。 3.根据权利要求1所述的视频通话方法，其特征在于，所述第一语义信息包括所述第一用户的语音信息对应的文本信息和所述第一用户的表情信息；所述基于所述第一语义信息和所述第一用户的人脸模型，生成第二视频流，包括：将所述第一用户的文本信息转换为所述第一用户的语音信息；基于所述第一用户的表情信息和所述语音信息驱动所述人脸模型，得到人脸视频；将所述人脸视频和所述语音信息添加至预设视频模板中，得到所述第二视频流。 4.根据权利要求3所述的视频通话方法，其特征在于，所述第一语义信息还包括所述第一用户在视频通话过程中所处的环境信息；所述将所述人脸视频和所述语音信息添加预设视频模板中，得到所述第二视频流，包括：基于所述环境信息，更新所述预设视频模板的预设环境信息，得到目标视频模板；将所述人脸视频和所述语音信息添加至所述目标视频模板中，得到所述第二视频流。 5.根据权利要求1‑4任一项所述的视频通话方法，其特征在于，所述方法还包括：在所述第一用户和所述第二用户结束视频通话后，获取在预设历史时长内所述第一用户的视频通话次数；确定所述视频通话次数中所述第一终端的网速小于所述预设值的目标次数；在所述目标次数大于预设次数的情况下，保存所述第一用户的人脸模型。 6.根据权利要求1‑4任一项所述的视频通话方法，其特征在于，所述方法还包括：在预设时长内未接收到所述第一语义信息或所述第一视频流的情况下，确定是否接收到所述第一终端发送的视频通话结束指令；在未接收到所述第一终端发送的所述视频通话结束指令的情况下，基于所述第一用户和所述第二用户的视频通话内容，确定与所述视频通话内容匹配的目标预设视频；将所述目标预设视频发送至所述第二终端。 7.一种视频通话装置，其特征在于，包括：第一接收单元，用于接收第一终端发送的第一语义信息；所述第一语义信息为所述第一终端对应的第一用户和第二终端对应的第二用户在进行视频通话过程中，所述第一终端确定网速小于预设值的情况下，对采集的第一视频流进行语义理解得到的；生成单元，用于基于所述第一语义信息和所述第一用户的人脸模型，生成第二视频流；第一发送单元，用于将所述第二视频流发送至第二终端。 8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述视频通话方法。 9.一种视频通话系统，其特征在于，包括视频服务器、第一终端和第二终端；所述第一终端，用于在所述第一终端对应的第一用户和第二终端对应的第二用户在进行视频通话的过程中，确定网速小于预设值的情况下，对采集的第一视频流进行语义理解，得到第一语义信息，并将所述第一语义信息发送至所述视频服务器；所述视频服务器，用于基于所述第一语义信息和所述第一用户的人脸模型，生成第二视频流，并将所述第二视频流发送至所述第二终端；所述第二终端，用于显示所述第二视频流。 10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述视频通话方法。
说明书全文	视频通话方法、装置、电子设备及系统技术领域 [0001] 本发明涉及通信技术领域，尤其涉及一种视频通话方法、装置、电子设备及系统。背景技术 [0002] 随着互联网技术的日益发展，基于互联网络的视频通话在人们的生活中越来越普及。 [0003] 相关技术中，双方在视频通话过程中，通常是一方的终端将视频流发送至视频服务器，视频服务器将接收到的视频流转发至另一方的终端。 [0004] 但上述相关技术中，若一方的终端网速较低，会导致另一方的终端无法及时接收到对方的视频流，从而导致视频通话的质量较差。发明内容 [0005] 针对现有技术存在的问题，本发明实施例提供一种视频通话方法、装置、电子设备及系统。 [0006] 本发明提供一种视频通话方法，包括： [0007] 接收第一终端发送的第一语义信息；所述第一语义信息为所述第一终端对应的第一用户和第二终端对应的第二用户在进行视频通话过程中，所述第一终端确定网速小于预设值的情况下，对采集的第一视频流进行语义理解得到的； [0008] 基于所述第一语义信息和所述第一用户的人脸模型，生成第二视频流； [0009] 将所述第二视频流发送至第二终端。 [0010] 根据本发明提供的一种视频通话方法，所述方法还包括： [0011] 接收所述第一终端发送的至少一张目标图像；所述目标图像为所述第一用户和所述第二用户在视频通话过程中，所述第一终端设备在网速大于或等于所述预设值的情况下采集的图像，所述目标图像中包括所述第一用户； [0012] 将各所述目标图像输入三维人脸重建模型中，得到所述三维人脸重建模型输出的第一用户的人脸模型。 [0013] 根据本发明提供的一种视频通话方法，所述第一语义信息包括所述第一用户的语音信息对应的文本信息和所述第一用户的表情信息； [0014] 所述基于所述第一语义信息和所述第一用户的人脸模型，生成第二视频流，包括： [0015] 将所述第一用户的文本信息转换为所述第一用户的语音信息； [0016] 基于所述第一用户的表情信息和所述语音信息驱动所述人脸模型，得到人脸视频； [0017] 将所述人脸视频和所述语音信息添加至预设视频模板中，得到所述第二视频流。 [0018] 根据本发明提供的一种视频通话方法，所述第一语义信息还包括所述第一用户在视频通话过程中所处的环境信息； [0019] 所述将所述人脸视频和所述语音信息添加预设视频模板中，得到所述第二视频流，包括： [0020] 基于所述环境信息，更新所述预设视频模板的预设环境信息，得到目标视频模板； [0021] 将所述人脸视频和所述语音信息添加至所述目标视频模板中，得到所述第二视频流。 [0022] 根据本发明提供的一种视频通话方法，所述方法还包括： [0023] 在所述第一用户和所述第二用户结束视频通话后，获取在预设历史时长内所述第一用户的视频通话次数； [0024] 确定所述视频通话次数中所述第一终端的网速小于所述预设值的目标次数； [0025] 在所述目标次数大于预设次数的情况下，保存所述第一用户的人脸模型。 [0026] 根据本发明提供的一种视频通话方法，所述方法还包括： [0027] 在预设时长内未接收到所述第一语义信息或所述第一视频流的情况下，确定是否接收到所述第一终端发送的视频通话结束指令； [0028] 在未接收到所述第一终端发送的所述视频通话结束指令的情况下，基于所述第一用户和所述第二用户的视频通话内容，确定与所述视频通话内容匹配的目标预设视频； [0029] 将所述目标预设视频发送至所述第二终端。 [0030] 本发明还提供一种视频通话装置，包括： [0031] 第一接收单元，用于接收第一终端发送的第一语义信息；所述第一语义信息为所述第一终端对应的第一用户和第二终端对应的第二用户在进行视频通话过程中，所述第一终端确定网速小于预设值的情况下，对采集的第一视频流进行语义理解得到的； [0032] 生成单元，用于基于所述第一语义信息和所述第一用户的人脸模型，生成第二视频流； [0033] 第一发送单元，用于将所述第二视频流发送至第二终端。 [0034] 本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述视频通话方法。 [0035] 本发明还提供一种视频通话系统，包括视频服务器、第一终端和第二终端； [0036] 所述第一终端，用于在所述第一终端对应的第一用户和第二终端对应的第二用户在进行视频通话的过程中，确定网速小于预设值的情况下，对采集的第一视频流进行语义理解，得到第一语义信息，并将所述第一语义信息发送至所述视频服务器； [0037] 所述视频服务器，用于基于所述第一语义信息和所述第一用户的人脸模型，生成第二视频流，并将所述第二视频流发送至所述第二终端； [0038] 所述第二终端，用于显示所述第二视频流。 [0039] 本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述视频通话方法。 [0040] 本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述视频通话方法。 [0041] 本发明提供的视频通话方法、装置、电子设备及系统，在第一终端对应的第一用户和第二终端对应的第二用户进行视频通话过程中，第一终端确定网速小于预设值时，对采集的第一视频流进行语义理解，将得到的第一语义信息发送至视频服务器，视频服务器基于第一终端发送的第一语义信息和预先生成的第一用户的人脸模型生成第二视频，将第二视频发送至第二终端。由于在网速较差时，语义信息的传输相较于视频流的传输来说，速度更快，所以本发明在第一终端的网速较差的情况下，视频服务器基于第一用户的人脸模型和接收到的第一语义信息重新生成第二视频发送至第二终端，这样能够确保第二终端能够及时显示第一终端对应的视频，从而提高了视频通话质量。附图说明 [0042] 为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。 [0043] 图1是本发明实施例提供的视频通话方法的流程示意图之一； [0044] 图2是本发明实施例提供的视频通话方法的流程示意图之二； [0045] 图3是本发明实施例提供的视频通话方法的流程示意图之三； [0046] 图4是本发明实施例提供的视频通话方法的流程示意图之四； [0047] 图5是本发明实施例提供的视频通话方法的流程示意图之五； [0048] 图6是本发明实施例提供的视频通话方法的流程示意图之六； [0049] 图7是本发明实施例提供的视频通话装置的结构示意图； [0050] 图8是本发明实施例提供的电子设备的实体结构示意图； [0051] 图9是本发明实施例提供的视频通话系统的结构示意图。具体实施方式 [0052] 为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。 [0053] 下面结合图1‑图6描述本发明的视频通话方法。该视频通话方法的执行主体可以为视频服务器，也可以是设置在该视频服务器中的视频通话装置，该视频通话装置可以通过软件、硬件或两者的结合来实现。 [0054] 图1是本发明实施例提供的视频通话方法的流程示意图之一，应用于视频服务器，如图1所示，该视频通话方法包括以下步骤： [0055] 步骤101、接收第一终端发送的第一语义信息；所述第一语义信息为所述第一终端对应的第一用户和第二终端对应的第二用户在进行视频通话过程中，所述第一终端确定网速小于预设值的情况下，对采集的第一视频流进行语义理解得到的。 [0056] 其中，网速是指上传和下载数据时，请求数据和返回数据所用的时间长短，网络上通常认为网络延迟0‑100ms(毫秒)之间为正常范围，所以可以设定预设值为大于100ms的数字，例如预设值为120ms。 [0057] 示例地，在第一用户与第二用户进行视频通话过程中，第一用户使用的第一终端实时检测网速，并将检测到的网速与预设值进行比较，在确定网速小于预设值时，确定当前的网速较差，此时将采集的包括第一用户的第一视频流中第一用户的语音和第一用户的表情进行语义理解，得到第一语义信息，并将得到的第一语义信息发送至视频服务器，即视频服务器接收到第一终端发送的第一语义信息。 [0058] 需要说明的是，语义理解的具体实现方式可以为：将第一视频流包括的所有视频帧图像输入语义理解模型中，得到语义理解模型输出的第一语义信息。 [0059] 其中，语义理解模型具体可通过以下方式训练得到：将多个视频帧图像样本输入初始语义理解模型中，得到初始语义理解模型输出的预测语义信息，基于预测语义信息和视频帧图像样本对应的语音标签和表情标签，构建损失函数，基于损失函数调整初始语义理解模型的模型参数，直至达到收敛条件，得到语义理解模型。 [0060] 需要说明的是，初始语义理解模型的具体结构可以为深度神经网络(Deep Neural Networks，DNN)或卷积神经网络(Convolutional Neural Network，CNN)等，本发明对此不做限定。 [0061] 步骤102、基于所述第一语义信息和所述第一用户的人脸模型，生成第二视频流。 [0062] 示例地，视频服务器在接收到第一终端发送的第一语义信息时，确定第一终端此时的网速较差，此时获取预先存储的第一用户的人脸模型，基于第一语义信息和人脸模型生成第二视频流，第二视频流中包括第一用户的人脸信息以及第一用户的语音信息和表情信息等。 [0063] 步骤103、将所述第二视频流发送至第二终端。 [0064] 示例地，视频服务器在生成第二视频流时，将第二视频流发送给第二终端，使得第二终端在接收到第二视频流时，显示第二视频流，从而实现在第一终端的网速较差的情况下，第一用户与第二用户之间的正常视频通话，保证通话数据不丢失。 [0065] 需要说明的是，在第二终端的网速较差的情况下，视频服务器生成视频的方法与上述第一终端的网速较差时的视频生成的方法相同，本发明在此不再赘述。 [0066] 本发明提供的视频通话方法，在第一终端对应的第一用户和第二终端对应的第二用户进行视频通话过程中，第一终端确定网速小于预设值时，对采集的第一视频流进行语义理解，将得到的第一语义信息发送至视频服务器，视频服务器基于第一终端发送的第一语义信息和预先生成的第一用户的人脸模型生成第二视频，将第二视频发送至第二终端。由于在网速较差时，语义信息的传输相较于视频流的传输来说，速度更快，所以本发明在第一终端的网速较差的情况下，视频服务器基于第一用户的人脸模型和接收到的第一语义信息重新生成第二视频发送至第二终端，这样能够确保第二终端能够及时显示第一终端对应的视频，从而提高了视频通话质量。 [0067] 在一实施例中，图2是本发明实施例提供的视频通话方法的流程示意图之二，如图2所示，在步骤101之前，该视频通话方法还包括以下步骤： [0068] 步骤104、接收所述第一终端发送的至少一张目标图像；所述目标图像为所述第一用户和所述第二用户在视频通话过程中，所述第一终端设备在网速大于或等于所述预设值的情况下采集的图像，所述目标图像中包括所述第一用户。 [0069] 示例地，第一用户和第二用户在视频通话过程中，第一终端会将向第二终端发送的视频流通过视频服务器转发至第二终端，第二终端会将向第一终端发送的视频流转发至第一终端，所以，在第一终端的网速大于或等于预设值时，也就是在网速正常时，视频服务器能够接收到第一终端发送的至少一张包括第一用户的目标图像。 [0070] 步骤105、将各所述目标图像输入三维人脸重建模型中，得到所述三维人脸重建模型输出的第一用户的人脸模型。 [0071] 示例地，视频服务器在接收到第一终端发送的至少一张包括第一用户的目标图像时，将各目标图像输入三维人脸重建模型中，通过三维人脸重建模型对各目标图像中第一用户的人脸进行特征提取，进而基于提取的人脸特征生成第一用户的人脸模型。 [0072] 需要说明的是，三维人脸重建模型可以为三维人脸统计模型(3DMorphable Model，3DMM)等，本发明对此不做限定。 [0073] 在一实施例中，所述第一语义信息包括所述第一用户的语音信息对应的文本信息和所述第一用户的表情信息；图3是本发明实施例提供的视频通话方法的流程示意图之三，如图3所示，上述步骤102基于所述第一语义信息和所述第一用户的人脸模型，生成第二视频流，具体可通过以下步骤实现： [0074] 步骤1021、将所述第一用户的文本信息转换为所述第一用户的语音信息。 [0075] 示例地，将第一用户的文本信息输入语音转换模型中，得到语音转换模型输出的第一用户的语音信息。 [0076] 其中，语音转换模型可基于以下方式训练得到：将文本样本输入初始语音转换模型中，得到初始语音转换模型输出的预测语音，基于预测语音和文本样本对应的语音标签构建损失函数，基于损失函数调整初始语音转换模型的模型参数，直至达到收敛条件，得到语音转换模型。 [0077] 需要说明的是，初始语音转换模型的具体结构可以为深度神经网络或卷积神经网络等，本发明对此不做限定。 [0078] 步骤1022、基于所述第一用户的表情信息和所述语音信息驱动所述人脸模型，得到人脸视频。 [0079] 示例地，将第一用户的表情信息转换为音素序列，再将音素序列映射为口型等视素信息，基于视素信息控制人脸模型产生嘴部和/或面部动作，使得嘴部和/或面部动作能够体现第一用户的表情；再通过算法将语音信息转换为面部或口型参数，驱动人脸模型说话，最终得到的人脸视频能够反映第一用户的表情和说话的嘴型动作等。具体算法可以为采用动态贝叶斯(Bayes)网络对发音器官的听视觉表现进行混合建模，实现了语音到面部动画的直接映射。 [0080] 步骤1023、将所述人脸视频和所述语音信息添加至预设视频模板中，得到所述第二视频流。 [0081] 示例地，视频服务器可以预先存储多个预设视频模板，每个预设视频模板中包括预设背景信息、人脸视频添加位置信息和语音导入位置信息，在得到人脸视频和第一用户的语音信息时，从多个预设视频模板中可以随机选择一个预设视频模板，并基于人脸视频添加位置信息将人脸视频添加在预设视频模板中，再基于语音导入位置信息将语音信息导入预设视频模板中，进而生成第二视频流。 [0082] 在本实施例中，基于第一语义信息中包括的第一用户的表情信息驱动人脸模型，以生成人脸视频，并基于第一语义信息中包括的第一用户的语音信息对应的文本信息转换为语音信息，进而将人脸视频和语音信息添加在预设视频模板中，最终生成包含第一用户的语音信息和表情信息的第二视频流，使得第二终端在第一终端网速较差的情况下，及时播放第二视频流，确保视频通话的流畅性。 [0083] 在一实施例中，所述第一语义信息还包括所述第一用户在视频通话过程中所处的环境信息；图4是本发明实施例提供的视频通话方法的流程示意图之四，如图4所示，上述步骤1023将所述人脸视频和所述语音信息添加预设视频模板中，得到所述第二视频流，具体可通过以下步骤实现： [0084] 步骤10231、基于所述环境信息，更新所述预设视频模板的预设环境信息，得到目标视频模板。 [0085] 示例地，第一语义信息中还包括第一用户在视频通话过程中所处的环境信息，例如，第一用户坐在沙发上与第二用户进行视频，则环境信息可以包括沙发的参数信息以及沙发后面的背景墙的参数信息等，沙发的参数信息可以包括沙发的形状信息和颜色信息等，背景墙的参数信息可以包括背景墙的颜色信息等，视频服务器在接收到第一用户在视频通话过程中所处的环境信息时，将预设视频模板包括的预设环境信息替换为第一用户在视频通话过程中所处的环境信息，使得最终生成的目标视频模板更加符合第一用户当前所处的环境信息。 [0086] 步骤10232、将所述人脸视频和所述语音信息添加至所述目标视频模板中，得到所述第二视频流。 [0087] 示例地，在重新生成目标视频模板后，基于目标视频模板中人脸视频添加位置信息将人脸视频添加在目标视频模板中，再基于目标视频模板中语音导入位置信息将语音信息导入目标视频模板中，进而生成第二视频流。 [0088] 在本实施例中，基于第一用户在视频通话过程中所处的环境信息更新预设视频模板，使得最终生成的目标视频模板更加符合第一用户当前所处的环境信息，进而使得发送至第二终端的第二视频流与第一视频流相同或者更加接近第一视频流，从而进一步提高了视频通话的质量。 [0089] 在一实施例中，图5是本发明实施例提供的视频通话方法的流程示意图之五，如图5所示，在步骤103之后，该视频通话方法还包括以下步骤： [0090] 步骤106、在所述第一用户和所述第二用户结束视频通话后，获取在预设历史时长内所述第一用户的视频通话次数。 [0091] 其中，预设历史时长可以基于需求进行设定，例如，预设历史时长为10天等。 [0092] 示例地，在第一用户和第二用户结束视频通话后，统计在预设历史时长内第一用户的视频通话次数，例如，预设历史时长为10天，则统计10内第一用户总共进行视频通话的次数，将统计得到的第一用户总共进行视频通话的次数确定为在预设历史时长内第一用户的视频通话次数。 [0093] 步骤107、确定所述视频通话次数中所述第一终端的网速小于所述预设值的目标次数。 [0094] 示例地，在所有视频通话次数中，统计第一用户使用的第一终端的网速小于预设值的目标次数，即统计的第一用户使用的第一终端的网速较差的视频通话次数。 [0095] 步骤108、在所述目标次数大于预设次数的情况下，保存所述第一用户的人脸模型。 [0096] 示例地，在得到目标次数时，将目标次数与预设次数进行比较，在确定目标次数大于预设次数时，说明第一用户使用的第一终端出现网速较差的次数比较多，此时将第一用户的人脸模型进行保存，便于后续使用第一终端过程中出现网速较差时，视频服务器基于保存的第一用户的人脸模型重新生成第一终端对应的视频流；在确定目标次数小于或等于预设次数时，说明第一用户使用的第一终端出现网速较差的次数比较少，此时为了节约视频服务器的存储资源，可以将第一用户的人脸模型直接删除。 [0097] 在本实施例中，在第一用户和第二用户结束视频通话后，获取在预设历史时长内第一用户的视频通话次数，确定视频通话次数中第一终端的网速小于预设值的目标次数，在目标次数大于预设次数时，保存第一用户的人脸模型，便于后续使用第一终端过程中出现网速较差时，视频服务器基于保存的第一用户的人脸模型重新生成第一终端对应的视频流，提高视频流的生成效率，进一步提高视频通话的流畅度。 [0098] 在一实施例中，图6是本发明实施例提供的视频通话方法的流程示意图之六，如图6所示，该视频通话方法还包括以下步骤： [0099] 步骤109、在预设时长内未接收到所述第一语义信息或所述第一视频流的情况下，确定是否接收到所述第一终端发送的视频通话结束指令。 [0100] 其中，预设时长可以基于需求进行设定，例如，预设时长为5秒等。 [0101] 示例地，视频服务器在预设时长内未接收到第一终端发送的第一语义信息或第一视频流时，确定第一终端此时网速很差，第一终端无法向视频服务器发送第一语义信息或第一视频流，此时确定是否接收到第一终端发送的视频通话结束指令，在接收到第一终端发送的视频通话结束指令时，向第二终端发送视频通话结束指令，使得第二终端结束视频通话；在未接收到第一终端发送的视频通话结束指令时，说明第一用户此时还想继续和第二用户进行视频通话。 [0102] 步骤110、在未接收到所述第一终端发送的所述视频通话结束指令的情况下，基于所述第一用户和所述第二用户的视频通话内容，确定与所述视频通话内容匹配的目标预设视频。 [0103] 示例地，在未接收到第一终端发送的视频通话结束指令时，对本次视频通话的第一用户和第二用户的视频通话内容进行语义理解，基于语义理解结果确定第一用户和第二用户共同谈论的商品或者事件等，确定与第一用户和第二用户共同谈论的商品或者事件匹配的目标预设视频。 [0104] 步骤111、将所述目标预设视频发送至所述第二终端。 [0105] 示例地，在确定与第一用户和第二用户共同谈论的商品或者事件匹配的目标预设视频后，将目标预设视频作为第二用户感兴趣的视频，并将目标预设视频发送至第二终端，使得第二终端在接收到目标预设视频时进行播放。 [0106] 在本实施例中，在未接收到第一终端发送的第一语义信息或第一视频流，也未接收到第一终端发送的视频通话结束指令的情况下，基于第一用户和第二用户的视频通话内容，确定与视频通话内容匹配的目标预设视频发送至第二终端，使得第二用户能够在第一终端的网速很差时，在观看感兴趣的视频的同时等待第一终端的网速提升，从而提高了用户体验。 [0107] 下面对本发明提供的视频通话装置进行描述，下文描述的视频通话装置与上文描述的视频通话方法可相互对应参照。 [0108] 图7是本发明实施例提供的视频通话装置的结构示意图，如图7所示，该视频通话装置700包括第一接收单元701、生成单元702和第一发送单元703；其中： [0109] 第一接收单元701，用于接收第一终端发送的第一语义信息；所述第一语义信息为所述第一终端对应的第一用户和第二终端对应的第二用户在进行视频通话过程中，所述第一终端确定网速小于预设值的情况下，对采集的第一视频流进行语义理解得到的； [0110] 生成单元702，用于基于所述第一语义信息和所述第一用户的人脸模型，生成第二视频流； [0111] 第一发送单元703，用于将所述第二视频流发送至第二终端。 [0112] 本发明提供的视频通话装置，在第一终端对应的第一用户和第二终端对应的第二用户进行视频通话过程中，第一终端确定网速小于预设值时，对采集的第一视频流进行语义理解，将得到的第一语义信息发送至视频服务器，视频服务器基于第一终端发送的第一语义信息和预先生成的第一用户的人脸模型生成第二视频，将第二视频发送至第二终端。由于在网速较差时，语义信息的传输相较于视频流的传输来说，速度更快，所以本发明在第一终端的网速较差的情况下，视频服务器基于第一用户的人脸模型和接收到的第一语义信息重新生成第二视频发送至第二终端，这样能够确保第二终端能够及时显示第一终端对应的视频，从而提高了视频通话质量。 [0113] 基于上述任一实施例，所述视频通话装置700还包括： [0114] 第二接收单元，用于接收所述第一终端发送的至少一张目标图像；所述目标图像为所述第一用户和所述第二用户在视频通话过程中，所述第一终端设备在网速大于或等于所述预设值的情况下采集的图像，所述目标图像中包括所述第一用户； [0115] 重建单元，用于将各所述目标图像输入三维人脸重建模型中，得到所述三维人脸重建模型输出的第一用户的人脸模型。 [0116] 基于上述任一实施例，所述第一语义信息包括所述第一用户的语音信息对应的文本信息和所述第一用户的表情信息； [0117] 所述生成单元702具体用于： [0118] 将所述第一用户的文本信息转换为所述第一用户的语音信息； [0119] 基于所述第一用户的表情信息和所述语音信息驱动所述人脸模型，得到人脸视频； [0120] 将所述人脸视频和所述语音信息添加至预设视频模板中，得到所述第二视频流。 [0121] 基于上述任一实施例，所述第一语义信息还包括所述第一用户在视频通话过程中所处的环境信息； [0122] 所述生成单元702还具体用于： [0123] 基于所述环境信息，更新所述预设视频模板的预设环境信息，得到目标视频模板； [0124] 将所述人脸视频和所述语音信息添加至所述目标视频模板中，得到所述第二视频流。 [0125] 基于上述任一实施例，所述视频通话装置700还包括： [0126] 获取单元，用于在所述第一用户和所述第二用户结束视频通话后，获取在预设历史时长内所述第一用户的视频通话次数； [0127] 第一确定单元，用于确定所述视频通话次数中所述第一终端的网速小于所述预设值的目标次数； [0128] 保存单元，用于在所述目标次数大于预设次数的情况下，保存所述第一用户的人脸模型。 [0129] 基于上述任一实施例，所述视频通话装置700还包括： [0130] 第二确定单元，用于在预设时长内未接收到所述第一语义信息或所述第一视频流的情况下，确定是否接收到所述第一终端发送的视频通话结束指令； [0131] 第三确定单元，用于在未接收到所述第一终端发送的所述视频通话结束指令的情况下，基于所述第一用户和所述第二用户的视频通话内容，确定与所述视频通话内容匹配的目标预设视频； [0132] 第二发送单元，用于将所述目标预设视频发送至所述第二终端。 [0133] 图8是本发明实施例提供的电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行视频通话方法，该方法包括：接收第一终端发送的第一语义信息；所述第一语义信息为所述第一终端对应的第一用户和第二终端对应的第二用户在进行视频通话过程中，所述第一终端确定网速小于预设值的情况下，对采集的第一视频流进行语义理解得到的； [0134] 基于所述第一语义信息和所述第一用户的人脸模型，生成第二视频流； [0135] 将所述第二视频流发送至第二终端。 [0136] 此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read‑Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。 [0137] 图9是本发明实施例提供的视频通话系统的结构示意图，如图9所示，该视频通话系统包括视频服务器901、第一终端902和第二终端903。 [0138] 所述第一终端902，用于在所述第一终端902对应的第一用户和第二终端903对应的第二用户在进行视频通话的过程中，确定网速小于预设值的情况下，对采集的第一视频流进行语义理解，得到第一语义信息，并将所述第一语义信息发送至所述视频服务器901。 [0139] 所述视频服务器901，用于基于所述第一语义信息和所述第一用户的人脸模型，生成第二视频流，并将所述第二视频流发送至所述第二终端903。 [0140] 所述第二终端903，用于显示所述第二视频流。 [0141] 另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的视频通话方法，该方法包括：接收第一终端发送的第一语义信息；所述第一语义信息为所述第一终端对应的第一用户和第二终端对应的第二用户在进行视频通话过程中，所述第一终端确定网速小于预设值的情况下，对采集的第一视频流进行语义理解得到的； [0142] 基于所述第一语义信息和所述第一用户的人脸模型，生成第二视频流； [0143] 将所述第二视频流发送至第二终端。 [0144] 又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的视频通话方法，该方法包括：接收第一终端发送的第一语义信息；所述第一语义信息为所述第一终端对应的第一用户和第二终端对应的第二用户在进行视频通话过程中，所述第一终端确定网速小于预设值的情况下，对采集的第一视频流进行语义理解得到的； [0145] 基于所述第一语义信息和所述第一用户的人脸模型，生成第二视频流； [0146] 将所述第二视频流发送至第二终端。 [0147] 以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。 [0148] 通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。 [0149] 最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

意见反馈