信息处理方法、装置及计算机可读存储介质专利检索-音轨数字音频文件资料储存系统专利检索查询-专利查询网

信息处理方法、装置及计算机可读存储介质

阅读：982发布：2020-05-13

专利汇可以提供信息处理方法、装置及计算机可读存储介质专利检索，专利查询，专利分析的服务。并且本发明公开了一种信息处理方法，包括如下步骤：获取视频会议系统所接收到的音频信息，以及所述音频信息对应的用户信息；基于所述音频信息和所述用户信息，确定视频会议当前发言人所发言的文字信息；基于所述文字信息，在所述视频会议系统的显示屏幕中的视频文本框显示所述文字信息。本发明还公开了一种信息处理装置及计算机可读存储介质。本发明实时将发言人当前发言的音频信息和发言人的用户信息转换成文字信息，并将文字信息实时显示于视频会议系统中的显示屏幕上，解决了参会人员容易错漏会议的重要内容的问题，并且能够快速在显示屏幕上输出会议记录的内容，提高了时效性和实用性，方便参会人员更好地了解和掌握会议内容。，下面是信息处理方法、装置及计算机可读存储介质专利的具体信息内容。

权利要求

1.一种信息处理方法，其特征在于，所述信息处理方法包括以下步骤：
获取视频会议系统所接收到的音频信息，以及所述音频信息对应的用户信息；
基于所述音频信息和所述用户信息，确定视频会议当前发言人所发言的文字信息；
基于所述文字信息，在所述视频会议系统的显示屏幕中的视频文本框显示所述文字信息。
2.如权利要求1所述的信息处理方法，其特征在于，所述获取视频会议系统所接收到的音频信息，以及所述音频信息对应的用户信息的步骤包括：
获取所述视频会议系统所接收到的所述音频信息；
基于所述音频信息，确定所述音频信息中的声纹特征信息；
基于所述声纹特征信息，确定预设声纹信息库中与所述声纹特征信息相匹配的用户信息。
3.如权利要求2所述的信息处理方法，其特征在于，所述基于所述声纹特征信息，确定预设声纹信息库中与所述声纹特征信息相匹配的用户信息的步骤包括：
检测所述预设声纹信息库中是否存在与所述声纹特征信息相匹配的用户信息；
若所述预设声纹信息库中存在与所述声纹特征信息相匹配的用户信息，则获取所述用户信息；
若所述预设声纹信息库中不存在与所述声纹特征信息相匹配的用户信息，则在所述预设声纹信息库中创建所述声纹特征信息对应的用户信息，并对应存储所述声纹特征信息。
4.如权利要求1所述的信息处理方法，其特征在于，所述基于所述音频信息和所述用户信息，确定视频会议当前发言人所发言的文字信息的步骤包括：
基于所述音频信息，确定所述音频信息对应的音轨信息；
基于所述音轨信息，确定所述音频信息对应的多个语句块；
基于所述多个语句块和所述用户信息，确定所述视频会议当前发言人所发言的文字信息。
5.如权利要求4所述的信息处理方法，其特征在于，所述多个语句块包括第一语句块、第二语句块或第三语句块，所述基于所述音轨信息，确定所述音频信息对应的多个语句块的步骤包括：
检测所述音轨信息中的停顿信息；
若所述停顿信息大于或等于第一预设阈值，则确定所述音频信息对应的所述第一语句块；
若所述停顿信息小于所述第一预设阈值且大于第二预设阈值，则确定所述音频信息对应的所述第二语句块，其中，所述第二预设阈值小于所述第一预设阈值；
若所述停顿信息小于或等于所述第二预设阈值，则确定所述音频信息对应的所述第三语句块。
6.如权利要求1所述的信息处理方法，其特征在于，所述基于所述音频信息和所述用户信息，确定视频会议当前发言人所发言的文字信息的步骤之后，还包括：
获取所述视频会议系统中的会议模板信息；
基于所述文字信息和所述会议模板信息，确定所述视频会议的会议记录内容；
基于所述会议记录内容，确定视频会议过程的会议记录文本。
7.如权利要求1所述的信息处理方法，其特征在于，所述获取视频会议系统所接收到的音频信息，以及所述音频信息对应的用户信息的步骤之前，还包括：
若检测到所述视频文本框的第一开启指令，则在所述视频会议系统的显示屏幕中显示第一预设区域和第二预设区域，并在所述第一预设区域中显示所述视频会议的第一视频图像，在所述第二预设区域中显示所述视频文本框。
8.如权利要求1至7任一项所述的信息处理方法，其特征在于，所述基于所述文字信息，在所述视频会议系统的显示屏幕中的视频文本框显示所述文字信息的步骤之后，还包括：
若检测到所述视频文本框的第二开启指令，则在所述视频会议系统的显示屏幕中显示所述视频会议的第二视频图像，并在所述视频图像上显示所述视频文本框。
9.一种信息处理装置，其特征在于，所述信息处理装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息处理程序，所述信息处理程序被所述处理器执行时实现如权利要求1至8中任一项所述的信息处理方法的步骤。
10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息处理程序，所述信息处理程序被处理器执行时实现如权利要求1至8中任一项所述的信息处理方法的步骤。

说明书全文

信息处理方法、装置及计算机可读存储介质

技术领域

[0001] 本发明涉及通信技术领域，尤其涉及一种信息处理方法、装置及计算机可读存储介质。

背景技术

[0002] 视频会议具有面向用户的设计思路，以及多方交互的用户界面，用户在自己的办公室或公司的会议室里可以非常方便地自主召集会议并进行会议控制，为企业或者用户带来了极大的便利。

[0003] 但是，目前的视频会议中，用户注册并且登录视频会议系统的账号后，在进行远程视频会议的过程中，用户需要在视频会议系统中通过键盘手动打字以将会议过程的内容要点输出至公屏，供参与会议人员查看。但实际上，由于手动打字输入慢以及会议的讲话人内容过多，存在容易错漏会议的重要内容的问题。

[0004] 上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

[0005] 本发明的主要目的在于提供一种信息处理方法、装置及计算机可读存储介质，旨在解决容易错漏会议的重要内容的技术问题。

[0006] 为实现上述目的，本发明提供一种信息处理方法，所述信息处理方法包括以下步骤：

[0007] 获取视频会议系统所接收到的音频信息，以及所述音频信息对应的用户信息；

[0008] 基于所述音频信息和所述用户信息，确定视频会议当前发言人所发言的文字信息；

[0009] 基于所述文字信息，在所述视频会议系统的显示屏幕中的视频文本框显示所述文字信息。

[0010] 在一实施例中，所述获取视频会议系统所接收到的音频信息，以及所述音频信息对应的用户信息的步骤包括：

[0011] 获取所述视频会议系统所接收到的所述音频信息；

[0012] 基于所述音频信息，确定所述音频信息中的声纹特征信息；

[0013] 基于所述声纹特征信息，确定预设声纹信息库中与所述声纹特征信息相匹配的用户信息。

[0014] 在一实施例中，所述基于所述声纹特征信息，确定预设声纹信息库中与所述声纹特征信息相匹配的用户信息的步骤包括：

[0015] 检测所述预设声纹信息库中是否存在与所述声纹特征信息相匹配的用户信息；

[0016] 若所述预设声纹信息库中存在与所述声纹特征信息相匹配的用户信息，则获取所述用户信息；

[0017] 若所述预设声纹信息库中不存在与所述声纹特征信息相匹配的用户信息，则在所述预设声纹信息库中创建所述声纹特征信息对应的用户信息，并对应存储所述声纹特征信息。

[0018] 在一实施例中，所述基于所述音频信息和所述用户信息，确定视频会议当前发言人所发言的文字信息的步骤包括：

[0019] 基于所述音频信息，确定所述音频信息对应的音轨信息；

[0020] 基于所述音轨信息，确定所述音频信息对应的多个语句块；

[0021] 基于所述多个语句块和所述用户信息，确定所述视频会议当前发言人所发言的文字信息。

[0022] 在一实施例中，所述多个语句块包括第一语句块、第二语句块或第三语句块，所述基于所述音轨信息，确定所述音频信息对应的多个语句块的步骤包括：

[0023] 检测所述音轨信息中的停顿信息；

[0024] 若所述停顿信息大于或等于第一预设阈值，则确定所述音频信息对应的所述第一语句块；

[0025] 若所述停顿信息小于所述第一预设阈值且大于第二预设阈值，则确定所述音频信息对应的所述第二语句块，其中，所述第二预设阈值小于所述第一预设阈值；

[0026] 若所述停顿信息小于或等于所述第二预设阈值，则确定所述音频信息对应的所述第三语句块。

[0027] 在一实施例中，所述基于所述音频信息和所述用户信息，确定视频会议当前发言人所发言的文字信息的步骤之后，还包括：

[0028] 获取所述视频会议系统中的会议模板信息；

[0029] 基于所述文字信息和所述会议模板信息，确定所述视频会议的会议记录内容；

[0030] 基于所述会议记录内容，确定视频会议过程的会议记录文本。

[0031] 在一实施例中，所述获取视频会议系统所接收到的音频信息，以及所述音频信息对应的用户信息的步骤之前，还包括：

[0032] 若检测到所述视频文本框的第一开启指令，则在所述视频会议系统的显示屏幕中显示第一预设区域和第二预设区域，并在所述第一预设区域中显示所述视频会议的第一视频图像，在所述第二预设区域中显示所述视频文本框。

[0033] 在一实施例中，其特征在于，所述基于所述文字信息，在所述视频会议系统的显示屏幕中的视频文本框显示所述文字信息的步骤之后，还包括：

[0034] 若检测到所述视频文本框的第二开启指令，则在所述视频会议系统的显示屏幕中显示所述视频会议的第二视频图像，并在所述视频图像上显示所述视频文本框。

[0035] 此外，为实现上述目的，本发明还提供一种信息处理装置，所述信息处理装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息处理程序，所述信息处理程序被所述处理器执行时实现如上述的信息处理方法的步骤。

[0036] 此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息处理程序，所述信息处理程序被处理器执行时实现如上述的信息处理方法的步骤。

[0037] 本发明通过获取视频会议系统所接收到的音频信息，以及所述音频信息对应的用户信息，基于所述音频信息和所述用户信息，确定视频会议当前发言人所发言的文字信息，基于所述文字信息，在所述视频会议系统的显示屏幕中的视频文本框显示所述文字信息，实时将发言人当前发言的音频信息和发言人的用户信息转换成文字信息，并将文字信息实时显示于视频会议系统中的显示屏幕上，参会人员可看到当前发言人所发言的内容和发言人的身份，解决了由于手动打字输入慢以及发言人讲话内容过多，使参会人员容易错漏会议的重要内容的问题，并且能够快速在显示屏幕上输出会议记录的内容，提高了时效性和实用性，方便参会人员更好地了解和掌握会议内容。附图说明

[0038] 图1是本发明实施例方案涉及的硬件运行环境的信息处理装置结构示意图；

[0039] 图2为本发明信息处理方法第一实施例的流程示意图。

[0040] 本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

[0041] 应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0042] 如图1所示，图1是本发明实施例方案涉及的硬件运行环境的信息处理装置结构示意图。

[0043] 如图1所示，该信息处理装置可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

[0044] 可选地，信息处理装置还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。

[0045] 本领域技术人员可以理解，图1中示出的信息处理装置结构并不构成对信息处理装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

[0046] 如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及信息处理程序。

[0047] 在图1所示的信息处理装置中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的信息处理程序。

[0048] 在本实施例中，信息处理装置包括：存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的信息处理程序，其中，处理器1001调用存储器1005中存储的信息处理程序时，并执行以下操作：

[0049] 获取视频会议系统所接收到的音频信息，以及所述音频信息对应的用户信息；

[0050] 基于所述音频信息和所述用户信息，确定视频会议当前发言人所发言的文字信息；

[0051] 基于所述文字信息，在所述视频会议系统的显示屏幕中的视频文本框显示所述文字信息。

[0052] 进一步地，处理器1001可以调用存储器1005中存储的信息处理程序，还执行以下操作：

[0053] 获取所述视频会议系统所接收到的所述音频信息；

[0054] 基于所述音频信息，确定所述音频信息中的声纹特征信息；

[0055] 基于所述声纹特征信息，确定预设声纹信息库中与所述声纹特征信息相匹配的用户信息。

[0056] 进一步地，处理器1001可以调用存储器1005中存储的信息处理程序，还执行以下操作：

[0057] 检测所述预设声纹信息库中是否存在与所述声纹特征信息相匹配的用户信息；

[0058] 若所述预设声纹信息库中存在与所述声纹特征信息相匹配的用户信息，则获取所述用户信息；

[0059] 若所述预设声纹信息库中不存在与所述声纹特征信息相匹配的用户信息，则在所述预设声纹信息库中创建所述声纹特征信息对应的用户信息，并对应存储所述声纹特征信息。

[0060] 进一步地，处理器1001可以调用存储器1005中存储的信息处理程序，还执行以下操作：

[0061] 基于所述音频信息，确定所述音频信息对应的音轨信息；

[0062] 基于所述音轨信息，确定所述音频信息对应的多个语句块；

[0063] 基于所述多个语句块和所述用户信息，确定所述视频会议当前发言人所发言的文字信息。

[0064] 进一步地，处理器1001可以调用存储器1005中存储的信息处理程序，还执行以下操作：

[0065] 检测所述音轨信息中的停顿信息；

[0066] 若所述停顿信息大于或等于第一预设阈值，则确定所述音频信息对应的所述第一语句块；

[0067] 若所述停顿信息小于所述第一预设阈值且大于第二预设阈值，则确定所述音频信息对应的所述第二语句块，其中，所述第二预设阈值小于所述第一预设阈值；

[0068] 若所述停顿信息小于或等于所述第二预设阈值，则确定所述音频信息对应的所述第三语句块。

[0069] 进一步地，处理器1001可以调用存储器1005中存储的信息处理程序，还执行以下操作：

[0070] 获取所述视频会议系统中的会议模板信息；

[0071] 基于所述文字信息和所述会议模板信息，确定所述视频会议的会议记录内容；

[0072] 基于所述会议记录内容，确定视频会议过程的会议记录文本。

[0073] 进一步地，处理器1001可以调用存储器1005中存储的信息处理程序，还执行以下操作：

[0074] 若检测到所述视频文本框的第一开启指令，则在所述视频会议系统的显示屏幕中显示第一预设区域和第二预设区域，并在所述第一预设区域中显示所述视频会议的第一视频图像，在所述第二预设区域中显示所述视频文本框。

[0075] 进一步地，处理器1001可以调用存储器1005中存储的信息处理程序，还执行以下操作：

[0076] 若检测到所述视频文本框的第二开启指令，则在所述视频会议系统的显示屏幕中显示所述视频会议的第二视频图像，并在所述视频图像上显示所述视频文本框。

[0077] 本发明还提供一种信息处理方法，参照图2，图2为本发明信息处理方法第一实施例的流程示意图，该信息处理方法包括：

[0078] 步骤S10，获取视频会议系统所接收到的音频信息，以及所述音频信息对应的用户信息；

[0079] 在本实施例中，当处于不同地理区域的用户或者多个用户需要进行远程视频会议时，通过视频会议系统，建立处于不同地理区域的会场之间的连接，即可开启远程视频会议。在远程视频会议中，通过视频会议系统中的显示屏幕，参会者可以实时同步看到和听到其他会场的参会人员的图像和声音。视频会议系统开启后，参与视频会议的多方会场的远程桌面与该视频会议系统建立连接，视频会议开始，视频会议系统控制非发言的分会场禁声，即关闭非发言的分会场的音频信息的获取功能，开启发言的主会场的音频信息的获取功能。在发言的主会场，一发言人正对着视频会议系统的麦克风发言，通过音频信息获取系统，可获取发言人当前讲话产生的音频信息。或者，主会场获取音频信息后，将音频信息转换成数据通道可传输的原始音频信息，分会场中的视频会议系统先获取从数据通道传输过来的原始音频信息，原始音频信息为主会场中发言人所发言的信息，然后传输至分会场中的视频会议系统，视频会议系统接收该原始音频信息，并将该原始音频信息转换成视频会议系统所需的音频信息，转换成音频信息后，并获取该音频信息。

[0080] 进一步地，每个发言的会场中的发言人对应着一用户信息，因此每组音频信息都具有与之相匹配的用户信息。获取音频信息后，通过音频识别系统识别获取到的音频信息，并且通过用户信息匹配系统，检测出与音频信息相匹配的用户信息。因此，在获取视频会议系统所接收到的音频信息后，通过音频信息-用户信息匹配系统可获取音频信息对应的用户信息。

[0081] 可以理解的是，主会场的视频会议系统中存储本会场的所需发言的发言人的用户信息，每个分会场也存储着分会场自身的用户信息，每个会场可以互相分享各自所存储的发言人的用户信息，每个会场的视频会议系统也可设置拒绝分享用户信息。

[0082] 步骤S20，基于所述音频信息和所述用户信息，确定视频会议当前发言人所发言的文字信息；

[0083] 在本实施例中，在获取音频信息和用户信息后，通过音频/用户-文字系统，将获取到的音频信息转换成文字内容，在用户信息中识别出发言人的名称，并将发言人的名称放在文字内容之前，发明人的名称和文字内容之间用符号隔开，即可确定视频会议当前发言人所发言的文字信息。其中，文字信息包括发言人的名称、符号以及该发明人所发言的内容；符号可以是任意标点符号或者其他符号，如冒号或者横杠等；发明人的名称包括中文名称、英文名称或者临时命名的名称等。

[0084] 具体地，若所接收到的用户信息中包含发言人的性别信息或者职位信息等，音频/用户-文字系统在识别发言人的名称的过程中，还包括识别发言人的性别或者职位等，并在发言人的名称后添加发言人的身份如“先生或女士”或者职位如“经理或CEO”等。若所接收到的用户信息中不包含发言人的性别信息或者职位信息等，音频/用户-文字系统则直接识别发言人的名称即可。

[0085] 例如，假设甲经理正在发言的主会场中发言，主会场的视频会议系统中的音频信息获取系统获取甲经理当前所发言的音频信息，视频会议系统中的用户信息匹配系统获取甲经理在该视频会议系统中所匹配的用户信息，之后分别将音频信息和用户信息发送至音频/用户-文字系统。若甲经理当前发言的音频信息中的内容为“各位领导和同事，下午好”，音频/用户-文字系统将接收到的音频信息转换成文字内容，即“各位领导和同事，下午好”，从用户信息中提取甲经理的名称为“甲经理”，并且将“甲经理”放至“各位领导和同事，下午好”前，“甲经理”和“各位领导和同事，下午好”之间使用“：”连接，从而得到文字信息为“甲经理：各位领导和同事，下午好”。

[0086] 步骤S30，基于所述文字信息，在所述视频会议系统的显示屏幕中的视频文本框显示所述文字信息。

[0087] 在本实施例中，在确定视频会议当前发言人所发言的文字信息后，视频会议系统中的文字显示系统获取该文字信息，并在视频会议系统的显示屏幕中的视频文本框显示所获取到的文字信息，以供每个会场中参会人员在发言人发言的同时看到发言人所发言的内容。其中，视频文本框为用户在视频会议系统的显示屏幕中预先设置的，视频文本框可显示发言的主会场中的发言人所发言的内容，且视频文本框可设置于视频图像的右方或者左方或者上方或者下方等，也可设置悬浮于视频图像之上。

[0088] 本实施例提出的信息处理方法，通过获取视频会议系统所接收到的音频信息，以及所述音频信息对应的用户信息，基于所述音频信息和所述用户信息，确定视频会议当前发言人所发言的文字信息，基于所述文字信息，在所述视频会议系统的显示屏幕中的视频文本框显示所述文字信息，实时将发言人当前发言的音频信息和发言人的用户信息转换成文字信息，并将文字信息实时显示于视频会议系统中的显示屏幕上，参会人员可看到当前发言人所发言的内容和发言人的身份，解决了由于手动打字输入慢以及发言人讲话内容过多，使参会人员容易错漏会议的重要内容的问题，并且能够快速在显示屏幕上输出会议记录的内容，提高了时效性和实用性，方便参会人员更好地了解和掌握会议内容。

[0089] 基于第一实施例，提出本发明信息处理方法的第二实施例，在本实施例中，步骤S10包括：

[0090] 步骤a，获取所述视频会议系统所接收到的所述音频信息；

[0091] 在本实施例中，在视频会议的过程中，通过视频会议系统中的显示屏幕，参会者可以实时同步看到和听到其他会场的参会人员的图像和声音。视频会议系统开启后，参与视频会议的多方会场的远程桌面与该视频会议系统建立连接，视频会议开始，视频会议系统控制非发言的分会场禁声，即关闭非发言的分会场的音频信息的获取功能，开启发言的主会场的音频信息的获取功能。在发言的主会场，一发言人正对着视频会议系统的麦克风发言，通过音频信息获取系统，可获取发言人当前讲话产生的音频信息。或者，主会场获取音频信息后，将音频信息转换成数据通道可传输的原始音频信息，分会场中的视频会议系统先获取从数据通道传输过来的原始音频信息，原始音频信息为主会场中发言人所发言的信息，然后传输至分会场中的视频会议系统，视频会议系统接收该原始音频信息，并将该原始音频信息转换成视频会议系统所需的音频信息，转换成音频信息后，并获取该音频信息。

[0092] 步骤b，基于所述音频信息，确定所述音频信息中的声纹特征信息；

[0093] 在本实施例中，在视频会议系统获取到音频信息后，由于发言人的音频信息中包含声纹特征信息，因此解析所获取到的音频信息，可以从音频信息中提取发言人的声纹特征信息，以确定音频信息中的声纹特征信息，以进一步地识别出发言人的用户信息或者身份信息。

[0094] 步骤c，基于所述声纹特征信息，确定预设声纹信息库中与所述声纹特征信息对应的用户信息。

[0095] 在本实施例中，在确定声纹特征信息后，用户信息匹配系统获取发言人的音频信息对应的声纹特征信息，用户信息匹配系统在视频会议系统的预设声纹信息库中检测与该声纹特征信息相匹配的用户信息，即检测与音频信息相匹配的用户信息。

[0096] 可以理解地，每个会场自身的视频会议系统都拥有自己的预设声纹信息库，预设声纹信息库中存储这本会场发言人的声纹特征信息和声纹特征信息对应的用户信息，即主会场的预设声纹信息库中存储着主会场中发言人的声纹特征信息和用户信息，每个分会场的预设声纹信息库中也存储着分会场自身的声纹特征信息和用户信息，且会场与会场之间的预设声纹信息库中各自持有会场自己的声纹特征信息，不互相分享。

[0097] 进一步地，一实施例中，基于所述声纹特征信息，确定预设声纹信息库中与所述声纹特征信息对应的用户信息的步骤包括：

[0098] 步骤d，检测所述预设声纹信息库中是否存在与所述声纹特征信息相匹配的用户信息；

[0099] 在本实施例中，在获取发言人的音频信息中的声纹特征信息后，确定预设声纹信息库中与声纹特征信息对应的用户信息的手段为检测预设声纹信息库中是否存在与声纹特征信息相匹配的用户信息，由于预设声纹信息库中预先存储了发言人的用户信息和声纹特征，因此通过检测预设声纹信息库中是否预先存储了声纹特征信息，可判断视频会议系统是否预先存储了发言人的用户信息，以进一步确定发言人的用户信息。

[0100] 步骤e，若所述预设声纹信息库中存在与所述声纹特征信息相匹配的用户信息，则获取所述用户信息；

[0101] 在本实施例中，检测预设声纹信息库中是否存在与声纹特征信息相匹配的用户信息后，若预设声纹信息库中存在与声纹特征信息相匹配的用户特征信息，则说明预设声纹信息库中预先存储了发言人的用户信息，即当前视频会议系统中预先录入了该发言人的声纹特征和用户信息，此时则获取该发言人的用户信息。

[0102] 步骤f，若所述预设声纹信息库中不存在与所述声纹特征信息相匹配的用户信息，则在所述预设声纹信息库中创建所述声纹特征信息对应的用户信息，并对应存储所述声纹特征信息。

[0103] 在本实施例中，检测预设声纹信息库中是否存在与声纹特征信息相匹配的用户信息后，若预设声纹信息库中不存在与声纹特征信息相匹配的用户信息，说明预设声纹信息库中并未预先存储用户的声纹特征信息和用户信息，即当前视频会议系统中并未预先录入该发言人的声纹特征和用户信息，此时则在预设声纹信息库中创建一用户信息，并获取该用户信息。

[0104] 本实施例提出的信息处理方法，通过获取所述视频会议系统所接收到的所述音频信息，基于所述音频信息，确定所述音频信息中的声纹特征信息，基于所述声纹特征信息，确定预设声纹信息库中与所述声纹特征信息相匹配的用户信息，即通过获取发言人的音频信息中的声纹特征信息，接着检测预设声纹库中存储的发言人的声纹特征信息和用户信息，准确确定发言人的身份和发言人的身份是否合法，提高了视频会议系统的可用性、实用性以及安全性，便于大型会议视频会议系统的管理，以及使得视频会议系统更加智能和便捷。

[0105] 基于第一实施例，提出本发明信息处理方法的第三实施例，在本实施例中，步骤S20包括：

[0106] 步骤g，基于所述音频信息，确定所述音频信息对应的音轨信息；

[0107] 在本实施例中，获取发言人的音频信息后，解析该音频信息，从音频信息中提取音轨信息，即解析音频信号的音轨，以供后续分析音频信号的音轨，即分析音频信息的音轨信息。

[0108] 步骤h，基于所述音轨信息，确定所述音频信息对应的多个语句块；

[0109] 在本实施例中，在音频信息转换文字信息的过程中，且在确定音频信息对应的音轨信息后，首先分析该音轨信息，即分析音频信号的音轨，通过分析音轨信息划分不同的语句块，确定多个语句块，以进行对发言人所讲的句子进行断句。

[0110] 步骤i，基于所述多个语句块和所述用户信息，确定所述视频会议当前发言人所发言的文字信息。

[0111] 在本实施例中，在音频信息转换成文字内容的过程中，在划分多个语句块完成后，获取多个语句块和用户信息，将多个语句块和用户信息组合成文字信息，即在用户信息中识别出发言人的名称，并将发言人的名称放在多个语句块之前，发明人的名称和多个语句块之间用符号隔开，即可确定视频会议当前发言人所发言的文字信息。

[0112] 进一步地，一实施例中，多个语句块包括第一语句块、第二语句块或第三语句块，所述基于所述音轨信息，确定所述音频信息对应的多个语句块的步骤包括：

[0113] 步骤j，检测所述音轨信息中的停顿信息；

[0114] 在本实施例中，确定音频信息对应的多个语句块的过程中，首先获取音轨信息，并对音轨信息进行分析，以检测其中的停顿信息。通过检测音轨信息中的停顿信息，可对发言人的发言内容进行断句。

[0115] 步骤k，若所述停顿信息大于或等于第一预设阈值，则确定所述音频信息对应的所述第一语句块；

[0116] 在本实施例中，在检测音轨信息中的停顿信息后，若音轨信息中的停顿信息大于或等于第一预设阈值时，说明此时停顿信息最大，则确定音频信息对应的第一语句块，第一语句块之后换行以确定第一语句块。其中，第一预设阈值可以是时间或者能量值，时间即音轨信息的停顿时间，能量值即音频能量。

[0117] 步骤l，若所述停顿信息小于所述第一预设阈值且大于第二预设阈值，则确定所述音频信息对应的所述第二语句块，其中，所述第二预设阈值小于所述第一预设阈值；

[0118] 在本实施例中，在检测音轨信息中的停顿信息后，若音轨信息中的停顿信息小于第一预设阈值且大于第二预设阈值，说明此时停顿信息较大，则确定音频信息对应的第二语句块，第二语句块之后添加句号以确定第二语句块。其中，第二预设阈值小于第一预设阈值；第二预设阈值可以是时间或者能量值，时间即音轨信息的停顿时间，能量值即音频能量。

[0119] 步骤m，若所述停顿信息小于或等于所述第二预设阈值，则确定所述音频信息对应的所述第三语句块。

[0120] 在本实施例中，在检测音轨信息中的停顿信息后，若音轨信息中的停顿信息小于或等于第二预设阈值，说明此时停顿信息较小，则确定音频信息对应的第三语句块，第三语句块之后添加逗号以确定第三语句块；任意数量的第一语句块、第二语句块和第三语句块组成视频会议当前发言人所发言的文字信息。

[0121] 本实施例提出的信息处理方法，通过基于所述音频信息，确定所述音频信息对应的音轨信息，基于所述音轨信息，确定所述音频信息对应的多个语句块，基于所述多个语句块和所述用户信息，确定所述视频会议当前发言人所发言的文字信息，采用分析音频信息中的音轨信息的方法，将发言人的发言内容划分成多个语句块，将发言人的发言内容进行断句，从而可以完整地确定视频会议当前发言人所发言的文字信息，增加了文字内容的可读性，提高了视频会议系统的实用性，使得视频会议系统更加智能和便捷。

[0122] 基于第一实施例，提出本发明信息处理方法的第四实施例，在本实施例中，步骤S20之后，还包括：

[0123] 步骤o，获取所述视频会议系统中的会议模板信息；

[0124] 在本实施例中，在视频会议系统中预先存储了会议模板信息，会议模板信息可以从互联网中下载，也可本地上传至视频会议系统，该会议模板信息决定了输出的会议纪要的布局，因此在输出会议纪要前，首先获取视频会议系统中预先存储的会议模板信息。

[0125] 步骤p，基于所述文字信息，确定所述视频会议的会议记录内容；

[0126] 在本实施例中，在视频会议的过程中，视频会议系统记录下每个发言人的文字信息，每个发言人都对应着不同的文字信息，最后将本次视频会议中所有发言人的文字信息，按照视频会议系统中预先设置的会议纪要模板，确定此次视频会议的会议记录内容，即确定此次视频会议的会议纪要内容。

[0127] 步骤q，基于所述会议记录内容，确定视频会议过程的会议记录文本。

[0128] 在本实施例中，在视频会议的过程中，确定此次视频会议的会议记录内容后，视频会议系统将会议记录内容发送至打印端，通过打印端可将会议记录内容打印成纸质的文本，即确定视频会议过程的会议记录文本，以供参会人员查看，使参会人员更好地了解和掌握会议内容。

[0129] 进一步地，一实施例中，获取视频会议系统所接收到的音频信息，以及所述音频信息对应的用户信息的步骤之前，还包括：

[0130] 步骤r，若检测到所述视频文本框的第一开启指令，则在所述视频会议系统的显示屏幕中显示第一预设区域和第二预设区域，并在所述第一预设区域中显示所述视频会议的第一视频图像，在所述第二预设区域中显示所述视频文本框。

[0131] 在本实施例中，若检测到视频文本框的第一开启指令，第一开启指令为一种开启视频文本的形式，也是开启视频文本框的指令，因此当用户此时开启视频文本框，则在视频会议系统的显示屏幕中显示第一预设区域和第二预设区域，并在第一预设区域中显示视频会议的第一视频图像，在第二预设区域中显示视频文本框，如在显示屏幕的左边区域显示视频图像，如在显示屏幕的右边区域显示视频文本框。

[0132] 进一步地，一实施例中，基于所述文字信息，在所述视频会议系统的显示屏幕中的视频文本框显示所述文字信息的步骤之后，还包括：

[0133] 步骤s，若检测到视频文本框的第二开启指令，第二开启指令也是一种开启视频文本的形式，也是开启视频文本框的指令，因此当用户此时设置第二种开启视频文本框的操作，则在视频会议系统的显示屏幕中显示视频会议的第二视频图像，并在视频图像上显示所述视频文本框，如将视频文本框悬浮显示在视频图像上，视频文本框中显示的文字内容之下可以看到视频会议的图像。

[0134] 本实施例提出的信息处理方法，通过获取所述视频会议系统中的会议模板信息，基于所述文字信息和所述会议模板信息，确定所述视频会议的会议记录内容，基于所述会议记录内容，确定视频会议过程的会议记录文本，根据设定的会议模板信息将所有发言人的文字信息按照一定的模板输出会议纪要，即确定视频会议全过程的会议记录文本，输出会议纪要，以供参会人员查看，使参会人员更好地了解和掌握会议内容，提高了视频会议系统的实用性，使得视频会议系统更加智能和便捷。

[0135] 此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有信息处理程序，所述信息处理程序被处理器执行时实现如下操作：

[0136] 获取视频会议系统所接收到的音频信息，以及所述音频信息对应的用户信息；

[0137] 基于所述音频信息和所述用户信息，确定视频会议当前发言人所发言的文字信息；

[0138] 基于所述文字信息，在所述视频会议系统的显示屏幕中的视频文本框显示所述文字信息。

[0139] 进一步地，所述信息处理程序被处理器执行时还实现如下操作：

[0140] 获取所述视频会议系统所接收到的所述音频信息；

[0141] 基于所述音频信息，确定所述音频信息中的声纹特征信息；

[0142] 基于所述声纹特征信息，确定预设声纹信息库中与所述声纹特征信息相匹配的用户信息。

[0143] 进一步地，所述信息处理程序被处理器执行时还实现如下操作：

[0144] 检测所述预设声纹信息库中是否存在与所述声纹特征信息相匹配的用户信息；

[0145] 若所述预设声纹信息库中存在与所述声纹特征信息相匹配的用户信息，则获取所述用户信息；

[0146] 若所述预设声纹信息库中不存在与所述声纹特征信息相匹配的用户信息，则在所述预设声纹信息库中创建所述声纹特征信息对应的用户信息，并对应存储所述声纹特征信息。

[0147] 进一步地，所述信息处理程序被处理器执行时还实现如下操作：

[0148] 基于所述音频信息，确定所述音频信息对应的音轨信息；

[0149] 基于所述音轨信息，确定所述音频信息对应的多个语句块；

[0150] 基于所述多个语句块和所述用户信息，确定所述视频会议当前发言人所发言的文字信息。

[0151] 进一步地，所述信息处理程序被处理器执行时还实现如下操作：

[0152] 检测所述音轨信息中的停顿信息；

[0153] 若所述停顿信息大于或等于第一预设阈值，则确定所述音频信息对应的所述第一语句块；

[0154] 若所述停顿信息小于所述第一预设阈值且大于第二预设阈值，则确定所述音频信息对应的所述第二语句块，其中，所述第二预设阈值小于所述第一预设阈值；

[0155] 若所述停顿信息小于或等于所述第二预设阈值，则确定所述音频信息对应的所述第三语句块。

[0156] 进一步地，所述信息处理程序被处理器执行时还实现如下操作：

[0157] 获取所述视频会议系统中的会议模板信息；

[0158] 基于所述文字信息和所述会议模板信息，确定所述视频会议的会议记录内容；

[0159] 基于所述会议记录内容，确定视频会议过程的会议记录文本。

[0160] 进一步地，所述信息处理程序被处理器执行时还实现如下操作：

[0161] 若检测到所述视频文本框的第一开启指令，则在所述视频会议系统的显示屏幕中显示第一预设区域和第二预设区域，并在所述第一预设区域中显示所述视频会议的第一视频图像，在所述第二预设区域中显示所述视频文本框。

[0162] 进一步地，所述信息处理程序被处理器执行时还实现如下操作：

[0163] 若检测到所述视频文本框的第二开启指令，则在所述视频会议系统的显示屏幕中显示所述视频会议的第二视频图像，并在所述视频图像上显示所述视频文本框。

[0164] 需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

[0165] 上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

[0166] 通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

[0167] 以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

标题	发布/更新时间	阅读量
影像缝合方法及影像处理装置	2020-05-08	263
一种优化首选音轨语言设置项的方法及其数码系统	2020-05-11	358
音频处理方法、装置、计算机设备及存储介质	2020-05-12	926
一种视频处理方法、电子设备及存储介质	2020-05-13	973
一种跟随音频震动的智能鞋	2020-05-13	50
音频处理方法及装置、存储介质	2020-05-08	756
媒体回放系统中的音频内容搜索	2020-05-11	783
变化音频回放	2020-05-13	582
用于激光投影单元的运行方法和控制单元以及激光投影单元	2020-05-12	638
一种方便调节的多功能监听控制器	2020-05-08	983

信息处理方法、装置及计算机可读存储介质

信息处理方法、装置及计算机可读存储介质

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：