一种语音处理方法、装置及存储介质专利检索-数据库资料储存系统专利检索查询-专利查询网

一种语音处理方法、装置及存储介质

阅读：948发布：2024-01-30

专利汇可以提供一种语音处理方法、装置及存储介质专利检索，专利查询，专利分析的服务。并且本发明实施例提供了一种语音处理方法、装置及一种装置和一种存储介质，其中，所述方法包括：语音识别服务器获取语音数据流以及用户信息；语音识别服务器在第一时间将语音数据流以及对应的用户信息存储在第一位置处；语音识别服务器在第二时间对语音数据流进行语音识别得到文本数据，第一时间早于第二时间；语音识别服务器响应于用户的操作，对文本数据进行修改和/或整理，将修改和/或整理后的文本数据以及对应的用户信息存储在第二位置处。本发明实施例实现了保存文本形式的会议内容的功能，降低了消耗的存储空间，得到直接与视频会议相关的会议内容，避免了同时执行语音数据流的存储操作和语音识别操作，缓解了语音识别服务器的运行压力。，下面是一种语音处理方法、装置及存储介质专利的具体信息内容。

权利要求

1.一种语音处理方法，其特征在于，应用于基于视联网的视频会议系统，所述视频会议系统包括：语音识别服务器、第一终端和第二终端，其中，所述语音识别服务器分别与所述第一终端和所述第二终端通信连接，所述方法包括：
所述语音识别服务器从所述第一终端和/或所述第二终端获取视频会议中的语音数据流，以及，所述第一终端和/或所述第二终端的用户信息；
所述语音识别服务器在第一时间将所述语音数据流以及与所述语音数据流对应的所述用户信息存储在预设的第一位置处；
所述语音识别服务器在第二时间对所述语音数据流进行语音识别得到文本数据，所述第一时间早于所述第二时间；
所述语音识别服务器响应于用户的操作，对所述文本数据进行修改和/或整理，并将修改和/或整理后的文本数据以及与所述文本数据对应的所述用户信息存储在预设的第二位置处。
2.根据权利要求1所述的语音处理方法，其特征在于，所述视频会议系统还包括：第一终端管理服务器和第二终端管理服务器，所述第一终端管理服务器分别与所述语音识别服务器和所述第一终端通信连接，所述第二终端管理服务器分别与所述语音识别服务器和所述第二终端通信连接；
所述语音识别服务器从所述第一终端和/或所述第二终端获取所述第一终端和/或所述第二终端的用户信息的步骤，包括：
所述语音识别服务器从所述第一终端管理服务器获取所述第一终端的实体终端编码，和/或，所述语音识别服务器从所述第二终端管理服务器中获取所述第二终端的虚拟终端编码；
其中，所述第一终端管理服务器中存储有所述实体终端编码，并对所述实体终端编码进行管理，所述第二终端管理服务器中存储有所述第二终端上的登录用户信息，以及，与所述登录用户信息绑定的所述虚拟终端编码。
3.根据权利要求1所述的语音处理方法，其特征在于，所述视频会议系统还包括：与所述语音识别服务器通信连接的语音识别数据库；
所述语音识别服务器在第二时间对所述语音数据流进行语音识别得到文本数据的步骤，包括：
所述语音识别服务器调用预设的语音识别接口，从所述语音识别数据库中提取语音识别信息，根据所述语音识别信息在所述第二时间对所述语音数据流进行语音识别得到所述文本数据。
4.根据权利要求3所述的语音处理方法，其特征在于，所述语音识别服务器包括：第一终端语音识别服务器和第二终端语音识别服务器；
所述语音识别服务器调用预设的语音识别接口，从所述语音识别数据库中提取语音识别信息，根据所述语音识别信息在所述第二时间对所述语音数据流进行语音识别得到所述文本数据的步骤，包括：
所述第一终端语音识别服务器调用所述语音识别接口，从所述语音识别数据库中提取所述语音识别信息，根据所述语音识别信息在所述第二时间对来自所述第一终端的所述语音数据流进行语音识别得到所述文本数据；和/或，
所述第二终端语音识别服务器调用所述语音识别接口，从所述语音识别数据库中提取所述语音识别信息，根据所述语音识别信息在所述第二时间对来自所述第二终端的所述语音数据流进行语音识别得到所述文本数据。
5.根据权利要求3所述的语音处理方法，其特征在于，所述第二终端，用于调用所述语音识别接口，从所述语音识别数据库中提取所述语音识别信息，根据所述语音识别信息在所述第二时间对所述第二终端的所述语音数据流进行语音识别得到所述文本数据。
6.一种语音处理装置，其特征在于，应用于基于视联网的视频会议系统中的语音识别服务器，所述视频会议系统包括：所述语音识别服务器、第一终端和第二终端，其中，所述语音识别服务器分别与所述第一终端和所述第二终端通信连接，所述装置包括：
获取模块，用于从所述第一终端和/或所述第二终端获取视频会议中的语音数据流，以及，所述第一终端和/或所述第二终端的用户信息；
存储模块，用于在第一时间将所述语音数据流以及与所述语音数据流对应的所述用户信息存储在预设的第一位置处；
识别模块，用于在第二时间对所述语音数据流进行语音识别得到文本数据，所述第一时间早于所述第二时间；
编辑模块，用于响应于用户的操作，对所述文本数据进行修改和/或整理，并将修改和/或整理后的文本数据以及与所述文本数据对应的所述用户信息存储在预设的第二位置处。
7.根据权利要求6所述的语音处理装置，其特征在于，所述视频会议系统还包括：第一终端管理服务器和第二终端管理服务器，所述第一终端管理服务器分别与所述语音识别服务器和所述第一终端通信连接，所述第二终端管理服务器分别与所述语音识别服务器和所述第二终端通信连接；
所述获取模块，用于从所述第一终端管理服务器获取所述第一终端的实体终端编码，和/或，从所述第二终端管理服务器中获取所述第二终端的虚拟终端编码；
其中，所述第一终端管理服务器中存储有所述实体终端编码，并对所述实体终端编码进行管理，所述第二终端管理服务器中存储有所述第二终端上的登录用户信息，以及，与所述登录用户信息绑定的所述虚拟终端编码。
8.根据权利要求6所述的语音处理装置，其特征在于，所述视频会议系统还包括：与所述语音识别服务器通信连接的语音识别数据库；
所述识别模块，用于调用预设的语音识别接口，从所述语音识别数据库中提取语音识别信息，根据所述语音识别信息在所述第二时间对所述语音数据流进行语音识别得到所述文本数据；
所述语音识别服务器包括：第一终端语音识别服务器和第二终端语音识别服务器；
所述第一终端语音识别服务器，用于调用所述语音识别接口，从所述语音识别数据库中提取所述语音识别信息，根据所述语音识别信息在所述第二时间对来自所述第一终端的所述语音数据流进行语音识别得到所述文本数据；
所述第二终端语音识别服务器，用于调用所述语音识别接口，从所述语音识别数据库中提取所述语音识别信息，根据所述语音识别信息在所述第二时间对来自所述第二终端的所述语音数据流进行语音识别得到所述文本数据；
所述第二终端，用于调用所述语音识别接口，从所述语音识别数据库中提取所述语音识别信息，根据所述语音识别信息在所述第二时间对所述第二终端的所述语音数据流进行语音识别得到所述文本数据。
9.一种装置，其特征在于，包括：
一个或多个处理器；和
其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行如权利要求1至5所述的一个或多个的语音处理方法。
10.一种计算机可读存储介质，其特征在于，其存储的计算机程序使得处理器执行如权利要求1至5任一项所述的语音处理方法。

说明书全文

一种语音处理方法、装置及存储介质

技术领域

[0001] 本发明涉及视联网技术领域，特别是涉及一种语音处理方法、装置以及一种装置和一种计算机可读存储介质。

背景技术

[0002] 视联网是一种基于以太网硬件的用于高速传输高清视频及专用协议的专用网络，视联网是以太网的更高级形态，是一个实时网络。在基于视联网的视频会议中，参会者的讲话内容等需要记录下来。

[0003] 但是，参会者的讲话内容主要以语音的形式传播给视联网的视频会议中的各参会终端。若将语音数据记录下来进行保存，一方面，语音数据会占用较多的存储空间。另一方面，语音数据中可能存在较多与视频会议无关的内容，无法简单地从语音数据中得到直接与视频会议相关的会议内容。

发明内容

[0004] 鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音处理方法、装置以及一种装置和一种计算机可读存储介质。

[0005] 为了解决上述问题，本发明实施例公开了一种语音处理方法，应用于基于视联网的视频会议系统，所述视频会议系统包括：语音识别服务器、第一终端和第二终端，其中，所述语音识别服务器分别与所述第一终端和所述第二终端通信连接，所述方法包括：所述语音识别服务器从所述第一终端和/或所述第二终端获取视频会议中的语音数据流，以及，所述第一终端和/或所述第二终端的用户信息；所述语音识别服务器在第一时间将所述语音数据流以及与所述语音数据流对应的所述用户信息存储在预设的第一位置处；所述语音识别服务器在第二时间对所述语音数据流进行语音识别得到文本数据，所述第一时间早于所述第二时间；所述语音识别服务器响应于用户的操作，对所述文本数据进行修改和/或整理，并将修改和/或整理后的文本数据以及与所述文本数据对应的所述用户信息存储在预设的第二位置处。

[0006] 可选地，所述视频会议系统还包括：第一终端管理服务器和第二终端管理服务器，所述第一终端管理服务器分别与所述语音识别服务器和所述第一终端通信连接，所述第二终端管理服务器分别与所述语音识别服务器和所述第二终端通信连接；所述语音识别服务器从所述第一终端和/或所述第二终端获取所述第一终端和/或所述第二终端的用户信息的步骤，包括：所述语音识别服务器从所述第一终端管理服务器获取所述第一终端的实体终端编码，和/或，所述语音识别服务器从所述第二终端管理服务器中获取所述第二终端的虚拟终端编码；其中，所述第一终端管理服务器中存储有所述实体终端编码，并对所述实体终端编码进行管理，所述第二终端管理服务器中存储有所述第二终端上的登录用户信息，以及，与所述登录用户信息绑定的所述虚拟终端编码。

[0007] 可选地，所述视频会议系统还包括：与所述语音识别服务器通信连接的语音识别数据库；所述语音识别服务器在第二时间对所述语音数据流进行语音识别得到文本数据的步骤，包括：所述语音识别服务器调用预设的语音识别接口，从所述语音识别数据库中提取语音识别信息，根据所述语音识别信息在所述第二时间对所述语音数据流进行语音识别得到所述文本数据。

[0008] 可选地，所述语音识别服务器包括：第一终端语音识别服务器和第二终端语音识别服务器；所述语音识别服务器调用预设的语音识别接口，从所述语音识别数据库中提取语音识别信息，根据所述语音识别信息在所述第二时间对所述语音数据流进行语音识别得到所述文本数据的步骤，包括：所述第一终端语音识别服务器调用所述语音识别接口，从所述语音识别数据库中提取所述语音识别信息，根据所述语音识别信息在所述第二时间对来自所述第一终端的所述语音数据流进行语音识别得到所述文本数据；和/或，所述第二终端语音识别服务器调用所述语音识别接口，从所述语音识别数据库中提取所述语音识别信息，根据所述语音识别信息在所述第二时间对来自所述第二终端的所述语音数据流进行语音识别得到所述文本数据。

[0009] 可选地，所述第二终端，用于调用所述语音识别接口，从所述语音识别数据库中提取所述语音识别信息，根据所述语音识别信息在所述第二时间对所述第二终端的所述语音数据流进行语音识别得到所述文本数据。

[0010] 本发明实施例还公开了一种语音处理装置，应用于基于视联网的视频会议系统中的语音识别服务器，所述视频会议系统包括：所述语音识别服务器、第一终端和第二终端，其中，所述语音识别服务器分别与所述第一终端和所述第二终端通信连接，所述装置包括：获取模块，用于从所述第一终端和/或所述第二终端获取视频会议中的语音数据流，以及，所述第一终端和/或所述第二终端的用户信息；存储模块，用于在第一时间将所述语音数据流以及与所述语音数据流对应的所述用户信息存储在预设的第一位置处；识别模块，用于在第二时间对所述语音数据流进行语音识别得到文本数据，所述第一时间早于所述第二时间；编辑模块，用于响应于用户的操作，对所述文本数据进行修改和/或整理，并将修改和/或整理后的文本数据以及与所述文本数据对应的所述用户信息存储在预设的第二位置处。

[0011] 可选地，所述视频会议系统还包括：第一终端管理服务器和第二终端管理服务器，所述第一终端管理服务器分别与所述语音识别服务器和所述第一终端通信连接，所述第二终端管理服务器分别与所述语音识别服务器和所述第二终端通信连接；所述获取模块，用于从所述第一终端管理服务器获取所述第一终端的实体终端编码，和/或，从所述第二终端管理服务器中获取所述第二终端的虚拟终端编码；其中，所述第一终端管理服务器中存储有所述实体终端编码，并对所述实体终端编码进行管理，所述第二终端管理服务器中存储有所述第二终端上的登录用户信息，以及，与所述登录用户信息绑定的所述虚拟终端编码。

[0012] 可选地，所述视频会议系统还包括：与所述语音识别服务器通信连接的语音识别数据库；所述识别模块，用于调用预设的语音识别接口，从所述语音识别数据库中提取语音识别信息，根据所述语音识别信息在所述第二时间对所述语音数据流进行语音识别得到所述文本数据；所述语音识别服务器包括：第一终端语音识别服务器和第二终端语音识别服务器；所述第一终端语音识别服务器，用于调用所述语音识别接口，从所述语音识别数据库中提取所述语音识别信息，根据所述语音识别信息在所述第二时间对来自所述第一终端的所述语音数据流进行语音识别得到所述文本数据；所述第二终端语音识别服务器，用于调用所述语音识别接口，从所述语音识别数据库中提取所述语音识别信息，根据所述语音识别信息在所述第二时间对来自所述第二终端的所述语音数据流进行语音识别得到所述文本数据；所述第二终端，用于调用所述语音识别接口，从所述语音识别数据库中提取所述语音识别信息，根据所述语音识别信息在所述第二时间对所述第二终端的所述语音数据流进行语音识别得到所述文本数据。

[0013] 本发明实施例包括以下优点：

[0014] 本发明实施例提供的语音处理方案，可以应用于基于视联网的视频会议系统中。该视频会议系统可以包括语音识别服务器、第一终端和第二终端，其中，语音识别服务器可以分别与第一终端和第二终端通信连接。

[0015] 本发明实施例应用视联网的特性，语音识别服务器可以从第一终端和/或第二终端获取视频会议的语音数据流，以及，第一终端和/或第二终端的用户信息。进而，一方面，语音识别服务器在第一时间将获取到的语音数据流以及对应的用户信息存储在第一位置处。另一方面，语音识别服务器在第二时间对语音数据流进行语音识别得到文本数据，并响应于用户的操作，对文本数据进行修改，将修改后的文本数据以及对应的用户信息存储在第二位置处。本发明实施例既可以将视频会议中的语音数据流及对应的用户信息保存下来，又可以对语音数据流进行语音识别得到文本数据，还可以对语音识别得到的文本数据进行修改和/或整理，进而将修改和/或整理后的文本数据及对应的用户信息保存下来。本发明实施例实现了保存视频会议中文本形式的会议内容的功能，降低了保存会议内容所消耗的存储空间，还可以通过修改和/或整理后的文本数据得到直接与视频会议相关的会议内容。而且，对语音数据流进行语音识别的操作可以在存储语音数据流之后执行，避免了同时执行语音数据流的存储操作和语音识别操作，缓解了语音识别服务器的运行压力。附图说明

[0016] 图1是本发明的一种视联网的组网示意图；

[0017] 图2是本发明的一种节点服务器的硬件结构示意图；

[0018] 图3是本发明的一种接入交换机的硬件结构示意图；

[0019] 图4是本发明的一种以太网协转网关的硬件结构示意图；

[0020] 图5是本发明的一种语音处理方法实施例的步骤流程图；

[0021] 图6是本发明的一种视频会议处理系统的结构示意图；

[0022] 图7是本发明的一种基于视联网的视频会议数据处理方法的设计原理图；

[0023] 图8是本发明的一种语音处理装置实施例的结构框图。

具体实施方式

[0024] 为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

[0025] 视联网是网络发展的重要里程碑，是一个实时网络，能够实现高清视频实时传输，将众多互联网应用推向高清视频化，高清面对面。

[0026] 视联网采用实时高清视频交换技术，可以在一个网络平台上将所需的服务，如高清视频会议、视频监控、智能化监控分析、应急指挥、数字广播电视、延时电视、网络教学、现场直播、VOD点播、电视邮件、个性录制(PVR)、内网(自办)频道、智能化视频播控、信息发布等数十种视频、语音、图片、文字、通讯、数据等服务全部整合在一个系统平台，通过电视或电脑实现高清品质视频播放。

[0027] 为使本领域技术人员更好地理解本发明实施例，以下对视联网进行介绍：

[0028] 视联网所应用的部分技术如下所述：

[0029] 网络技术(Network Technology)

[0030] 视联网的网络技术创新改良了传统以太网(Ethernet)，以面对网络上潜在的巨大视频流量。不同于单纯的网络分组包交换(Packet Switching)或网络电路交换(Circuit Switching)，视联网技术采用Packet Switching满足Streaming需求。视联网技术具备分组交换的灵活、简单和低价，同时具备电路交换的品质和安全保证，实现了全网交换式虚拟电路，以及数据格式的无缝连接。

[0031] 交换技术(Switching Technology)

[0032] 视联网采用以太网的异步和包交换两个优点，在全兼容的前提下消除了以太网缺陷，具备全网端到端无缝连接，直通用户终端，直接承载IP数据包。用户数据在全网范围内不需任何格式转换。视联网是以太网的更高级形态，是一个实时交换平台，能够实现目前互联网无法实现的全网大规模高清视频实时传输，将众多网络视频应用推向高清化、统一化。

[0033] 服务器技术(Server Technology)

[0034] 视联网和统一视频平台上的服务器技术不同于传统意义上的服务器，它的流媒体传输是建立在面向连接的基础上，其数据处理能力与流量、通讯时间无关，单个网络层就能够包含信令及数据传输。对于语音和视频业务来说，视联网和统一视频平台流媒体处理的复杂度比数据处理简单许多，效率比传统服务器大大提高了百倍以上。

[0035] 储存器技术(Storage Technology)

[0036] 统一视频平台的超高速储存器技术为了适应超大容量和超大流量的媒体内容而采用了最先进的实时操作系统，将服务器指令中的节目信息映射到具体的硬盘空间，媒体内容不再经过服务器，瞬间直接送达到用户终端，用户等待一般时间小于0.2秒。最优化的扇区分布大大减少了硬盘磁头寻道的机械运动，资源消耗仅占同等级IP互联网的20％，但产生大于传统硬盘阵列3倍的并发流量，综合效率提升10倍以上。

[0037] 网络安全技术(Network Security Technology)

[0038] 视联网的结构性设计通过每次服务单独许可制、设备与用户数据完全隔离等方式从结构上彻底根除了困扰互联网的网络安全问题，一般不需要杀毒程序、防火墙，杜绝了黑客与病毒的攻击，为用户提供结构性的无忧安全网络。

[0039] 服务创新技术(Service Innovation Technology)

[0040] 统一视频平台将业务与传输融合在一起，不论是单个用户、私网用户还是一个网络的总合，都不过是一次自动连接。用户终端、机顶盒或PC直接连到统一视频平台，获得丰富多彩的各种形态的多媒体视频服务。统一视频平台采用“菜谱式”配表模式来替代传统的复杂应用编程，可以使用非常少的代码即可实现复杂的应用，实现“无限量”的新业务创新。

[0041] 视联网的组网如下所述：

[0042] 视联网是一种集中控制的网络结构，该网络可以是树型网、星型网、环状网等等类型，但在此基础上网络中需要有集中控制节点来控制整个网络。

[0043] 如图1所示，视联网分为接入网和城域网两部分。

[0044] 接入网部分的设备主要可以分为3类：节点服务器，接入交换机，终端(包括各种机顶盒、编码板、存储器等)。节点服务器与接入交换机相连，接入交换机可以与多个终端相连，并可以连接以太网。

[0045] 其中，节点服务器是接入网中起集中控制功能的节点，可控制接入交换机和终端。节点服务器可直接与接入交换机相连，也可以直接与终端相连。

[0046] 类似的，城域网部分的设备也可以分为3类：城域服务器，节点交换机，节点服务器。城域服务器与节点交换机相连，节点交换机可以与多个节点服务器相连。

[0047] 其中，节点服务器即为接入网部分的节点服务器，即节点服务器既属于接入网部分，又属于城域网部分。

[0048] 城域服务器是城域网中起集中控制功能的节点，可控制节点交换机和节点服务器。城域服务器可直接连接节点交换机，也可直接连接节点服务器。

[0049] 由此可见，整个视联网络是一种分层集中控制的网络结构，而节点服务器和城域服务器下控制的网络可以是树型、星型、环状等各种结构。

[0050] 形象地称，接入网部分可以组成统一视频平台(虚线圈中部分)，多个统一视频平台可以组成视联网；每个统一视频平台可以通过城域以及广域视联网互联互通。

[0051] 视联网设备分类

[0052] 1.1本发明实施例的视联网中的设备主要可以分为3类：服务器，交换机(包括以太网网关)，终端(包括各种机顶盒，编码板，存储器等)。视联网整体上可以分为城域网(或者国家网、全球网等)和接入网。

[0053] 1.2其中接入网部分的设备主要可以分为3类：节点服务器，接入交换机(包括以太网网关)，终端(包括各种机顶盒，编码板，存储器等)。

[0054] 各接入网设备的具体硬件结构为：

[0055] 节点服务器：

[0056] 如图2所示，主要包括网络接口模块201、交换引擎模块202、CPU模块203、磁盘阵列模块204；

[0057] 其中，网络接口模块201，CPU模块203、磁盘阵列模块204进来的包均进入交换引擎模块202；交换引擎模块202对进来的包进行查地址表205的操作，从而获得包的导向信息；并根据包的导向信息把该包存入对应的包缓存器206的队列；如果包缓存器206的队列接近满，则丢弃；交换引擎模202轮询所有包缓存器队列，如果满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零。磁盘阵列模块204主要实现对硬盘的控制，包括对硬盘的初始化、读写等操作；CPU模块203主要负责与接入交换机、终端(图中未示出)之间的协议处理，对地址表205(包括下行协议包地址表、上行协议包地址表、数据包地址表)的配置，以及，对磁盘阵列模块204的配置。

[0058] 接入交换机：

[0059] 如图3所示，主要包括网络接口模块(下行网络接口模块301、上行网络接口模块302)、交换引擎模块303和CPU模块304；

[0060] 其中，下行网络接口模块301进来的包(上行数据)进入包检测模块305；包检测模块305检测包的目地地址(DA)、源地址(SA)、数据包类型及包长度是否符合要求，如果符合，则分配相应的流标识符(stream-id)，并进入交换引擎模块303，否则丢弃；上行网络接口模块302进来的包(下行数据)进入交换引擎模块303；CPU模块204进来的数据包进入交换引擎模块303；交换引擎模块303对进来的包进行查地址表306的操作，从而获得包的导向信息；如果进入交换引擎模块303的包是下行网络接口往上行网络接口去的，则结合流标识符(stream-id)把该包存入对应的包缓存器307的队列；如果该包缓存器307的队列接近满，则丢弃；如果进入交换引擎模块303的包不是下行网络接口往上行网络接口去的，则根据包的导向信息，把该数据包存入对应的包缓存器307的队列；如果该包缓存器307的队列接近满，则丢弃。

[0061] 交换引擎模块303轮询所有包缓存器队列，在本发明实施例中分两种情形：

[0062] 如果该队列是下行网络接口往上行网络接口去的，则满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零；3)获得码率控制模块产生的令牌；

[0063] 如果该队列不是下行网络接口往上行网络接口去的，则满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零。

[0064] 码率控制模块208是由CPU模块204来配置的，在可编程的间隔内对所有下行网络接口往上行网络接口去的包缓存器队列产生令牌，用以控制上行转发的码率。

[0065] CPU模块304主要负责与节点服务器之间的协议处理，对地址表306的配置，以及，对码率控制模块308的配置。

[0066] 以太网协转网关：

[0067] 如图4所示，主要包括网络接口模块(下行网络接口模块401、上行网络接口模块402)、交换引擎模块403、CPU模块404、包检测模块405、码率控制模块408、地址表406、包缓存器407和MAC添加模块409、MAC删除模块410。

[0068] 其中，下行网络接口模块401进来的数据包进入包检测模块405；包检测模块405检测数据包的以太网MAC DA、以太网MAC SA、以太网length or frame type、视联网目地地址DA、视联网源地址SA、视联网数据包类型及包长度是否符合要求，如果符合则分配相应的流标识符(stream-id)；然后，由MAC删除模块410减去MAC DA、MAC SA、length or frame type(2byte)，并进入相应的接收缓存，否则丢弃；

[0069] 下行网络接口模块401检测该端口的发送缓存，如果有包则根据包的视联网目地地址DA获知对应的终端的以太网MAC DA，添加终端的以太网MAC DA、以太网协转网关的MAC SA、以太网length or frame type，并发送。

[0070] 以太网协转网关中其他模块的功能与接入交换机类似。

[0071] 终端：

[0072] 主要包括网络接口模块、业务处理模块和CPU模块；例如，机顶盒主要包括网络接口模块、视音频编解码引擎模块、CPU模块；编码板主要包括网络接口模块、视音频编码引擎模块、CPU模块；存储器主要包括网络接口模块、CPU模块和磁盘阵列模块。

[0073] 1.3城域网部分的设备主要可以分为2类：节点服务器，节点交换机，城域服务器。其中，节点交换机主要包括网络接口模块、交换引擎模块和CPU模块；城域服务器主要包括网络接口模块、交换引擎模块和CPU模块构成。

[0074] 2、视联网数据包定义

[0075] 2.1接入网数据包定义

[0076] 接入网的数据包主要包括以下几部分：目的地址(DA)、源地址(SA)、保留字节、payload(PDU)、CRC。

[0077] 如下表所示，接入网的数据包主要包括以下几部分：

[0078]DA SA Reserved Payload CRC

[0079] 其中：

[0080] 目的地址(DA)由8个字节(byte)组成，第一个字节表示数据包的类型(例如各种协议包、组播数据包、单播数据包等)，最多有256种可能，第二字节到第六字节为城域网地址，第七、第八字节为接入网地址；

[0081] 源地址(SA)也是由8个字节(byte)组成，定义与目的地址(DA)相同；

[0082] 保留字节由2个字节组成；

[0083] payload部分根据不同的数据报的类型有不同的长度，如果是各种协议包的话是64个字节，如果是单组播数据包话是32+1024＝1056个字节，当然并不仅仅限于以上2种；

[0084] CRC有4个字节组成，其计算方法遵循标准的以太网CRC 算法。

[0085] 2.2城域网数据包定义

[0086] 城域网的拓扑是图型，两个设备之间可能有2种、甚至2种以上的连接，即节点交换机和节点服务器、节点交换机和节点交换机、节点交换机和节点服务器之间都可能超过2种连接。但是，城域网设备的城域网地址却是唯一的，为了精确描述城域网设备之间的连接关系，在本发明实施例中引入参数：标签，来唯一描述一个城域网设备。

[0087] 本说明书中标签的定义和MPLS(Multi-Protocol Label Switch，多协议标签交换)的标签的定义类似，假设设备A和设备B之间有两个连接，那么数据包从设备A到设备B就有2个标签，数据包从设备B到设备A也有2个标签。标签分入标签、出标签，假设数据包进入设备A的标签(入标签)是0x0000，这个数据包离开设备A时的标签(出标签)可能就变成了0x0001。城域网的入网流程是集中控制下的入网过程，也就意味着城域网的地址分配、标签分配都是由城域服务器主导的，节点交换机、节点服务器都是被动的执行而已，这一点与MPLS的标签分配是不同的，MPLS的标签分配是交换机、服务器互相协商的结果。

[0088] 如下表所示，城域网的数据包主要包括以下几部分：

[0089]DA SA Reserved 标签 Payload CRC

[0090] 即目的地址(DA)、源地址(SA)、保留字节(Reserved)、标签、payload(PDU)、CRC。其中，标签的格式可以参考如下定义：标签是32bit，其中高16bit保留，只用低16bit，它的位置是在数据包的保留字节和payload之间。

[0091] 参照图5，示出了本发明的一种语音处理方法实施例的步骤流程图，该语音处理方法可以应用于基于视联网的视频会议系统中，该视频会议系统可以包括语音识别服务器、第一终端和第二终端，其中，语音识别服务器可以分别与第一终端和第二终端进行通信连接。该语音处理方法具体可以包括如下步骤：

[0092] 步骤501，语音识别服务器从第一终端和/或第二终端获取视频会议中的语音数据流，以及，第一终端和/或第二终端的用户信息。

[0093] 在本发明实施例中，第一终端可以为个人计算机、机顶盒等，机顶盒是一个连接电视机与外部信号源的设备，它可以将压缩的数字信号转成电视内容，并在电视机上显示出来。一般而言，机顶盒可以连接摄像头和麦克风，用于采集视频数据和音频数据等多媒体数据，也可以连接电视机，用于播放视频数据和音频数据等多媒体数据。第二终端可以为智能手机、平板电脑等，第二终端上可以安装有视频会议应用程序，用户可以通过在视频会议应用程序中输入用户名、密码的身份信息，登录至视频会议服务器，以便执行视频会议操作。

[0094] 由于视频会议系统中可以存在大量的第一终端和第二终端，因此，视频会议系统中还可以包括第一终端管理服务器和第二终端管理服务器。第一终端管理服务器可以分别与语音识别服务器和第一终端通信连接，第二终端管理服务器可以分别与语音识别服务器和第二终端通信连接。第一终端管理服务器中存储有用于表示第一终端的实体终端编码，并对实体终端编码进行管理。第二终端管理服务器中存储有可以在第二终端上登录的用户信息，以及与用户信息绑定的虚拟终端编码。

[0095] 在本步骤501中，语音识别服务器获取第一终端和/或第二终端的用户信息时，语音识别服务器可以从第一终端管理服务器获取第一终端的实体终端编码，和/或从第二终端管理服务器获取第二终端的虚拟终端编码。具体地，语音识别服务器从第一终端获取视频会议中的语音数据流时，可以从语音数据流中获取第一终端的会议编码或用户标识，进而根据会议编码或用户标识从第一终端管理服务器中查询得到对应的实体终端编码。也就是说，第一终端管理服务器中可以存储有会议编码与实体终端编码之间的对应关系，或用户标识与实体终端编码之间的对应关系。语音识别服务器从第二终端获取视频会议中的语音数据流时，可以从语音数据流中获取在第一终端上登录的用户标识，进而根据用户标识从第二终端管理服务器中查询得到对应的虚拟终端编码。也就是说，第二终端管理服务器中可以存储有用户标识与虚拟终端编码之间的对应关系。

[0096] 步骤502，语音识别服务器在第一时间将语音数据流以及与语音数据流对应的用户信息存储在预设的第一位置处。

[0097] 在本发明实施例中，语音识别服务器可以在第一时间将从第一终端和/或第二终端接收到的语音数据流，以及对应的用户信息存储在预设的第一位置处。例如，语音识别服务器从第一终端获取到语音数据流AD01，以及，与语音数据流AD01对应的实体终端编码B001，将语音数据流AD01和实体终端编码B001存储在与实体终端编码B001对应的存储位置。语音识别服务器从第二终端获取到语音数据流AD02，以及，与语音数据流AD02对应的虚拟终端编码B002，将语音数据流AD02和虚拟终端编码B002存储在与虚拟终端编码B002对应的存储位置。

[0098] 需要说明的是，第一时间并非指具体的某一时间点或时间段，该第一时间可以理解为语音识别服务器接收到语音数据流之后的某一时间，例如，第一时间可以为语音识别服务器接收到语音数据流后的1分钟时。第一位置可以位于语音识别服务器中，也可以位于专用的存储服务器中，本发明实施例对第一位置的路径等不作具体限制。

[0099] 步骤503，语音识别服务器在第二时间对语音数据流进行语音识别得到文本数据。

[0100] 在本发明实施例中，语音识别服务器在获取语音数据流之后的一段时间内，或者，在存储语音数据流至第一位置之后的一段时间内对语音数据流进行语音识别得到文本数据。上述第二时间可以理解为第一时间之后的1分钟，例如，第一时间对应的具体时间点为13：00，第二时间对应的具体时间点可以为13：01。

[0101] 在本发明的一种优选实施例中，视频会议系统还可以包括与语音识别服务器通信连接的语音识别数据库。语音识别数据库中可以包含用于语音识别的引擎以及语音词典等。语音识别服务器在对语音数据流进行语音识别时，可以调用预设的语音识别接口，从语音识别数据库中提取出语音识别信息，根据语音识别信息在第二时间对语音数据流进行语音识别得到文本数据。

[0102] 在本发明的一种优选实施例中，语音识别服务器可以包括第一终端语音识别服务器和第二终端语音识别服务器。其中，第一终端语音识别服务器可以调用语音识别接口，从语音识别数据库中提取语音识别信息，根据语音识别信息在第二时间对第一终端的语音数据流进行语音识别得到文本数据。第二终端语音识别服务器可以调用语音识别接口，从语音识别数据库中提取语音识别信息，根据语音识别信息在第二时间对来自第二终端的语音数据流进行语音识别得到文本数据。

[0103] 步骤504，语音识别数据库响应于用户的操作，对文本数据进行修改和/或整理，并将修改和/或整理后的文本数据以及与文本数据对应的用户信息存储在预设的第二位置处。

[0104] 在本发明实施例中，语音识别服务器对语音数据流进行语音识别得到文本数据之后，文本数据可能存在语法错误、错别字词等错误。用户可以针对出现错误的文本数据，执行修改操作，语音识别服务器可以响应于用户的修改操作，对文本数据进行修改，并将修改后的文本数据以及与文本数据对应的用户信息存储在第二位置。

[0105] 在本发明实施例中，语音识别服务器对语音数据流进行语音识别得到文本数据之后，可以将文本数据整理为会议纪要文件。具体地，语音识别服务器可以响应于用户的整理操作，按照会议纪要模板将文本数据整理为会议纪要文件，将会议纪要文件以及与文本数据对应的用户信息存储在第二位置。

[0106] 需要说明的是，第二位置可以位于语音识别服务器中，也可以位于专用的存储服务器中，本发明实施例对第二位置的路径等不作具体限制。

[0107] 基于上述关于一种语音处理方法实施例的相关说明，下面介绍一种基于视联网的视频会议数据处理方法，该视频会议数据处理方法应用于视频会议处理系统，如图6所示，该视频会议处理系统可以包括语音识别库、移动终端web端、终端服务器、流媒体web端、视频会议调度系统、终端和掌上通。其中，移动终端web端可以与语音识别库、流媒体web端和掌上通通信连接，终端服务器可以与语音识别库、流媒体web端和终端通信连接，视频会议调度系统分别与终端、掌上通和流媒体web端通信连接，而且，流媒体web端可以通过互联网与掌上通通信连接。需要说明的是，除了流媒体web端与掌上通通过互联网通信连接之外，其他通信连接均基于视联网。

[0108] 如图7所示，上述语音识别库可以为使用语音识别库的软件开发工具包(Software Development Kit，SDK)建立的Java和安卓语音识别库，语音识别库可以提供语音识别接口供移动终端web端、终端服务器和掌上通调用，而且，该语音识别接口中配置有语音文本存储机制，该语音文本存储机制的主要内容为将视频会议中的语音以及根据语音识别得到的文本存储至对应的位置，存储后的语音和文本可以导出，以便后续对导出的语音和文本进行修改和参考。

[0109] 上述视频会议调度系统将参加视频会议的终端和掌上通添加到视频会议中，入会的终端和掌上通作为视频会议的参会方，均可以采集并传输发言人的语音数据。

[0110] 上述终端服务器可以为每个入会的终端分配一个唯一的实体终端编码。上述移动终端web端可以为每个掌上通上的用户进行注册，流媒体web端通过移动终端web端获取掌上通上的注册用户，并为每个注册用户分配一个唯一的虚拟终端编码。

[0111] 在视频会议中，移动终端web端、终端服务器和掌上通均可以调用语音识别接口对各自采集到的语音数据进行语音识别，得到文本数据。而且，移动终端web端、终端服务器和掌上通在对语音数据进行语音识别时，还可以对语音数据进行存储。在实际应用中，移动终端web端、终端服务器和掌上通可以在存储语音数据一分钟之后开始对语音数据进行语音识别，并且，还可以对语音识别得到的文本数据进行修改和整理等操作。对于掌上通而言，可以设置有是否对语音数据进行语音识别的开关，当开关状态为开时，对采集到的语音数据进行语音识别；当开关状态为关时，不对采集到的语音数据进行语音识别。通过在掌上通上设置开关，可以选择是否对语音数据进行语音识别，可以降低掌上通的资源占用。

[0112] 本发明实施例提供的语音处理方案，可以应用于基于视联网的视频会议系统中。该视频会议系统可以包括语音识别服务器、第一终端和第二终端，其中，语音识别服务器可以分别与第一终端和第二终端通信连接。

[0113] 本发明实施例应用视联网的特性，语音识别服务器可以从第一终端和/或第二终端获取视频会议的语音数据流，以及，第一终端和/或第二终端的用户信息。进而，一方面，语音识别服务器在第一时间将获取到的语音数据流以及对应的用户信息存储在第一位置处。另一方面，语音识别服务器在第二时间对语音数据流进行语音识别得到文本数据，并响应于用户的操作，对文本数据进行修改，将修改后的文本数据以及对应的用户信息存储在第二位置处。本发明实施例既可以将视频会议中的语音数据流及对应的用户信息保存下来，又可以对语音数据流进行语音识别得到文本数据，还可以对语音识别得到的文本数据进行修改和/或整理，进而将修改和/或整理后的文本数据及对应的用户信息保存下来。本发明实施例实现了保存视频会议中文本形式的会议内容的功能，降低了保存会议内容所消耗的存储空间，还可以通过修改和/或整理后的文本数据得到直接与视频会议相关的会议内容。而且，对语音数据流进行语音识别的操作可以在存储语音数据流之后执行，避免了同时执行语音数据流的存储操作和语音识别操作，缓解了语音识别服务器的运行压力。

[0114] 需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

[0115] 参照图8，示出了本发明的一种语音处理装置实施例的结构框图，该装置可以应用于基于视联网的视频会议系统中的语音识别服务器，所述视频会议系统包括：所述语音识别服务器、第一终端和第二终端，其中，所述语音识别服务器分别与所述第一终端和所述第二终端通信连接，该装置具体可以包括如下模块：

[0116] 获取模块801，用于从所述第一终端和/或所述第二终端获取视频会议中的语音数据流，以及，所述第一终端和/或所述第二终端的用户信息；

[0117] 存储模块802，用于在第一时间将所述语音数据流以及与所述语音数据流对应的所述用户信息存储在预设的第一位置处；

[0118] 识别模块803，用于在第二时间对所述语音数据流进行语音识别得到文本数据，所述第一时间早于所述第二时间；

[0119] 编辑模块804，用于响应于用户的操作，对所述文本数据进行修改和/或整理，并将修改和/或整理后的文本数据以及与所述文本数据对应的所述用户信息存储在预设的第二位置处。

[0120] 在本发明的一种优选实施例中，所述视频会议系统还包括：第一终端管理服务器和第二终端管理服务器，所述第一终端管理服务器分别与所述语音识别服务器和所述第一终端通信连接，所述第二终端管理服务器分别与所述语音识别服务器和所述第二终端通信连接；所述获取模块801，用于从所述第一终端管理服务器获取所述第一终端的实体终端编码，和/或，从所述第二终端管理服务器中获取所述第二终端的虚拟终端编码；其中，所述第一终端管理服务器中存储有所述实体终端编码，并对所述实体终端编码进行管理，所述第二终端管理服务器中存储有所述第二终端上的登录用户信息，以及，与所述登录用户信息绑定的所述虚拟终端编码。

[0121] 在本发明的一种优选实施例中，所述视频会议系统还包括：与所述语音识别服务器通信连接的语音识别数据库；所述识别模块803，用于调用预设的语音识别接口，从所述语音识别数据库中提取语音识别信息，根据所述语音识别信息在所述第二时间对所述语音数据流进行语音识别得到所述文本数据；所述语音识别服务器包括：第一终端语音识别服务器和第二终端语音识别服务器；所述第一终端语音识别服务器，用于调用所述语音识别接口，从所述语音识别数据库中提取所述语音识别信息，根据所述语音识别信息在所述第二时间对来自所述第一终端的所述语音数据流进行语音识别得到所述文本数据；所述第二终端语音识别服务器，用于调用所述语音识别接口，从所述语音识别数据库中提取所述语音识别信息，根据所述语音识别信息在所述第二时间对来自所述第二终端的所述语音数据流进行语音识别得到所述文本数据；所述第二终端，用于调用所述语音识别接口，从所述语音识别数据库中提取所述语音识别信息，根据所述语音识别信息在所述第二时间对所述第二终端的所述语音数据流进行语音识别得到所述文本数据。

[0122] 对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

[0123] 本发明实施例还提供了一种装置，包括：

[0124] 一个或多个处理器；和

[0125] 其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行如本发明实施例所述的一个或多个的语音处理方法。

[0126] 本发明实施例还提供了一种计算机可读存储介质，其存储的计算机程序使得处理器执行如本发明实施例所述的语音处理方法。

[0127] 本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

[0128] 本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

[0129] 本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0130] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0131] 这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0132] 尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

[0133] 最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

[0134] 以上对本发明所提供的一种语音处理方法、装置以及一种装置和一种计算机可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

标题	发布/更新时间	阅读量
基于大数据实时网络流量异常检测方法	2020-05-08	966
一种医院-社区-家庭三位一体的慢性病健康管理系统	2020-05-08	737
一种3D测量人类表型的数据库系统	2020-05-08	186
用于立体车库的车辆数据处理方法、系统和存储介质	2020-05-08	442
一种基于大数据的空调智能推荐方法、模块和系统	2020-05-11	509
多媒体视频流总结系统及流程	2020-05-08	93
一种高效中断可恢复图像隐藏加密传输方法、装置和系统	2020-05-08	434
物联网的传感器信息添加方法、装置、设备及存储介质	2020-05-08	273
信息处理方法、终端、服务器及存储介质	2020-05-11	626
一种基于深度学习的中医舌象数据快速标注方法和系统	2020-05-11	1059

一种语音处理方法、装置及存储介质

一种语音处理方法、装置及存储介质

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：